赞
踩
围绕我们的世界有很多模态,我们看事物,听声音,感受肌理,闻气味等。一般来说,模态就是事物发生方式。大部分人都将之于感官模态进行关联,这些感官模态就是我们进行交流和感觉的主要方式。因此,如果研究或者数据集涉及到多个模态,就会被分为多模态研究。本文仅仅会关注三种模态,用来说或者是写的自然语言,在图片或者视频中表示视觉信号,用来对声音进行编码的音频。
为了使人工智能能够更好的理解我们的世界,我们需要将多模态信息进行理解和推理。多模态机器学习的目标就是建造一个能够处理和连接多种模态中的信息的模型。从早期的音视频识别,到最近语言模型和视觉模型的蓬勃发展,多模态机器学习已经变为一个丰富的多学科领域,并且变得越来越重要,具有非凡的潜力。
因为多模态的数据具有异构性,所以多模态机器学习对于计算研究人员有很多考验。从多模态数据源中进行学习,使得我们有可能学到模态与模态之间的关联性,对于自然现象理解更加深刻。本文将会列举并探索围绕机器学习的五个核心技术挑战,他们是多模态的核心,也是推进多模态技术进一步发展的核心。我们的分类如下
为了能够更好地帮助读者对于多模态机器学习研究领域中最近的工作有一个结构性的认知,我们将上述五个挑战进行分类,并在各自的类别中进行子分类。本文首先在第二部分介绍多模态机器学习的主要应用,然后讨论五个核心挑战最近的研究进展。
AVSR 音视频语音识别
multimedia content indexing and retrieval多媒体内容索引和检索
understanding human multimodal behaviour 理解人类多模态行为
** media description 多媒体描述**
总结
从数学上看,连接joint表示可以描述为下述公式,其中Xm是多模态表示,使用函数f(可是深度神经网络,严格限制的玻尔兹曼机,递归神经网络)进行计算的,依赖于输入的单模态信息X1,X2,X3。。。。
协调coordinated可以表示为下述公式,每一个模态都有一个对应的映射函数,比如说g和f,将之匹配到多模态空间中。虽然对于每一个模态而言,投影到多模态空间是独立的,但是最终的空间是对彼此协调的,这个协调包括最小化余弦距离,最大化相关性,在结果空间中施加偏序。
Neural networks神经网络 神经网络在单模态数据表示生成中已经很普遍了,过去主要用于表示视觉信息,音频信息和文本数据,现在也越来越多应用于多模态领域。这部分,我们主要讲解神经网络是如何构建连接多模态表示、如何进行训练以及他的长处是什么。
通俗的讲,神经网络是由连续的内积构建块和非线性激活函数构成。如果你想使用神经网络去表示数据,首先需要被训练,用来执行特定的任务(识别图像中的目标等)。因为神经网络的多层性质,每一个连续的层都假定以一种抽象的方式来表示数据,因此一般是使用最后一层或者倒数第二层作为数据表示的形式。为了使用神经网络创建一个多模态表示,每一个模态首先会单独跟一个神经层,然后共同接入一个隐藏层,将所有的模态映射到一个空间中。联合多模态就是通过隐藏层获得,或者直接用来预测。 这样的模型可以用来进行端到端的训练,学习表示数据和指定特定的任务。当你使用神经网络进行训练时,将会造成多模态表示学习和多模态融合具有很近的关系。(补充:多模态融合可以理解成是执行特定的任务,多模态表示可以理解成前面一个中间过程,中间就是查了一小步,倒数第二成和最后一层的区别。)
因为神经网络需要很多带标记的训练数据,所以一般来说会使用自动编码器在无监督的数据上,预训练这样的表示。(说实话,这部分没看懂,自动编码器???)Mgiam等人提出的模型,是将自动编码器扩展到了多模态领域。他们使用堆叠式的降噪自动编码器去单独表示每一种模态,然后使用另外一个自动编码层将之融合到一个多模态表示空间中。就手边的特定任务,去微调最终表示,这种操作很常见,因为自动编码器是通用的,对于特定的任务而言,并不一定是最优的。
基于连接表示的神经网络的主要优势是来自于他们本身优越的性能,和使用无人监督的方式去与训练表示的能力。但是性能增益是来自于数据的数量。这种方法的缺点也是来自于模型本身,不能处理自然缺失的数据,虽然有方法缓解这个问题。虽然深度学习模型很难训练,但是这个领域已经更好的训练技术上取得了进展。
多模态领域的自动编码器:J. Ngiam, A. Khosla, M. Kim, J. Nam, H. Lee, and A. Y. Ng, “Multimodal Deep Learning,” ICML, 2011.
这部分主要是讲连接表示的三种实现方式,分别是神经网络、图模型和递归神经网络。对于神经网络主要是讲神经网络是如何构建连接多模态表示、如何进行训练以及他的长处是什么。
神经网络在多模态领域中的应用,对应的三篇论文
自动编码器对无监督数据,预训练对应的模型结构:G. Hinton and R. S. Zemel, “Autoencoders, minimum description length and Helmoltz free energy,” in NIPS, 1993.
Probabilistic graphic models : 概率图形模型是通过使用潜在随机变量创建表示。在这部分我们将会描述概率图形模型如何用来表示单模态和多模态数据
基于表示的图形模型的最常见的方法深度玻尔兹曼机(DBM deep Boltzmann machines),这个深度玻尔兹曼机是将严格限制的玻尔兹曼机作为构建模块进行堆叠的。与神经网络相同,一个DBM的连续层的输出是使用以一种更加抽象的层次表示数据。DBMs的优点是建立在他们并不需要监督数据去训练。因为他们是图形模型,数据的表示是概率型的,但是也有可能将之转变为确定的神经网络,但是这将是去这个模型生成性的优点。
Srivastava和Salakhutdinov的研究工作中引入了多模态深度信任网络作为多模态表示。Kim等人对单模态使用深度信任网络进行处理,然后在将之合并成联合表示,用来处理音视频情感识别问题。Huang和Kingsbury等人使用相似的模型去解决AVSR问题,WU等人使用这些模型去解决基于音频和骨架关节的手势识别。
Srivastava和Salakhutdinov已经把多模态深度信任网络扩展到多模态DBMs,多模态DBMs能够通过在两个或则多个无向图上使用隐藏单元的二进制层进行合并,从多个模态中学习联合表示。因为模型无向图的本质,在经过联合训练之后,每一个模态的低层次表达能够相互影响。
Ouyang等人尝试探索使用多模态DBMs从多视角数据出发,完成人类姿态估计的任务。他们认为数据整合应该在比较靠后的阶段,应该在单模态数据进行非线性变换之后,这对于模型有好处。相似的,Suk等人使用多模态DBM表示去实现从正电子图像和核磁共振图像中,对奥茨海默综合征的分类
使用多模态DBMs去学习多模态表示的最大好处之一就是,他们的生成性,这使得他们能够很容易处理丢失的数据,即使数据中某一个模态完全缺失,模型都有自然的方法去复制生成。在一种模态下生成另外一种模态的样例,或者从表示中生成两种模态。与自动编码器相似,可以使用一种无监督的方式训练表示,从而可以使用无监督的数据。DBMs的主要缺点是难训练,计算成本高,需要使用近似变分的方法训练方法。
另外一种表示是协调表示(Coordinated representation),不同于连接表示将所有的模态共同投影到连接空间,**协调表示是单独学习每一个模态的表示,但是通过约束对这些表示进行协调。**首先我们讨论在表示之间强化相似性的协调表示,然后再讨论强化目标空间的结构的协调表示。具体详见表格2.
Similarity models 相似性模型,是最小化相似空间中模态之间的距离。比如说,这个模型会让表示狗的单词和一张狗的图片之间的距离小于,狗这个单词和其他图片的之间的距离。协调表示的最早尝试是由Weston等人在使用图片embedding实现网络大规模注释的工作中完成的,其中协调空间是为图片和其注释构建的。WSABIE在图片和文本特征之间构建了一个简单的线性映射,使得相关的注释和图片表示拥有更高的内积,也就是更低的余弦距离,比起那些不相关的图片和注释。
最近,因为神经网络有能力学习表示,用其构建协调表示也越来越普遍了。这种方法的长处在于它可以使用一种端到端的方式共同学习协调表示。这种协调表示的样例就是DeViSE,深度视觉语义嵌入。DeViSE和WSABIIE一样,使用相同的内积和和排序损失函数,但是DeViSE使用更加复杂的图片和单词嵌入。这个模型分别被不同的人改良,应用在图像和句子协调,视频和句子的协调,跨模态检索和视频描述任务等。(这部分就是单纯地举例子,并没有具体翻译)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。