赞
踩
原著:
《基于交互注意力机制的多模态情感识别算法》
2021 Application Research of Computers
多模态机制下的情感识别,在多模态下,需要提取大量的特征。但特征数量多,造成一是训练参数增大。二是产生噪声,关键信息被遗漏。在模型融合时,要关注主要特征,因此需引入注意力机制。
文章研究文本+语音的多模态。提出的多交互注意力机制网络:GATASA(Global Acoustic-to-text and Acoustic-to-Self Acoustic to Text) 。两(互补)部分组成:1、GATA :强调所有的信息。2、ASATA:强调局部信息。这两部分由两种不同的注意力机制在文本和音频特征之间交互计算注意力分数。
深度学习中的文本数据处理:去掉不需要的停止词(stop word) -> 对单词做词嵌入(embedding)。词嵌入通常基于现有的词向量(word vector)、基于预训练的Glove 、BERT 。对于多个数据源的特征,可加入注意力机制。
处理思路:通过对特征向量计算权重分数并加权求和。通过不同的权重分数体现特征的重要性。
组成:
注意力机制分数:过点积或可学习参数投影等方法计算出来的Key 和 Query 的相互关系。
Value:注意力机制分数对 Key 加权求和。
数据处理:
文本数据
特征提取:循环神经网络
音频数据
特征选择:频谱图:可以同时得到时域和频域信息。
特征提取:卷积-循环神经网络,先卷积提取各区域的特征再将其作为LSTM的输入。
实现过程:
训练图:
技术栈:
LSTM(解决梯度消失问题):提取文本、经卷积处理后的音频特征。
CNN:提取音频特征
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。