当前位置:   article > 正文

李宏毅-人类语言处理(三):语音识别-LAS_语音识别las是什么

语音识别las是什么

李老师讲的第一个语音模型为LAS。其中L为Listen代表模型的Encoder模块,S为Spell代表模型的Decoder,Attend代表Attention,指模型使用了注意力机制。

Listen

Listen模块即模型的encoder模块,这个模块以一个由向量组成的序列特征(如MFCC)作为输入,输出一串相同长度的向量序列。
这一模块的目标:
1.把不同的speaker的说相同的词语句子的差异和语音数据中的噪声等移除。
2.提取语音中与具体内容相关的信息。
此模块可以使用CNN或RNN。
关于Self-Attention的教学链接:https://www.youtube.com/watch?v=ugWDIIOHtPA
通常要先对输入序列做down-sampling,因为输入序列中一秒就有非常多个向量,相邻的向量信息重合度高。训练效率低。
主要做法为Listen模块在多层RNN或CNN后通过相关技术得到比输入序列短的特征向量组成的序列。CNN: Time-delay DNN
Self-Attention: truncated self-attention。

Attend

此模块将encoder的输出向量与关键字向量 z 0 z_0

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号