赞
踩
主要分为2个大模块:1:语音特征提取模块 2:语音特征向量融合模块
输入:音频
输出:音频特征向量
过程:
1)跟具体采样率有关,如果一段1S的音频,采样率是16K,则这段1S的音频可以用1*16000的矩阵表示。
2)此模块的结构:
文章使用了7层的CNN,步长为(5,2,2,2,2,2,2),卷积核宽度为(10,3,3,3,3,2,2),假设输入语音的长度为(1,x):
cnn0 (x-10)/5+1=x/5-1
cnn1 ((x/5-1)-3)/2+1=x/10-1
cnn2 x/20-1
cnn3 x/40-1
cnn4 x/80-1
cnn5 x/160
cnn6 x/320
论文中的channels大小设置的为512,如果采样率是16K,对应的输出为:(512,16000/320)=(512,50),可以得到50个512维的向量,相当于每20ms产生一个512维的特征向量。
2.1)向量量化(Vector Quantization,VQ),将将由第一步得到的连续的语音特征Z转为离散特征Q;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。