赞
踩
语音模型:即将 sound 转为 text。
Text: a sequence of Token 长度:N,总种类数量:V
Sound: vectors sequence 长度:T,维度:d
RNA 再改动改动就能成为 RNN-T。