当前位置:   article > 正文

语音识别:经典模型【LAS、CTC,RNA,RNN-T、Neural Transducer,MoChA】_语音识别 rnn-t

语音识别 rnn-t

语音模型:即将 sound 转为 text。

Text: a sequence of Token 长度:N,总种类数量:V

Sound: vectors sequence 长度:T,维度:d

在这里插入图片描述

RNN Transducer(RNN-T)

RNA 再改动改动就能成为 RNN-T。

  • 考虑一个问题,我们是否能将一个 vector map 识别为一串 token ?比如说听到了 “/θ/、/ð/”,识别为 th
  • RNN-T 就可以这样,RNA是只输入一个 vector,输出一个 token,而 RNN-T 却可以在同一个 vector 上一直输出 token,直到model觉得满意为止(可以以 ∅ 为号来作为结束标志)
    在这里插入图片描述
    比如下面这个例子:

在这里插入图片描述

  • 这里,每一个 ∅ 都代表一
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/运维做开发/article/detail/920045
推荐阅读
相关标签
  

闽ICP备14008679号