运维做开发

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

语音识别：经典模型【LAS、CTC，RNA，RNN-T、Neural Transducer，MoChA】_语音识别 rnn-t

作者：运维做开发 | 2024-08-02 21:38:45

赞

踩

语音识别 rnn-t

语音模型：即将 sound 转为 text。

Text： a sequence of Token 长度：N，总种类数量：V

Sound： vectors sequence 长度：T，维度：d

在这里插入图片描述

RNN Transducer（RNN-T）

RNA 再改动改动就能成为 RNN-T。

考虑一个问题，我们是否能将一个 vector map 识别为一串 token ？比如说听到了 “/θ/、/ð/”，识别为 th
RNN-T 就可以这样，RNA是只输入一个 vector，输出一个 token，而 RNN-T 却可以在同一个 vector 上一直输出 token，直到model觉得满意为止（可以以 ∅ 为号来作为结束标志）

比如下面这个例子：

在这里插入图片描述

这里，每一个 ∅ 都代表一

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/运维做开发/article/detail/920045

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号