当前位置:   article > 正文

语音合成模型小抄(1)_常用的tts语音模型csdn

常用的tts语音模型csdn

前言

语音也是一个日渐热门的行业啊。给定一段文本, 我们想让它被阅读出来.就需要使用到语音合成技术,也就是Text-to-Speech, 简称TTS。这里记录一下我看到的一些有意思的模型。

one-stage语音合成一般称为端到端 end-to-end
Two-stage语音合成步骤的, 通常stage1:
文本 -(FFT)-> 语谱图 -(滤波)-> 梅尔谱/线性谱
stage 2: 将梅尔谱/线性谱 生成 波形(音频)


论文

VITS

Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech
ICML 2021
论文: https://arxiv.org/abs/2106.06103
代码: https://github.com/jaywalnut310/vits

condition VAE + flow + GAN
flow可以看看v-flow和flow++这两篇文章。

知乎上看到两个论文笔记:
详细点的 细读经典:VITS,用于语音合成带有对抗学习的条件变分自编码器
简短的【论文笔记】VITS_OlaWod

其中 monotonic alignment search 算法在 Glow-TTS 一文中有介绍。Glow-TTS是一个flow模型,官方代码: https://github.com/jaywalnut310/glow-tts

论文讲解: 基于cVAE+Flow+GAN的效果最好语音合成VITS模型论文精讲_bilibili
代码讲解: 基于cVAE+Flow+GAN的效果最好语音合成VITS模型代码逐行讲解_bilibili

关于Flow的一些介绍可以看这个: 神经网络(十五)标准化流(normalizing flow) 与INN

以及一些常见的flow模型代码实现https://github.com/janosh/awesome-normalizing-flows

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/366082
推荐阅读
相关标签
  

闽ICP备14008679号