赞
踩
Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech(ICML 2021)
KAKAO公司与KAIST韩国科学院,近年在TTS领域佳作频出,目前最主流的HiFiGAN声码器也是其成果。
目录
1. 变分推断(Variational Inference)
提出一种TTS模型框架VITS,用到normalizing flow和对抗训练方法,提高合成语音自然度,其中论文结果上显示已经和GT相当。结合VAE和FLOW的前沿架构。
代码: https://github.com/jaywalnut310/vits
Demo地址: https://jaywalnut310.github.io/vits
论文地址:https://arxiv.org/abs/2106.0610
首个自然度超过2-stage架构SOTA的完全E2E模型。MOS4.43, 仅低于GT录音0.03。声称目前公开系统最好效果。
合成速度足够快
接近GT,但是单独做CMOS还是比GT要低的。
1. VAE系列文章,看到你自己觉得懂了:变分自编码器(一):原来是这么一回事 - 科学空间|Scientific Spaces
2. Flow/Glow:
细水长flow之NICE:流模型的基本概念与实现 - 科学空间|Scientific Spaces
细水长flow之RealNVP与Glow:流模型的传承与升华 - 科学空间|Scientific Spaces
3. 上述两者的结合,也就是本篇论文主要部分:
细水长flow之f-VAEs:Glow与VAEs的联姻 - 科学空间|Scientific Spaces
了解一个模型就从它的Loss入手:
三部分Loss对应三个主要模块:
优化目标:最大化条件下界(ELBO)
符号解释:
z 为线性谱经过后验编码器后得到的隐变量
y_hat 为 z 经过decoder后得到预测音频序列
x 为真实音频的Mel谱
c 为文本, d为音素时长duration,A为对齐矩阵
p(x|c) 和 p(x|z) 分别为目标 x 对 c 和 z 的最大似然
重构Loss:
整篇文章总体还是很优美,通过合理的应用vae-flow架构,得到了不错的效果。后续微软谭旭的natrual TTS工作也是很大程度借鉴了这篇文章,给出了更多的解释。
目前生成模型包括新的Diffusion模型在常规数据集上都能做到不错的效果,更高难度的高表现力数据的还原将成为未来热点方向。但大概率突破仍然会产生在类似的生成模型架构上。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。