赞
踩
论文来源:Submitted to INTERSPEECH 2022
论文机构:Innoetics, Samsung Electronics, Greece
论文作者:Konstantinos Klapsas等
论文链接:https://arxiv.org/abs/2204.03421v1
本文首次提出将自监督特征应用至声纹克隆任务中。
能够在没有标记的数据集上训练任意数量的说话人,并且使用训练集的少部分即可达到基线的性能。
这篇论文没有什么特别的,就是利用BYOL-A预训练方法,一堆数据增强算法增强模型的鲁棒性。
基础架构:Non-attentive Tacotron TTS
vocoder:LPCNet
预训练方法:BYOL-A
BYOL-A包括目标网络和在线网络,两个网络同时训练。这两个网络具有同样的结构,但是使用不同的权重。
设在线网络
为
θ
\theta
θ,目标网络
为
ξ
\xi
ξ,这两个网络都包括一个编码器
f
f
f,一个投影
g
g
g,因此可以得到
f
θ
f_{\theta}
fθ、
g
θ
g_{\theta}
gθ 和
f
ξ
f_{\xi}
fξ、
g
ξ
g_{\xi}
gξ。除此之外,在线网络有一个额外的预测模块
q
ξ
q_{\xi}
qξ。
训练过程——
只有在线网络更新来最小化损失,将目标网络的参数更新为在线网络的指数移动平均:
ξ
<
—
τ
ξ
+
(
1
−
τ
)
θ
\xi<—\tau\xi+(1-\tau)\theta
ξ<—τξ+(1−τ)θ
在本文的实验中,
τ
=
0.99
\tau=0.99
τ=0.99,是目标衰减率。
对于音频数据,输入至网络的是一秒的对数梅尔。
对样本进行增强前和增强后的归一化处理。预归一化是使用整个数据集的统计信息完成的,而后归一化是使用当前批处理的统计信息完成的。
mixup的主要作用就是区分前景和背景。
随机选择的当前输入和过去输入以小比例混合。过去的输入作为背景音,它帮助网络只学习前景声学事件的表征。
声学特征是对数尺度的,在mixup中,先被转换为线性尺度,再被转换为对数尺度。
x
ˉ
i
=
l
o
g
(
1
−
λ
)
e
x
p
(
x
i
)
+
λ
e
x
p
(
x
k
)
\bar x_{i}=log(1-\lambda)exp(x_{i})+\lambda exp(x_{k})
xˉi=log(1−λ)exp(xi)+λexp(xk)
x
k
x_{k}
xk是从存储库中随机选择的一个样本,
λ
\lambda
λ为(0,0.4)的随机采样。
一般应用于图像中,现应用于音频的梅尔谱图。它可以被认为是音高变换和时间延伸的近似。
先对对数梅尔谱随机抽样,给定一些频率F和时间T,crop的大小随机抽样为:
F
C
=
[
m
i
n
(
U
(
h
1
,
h
2
)
,
1.0
)
×
F
]
F_{C}=[min(U(h_{1},h_{2}),1.0)\times F]
FC=[min(U(h1,h2),1.0)×F]
T
C
=
[
U
(
w
1
,
w
2
)
×
T
]
T_{C}=[U(w_{1},w_{2})\times T]
TC=[U(w1,w2)×T]
h
1
,
h
2
h_{1},h_{2}
h1,h2和
w
1
,
w
2
w_{1},w_{2}
w1,w2的数值都为0.6和1.5,意味着新的crop区域可能在原始谱图的边界之外,可由0来填充。
将训练数据和从正态分布采样的噪声进行插值。
当对波形应用直接的基音变换和持续时间缩放时,可以获得更好的性能和鲁棒性。为了让韵律变化不影响说话人的身份,用Praat Tolkit实现此增强,直接在波形中进行,在BYOL-A之前进行扩充。
使用了Chime-4 challenge的噪声进行了噪声增强。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。