赞
踩
输入输出:
输入为头部的模板Flame人脸模型和语音信号,输出为有运动的信号。
语音到3d运动存在的问题:
数据集:
VOCA dataset: 12个subjects(应该是不同的人) 480个句子, 每个句子3到4秒, 句子从标准协议中选择
将一个通用的人脸模板与所有扫描对齐
The 4D scans are captured at 60fps and we align a common face template mesh to all the scans, bringing them into correspondence.
贡献点:
输入音频特征与subject-specific template T, 这里的subject是8个人的one-hot向量, 被加在了音频特征的最后一个维度, 将音频特征通过4层卷积, 结果再加上one-hot向量, 通过线性层得到 5023*3的位移。
语音信号输入DeepSpeech中,进行特征提取,一帧为0.02s, 也就是50HZ, 对于Ts的音频片段, 含有50T帧, 然后通过线性插值得到60T帧。 这里有个overlap, In order to incorporate temporal information, we convert the audio frames to overlapping windows of size W × D, where W is the window size. The output is a threedimensional array of dimensions 60T ×W × D. (这里还没有很懂, 暂且认为就是有个60T ×W × D的语音特征)
D是Deepspeech输出字符集的概率, 共有26个英文加空格, 加‘, 加CTC算法里面的空字符, 共29,也有人用27的
由于使用DeepSpeech提取的特征没有任何空间相关性,因此将输入窗口重塑为W×1×(D+8)维度,并在时间维度上执行1D卷积。
具体结构可看下面的结构图
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。