赞
踩
随着互联网的发展,虚拟歌手、音乐节目及MV正在崛起,并成为主流。在这样的趋势下,如何用计算机来制作具有独创性的音乐剧、音乐会现场等音乐活动,已经成为了一个新的领域,称为“智能音乐生成”。 目前有很多开源的音乐生成系统,如VAE-LSTM,CharRNN,GANSynth等,这些模型可以根据用户的个性化需求来生成符合音律的新颖的音乐风格,但这些模型仍处于研究阶段,仅限于欣赏和娱乐。而对于企业级产品的音频效果要求高、有较强的市场竞争力的应用场景来说,需要更加成熟、高效的音乐生成模型。 本文将讨论基于循环神经网络(RNN)的音乐生成模型——MelGAN。MelGAN是一种基于循环神经网络(RNN)的音乐生成模型,用于生成音乐波形,可用于语音合成、音频转换、说话人识别、语言翻译、音频时空转换等领域。它不同于传统的模型,因为它利用多通道的频谱数据来生成音乐波形。因此,MelGAN能够生成具有更丰富音质的音乐,并且生成速度快、效果好。
首先要明确一下什么是Mel频率倒谱系数(Mel-frequency cepstrum coefficients)。Mel-frequency cepstral coefficients (MFCCs) 是对声音的特征向量表示,是用滤波器响应函数对声音进行分析得到的数字信号处理中的常用的特征提取方法之一。其特点是在时域上使用能量倒谱密度(cepstrum density),即将声谱的能量分布转换为特征的幅度值,从而得到声音的特征向量表示。所谓能量倒谱密度就是通过对声谱图进行时间频率变换,把声谱的信息分解到不同的频率分量上,然后通过求各个频率
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。