[CQTNet]-音频翻唱检索论文笔记

作者：繁依Fanyi0 | 2024-03-27 14:57:02

踩

cqtnet

论文名称：Learning a Representation for Cover Song Identification Using Convolutional Neural Network（ICASSP2020）

研究Music Information Retrieval (MIR)方向中的Cover song identification任务，减少人工特征和对齐算法的使用，本文提出CNN网络来检索相同的音乐。

预处理：Librosa抽取音频的CQT特征，采样率默认22050Hz，音频八度的bin个数为12，音频特征下采样倍率20，最终得到84*T维特征，T由音频的时长决定。
模型处理：模型比较简单，就是几层conv和pool的堆叠，有几点注意的地方。
- 前几层conv的height维度kenel为12、13，主要是因为CQT特征音频八度的bin个数为12，使得前三个conv层的感受野为3个八度。
- 采用膨胀卷积，不过是在时序维度上，因为翻唱歌曲的识别侧重于音乐的长期旋律。
- 频域维度上的步长始终为1，音频的关键变化可能发生在一或两个半音。
- 输出层采用adaptive global pool，将不同的音频压缩成固定长度特征。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/324939