赞
踩
名称 | 含义 |
---|---|
sr(sample_rate) | 采样率,表示一秒采样多少个样本点 |
hop_length | 步幅;帧移对应卷积中的stride;连续帧分割长度 |
overlapping | 连续两帧的重叠部分 |
n_fft | 窗口大小;n_fft = hop_length+overlapping |
spectrum | 光谱,频谱 |
spectrogram: | 光谱图;声谱图 |
Chromagram | 色谱图 |
amplitude | 振幅 |
logarithmic amplitude-frequency | 对数振幅频谱图 |
mono | 单声道 |
pitch | 音高 |
timbral | 音色 |
通过使用窗口函数将长短不一的音频分割成大小相同的音频片段。(默认采样率22050Hz)。
音频分帧一般有两种不同的方式:采样点和时间
方式一:(帧描述方式)使用2048((20481000ms)/22050=93ms)个采样点,前后两个窗的重叠5123采样点。
方式二:(时间描述方式)使用 93ms 的帧长、23ms 的帧移(hop_length),以及周期性的 Hann 窗口对语音进行分帧。
常用的操作
- #这是一个窗口大小为window_size,连续窗口的重叠部分为window_size/2
- def windows(audio, window_size):
- start = 0
- while start < len(audio):
- #len(audio)是一个音频文件的总样本点数。
- yield start, start + window_size #取出长度为window_size的样本点下标索引
- start += (window_size / 2) #计算下一个分割片段的起始位置
计算每一帧mel声谱图。
- signal = audio[0,2048] #(audio[0,2048] 表示图中的分割的1片段
- #下面一行计算分割片段audio[0,2048]的64阶mel谱
- #sr表示采样率,表示一秒采样多少个样本点。
- #n_fft表示短时傅里叶变化用到的连续的样本点个数
- #hop_length:连续两个傅里叶变化的重叠样本点个数
- melspec = librosa.feature.melspectrogram(signal, sr=22050,
- n_fft=2048,
- hop_length=512,
- n_mels = 64)
- logspec = librosa.amplitude_to_db(melspec)#计算log mel
- #本代码计算将一个原始音频文件分割成等大小的片段,
- #然后计算每一个片段的og mel_sepctrogram.
- for (start,end) in windows(audio,window_size):
- #(1)此处是为了是将大小不一样的音频文件用大小window_size,
- #stride=window_size/2的窗口,分割为等大小的时间片段。
- #(2)计算每一个分割片段的log mel_sepctrogram.
- if(end<= len(audio)): #最后不够一个窗口的样本点舍去
- signal = audio[start:end] #分割的音频帧(图中的1,2,3,4,5,6)
- melspec = librosa.feature.melspectrogram(signal, n_mels = 64) #计算每个分割片段的mel谱
- logspec = librosa.amplitude_to_db(melspec)#计算log mel 谱
参考:文献
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。