梅尔倒谱系数(MFCC)实现


Posted in Python onJune 19, 2019

本文实例为大家分享了梅尔倒谱系数实现代码,供大家参考,具体内容如下

""" 
@author: zoutai
@file: mymfcc.py 
@time: 2018/03/26 
@description:
"""
from matplotlib.colors import BoundaryNorm
import librosa
import librosa.display
import numpy
import scipy.io.wavfile
from scipy.fftpack import dct
import matplotlib.pyplot as plt
import numpy as np


# 第一步-读取音频,画出时域图(采样率-幅度)
sample_rate, signal = scipy.io.wavfile.read('OSR_us_000_0010_8k.wav') # File assumed to be in the same directory
signal = signal[0:int(3.5 * sample_rate)]
# plot the wave
time = np.arange(0,len(signal))*(1.0 / sample_rate)
# plt.plot(time,signal)
plt.xlabel("Time(s)")
plt.ylabel("Amplitude")
plt.title("Signal in the Time Domain ")
plt.grid('on')#标尺,on:有,off:无。


# 第二步-预加重
# 消除高频信号。因为高频信号往往都是相似的,
# 通过前后时间相减,就可以近乎抹去高频信号,留下低频信号。
# 原理:y(t)=x(t)−αx(t−1)

pre_emphasis = 0.97
emphasized_signal = numpy.append(signal[0], signal[1:] - pre_emphasis * signal[:-1])


time = np.arange(0,len(emphasized_signal))*(1.0 / sample_rate)
# plt.plot(time,emphasized_signal)
# plt.xlabel("Time(s)")
# plt.ylabel("Amplitude")
# plt.title("Signal in the Time Domain after Pre-Emphasis")
# plt.grid('on')#标尺,on:有,off:无。


# 第三步、取帧,用帧表示
frame_size = 0.025 # 帧长
frame_stride = 0.01 # 步长

# frame_length-一帧对应的采样数, frame_step-一个步长对应的采样数
frame_length, frame_step = frame_size * sample_rate, frame_stride * sample_rate # Convert from seconds to samples
signal_length = len(emphasized_signal) # 总的采样数

frame_length = int(round(frame_length))
frame_step = int(round(frame_step))

# 总帧数
num_frames = int(numpy.ceil(float(numpy.abs(signal_length - frame_length)) / frame_step)) # Make sure that we have at least 1 frame

pad_signal_length = num_frames * frame_step + frame_length
z = numpy.zeros((pad_signal_length - signal_length))
pad_signal = numpy.append(emphasized_signal, z) # Pad Signal to make sure that all frames have equal number of samples without truncating any samples from the original signal

# Construct an array by repeating A(200) the number of times given by reps(348).
# 这个写法太妙了。目的:用矩阵来表示帧的次数,348*200,348-总的帧数,200-每一帧的采样数
# 第一帧采样为0、1、2...200;第二帧为80、81、81...280..依次类推
indices = numpy.tile(numpy.arange(0, frame_length), (num_frames, 1)) + numpy.tile(numpy.arange(0, num_frames * frame_step, frame_step), (frame_length, 1)).T
frames = pad_signal[indices.astype(numpy.int32, copy=False)] # Copy of the array indices
# frame:348*200,横坐标348为帧数,即时间;纵坐标200为一帧的200毫秒时间,内部数值代表信号幅度

# plt.matshow(frames, cmap='hot')
# plt.colorbar()
# plt.figure()
# plt.pcolormesh(frames)


# 第四步、加汉明窗
# 傅里叶变换默认操作的时间段内前后端点是连续的,即整个时间段刚好是一个周期,
# 但是,显示却不是这样的。所以,当这种情况出现时,仍然采用FFT操作时,
# 就会将单一频率周期信号认作成多个不同的频率信号的叠加,而不是原始频率,这样就差生了频谱泄漏问题

frames *= numpy.hamming(frame_length) # 相乘,和卷积类似
# # frames *= 0.54 - 0.46 * numpy.cos((2 * numpy.pi * n) / (frame_length - 1)) # Explicit Implementation **

# plt.pcolormesh(frames)


# 第五步-傅里叶变换频谱和能量谱

# _raw_fft扫窗重叠,将348*200,扩展成348*512
NFFT = 512
mag_frames = numpy.absolute(numpy.fft.rfft(frames, NFFT)) # Magnitude of the FFT
pow_frames = ((1.0 / NFFT) * ((mag_frames) ** 2)) # Power Spectrum


# plt.pcolormesh(mag_frames)
#
# plt.pcolormesh(pow_frames)


# 第六步,Filter Banks滤波器组
# 公式:m=2595*log10(1+f/700);f=700(10^(m/2595)−1)
nfilt = 40 #窗的数目
low_freq_mel = 0
high_freq_mel = (2595 * numpy.log10(1 + (sample_rate / 2) / 700)) # Convert Hz to Mel
mel_points = numpy.linspace(low_freq_mel, high_freq_mel, nfilt + 2) # Equally spaced in Mel scale
hz_points = (700 * (10**(mel_points / 2595) - 1)) # Convert Mel to Hz
bin = numpy.floor((NFFT + 1) * hz_points / sample_rate)

fbank = numpy.zeros((nfilt, int(numpy.floor(NFFT / 2 + 1))))
for m in range(1, nfilt + 1):
 f_m_minus = int(bin[m - 1]) # left
 f_m = int(bin[m])  # center
 f_m_plus = int(bin[m + 1]) # right

 for k in range(f_m_minus, f_m):
 fbank[m - 1, k] = (k - bin[m - 1]) / (bin[m] - bin[m - 1])
 for k in range(f_m, f_m_plus):
 fbank[m - 1, k] = (bin[m + 1] - k) / (bin[m + 1] - bin[m])
filter_banks = numpy.dot(pow_frames, fbank.T)
filter_banks = numpy.where(filter_banks == 0, numpy.finfo(float).eps, filter_banks) # Numerical Stability
filter_banks = 20 * numpy.log10(filter_banks) # dB;348*26

# plt.subplot(111)
# plt.pcolormesh(filter_banks.T)
# plt.grid('on')
# plt.ylabel('Frequency [Hz]')
# plt.xlabel('Time [sec]')
# plt.show()


#
# 第七步,梅尔频谱倒谱系数-MFCCs
num_ceps = 12 #取12个系数
cep_lifter=22 #倒谱的升个数??
mfcc = dct(filter_banks, type=2, axis=1, norm='ortho')[:, 1 : (num_ceps + 1)] # Keep 2-13
(nframes, ncoeff) = mfcc.shape
n = numpy.arange(ncoeff)
lift = 1 + (cep_lifter / 2) * numpy.sin(numpy.pi * n / cep_lifter)
mfcc *= lift #*

# plt.pcolormesh(mfcc.T)
# plt.ylabel('Frequency [Hz]')
# plt.xlabel('Time [sec]')


# 第八步,均值化优化
# to balance the spectrum and improve the Signal-to-Noise (SNR), we can simply subtract the mean of each coefficient from all frames.

filter_banks -= (numpy.mean(filter_banks, axis=0) + 1e-8)
mfcc -= (numpy.mean(mfcc, axis=0) + 1e-8)

# plt.subplot(111)
# plt.pcolormesh(mfcc.T)
# plt.ylabel('Frequency [Hz]')
# plt.xlabel('Time [sec]')
# plt.show()


# 直接频谱分析
# plot the wave
# plt.specgram(signal,Fs = sample_rate, scale_by_freq = True, sides = 'default')
# plt.ylabel('Frequency(Hz)')
# plt.xlabel('Time(s)')
# plt.show()



plt.figure(figsize=(10, 4))
mfccs = librosa.feature.melspectrogram(signal,sr=8000,n_fft=512,n_mels=40)
librosa.display.specshow(mfccs, x_axis='time')
plt.colorbar()
plt.title('MFCC')
plt.tight_layout()
plt.show()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python插入排序算法的实现代码
Nov 21 Python
Python中实现参数类型检查的简单方法
Apr 21 Python
Python itertools模块详解
May 09 Python
解析Python编程中的包结构
Oct 25 Python
Python selenium 三种等待方式详解(必会)
Sep 15 Python
Python实现嵌套列表及字典并按某一元素去重复功能示例
Nov 30 Python
EM算法的python实现的方法步骤
Jan 02 Python
Python中staticmethod和classmethod的作用与区别
Oct 11 Python
使用 tf.nn.dynamic_rnn 展开时间维度方式
Jan 21 Python
Django Serializer HiddenField隐藏字段实例
Mar 31 Python
Python常用库Numpy进行矩阵运算详解
Jul 21 Python
用python实现一个简单的验证码
Dec 09 Python
python 中的列表生成式、生成器表达式、模块导入
Jun 19 #Python
PyQt5 QTable插入图片并动态更新的实例
Jun 18 #Python
pyqt5 禁止窗口最大化和禁止窗口拉伸的方法
Jun 18 #Python
PyQt5 对图片进行缩放的实例
Jun 18 #Python
梅尔频率倒谱系数(mfcc)及Python实现
Jun 18 #Python
Python生成一个迭代器的实操方法
Jun 18 #Python
利用anaconda保证64位和32位的python共存
Mar 09 #Python
You might like
基于mysql的论坛(2)
2006/10/09 PHP
php轻松实现文件上传功能
2016/03/03 PHP
PHP的Laravel框架结合MySQL与Redis数据库的使用部署
2016/03/21 PHP
PHP实现的多维数组排序算法分析
2018/02/10 PHP
PHP Web表单生成器案例分析
2020/06/02 PHP
基于Turn.js 实现翻书效果实例解析
2016/06/20 Javascript
jQuery实现滚动条滚动到子元素位置(方便定位)
2017/01/08 Javascript
简单易懂的天气插件(代码分享)
2017/02/04 Javascript
Angular 2 ngForm中的ngModel、[ngModel]和[(ngModel)]的写法
2017/06/29 Javascript
jQuery事件_动力节点Java学院整理
2017/07/05 jQuery
vue修改vue项目运行端口号的方法
2017/08/04 Javascript
jQuery 实现倒计时天,时,分,秒功能
2018/07/31 jQuery
webpack+vue+express(hot)热启动调试简单配置方法
2018/09/19 Javascript
使用layer模态框给新页面传值的方法
2019/09/27 Javascript
关于小程序优化的一些建议(小结)
2020/12/10 Javascript
javascript实现随机抽奖功能
2020/12/30 Javascript
[11:12]2018DOTA2国际邀请赛寻真——绿色长城OpTic
2018/08/10 DOTA
python中lambda函数 list comprehension 和 zip函数使用指南
2014/09/28 Python
python实现TCP服务器端与客户端的方法详解
2015/04/30 Python
python在控制台输出进度条的方法
2015/06/20 Python
python获取文件扩展名的方法
2015/07/06 Python
Python程序退出方式小结
2017/12/09 Python
Redis使用watch完成秒杀抢购功能的代码
2018/05/07 Python
十行代码使用Python写一个USB病毒
2019/06/21 Python
python 如何去除字符串头尾的多余符号
2019/11/19 Python
python 比较字典value的最大值的几种方法
2020/04/17 Python
Python读取Excel一列并计算所有对象出现次数的方法
2020/09/04 Python
计算机应用专业学生的自我评价分享
2013/11/03 职场文书
支教自我鉴定
2014/01/18 职场文书
材料成型及控制工程专业求职信
2014/06/19 职场文书
企业安全生产月活动总结
2014/07/05 职场文书
个人委托书如何写
2014/09/25 职场文书
授权委托书样本
2014/09/25 职场文书
小学安全教育主题班会
2015/08/12 职场文书
职工趣味运动会开幕词
2016/03/04 职场文书
使用pytorch实现线性回归
2021/04/11 Python