编程 Python

梅尔倒谱系数（MFCC）实现

Posted in Python onJune 19, 2019

本文实例为大家分享了梅尔倒谱系数实现代码，供大家参考，具体内容如下

""" 
@author: zoutai
@file: mymfcc.py 
@time: 2018/03/26 
@description:
"""
from matplotlib.colors import BoundaryNorm
import librosa
import librosa.display
import numpy
import scipy.io.wavfile
from scipy.fftpack import dct
import matplotlib.pyplot as plt
import numpy as np


# 第一步-读取音频，画出时域图（采样率-幅度）
sample_rate, signal = scipy.io.wavfile.read('OSR_us_000_0010_8k.wav') # File assumed to be in the same directory
signal = signal[0:int(3.5 * sample_rate)]
# plot the wave
time = np.arange(0,len(signal))*(1.0 / sample_rate)
# plt.plot(time,signal)
plt.xlabel("Time(s)")
plt.ylabel("Amplitude")
plt.title("Signal in the Time Domain ")
plt.grid('on')#标尺，on：有，off:无。


# 第二步-预加重
# 消除高频信号。因为高频信号往往都是相似的，
# 通过前后时间相减，就可以近乎抹去高频信号，留下低频信号。
# 原理：y(t)=x(t)−αx(t−1)

pre_emphasis = 0.97
emphasized_signal = numpy.append(signal[0], signal[1:] - pre_emphasis * signal[:-1])


time = np.arange(0,len(emphasized_signal))*(1.0 / sample_rate)
# plt.plot(time,emphasized_signal)
# plt.xlabel("Time(s)")
# plt.ylabel("Amplitude")
# plt.title("Signal in the Time Domain after Pre-Emphasis")
# plt.grid('on')#标尺，on：有，off:无。


# 第三步、取帧，用帧表示
frame_size = 0.025 # 帧长
frame_stride = 0.01 # 步长

# frame_length-一帧对应的采样数, frame_step-一个步长对应的采样数
frame_length, frame_step = frame_size * sample_rate, frame_stride * sample_rate # Convert from seconds to samples
signal_length = len(emphasized_signal) # 总的采样数

frame_length = int(round(frame_length))
frame_step = int(round(frame_step))

# 总帧数
num_frames = int(numpy.ceil(float(numpy.abs(signal_length - frame_length)) / frame_step)) # Make sure that we have at least 1 frame

pad_signal_length = num_frames * frame_step + frame_length
z = numpy.zeros((pad_signal_length - signal_length))
pad_signal = numpy.append(emphasized_signal, z) # Pad Signal to make sure that all frames have equal number of samples without truncating any samples from the original signal

# Construct an array by repeating A（200） the number of times given by reps（348）.
# 这个写法太妙了。目的：用矩阵来表示帧的次数，348*200，348-总的帧数，200-每一帧的采样数
# 第一帧采样为0、1、2...200;第二帧为80、81、81...280..依次类推
indices = numpy.tile(numpy.arange(0, frame_length), (num_frames, 1)) + numpy.tile(numpy.arange(0, num_frames * frame_step, frame_step), (frame_length, 1)).T
frames = pad_signal[indices.astype(numpy.int32, copy=False)] # Copy of the array indices
# frame：348*200，横坐标348为帧数，即时间；纵坐标200为一帧的200毫秒时间，内部数值代表信号幅度

# plt.matshow(frames, cmap='hot')
# plt.colorbar()
# plt.figure()
# plt.pcolormesh(frames)


# 第四步、加汉明窗
# 傅里叶变换默认操作的时间段内前后端点是连续的，即整个时间段刚好是一个周期，
# 但是，显示却不是这样的。所以，当这种情况出现时，仍然采用FFT操作时，
# 就会将单一频率周期信号认作成多个不同的频率信号的叠加，而不是原始频率，这样就差生了频谱泄漏问题

frames *= numpy.hamming(frame_length) # 相乘，和卷积类似
# # frames *= 0.54 - 0.46 * numpy.cos((2 * numpy.pi * n) / (frame_length - 1)) # Explicit Implementation **

# plt.pcolormesh(frames)


# 第五步-傅里叶变换频谱和能量谱

# _raw_fft扫窗重叠，将348*200，扩展成348*512
NFFT = 512
mag_frames = numpy.absolute(numpy.fft.rfft(frames, NFFT)) # Magnitude of the FFT
pow_frames = ((1.0 / NFFT) * ((mag_frames) ** 2)) # Power Spectrum


# plt.pcolormesh(mag_frames)
#
# plt.pcolormesh(pow_frames)


# 第六步，Filter Banks滤波器组
# 公式：m=2595*log10(1+f/700)；f=700(10^(m/2595)−1)
nfilt = 40 #窗的数目
low_freq_mel = 0
high_freq_mel = (2595 * numpy.log10(1 + (sample_rate / 2) / 700)) # Convert Hz to Mel
mel_points = numpy.linspace(low_freq_mel, high_freq_mel, nfilt + 2) # Equally spaced in Mel scale
hz_points = (700 * (10**(mel_points / 2595) - 1)) # Convert Mel to Hz
bin = numpy.floor((NFFT + 1) * hz_points / sample_rate)

fbank = numpy.zeros((nfilt, int(numpy.floor(NFFT / 2 + 1))))
for m in range(1, nfilt + 1):
 f_m_minus = int(bin[m - 1]) # left
 f_m = int(bin[m])  # center
 f_m_plus = int(bin[m + 1]) # right

 for k in range(f_m_minus, f_m):
 fbank[m - 1, k] = (k - bin[m - 1]) / (bin[m] - bin[m - 1])
 for k in range(f_m, f_m_plus):
 fbank[m - 1, k] = (bin[m + 1] - k) / (bin[m + 1] - bin[m])
filter_banks = numpy.dot(pow_frames, fbank.T)
filter_banks = numpy.where(filter_banks == 0, numpy.finfo(float).eps, filter_banks) # Numerical Stability
filter_banks = 20 * numpy.log10(filter_banks) # dB;348*26

# plt.subplot(111)
# plt.pcolormesh(filter_banks.T)
# plt.grid('on')
# plt.ylabel('Frequency [Hz]')
# plt.xlabel('Time [sec]')
# plt.show()


#
# 第七步，梅尔频谱倒谱系数-MFCCs
num_ceps = 12 #取12个系数
cep_lifter=22 #倒谱的升个数？？
mfcc = dct(filter_banks, type=2, axis=1, norm='ortho')[:, 1 : (num_ceps + 1)] # Keep 2-13
(nframes, ncoeff) = mfcc.shape
n = numpy.arange(ncoeff)
lift = 1 + (cep_lifter / 2) * numpy.sin(numpy.pi * n / cep_lifter)
mfcc *= lift #*

# plt.pcolormesh(mfcc.T)
# plt.ylabel('Frequency [Hz]')
# plt.xlabel('Time [sec]')


# 第八步，均值化优化
# to balance the spectrum and improve the Signal-to-Noise (SNR), we can simply subtract the mean of each coefficient from all frames.

filter_banks -= (numpy.mean(filter_banks, axis=0) + 1e-8)
mfcc -= (numpy.mean(mfcc, axis=0) + 1e-8)

# plt.subplot(111)
# plt.pcolormesh(mfcc.T)
# plt.ylabel('Frequency [Hz]')
# plt.xlabel('Time [sec]')
# plt.show()


# 直接频谱分析
# plot the wave
# plt.specgram(signal,Fs = sample_rate, scale_by_freq = True, sides = 'default')
# plt.ylabel('Frequency(Hz)')
# plt.xlabel('Time(s)')
# plt.show()



plt.figure(figsize=(10, 4))
mfccs = librosa.feature.melspectrogram(signal,sr=8000,n_fft=512,n_mels=40)
librosa.display.specshow(mfccs, x_axis='time')
plt.colorbar()
plt.title('MFCC')
plt.tight_layout()
plt.show()

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

梅尔倒谱系数（MFCC）实现

- Author -

随风而醒

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

在Debian下配置Python+Django+Nginx+uWSGI+MySQL的教程

Apr 25 Python

python字符串中的单双引

Feb 16 Python

Python即时网络爬虫项目启动说明详解

Feb 23 Python

python实现简单登陆流程的方法

Apr 22 Python

python中eval与int的区别浅析

Aug 11 Python

Django rstful登陆认证并检查session是否过期代码实例

Aug 13 Python

pyspark给dataframe增加新的一列的实现示例

Apr 24 Python

pytorch查看通道数维数尺寸大小方式

May 26 Python

python获取本周、上周、本月、上月及本季的时间代码实例

Sep 08 Python

Python调用REST API接口的几种方式汇总

Oct 19 Python

Python中对象的比较操作==和is区别详析

Feb 12 Python

写一个Python脚本自动爬取Bilibili小视频

Apr 24 Python

python 中的列表生成式、生成器表达式、模块导入

Jun 19 #Python

PyQt5 QTable插入图片并动态更新的实例

Jun 18 #Python

pyqt5 禁止窗口最大化和禁止窗口拉伸的方法

Jun 18 #Python

PyQt5 对图片进行缩放的实例

Jun 18 #Python

梅尔频率倒谱系数（mfcc）及Python实现

Jun 18 #Python

Python生成一个迭代器的实操方法

Jun 18 #Python

利用anaconda保证64位和32位的python共存

Mar 09 #Python

You might like

php将服务端的文件读出来显示在web页面实例

2016/10/31 PHP

单独使用CKFinder选择图片的方法

2010/08/21 Javascript

让js弹出窗口居前显示的实现方法

2013/07/10 Javascript

javascript中的parseInt和parseFloat区别

2013/07/12 Javascript

实例讲解JQuery中this和$(this)区别

2014/12/08 Javascript

JQuery选中checkbox方法代码实例（全选、反选、全不选）

2015/04/27 Javascript

jQuery实现动画效果circle实例

2015/08/06 Javascript

Jquery ajax 同步阻塞引起的UI线程阻塞问题

2015/11/17 Javascript

实现高性能JavaScript之执行与加载

2016/01/30 Javascript

JavaScript学习笔记整理_用于模式匹配的String方法

2016/09/19 Javascript

Vue组件为什么data必须是一个函数

2020/06/11 Javascript

[01:00:22]DOTA2-DPC中国联赛定级赛 LBZS vs Magma BO3第三场 1月10日

2021/03/11 DOTA

python 随机数生成的代码的详细分析

2011/05/15 Python

pandas值替换方法

2018/07/10 Python

Windows 8.1 64bit下搭建 Scrapy 0.22 环境

2018/11/18 Python

pycharm 实现显示project 选项卡的方法

2019/01/17 Python

python向字符串中添加元素的实例方法

2019/06/28 Python

Python turtle库绘制菱形的3种方式小结

2019/11/23 Python

Python基于BeautifulSoup爬取京东商品信息

2020/06/01 Python

美国顶尖折扣时尚购物网：Bluefly

2016/08/28 全球购物

欧洲第一的摇滚和金属乐队服装网站：EMP

2017/10/26 全球购物

飞利浦西班牙官方网站：Philips西班牙

2020/02/17 全球购物

阿玛尼美妆俄罗斯官网：Giorgio Armani Beauty RU

2020/07/19 全球购物

什么时候用assert

2015/05/08 面试题

大学生毕业求职找工作的自我评价

2013/09/29 职场文书

2014年业务员工作总结范文

2014/11/17 职场文书

2014年青年志愿者工作总结

2014/12/09 职场文书

医生辞职信范文

2015/03/02 职场文书

单位介绍信格式范文

2015/05/04 职场文书

农业项目投资意向书

2015/05/09 职场文书

2016大学生形势与政策心得体会

2016/01/12 职场文书

2016年百日安全生产活动总结

2016/04/06 职场文书

导游词之沈阳植物园

2019/11/30 职场文书

nginx location优先级的深入讲解

2021/03/31 Servers

十大公认最好看的动漫：《咒术回战》在榜，《钢之炼金术师》第一

2022/03/18 日漫

Win11控制面板快捷键是什么?Win11打开控制面板的方法汇总

2022/07/07 数码科技