编程 Python

使用python实现语音文件的特征提取方法

Posted in Python onJanuary 09, 2019

概述

语音识别是当前人工智能的比较热门的方向，技术也比较成熟，各大公司也相继推出了各自的语音助手机器人，如百度的小度机器人、阿里的天猫精灵等。语音识别算法当前主要是由RNN、LSTM、DNN-HMM等机器学习和深度学习技术做支撑。但训练这些模型的第一步就是将音频文件数据化，提取当中的语音特征。

MP3文件转化为WAV文件

录制音频文件的软件大多数都是以mp3格式输出的，但mp3格式文件对语音的压缩比例较重，因此首先利用ffmpeg将转化为wav原始文件有利于语音特征的提取。其转化代码如下：

from pydub import AudioSegment
import pydub

def MP32WAV(mp3_path,wav_path):
 """
 这是MP3文件转化成WAV文件的函数
 :param mp3_path: MP3文件的地址
 :param wav_path: WAV文件的地址
 """
 pydub.AudioSegment.converter = "D:\\ffmpeg\\bin\\ffmpeg.exe"
 MP3_File = AudioSegment.from_mp3(file=mp3_path)
 MP3_File.export(wav_path,format="wav")

读取WAV语音文件，对语音进行采样

利用wave库对语音文件进行采样。

代码如下：

import wave
import json

def Read_WAV(wav_path):
 """
 这是读取wav文件的函数，音频数据是单通道的。返回json
 :param wav_path: WAV文件的地址
 """
 wav_file = wave.open(wav_path,'r')
 numchannel = wav_file.getnchannels()   # 声道数
 samplewidth = wav_file.getsampwidth()  # 量化位数
 framerate = wav_file.getframerate()  # 采样频率
 numframes = wav_file.getnframes()   # 采样点数
 print("channel", numchannel)
 print("sample_width", samplewidth)
 print("framerate", framerate)
 print("numframes", numframes)
 Wav_Data = wav_file.readframes(numframes)
 Wav_Data = np.fromstring(Wav_Data,dtype=np.int16)
 Wav_Data = Wav_Data*1.0/(max(abs(Wav_Data)))  #对数据进行归一化
 # 生成音频数据,ndarray不能进行json化，必须转化为list，生成JSON
 dict = {"channel":numchannel,
   "samplewidth":samplewidth,
   "framerate":framerate,
   "numframes":numframes,
   "WaveData":list(Wav_Data)}
 return json.dumps(dict)

绘制声波折线图与频谱图

代码如下：

from matplotlib import pyplot as plt

def DrawSpectrum(wav_data,framerate):
 """
 这是画音频的频谱函数
 :param wav_data: 音频数据
 :param framerate: 采样频率
 """
 Time = np.linspace(0,len(wav_data)/framerate*1.0,num=len(wav_data))
 plt.figure(1)
 plt.plot(Time,wav_data)
 plt.grid(True)
 plt.show()
 plt.figure(2)
 Pxx, freqs, bins, im = plt.specgram(wav_data,NFFT=1024,Fs = 16000,noverlap=900)
 plt.show()
 print(Pxx)
 print(freqs)
 print(bins)
 print(im)

首先利用百度AI开发平台的语音合API生成的MP3文件进行上述过程的结果。

声波折线图

使用python实现语音文件的特征提取方法

频谱图

使用python实现语音文件的特征提取方法

全部代码

#!/usr/bin/python3
# -*- coding: utf-8 -*-
# @Time : 2018/7/5 13:11
# @Author : DaiPuwei
# @FileName: VoiceExtract.py
# @Software: PyCharm
# @E-mail ：771830171@qq.com
# @Blog ：https://blog.csdn.net/qq_30091945

import numpy as np
from pydub import AudioSegment
import pydub
import os
import wave
import json
from matplotlib import pyplot as plt

def MP32WAV(mp3_path,wav_path):
 """
 这是MP3文件转化成WAV文件的函数
 :param mp3_path: MP3文件的地址
 :param wav_path: WAV文件的地址
 """
 pydub.AudioSegment.converter = "D:\\ffmpeg\\bin\\ffmpeg.exe"   #说明ffmpeg的地址
 MP3_File = AudioSegment.from_mp3(file=mp3_path)
 MP3_File.export(wav_path,format="wav")

def Read_WAV(wav_path):
 """
 这是读取wav文件的函数，音频数据是单通道的。返回json
 :param wav_path: WAV文件的地址
 """
 wav_file = wave.open(wav_path,'r')
 numchannel = wav_file.getnchannels()   # 声道数
 samplewidth = wav_file.getsampwidth()  # 量化位数
 framerate = wav_file.getframerate()  # 采样频率
 numframes = wav_file.getnframes()   # 采样点数
 print("channel", numchannel)
 print("sample_width", samplewidth)
 print("framerate", framerate)
 print("numframes", numframes)
 Wav_Data = wav_file.readframes(numframes)
 Wav_Data = np.fromstring(Wav_Data,dtype=np.int16)
 Wav_Data = Wav_Data*1.0/(max(abs(Wav_Data)))  #对数据进行归一化
 # 生成音频数据,ndarray不能进行json化，必须转化为list，生成JSON
 dict = {"channel":numchannel,
   "samplewidth":samplewidth,
   "framerate":framerate,
   "numframes":numframes,
   "WaveData":list(Wav_Data)}
 return json.dumps(dict)

def DrawSpectrum(wav_data,framerate):
 """
 这是画音频的频谱函数
 :param wav_data: 音频数据
 :param framerate: 采样频率
 """
 Time = np.linspace(0,len(wav_data)/framerate*1.0,num=len(wav_data))
 plt.figure(1)
 plt.plot(Time,wav_data)
 plt.grid(True)
 plt.show()
 plt.figure(2)
 Pxx, freqs, bins, im = plt.specgram(wav_data,NFFT=1024,Fs = 16000,noverlap=900)
 plt.show()
 print(Pxx)
 print(freqs)
 print(bins)
 print(im)

def run_main():
 """
  这是主函数
 """
 # MP3文件和WAV文件的地址
 path1 = './MP3_File'
 path2 = "./WAV_File"
 paths = os.listdir(path1)
 mp3_paths = []
 # 获取mp3文件的相对地址
 for mp3_path in paths:
  mp3_paths.append(path1+"/"+mp3_path)
 print(mp3_paths)

 # 得到MP3文件对应的WAV文件的相对地址
 wav_paths = []
 for mp3_path in mp3_paths:
  wav_path = path2+"/"+mp3_path[1:].split('.')[0].split('/')[-1]+'.wav'
  wav_paths.append(wav_path)
 print(wav_paths)

 # 将MP3文件转化成WAV文件
 for(mp3_path,wav_path) in zip(mp3_paths,wav_paths):
  MP32WAV(mp3_path,wav_path)
 for wav_path in wav_paths:
  Read_WAV(wav_path)

 # 开始对音频文件进行数据化
 for wav_path in wav_paths:
  wav_json = Read_WAV(wav_path)
  print(wav_json)
  wav = json.loads(wav_json)
  wav_data = np.array(wav['WaveData'])
  framerate = int(wav['framerate'])
  DrawSpectrum(wav_data,framerate)

if __name__ == '__main__':
 run_main()

以上这篇使用python实现语音文件的特征提取方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

使用python实现语音文件的特征提取方法

- Author -

追梦者_AIer

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

[原创]使用豆瓣提供的国内pypi源

Jul 02 Python

简述：我为什么选择Python而不是Matlab和R语言

Nov 14 Python

python3爬取淘宝信息代码分析

Feb 10 Python

Python对切片命名的实现方法

Oct 16 Python

在ubuntu16.04中将python3设置为默认的命令写法

Oct 31 Python

Python实现获取汉字偏旁部首的方法示例【测试可用】

Dec 18 Python

Python 实现中值滤波、均值滤波的方法

Jan 09 Python

python requests使用socks5的例子

Jul 25 Python

Python json读写方式和字典相互转化

Apr 18 Python

python中如何使用虚拟环境

Oct 14 Python

在PyCharm中安装PaddlePaddle的方法

Feb 05 Python

Python&Matlab实现樱花的绘制

Apr 07 Python

对python中Librosa的mfcc步骤详解

Jan 09 #Python

Python中的枚举类型示例介绍

Jan 09 #Python

利用python提取wav文件的mfcc方法

Jan 09 #Python

Python Matplotlib库安装与基本作图示例

Jan 09 #Python

对Python使用mfcc的两种方式详解

Jan 09 #Python

Python中的 enum 模块源码详析

Jan 09 #Python

python linecache 处理固定格式文本数据的方法

Jan 08 #Python

You might like

PHP性能优化准备篇图解PEAR安装

2011/12/05 PHP

php 操作调试的方法

2012/07/12 PHP

ThinkPHP令牌验证实例

2014/06/18 PHP

HTML5如何适配 iPhone IOS 底部黑条

2021/03/09 HTML / CSS

脚本收藏iframe

2006/07/21 Javascript

解决AJAX中跨域访问出现'没有权限'的错误

2008/08/20 Javascript

UI Events 用户界面事件

2012/06/27 Javascript

关于include标签导致js路径找不到的问题分析及解决

2013/07/09 Javascript

解决Jquery load()加载GB2312页面时出现乱码的两种方案

2013/09/10 Javascript

浅谈JSON和JSONP区别及jQuery的ajax jsonp的使用

2014/11/23 Javascript

JavaScript之AOP编程实例

2015/07/17 Javascript

返回函数的JavaScript函数

2016/06/14 Javascript

超全面的javascript中变量命名规则

2017/02/09 Javascript

详解使用Typescript开发node.js项目（简单的环境配置）

2017/10/09 Javascript

原生js实现拖拽功能基本思路详解

2018/04/18 Javascript

React 源码中的依赖注入方法

2018/11/07 Javascript

Vue中使用create-keyframe-animation与动画钩子完成复杂动画

2019/04/09 Javascript

微信小程序多行文本显示...+显示更多按钮和收起更多按钮功能

2019/09/26 Javascript

微信小程序利用云函数获取手机号码

2019/12/17 Javascript

简析Python的闭包和装饰器

2016/02/26 Python

python算法演练_One Rule 算法(详解)

2017/05/17 Python

django自带的server 让外网主机访问方法

2018/05/14 Python

pandas修改DataFrame列名的实现方法

2019/02/22 Python

Python中Unittest框架的具体使用

2019/08/27 Python

Python代码生成视频的缩略图的实例讲解

2019/12/22 Python

降低python版本的操作方法

2020/09/11 Python

Html5元素及基本语法详解

2016/08/02 HTML / CSS

巴西最大的在线约会网站：ParPerfeito

2018/07/11 全球购物

Theo + George官方网站：都柏林时尚品牌

2019/04/08 全球购物

英国比较机场停车场网站：Airport Parking Essentials

2019/12/01 全球购物

请说出你所知道的线程同步的方法

2013/04/19 面试题

大四自我鉴定

2014/02/08 职场文书

2015世界地球日活动总结

2015/02/09 职场文书

考试后的感想

2015/08/07 职场文书

2016党风廉政建设心得体会范文

2016/01/25 职场文书

JavaScript原始值与包装对象的详细介绍

2021/05/11 Javascript