编程 Python

python语音识别实践之百度语音API

Posted in Python onAugust 30, 2018

百度语音对上传的语音要求目前必须是单声道，16K采样率，采样深度可以是16位或者8位的PCM编码。其他编码输出的语音识别不出来。

语音的处理技巧：

录制为MP3的语音（通常采样率为44100），要分两步才能正确处理。第一步：使用诸如GoldWave的软件，先保存为16K采样率的MP3；第二步，打开16K采样率的MP3，另存为Wav格式，参数选择PCM，单声道即可。

另外，也可以使用ffmpeg将MP3处理为PCM。后文的程序即采用这种方法。

由于PCM编码的语音没有压缩，文件体积与语音长度成正比。百度语音平台对语音的长度的限制未知。文件太大，网速不好的时候，容易出现”连接错误“的提示。因此，对时间较长的语音，应该将语音分割成多个序列，在分别进行识别。（目前按照等长分割）

以下代码，使用前，需要在baidu 开发者上申请相关的API ID, API Key, Secret Key，并以申请的参数代入到文件中。

# 引入Speech SDK
from aip import AipSpeech
import subprocess
import datetime
import sys
import os
import time
from pydub import AudioSegment
import math
 
# 定义常量
#APP_ID = '你的 App ID'
APP_ID = '937****'
#API_KEY = '你的 API Key'
API_KEY = 'mOV9QaabNnkur0Aba15T****'
#SECRET_KEY = '你的 Secret Key'
SECRET_KEY = '097111374ad26d4ba00937c5e332****'
# 初始化AipSpeech对象
aipSpeech = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
 
# 文件处理
def get_wave_filename(fileFullName):
 # MP3文件转换成wav文件
 # 判断文件后缀，是mp3的，直接处理为16k采样率的wav文件；
 # 是wav的，判断文件的采样率，不是8k或者16k的，直接处理为16k的采样率的wav文件
 # 其他情况，就直接返回AudioSegment直接处理
 fileSufix = fileFullName[fileFullName.rfind('.')+1:]
 print(fileSufix)
 filePath = fileFullName[:fileFullName.find(os.sep)+1]
 print(filePath)
 if fileSufix.lower() == "mp3":
 wavFile = "wav_%s.wav" %datetime.datetime.now().strftime('%Y%m%d%H%M%S')
 wavFile = filePath + wavFile
 cmdLine = "ffmpeg -i \"%s\" -ar 16000 " %fileFullName
 cmdLine = cmdLine + "\"%s\"" %wavFile
 print(cmdLine)
 ret = subprocess.run(cmdLine)
 print("ret code:%i" %ret.returncode)
 return wavFile
 #if ret.returncode == 1:
 # return wavFile
 #else:
 # return None
 else:
 return fileFullName
 
 
#文件分片
try:
 script, fileFullName = sys.argv
except:
 print("参数 文件名 未指定!")
 exit()
 
if not os.path.isfile(fileFullName):
 print("参数 %s 不是一个文件名" %fileFullName)
 exit()
 
if not os.path.exists(fileFullName):
 print("参数 %s 指定的文件不存在" %fileFullName)
 exit()
 
filePath = fileFullName[:fileFullName.find(os.sep)+1]
# 文件处理为Wav，采样率16k的文件，返回文件名
wavFile = get_wave_filename(fileFullName)
print(wavFile)
record = AudioSegment.from_wav(wavFile)
if wavFile != fileFullName:
 time.sleep(1)
 os.remove(wavFile)
 
recLen = record.duration_seconds
interval = 120 * 1000
maxLoop = math.ceil(recLen*1000/float(interval))
for n in range(0,math.ceil(recLen*1000/float(interval))):
 recSeg = record[n * interval : (n + 1)*interval]
 #print("Segment:%i,startat:%i,length:%i" %n,n*interval/1000,recSeg.duration_seconds)
 print(datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S') + " >> Segment:" + str(n) +"/" + str(maxLoop))
 segFile = filePath + "seg%s.wav" %("0"*7 + str(n))[-6:]
 # 把分段的语音信息保存为临时文件
 file_handle = recSeg.export(segFile,format="wav",codec = "libvorbis")
 file_handle.close()
 # 读取分段的临时文件为字节
 file_handle = open(segFile, 'rb')
 file_content = file_handle.read()
 file_handle.close()
 # 删除临时文件
 os.remove(segFile)
 # 用百度API处理该语音
 result=aipSpeech.asr(file_content, 'pcm', 16000, {'lan': 'zh'})
 if result['err_no'] == 0:
 print(datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S') + " >> " + result['result'][0])
 else:
 print(datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S') + " >> " + "err_no:" + str(result['err_no']))

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python语音识别实践之百度语音API

- Author -

fmstereo

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

一个小示例告诉你Python语言的优雅之处

Jul 04 Python

python通过yield实现数组全排列的方法

Mar 18 Python

Python下载网络小说实例代码

Feb 03 Python

python实战教程之自动扫雷

Jul 13 Python

python实现求两个字符串的最长公共子串方法

Jul 20 Python

python 产生token及token验证的方法

Dec 26 Python

django 捕获异常和日志系统过程详解

Jul 18 Python

Python使用Beautiful Soup爬取豆瓣音乐排行榜过程解析

Aug 15 Python

Python CSV文件模块的使用案例分析

Dec 21 Python

Python tkinter 下拉日历控件代码

Mar 04 Python

Python爬虫数据的分类及json数据使用小结

Mar 29 Python

python获取淘宝服务器时间的代码示例

Apr 22 Python

python调用百度语音识别实现大音频文件语音识别功能

Aug 30 #Python

python的中异常处理机制

Aug 30 #Python

python调用百度REST API实现语音识别

Aug 30 #Python

python调用百度语音REST API

Aug 30 #Python

python调用百度语音识别api

Aug 30 #Python

python实现ID3决策树算法

Aug 29 #Python

python实现C4.5决策树算法

Aug 29 #Python

You might like

不要轻信 PHP_SELF的安全问题

2009/09/05 PHP

QQ邮箱的一个文本编辑器代码

2007/03/14 Javascript

javascript操作cookie_获取与修改代码

2009/05/21 Javascript

JS去除字符串的空格增强版(可以去除中间的空格)

2009/08/26 Javascript

JS下高效拼装字符串的几种方法比较与测试代码

2010/04/15 Javascript

javascript中万恶的function实例分析

2011/05/25 Javascript

jQuery结合PHP+MySQL实现二级联动下拉列表[实例]

2011/11/15 Javascript

基于mootools插件实现遮罩层新手引导

2012/05/24 Javascript

JS下拉框内容左右移动效果的具体实现

2013/07/10 Javascript

Jquery动态进行图片缩略的原理及实现

2013/08/13 Javascript

js判断ie版本号的简单实现代码

2014/03/05 Javascript

教你如何在 Javascript 文件里使用 .Net MVC Razor 语法

2014/07/23 Javascript

IE中document.createElement的iframe无法设置属性name的解决方法

2015/09/14 Javascript

两款JS脚本判断手机浏览器类型跳转WAP手机网站

2015/10/16 Javascript

Jquery判断form表单数据是否变化

2016/03/30 Javascript

nodejs开发——express路由与中间件

2017/03/24 NodeJs

JavaScript正则表达式简单实用实例

2017/06/23 Javascript

浅谈layui框架自带分页和表格重载的接口解析问题

2019/09/11 Javascript

Python中decorator使用实例

2015/04/14 Python

Python Selenium Cookie 绕过验证码实现登录示例代码

2018/04/10 Python

详解python实现识别手写MNIST数字集的程序

2018/08/03 Python

对python中的高效迭代器函数详解

2018/10/18 Python

Python实现Mysql数据统计及numpy统计函数

2019/07/15 Python

使用浏览器访问python写的服务器程序

2019/10/10 Python

python 递归相关知识总结

2021/03/03 Python

复古服装：RetroStage

2019/05/10 全球购物

标准导师推荐信（医学类）

2013/10/28 职场文书

致1500米运动员广播稿

2014/02/07 职场文书

企业文化理念标语

2014/06/10 职场文书

医学专业大学生职业生涯规划书

2014/10/25 职场文书

先进班组事迹材料

2014/12/25 职场文书

离婚律师函范本

2015/05/27 职场文书

《倍数和因数》教学反思

2016/02/23 职场文书

Python3 使用pip安装git并获取Yahoo金融数据的操作

2021/04/08 Python

Redis基本数据类型List常用操作命令

2022/06/01 Redis

Django框架模板用法详解

2022/06/10 Python