编程 Python

使用Python和百度语音识别生成视频字幕的实现

Posted in Python onApril 09, 2020

从视频中提取音频

安装 moviepy

pip install moviepy

相关代码：

audio_file = work_path + '\\out.wav'
video = VideoFileClip(video_file)
video.audio.write_audiofile(audio_file,ffmpeg_params=['-ar','16000','-ac','1'])

根据静音对音频分段

使用音频库 pydub，安装：

pip install pydub

第一种方法：

# 这里silence_thresh是认定小于-70dBFS以下的为silence，发现小于 sound.dBFS * 1.3 部分超过 700毫秒，就进行拆分。这样子分割成一段一段的。
sounds = split_on_silence(sound, min_silence_len = 500, silence_thresh= sound.dBFS * 1.3)


sec = 0
for i in range(len(sounds)):
 s = len(sounds[i])
 sec += s
print('split duration is ', sec)
print('dBFS: {0}, max_dBFS: {1}, duration: {2}, split: {3}'.format(round(sound.dBFS,2),round(sound.max_dBFS,2),sound.duration_seconds,len(sounds)))

使用Python和百度语音识别生成视频字幕的实现

感觉分割的时间不对，不好定位，我们换一种方法：

# 通过搜索静音的方法将音频分段
# 参考：https://wqian.net/blog/2018/1128-python-pydub-split-mp3-index.html
timestamp_list = detect_nonsilent(sound,500,sound.dBFS*1.3,1)
 
for i in range(len(timestamp_list)):
 d = timestamp_list[i][1] - timestamp_list[i][0]
 print("Section is :", timestamp_list[i], "duration is:", d)
print('dBFS: {0}, max_dBFS: {1}, duration: {2}, split: {3}'.format(round(sound.dBFS,2),round(sound.max_dBFS,2),sound.duration_seconds,len(timestamp_list)))

输出结果如下：

使用Python和百度语音识别生成视频字幕的实现

感觉这样好处理一些

使用百度语音识别

现在百度智能云平台创建一个应用，获取 API Key 和 Secret Key：

使用Python和百度语音识别生成视频字幕的实现

获取 Access Token

使用百度 AI 产品需要授权，一定量是免费的，生成字幕够用了。

'''
百度智能云获取 Access Token
'''
def fetch_token():
 params = {'grant_type': 'client_credentials',
    'client_id': API_KEY,
    'client_secret': SECRET_KEY}
 post_data = urlencode(params)
 if (IS_PY3):
  post_data = post_data.encode( 'utf-8')
 req = Request(TOKEN_URL, post_data)
 try:
  f = urlopen(req)
  result_str = f.read()
 except URLError as err:
  print('token http response http code : ' + str(err.errno))
  result_str = err.reason
 if (IS_PY3):
  result_str = result_str.decode()


 print(result_str)
 result = json.loads(result_str)
 print(result)
 if ('access_token' in result.keys() and 'scope' in result.keys()):
  print(SCOPE)
  if SCOPE and (not SCOPE in result['scope'].split(' ')): # SCOPE = False 忽略检查
   raise DemoError('scope is not correct')
  print('SUCCESS WITH TOKEN: %s EXPIRES IN SECONDS: %s' % (result['access_token'], result['expires_in']))
  return result['access_token']
 else:
  raise DemoError('MAYBE API_KEY or SECRET_KEY not correct: access_token or scope not found in token response')

使用 Raw 数据进行合成

这里使用百度语音极速版来合成文字，因为官方介绍专有GPU服务集群，识别响应速度较标准版API提升2倍及识别准确率提升15%。适用于近场短语音交互，如手机语音搜索、聊天输入等场景。支持上传完整的录音文件，录音文件时长不超过60秒。实时返回识别结果

def asr_raw(speech_data, token):
 length = len(speech_data)
 if length == 0:
  # raise DemoError('file %s length read 0 bytes' % AUDIO_FILE)
  raise DemoError('file length read 0 bytes')


 params = {'cuid': CUID, 'token': token, 'dev_pid': DEV_PID}
 #测试自训练平台需要打开以下信息
 #params = {'cuid': CUID, 'token': token, 'dev_pid': DEV_PID, 'lm_id' : LM_ID}
 params_query = urlencode(params)


 headers = {
  'Content-Type': 'audio/' + FORMAT + '; rate=' + str(RATE),
  'Content-Length': length
 }


 url = ASR_URL + "?" + params_query
 # print post_data
 req = Request(ASR_URL + "?" + params_query, speech_data, headers)
 try:
  begin = timer()
  f = urlopen(req)
  result_str = f.read()
  # print("Request time cost %f" % (timer() - begin))
 except URLError as err:
  # print('asr http response http code : ' + str(err.errno))
  result_str = err.reason


 if (IS_PY3):
  result_str = str(result_str, 'utf-8')
 return result_str

生成字幕

字幕格式： https://www.cnblogs.com/tocy/p/subtitle-format-srt.html

生成字幕其实就是语音识别的应用，将识别后的内容按照 srt 字幕格式组装起来就 OK 了。具体字幕格式的内容可以参考上面的文章，代码如下：

idx = 0
for i in range(len(timestamp_list)):
 d = timestamp_list[i][1] - timestamp_list[i][0]
 data = sound[timestamp_list[i][0]:timestamp_list[i][1]].raw_data
 str_rst = asr_raw(data, token)
 result = json.loads(str_rst)
 # print("rst is ", result)
 # print("rst is ", rst['err_no'][0])


 if result['err_no'] == 0:
  text.append('{0}\n{1} --> {2}\n'.format(idx, format_time(timestamp_list[i][0]/ 1000), format_time(timestamp_list[i][1]/ 1000)))
  text.append( result['result'][0])
  text.append('\n')
  idx = idx + 1
  print(format_time(timestamp_list[i][0]/ 1000), "txt is ", result['result'][0])
with open(srt_file,"r+") as f:
 f.writelines(text)

总结

我在视频网站下载了一个视频来作测试，极速模式从速度和识别率来说都是最好的，感觉比网易见外平台还好用。

到此这篇关于使用Python和百度语音识别生成视频字幕的文章就介绍到这了,更多相关Python 百度语音识别生成视频字幕内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

使用Python和百度语音识别生成视频字幕的实现

- Author -

孙??

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python中函数传参详解

Jul 03 Python

Python插件virtualenv搭建虚拟环境

Nov 20 Python

详谈pandas中agg函数和apply函数的区别

Apr 20 Python

解决Python pandas df 写入excel 出现的问题

Jul 04 Python

python根据list重命名文件夹里的所有文件实例

Oct 25 Python

Python小工具之消耗系统指定大小内存的方法

Dec 03 Python

Pandas之MultiIndex对象的示例详解

Jun 25 Python

django 2.2和mysql使用的常见问题

Jul 18 Python

Python 函数用法简单示例【定义、参数、返回值、函数嵌套】

Sep 20 Python

python进程的状态、创建及使用方法详解

Dec 06 Python

基于python实现语音录入识别代码实例

Jan 17 Python

python tqdm实现进度条的示例代码

Nov 10 Python

利用Python制作动态排名图的实现代码

Apr 09 #Python

使用python接受tgam的脑波数据实例

Apr 09 #Python

解决使用python print打印函数返回值多一个None的问题

Apr 09 #Python

Python 实现自动完成A4标签排版打印功能

Apr 09 #Python

python网络编程：socketserver的基本使用方法实例分析

Apr 09 #Python

Python使用扩展库pywin32实现批量文档打印实例

Apr 09 #Python

python3 自动打印出最新版本执行的mysql2redis实例

Apr 09 #Python

You might like

PHP 面向对象 PHP5 中的常量

2010/05/05 PHP

php开启安全模式后禁用的函数集合

2011/06/26 PHP

php字符串函数学习之strstr()

2015/03/27 PHP

PHP预定义接口――Iterator用法示例

2020/06/05 PHP

ASP SQL防注入的方法

2008/12/25 Javascript

轻量级网页遮罩层jQuery插件用法实例

2015/07/31 Javascript

Jquery 效果使用详解

2015/11/23 Javascript

理解JavaScript表单的基础知识

2016/01/25 Javascript

Angualrjs 表单验证的两种方式(失去焦点验证和点击提交验证)

2017/05/09 Javascript

浅析JavaScript中的平稳退化（graceful degradation）

2017/07/24 Javascript

webpack 样式加载的实现原理

2018/06/12 Javascript

Vue组件之高德地图地址选择功能的实例代码

2019/06/21 Javascript

Vue仿微信app页面跳转动画效果

2019/08/21 Javascript

在Chrome DevTools中调试JavaScript的实现

2020/04/07 Javascript

Node.js 深度调试方法解析

2020/07/28 Javascript

Javascript执行上下文顺序的深入讲解

2020/11/04 Javascript

[14:51]DOTA2 HEROS教学视频教你分分钟做大人-卓尔游侠

2014/06/13 DOTA

[43:41]OG vs Newbee 2019国际邀请赛淘汰赛胜者组 BO3 第一场 8.21.mp4

2020/07/19 DOTA

在Python程序中操作文件之flush()方法的使用教程

2015/05/24 Python

python面向对象多线程爬虫爬取搜狐页面的实例代码

2018/05/31 Python

python 通过麦克风录音生成wav文件的方法

2019/01/09 Python

python 装饰器的实际作用有哪些

2020/09/07 Python

CSS3 Media Queries详细介绍和使用实例

2014/05/08 HTML / CSS

CSS3实现10种Loading效果

2016/07/11 HTML / CSS

浅谈html5 响应式布局

2014/12/24 HTML / CSS

详解通过HTML5 Canvas实现图片的平移及旋转变化的方法

2016/03/22 HTML / CSS

喜诗官方在线巧克力店：See’s Candies

2017/01/01 全球购物

HOTEL INFO英国：搜索全球酒店

2019/08/08 全球购物

预备党员思想汇报范文

2013/12/29 职场文书

单位单身证明样本

2014/10/11 职场文书

岳庙导游词

2015/02/04 职场文书

公司更名通知函

2015/04/24 职场文书

活动主持人开场白

2015/05/28 职场文书

优胜劣汰，强者为王——读《鲁滨逊漂流记》有感

2019/08/15 职场文书

数据库之SQL技巧整理案例

2021/07/07 SQL Server

悬疑名作《朋友游戏》动画无字ED宣传片新角色公开

2022/04/13 日漫