Python爬虫自动化爬取b站实时弹幕实例方法


Posted in Python onJanuary 26, 2021

最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱,b站也有很多up主剪辑了关于王冰冰的视频。我们都是知道b站是一个弹幕网站,那你知道如何爬取b站实时弹幕吗?本文以王冰冰视频弹幕为例,向大家介绍Python爬虫实现自动化爬取b站实时弹幕的过程。

1、导入需要的库

import jieba # 分词
from wordcloud import WordCloud # 词云
from PIL import Image # 图片处理
import numpy as np # 图片处理
import matplotlib.pyplot as plt # 画图

2、 jieba分词

所谓的分词就是将一句话分成一个或几个词语的形式,

分词代码

# 读取停用词库,注意编码应为‘utf8'
f = open('小夜斗的停用词表.txt', encoding='utf8')
stopwords = f.read().split('\n')
print(stopwords) # 打印停用词
f.close() # 关闭停用词文件

3、打印出的为一个停用词列表

with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:
text = fp.read()

4、读取冰冰弹幕数据文件的操作,将其保存到text变量中

segs = jieba.cut(text) # 进行jieba分词
mytext_list = [] # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件
# 文本清洗
for seg in segs: # 循环遍历每一个分词文本
  # 如果该词不属于停用词表 并且非空 长度不为1
  if seg not in stopwords and seg != "" and len(seg) != 1:
    # 将该词语添加到mytext_list列表中
    mytext_list.append(seg.replace(" ", ""))
print(mytext_list) # 打印过滤后的冰冰弹幕数据

5、获取过滤停用词后的冰冰弹幕数据

cloud_text = ",".join(mytext_list) # 连接列表里面的词语
print(cloud_text)

到此这篇关于Python爬虫自动化爬取b站实时弹幕实例方法的文章就介绍到这了,更多相关Python爬虫如何实现自动化爬取b站实时弹幕内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
使用Python的PEAK来适配协议的教程
Apr 14 Python
浅谈python中字典append 到list 后值的改变问题
May 04 Python
Python 隐藏输入密码时屏幕回显的实例
Feb 19 Python
Python面向对象实现一个对象调用另一个对象操作示例
Apr 08 Python
Python自动化运维之Ansible定义主机与组规则操作详解
Jun 13 Python
Python实现的微信红包提醒功能示例
Aug 22 Python
基于python的selenium两种文件上传操作实现详解
Sep 19 Python
python的命名规则知识点总结
Oct 04 Python
使用Python制作新型冠状病毒实时疫情图
Jan 28 Python
Python object类中的特殊方法代码讲解
Mar 06 Python
Python闭包装饰器使用方法汇总
Jun 29 Python
python实现图像高斯金字塔的示例代码
Dec 11 Python
python 实现的车牌识别项目
Jan 25 #Python
Python实现给PDF添加水印的方法
Jan 25 #Python
2021年值得向Python开发者推荐的VS Code扩展插件
Jan 25 #Python
numba提升python运行速度的实例方法
Jan 25 #Python
python中K-means算法基础知识点
Jan 25 #Python
python中HTMLParser模块知识点总结
Jan 25 #Python
pycharm配置QtDesigner的超详细方法
Jan 25 #Python
You might like
PHP中让curl支持sock5的代码实例
2015/01/21 PHP
php把时间戳转换成多少时间之前函数的实例
2016/11/16 PHP
Laravel学习教程之从入口到输出过程详解
2017/08/27 PHP
laravel5.4利用163邮箱发送邮件的步骤详解
2017/09/22 PHP
js 分页全选或反选标识实现代码
2011/08/09 Javascript
window.open关于浏览器拦截问题分析及解决方法
2013/02/05 Javascript
jquery实现图片灯箱明暗的遮罩效果
2013/11/15 Javascript
JavaScript中消除闭包的一般方法介绍
2015/03/16 Javascript
原生js结合html5制作小飞龙的简易跳球
2015/03/30 Javascript
JavaScript实现重置表单(reset)的方法
2015/04/02 Javascript
javascript动态设置样式style实例分析
2015/05/13 Javascript
node.js实现端口转发
2016/04/14 Javascript
Bootstrap优化站点资源、响应式图片、传送带使用详解3
2016/10/14 Javascript
JavaScript数据结构中栈的应用之表达式求值问题详解
2017/04/11 Javascript
js实现方块上下左右移动效果
2017/08/17 Javascript
vue的一个分页组件的示例代码
2017/12/25 Javascript
微信小程序实现音频文件播放进度的实例代码
2020/03/02 Javascript
基于vue与element实现创建试卷相关功能(实例代码)
2020/12/07 Vue.js
python函数装饰器用法实例详解
2015/06/04 Python
python3实现全角和半角字符转换的方法示例
2017/09/21 Python
Sanic框架配置操作分析
2018/07/17 Python
使用python3 实现插入数据到mysql
2020/03/02 Python
Pycharm2020.1安装中文语言插件的详细教程(不需要汉化)
2020/08/07 Python
CSS3 画基本图形,圆形、椭圆形、三角形等
2016/09/20 HTML / CSS
玩具反斗城美国官网:Toys"R"Us
2016/09/17 全球购物
Tory Burch英国官方网站:美国时尚生活品牌
2017/12/06 全球购物
Aurora London官网:奢华、负担得起的皮革手袋
2020/08/01 全球购物
大专生工程监理求职信
2013/10/04 职场文书
中专生自我鉴定范文
2014/02/02 职场文书
趣味游戏活动方案
2014/02/07 职场文书
致接力运动员广播稿
2014/02/17 职场文书
2014年圣诞节促销方案
2014/03/14 职场文书
团日活动总结
2014/04/28 职场文书
捐款活动总结
2014/08/27 职场文书
golang中的空接口使用详解
2021/03/30 Python
MySQL数据库 任意ip连接方法
2022/05/20 MySQL