Python爬虫自动化爬取b站实时弹幕实例方法


Posted in Python onJanuary 26, 2021

最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱,b站也有很多up主剪辑了关于王冰冰的视频。我们都是知道b站是一个弹幕网站,那你知道如何爬取b站实时弹幕吗?本文以王冰冰视频弹幕为例,向大家介绍Python爬虫实现自动化爬取b站实时弹幕的过程。

1、导入需要的库

import jieba # 分词
from wordcloud import WordCloud # 词云
from PIL import Image # 图片处理
import numpy as np # 图片处理
import matplotlib.pyplot as plt # 画图

2、 jieba分词

所谓的分词就是将一句话分成一个或几个词语的形式,

分词代码

# 读取停用词库,注意编码应为‘utf8'
f = open('小夜斗的停用词表.txt', encoding='utf8')
stopwords = f.read().split('\n')
print(stopwords) # 打印停用词
f.close() # 关闭停用词文件

3、打印出的为一个停用词列表

with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:
text = fp.read()

4、读取冰冰弹幕数据文件的操作,将其保存到text变量中

segs = jieba.cut(text) # 进行jieba分词
mytext_list = [] # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件
# 文本清洗
for seg in segs: # 循环遍历每一个分词文本
  # 如果该词不属于停用词表 并且非空 长度不为1
  if seg not in stopwords and seg != "" and len(seg) != 1:
    # 将该词语添加到mytext_list列表中
    mytext_list.append(seg.replace(" ", ""))
print(mytext_list) # 打印过滤后的冰冰弹幕数据

5、获取过滤停用词后的冰冰弹幕数据

cloud_text = ",".join(mytext_list) # 连接列表里面的词语
print(cloud_text)

到此这篇关于Python爬虫自动化爬取b站实时弹幕实例方法的文章就介绍到这了,更多相关Python爬虫如何实现自动化爬取b站实时弹幕内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python Deque 模块使用详解
Jul 04 Python
用Python将动态GIF图片倒放播放的方法
Nov 02 Python
Python Paramiko模块的安装与使用详解
Nov 18 Python
python编写Logistic逻辑回归
Dec 30 Python
python钉钉机器人运维脚本监控实例
Feb 20 Python
pandas修改DataFrame列名的实现方法
Feb 22 Python
Python3实现从排序数组中删除重复项算法分析
Apr 03 Python
Django发送邮件和itsdangerous模块的配合使用解析
Aug 10 Python
Python TCP通信客户端服务端代码实例
Nov 21 Python
django model object序列化实例
Mar 13 Python
Python实现进度条和时间预估的示例代码
Jun 02 Python
基于python requests selenium爬取excel vba过程解析
Aug 12 Python
python 实现的车牌识别项目
Jan 25 #Python
Python实现给PDF添加水印的方法
Jan 25 #Python
2021年值得向Python开发者推荐的VS Code扩展插件
Jan 25 #Python
numba提升python运行速度的实例方法
Jan 25 #Python
python中K-means算法基础知识点
Jan 25 #Python
python中HTMLParser模块知识点总结
Jan 25 #Python
pycharm配置QtDesigner的超详细方法
Jan 25 #Python
You might like
PHP学习笔记之字符串编码的转换和判断
2014/05/22 PHP
PHP类中的魔术方法(Magic Method)简明总结
2014/07/08 PHP
PHP从数组中删除元素的四种方法实例
2017/05/12 PHP
javascript suggest效果 自动完成实现代码分享
2012/02/17 Javascript
深入理解jQuery中live与bind方法的区别
2013/12/18 Javascript
vue.js通过自定义指令实现数据拉取更新的实现方法
2016/10/18 Javascript
JavaScript仿微博输入框效果(案例分析)
2016/12/06 Javascript
详解AngularJS中$filter过滤器使用(自定义过滤器)
2017/02/04 Javascript
微信小程序 常用工具类详解及实例
2017/02/15 Javascript
JavaScript轮播图简单制作方法
2017/02/20 Javascript
js实现楼层导航功能
2017/02/23 Javascript
Bootstrap如何激活导航状态
2017/03/22 Javascript
详解react-router如何实现按需加载
2017/06/15 Javascript
微信小程序实现顶部普通选项卡效果(非swiper)
2020/06/19 Javascript
vue中axios处理http发送请求的示例(Post和get)
2017/10/13 Javascript
详解jQuery中的getAll()和cleanData()
2019/04/15 jQuery
JavaScript动态添加数据到表单并提交的几种方式
2019/06/26 Javascript
[46:42]DOTA2-DPC中国联赛正赛 Aster vs Magma BO3 第二场 3月5日
2021/03/11 DOTA
跟老齐学Python之??碌某?? target=
2014/09/12 Python
连接Python程序与MySQL的教程
2015/04/29 Python
python 把数据 json格式输出的实例代码
2016/10/31 Python
python3 发送任意文件邮件的实例
2018/01/23 Python
Python中垃圾回收和del语句详解
2018/11/15 Python
Django中如何防范CSRF跨站点请求伪造攻击的实现
2019/04/28 Python
python与mysql数据库交互的实现
2020/01/06 Python
python matplotlib包图像配色方案分享
2020/03/14 Python
python plt可视化——打印特殊符号和制作图例代码
2020/04/17 Python
如何将Pycharm中调整字体大小的方式设置为"ctrl+鼠标滚轮上下滑"
2020/11/17 Python
阿联酋航空假期:Emirates Holidays
2018/03/20 全球购物
中国包裹转运寄送国际服务:Famiboat
2019/07/24 全球购物
MyBag中文网:英国著名的时尚包袋电商零售网站
2020/07/31 全球购物
假释思想汇报范文
2014/10/11 职场文书
意向协议书
2015/01/27 职场文书
Golang 编译成DLL文件的操作
2021/05/06 Golang
默认网关不可用修复后过一会又不好使了解决方法
2022/04/08 数码科技
Vue router配置与使用分析讲解
2022/12/24 Vue.js