Python爬虫自动化爬取b站实时弹幕实例方法


Posted in Python onJanuary 26, 2021

最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱,b站也有很多up主剪辑了关于王冰冰的视频。我们都是知道b站是一个弹幕网站,那你知道如何爬取b站实时弹幕吗?本文以王冰冰视频弹幕为例,向大家介绍Python爬虫实现自动化爬取b站实时弹幕的过程。

1、导入需要的库

import jieba # 分词
from wordcloud import WordCloud # 词云
from PIL import Image # 图片处理
import numpy as np # 图片处理
import matplotlib.pyplot as plt # 画图

2、 jieba分词

所谓的分词就是将一句话分成一个或几个词语的形式,

分词代码

# 读取停用词库,注意编码应为‘utf8'
f = open('小夜斗的停用词表.txt', encoding='utf8')
stopwords = f.read().split('\n')
print(stopwords) # 打印停用词
f.close() # 关闭停用词文件

3、打印出的为一个停用词列表

with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:
text = fp.read()

4、读取冰冰弹幕数据文件的操作,将其保存到text变量中

segs = jieba.cut(text) # 进行jieba分词
mytext_list = [] # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件
# 文本清洗
for seg in segs: # 循环遍历每一个分词文本
  # 如果该词不属于停用词表 并且非空 长度不为1
  if seg not in stopwords and seg != "" and len(seg) != 1:
    # 将该词语添加到mytext_list列表中
    mytext_list.append(seg.replace(" ", ""))
print(mytext_list) # 打印过滤后的冰冰弹幕数据

5、获取过滤停用词后的冰冰弹幕数据

cloud_text = ",".join(mytext_list) # 连接列表里面的词语
print(cloud_text)

到此这篇关于Python爬虫自动化爬取b站实时弹幕实例方法的文章就介绍到这了,更多相关Python爬虫如何实现自动化爬取b站实时弹幕内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中的面向对象编程详解(下)
Apr 13 Python
Python金融数据可视化汇总
Nov 17 Python
PyQt5实现QLineEdit添加clicked信号的方法
Jun 25 Python
Pyqt QImage 与 np array 转换方法
Jun 27 Python
Python识别快递条形码及Tesseract-OCR使用详解
Jul 15 Python
Python脚本操作Excel实现批量替换功能
Nov 20 Python
解决python彩色螺旋线绘制引发的问题
Nov 23 Python
Tensorflow矩阵运算实例(矩阵相乘,点乘,行/列累加)
Feb 05 Python
Python如何实现后端自定义认证并实现多条件登陆
Jun 22 Python
从python读取sql的实例方法
Jul 21 Python
scrapy利用selenium爬取豆瓣阅读的全步骤
Sep 20 Python
Python数据可视化之Seaborn的安装及使用
Apr 19 Python
python 实现的车牌识别项目
Jan 25 #Python
Python实现给PDF添加水印的方法
Jan 25 #Python
2021年值得向Python开发者推荐的VS Code扩展插件
Jan 25 #Python
numba提升python运行速度的实例方法
Jan 25 #Python
python中K-means算法基础知识点
Jan 25 #Python
python中HTMLParser模块知识点总结
Jan 25 #Python
pycharm配置QtDesigner的超详细方法
Jan 25 #Python
You might like
php反弹shell实现代码
2009/04/22 PHP
mysql,mysqli,PDO的各自不同介绍
2012/09/19 PHP
解析link_mysql的php版
2013/06/30 PHP
thinkphp中ajax与php响应过程详解
2014/12/08 PHP
PHP翻页跳转功能实现方法
2020/11/30 PHP
php使用curl下载指定大小的文件实例代码
2017/09/30 PHP
PHP正则匹配到2个字符串之间的内容方法
2018/12/24 PHP
Yii使用EasyWechat实现小程序获取用户的openID的方法
2020/04/29 PHP
js用图作提交按钮或超连接
2008/03/26 Javascript
javascript dom 基本操作小结
2010/04/11 Javascript
让textarea自动调整大小的js代码
2011/04/12 Javascript
拖动table标题实现改变td的大小(css+js代码)
2013/04/16 Javascript
jquery实现加载等待效果示例
2013/09/25 Javascript
用jquery统计子菜单的条数示例代码
2013/10/18 Javascript
Jquery选择器中使用变量实现动态选择例子
2014/07/25 Javascript
详解Node.js包的工程目录与NPM包管理器的使用
2016/02/16 Javascript
Angular指令封装jQuery日期时间插件datetimepicker实现双向绑定示例
2017/01/22 Javascript
AngularJS改变元素显示状态
2017/04/20 Javascript
JavaScript中立即执行函数实例详解
2017/11/04 Javascript
JavaScript从原型到原型链深入理解
2019/06/03 Javascript
vue-router跳转时打开新页面的两种方法
2019/07/29 Javascript
layui-select动态选中值的例子
2019/09/23 Javascript
python爬虫爬取快手视频多线程下载功能
2018/02/28 Python
Django重置migrations文件的方法步骤
2019/05/01 Python
python读写csv文件方法详细总结
2019/07/05 Python
手把手教你安装Windows版本的Tensorflow
2020/03/26 Python
css3实现背景动态渐变效果
2019/12/10 HTML / CSS
董事长秘书岗位职责
2013/11/29 职场文书
单位委托书范本
2014/04/04 职场文书
《闻一多先生的说和做》教学反思
2014/04/28 职场文书
医院节能减排方案
2014/06/13 职场文书
阿凡达观后感
2015/06/10 职场文书
关于应聘教师的自荐信
2016/01/28 职场文书
《自己的花是让别人看的》教学反思
2016/02/19 职场文书
正能量励志演讲稿三分钟(范文)
2019/07/11 职场文书
go原生库的中bytes.Buffer用法
2021/04/25 Golang