Python爬虫自动化爬取b站实时弹幕实例方法


Posted in Python onJanuary 26, 2021

最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱,b站也有很多up主剪辑了关于王冰冰的视频。我们都是知道b站是一个弹幕网站,那你知道如何爬取b站实时弹幕吗?本文以王冰冰视频弹幕为例,向大家介绍Python爬虫实现自动化爬取b站实时弹幕的过程。

1、导入需要的库

import jieba # 分词
from wordcloud import WordCloud # 词云
from PIL import Image # 图片处理
import numpy as np # 图片处理
import matplotlib.pyplot as plt # 画图

2、 jieba分词

所谓的分词就是将一句话分成一个或几个词语的形式,

分词代码

# 读取停用词库,注意编码应为‘utf8'
f = open('小夜斗的停用词表.txt', encoding='utf8')
stopwords = f.read().split('\n')
print(stopwords) # 打印停用词
f.close() # 关闭停用词文件

3、打印出的为一个停用词列表

with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:
text = fp.read()

4、读取冰冰弹幕数据文件的操作,将其保存到text变量中

segs = jieba.cut(text) # 进行jieba分词
mytext_list = [] # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件
# 文本清洗
for seg in segs: # 循环遍历每一个分词文本
  # 如果该词不属于停用词表 并且非空 长度不为1
  if seg not in stopwords and seg != "" and len(seg) != 1:
    # 将该词语添加到mytext_list列表中
    mytext_list.append(seg.replace(" ", ""))
print(mytext_list) # 打印过滤后的冰冰弹幕数据

5、获取过滤停用词后的冰冰弹幕数据

cloud_text = ",".join(mytext_list) # 连接列表里面的词语
print(cloud_text)

到此这篇关于Python爬虫自动化爬取b站实时弹幕实例方法的文章就介绍到这了,更多相关Python爬虫如何实现自动化爬取b站实时弹幕内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python库urllib与urllib2主要区别分析
Jul 13 Python
零基础写python爬虫之使用Scrapy框架编写爬虫
Nov 07 Python
wxPython中listbox用法实例详解
Jun 01 Python
Python编程中使用Pillow来处理图像的基础教程
Nov 20 Python
Python实现的微信公众号群发图片与文本消息功能实例详解
Jun 30 Python
python 统计数组中元素出现次数并进行排序的实例
Jul 02 Python
python八皇后问题的解决方法
Sep 27 Python
淘宝秒杀python脚本 扫码登录版
Sep 19 Python
python 实现将list转成字符串,中间用空格隔开
Dec 25 Python
在Python中使用K-Means聚类和PCA主成分分析进行图像压缩
Apr 10 Python
python使用openpyxl操作excel的方法步骤
May 28 Python
python3.4中清屏的处理方法
Jul 06 Python
python 实现的车牌识别项目
Jan 25 #Python
Python实现给PDF添加水印的方法
Jan 25 #Python
2021年值得向Python开发者推荐的VS Code扩展插件
Jan 25 #Python
numba提升python运行速度的实例方法
Jan 25 #Python
python中K-means算法基础知识点
Jan 25 #Python
python中HTMLParser模块知识点总结
Jan 25 #Python
pycharm配置QtDesigner的超详细方法
Jan 25 #Python
You might like
PHP 多维数组排序(usort,uasort)
2010/06/30 PHP
抓取并下载CSS中所有图片文件的php代码
2011/09/26 PHP
php处理斐波那契数列非递归方法
2012/02/04 PHP
PHP函数http_build_query使用详解
2014/08/20 PHP
PHP实现的二分查找算法实例分析
2017/12/19 PHP
Laravel框架在本地虚拟机快速安装的方法详解
2018/06/11 PHP
php连接mysql之mysql_connect()与mysqli_connect()的区别
2020/07/19 PHP
javascript 清空form表单中某种元素的值
2009/12/26 Javascript
javascript中万恶的function实例分析
2011/05/25 Javascript
javascript函数重载解决方案分享
2014/02/19 Javascript
JavaScript插件化开发教程 (二)
2015/01/27 Javascript
微信+angularJS的SPA应用中用router进行页面跳转,jssdk校验失败问题解决
2016/09/09 Javascript
WEB前端实现裁剪上传图片功能
2016/10/17 Javascript
基于Vue如何封装分页组件
2016/12/16 Javascript
js实现返回顶部效果
2017/03/10 Javascript
详解Angular2表单-模板驱动的表单(Template-Driven Forms)
2017/08/04 Javascript
JS对象序列化成json数据和json数据转化为JS对象的代码
2017/08/23 Javascript
微信小程序之发送短信倒计时功能
2017/08/30 Javascript
vue.js项目打包上线的图文教程
2017/11/16 Javascript
详解Vue结合后台的列表增删改案例
2018/08/21 Javascript
vue里面v-bind和Props 利用props绑定动态数据的方法
2018/08/27 Javascript
python和ruby,我选谁?
2017/09/13 Python
matplotlib基础绘图命令之imshow的使用
2020/08/13 Python
浅析rem和em和px vh vw和% 移动端长度单位
2016/04/28 HTML / CSS
设计师家具购买和委托在线市场:Viyet
2016/11/16 全球购物
高三自我鉴定范文
2013/10/19 职场文书
公务员职务工作的自我评价
2013/11/01 职场文书
作风建设演讲稿
2014/05/23 职场文书
好的促销活动方案
2014/08/21 职场文书
群众对十八届四中全会的期盼
2014/10/17 职场文书
中标通知书
2015/04/17 职场文书
二审答辩状格式
2015/05/22 职场文书
党员心得体会范文2016
2016/01/23 职场文书
感谢信
2019/04/11 职场文书
解析laravel使用workerman用户交互、服务器交互
2021/04/28 PHP
MySQL 发生同步延迟时Seconds_Behind_Master还为0的原因
2021/06/21 MySQL