Python爬虫自动化爬取b站实时弹幕实例方法


Posted in Python onJanuary 26, 2021

最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱,b站也有很多up主剪辑了关于王冰冰的视频。我们都是知道b站是一个弹幕网站,那你知道如何爬取b站实时弹幕吗?本文以王冰冰视频弹幕为例,向大家介绍Python爬虫实现自动化爬取b站实时弹幕的过程。

1、导入需要的库

import jieba # 分词
from wordcloud import WordCloud # 词云
from PIL import Image # 图片处理
import numpy as np # 图片处理
import matplotlib.pyplot as plt # 画图

2、 jieba分词

所谓的分词就是将一句话分成一个或几个词语的形式,

分词代码

# 读取停用词库,注意编码应为‘utf8'
f = open('小夜斗的停用词表.txt', encoding='utf8')
stopwords = f.read().split('\n')
print(stopwords) # 打印停用词
f.close() # 关闭停用词文件

3、打印出的为一个停用词列表

with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:
text = fp.read()

4、读取冰冰弹幕数据文件的操作,将其保存到text变量中

segs = jieba.cut(text) # 进行jieba分词
mytext_list = [] # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件
# 文本清洗
for seg in segs: # 循环遍历每一个分词文本
  # 如果该词不属于停用词表 并且非空 长度不为1
  if seg not in stopwords and seg != "" and len(seg) != 1:
    # 将该词语添加到mytext_list列表中
    mytext_list.append(seg.replace(" ", ""))
print(mytext_list) # 打印过滤后的冰冰弹幕数据

5、获取过滤停用词后的冰冰弹幕数据

cloud_text = ",".join(mytext_list) # 连接列表里面的词语
print(cloud_text)

到此这篇关于Python爬虫自动化爬取b站实时弹幕实例方法的文章就介绍到这了,更多相关Python爬虫如何实现自动化爬取b站实时弹幕内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python动态监控日志内容的示例
Feb 16 Python
深入讲解Python中面向对象编程的相关知识
May 25 Python
Python中的pack和unpack的使用
Mar 12 Python
Python绘制KS曲线的实现方法
Aug 13 Python
Python中实例化class的执行顺序示例详解
Oct 14 Python
浅析Python与Mongodb数据库之间的操作方法
Jul 01 Python
基于多进程中APScheduler重复运行的解决方法
Jul 22 Python
使用coverage统计python web项目代码覆盖率的方法详解
Aug 05 Python
Django RBAC权限管理设计过程详解
Aug 06 Python
Flask之pipenv虚拟环境的实现
Nov 26 Python
用python进行视频剪辑
Nov 02 Python
matplotlib阶梯图的实现(step())
Mar 02 Python
python 实现的车牌识别项目
Jan 25 #Python
Python实现给PDF添加水印的方法
Jan 25 #Python
2021年值得向Python开发者推荐的VS Code扩展插件
Jan 25 #Python
numba提升python运行速度的实例方法
Jan 25 #Python
python中K-means算法基础知识点
Jan 25 #Python
python中HTMLParser模块知识点总结
Jan 25 #Python
pycharm配置QtDesigner的超详细方法
Jan 25 #Python
You might like
《魔兽争霸3》重制版究竟重制了什么?玩家:这么糊弄真的好吗?
2020/05/04 魔兽争霸
PHP字符串 ==比较运算符的副作用
2009/10/21 PHP
php 模拟POST|GET操作实现代码
2010/07/20 PHP
PHP中对用户身份认证实现两种方法
2011/06/04 PHP
PHP全概率运算函数(优化版) Webgame开发必备
2011/07/04 PHP
php中实现简单的ACL 完结篇
2011/09/07 PHP
解析php获取字符串的编码格式的方法(函数)
2013/06/21 PHP
php对数组内元素进行随机调换的方法
2015/05/12 PHP
php中__toString()方法用法示例
2016/12/07 PHP
laravel实现图片上传预览,及编辑时可更换图片,并实时变化的例子
2019/11/14 PHP
toString()一个会自动调用的方法
2010/02/08 Javascript
input输入框鼠标焦点提示信息
2015/03/17 Javascript
jQuery中prepend()方法使用详解
2015/08/11 Javascript
JavaScript代码性能优化总结(推荐)
2016/05/16 Javascript
xmlplus组件设计系列之图标(ICON)(1)
2017/05/05 Javascript
详解关于Vue版本不匹配问题(Vue packages version mismatch)
2018/09/17 Javascript
Vue实现导航栏的显示开关控制
2019/11/01 Javascript
JS实现打砖块游戏
2020/02/14 Javascript
15个简单的JS编码标准让你的代码更整洁(小结)
2020/07/16 Javascript
[00:36]DOTA2风云人物相约完美“圣”典 12月17日不见不散
2016/11/30 DOTA
python实现简单淘宝秒杀功能
2018/05/03 Python
Python中logging实例讲解
2019/01/17 Python
树莓派升级python的具体步骤
2020/07/05 Python
Python importlib模块重载使用方法详解
2020/10/13 Python
只要五步 就可以用HTML5/CSS3快速制作便签贴特效(图)
2012/06/04 HTML / CSS
俄罗斯电子产品在线商店:UltraTrade
2020/01/30 全球购物
Android interview questions
2016/12/25 面试题
自荐信要包含哪些内容
2013/11/06 职场文书
临床医师专业个人自我评价范文
2013/11/07 职场文书
会议主持词
2014/03/17 职场文书
教师演讲稿开场白
2014/08/25 职场文书
党的群众路线教育实践活动学习计划
2014/11/03 职场文书
2014年收银工作总结
2014/11/13 职场文书
导游词之蜀山胜景瓦屋山
2019/11/29 职场文书
SpringBoot工程下使用OpenFeign的坑及解决
2021/07/02 Java/Android
MySQL导致索引失效的几种情况
2022/06/25 MySQL