Python爬虫自动化爬取b站实时弹幕实例方法


Posted in Python onJanuary 26, 2021

最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱,b站也有很多up主剪辑了关于王冰冰的视频。我们都是知道b站是一个弹幕网站,那你知道如何爬取b站实时弹幕吗?本文以王冰冰视频弹幕为例,向大家介绍Python爬虫实现自动化爬取b站实时弹幕的过程。

1、导入需要的库

import jieba # 分词
from wordcloud import WordCloud # 词云
from PIL import Image # 图片处理
import numpy as np # 图片处理
import matplotlib.pyplot as plt # 画图

2、 jieba分词

所谓的分词就是将一句话分成一个或几个词语的形式,

分词代码

# 读取停用词库,注意编码应为‘utf8'
f = open('小夜斗的停用词表.txt', encoding='utf8')
stopwords = f.read().split('\n')
print(stopwords) # 打印停用词
f.close() # 关闭停用词文件

3、打印出的为一个停用词列表

with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:
text = fp.read()

4、读取冰冰弹幕数据文件的操作,将其保存到text变量中

segs = jieba.cut(text) # 进行jieba分词
mytext_list = [] # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件
# 文本清洗
for seg in segs: # 循环遍历每一个分词文本
  # 如果该词不属于停用词表 并且非空 长度不为1
  if seg not in stopwords and seg != "" and len(seg) != 1:
    # 将该词语添加到mytext_list列表中
    mytext_list.append(seg.replace(" ", ""))
print(mytext_list) # 打印过滤后的冰冰弹幕数据

5、获取过滤停用词后的冰冰弹幕数据

cloud_text = ",".join(mytext_list) # 连接列表里面的词语
print(cloud_text)

到此这篇关于Python爬虫自动化爬取b站实时弹幕实例方法的文章就介绍到这了,更多相关Python爬虫如何实现自动化爬取b站实时弹幕内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
采用Psyco实现python执行速度提高到与编译语言一样的水平
Oct 11 Python
Python实现短网址ShortUrl的Hash运算实例讲解
Aug 10 Python
Python如何生成树形图案
Jan 03 Python
Python日志模块logging基本用法分析
Aug 23 Python
在PYQT5中QscrollArea(滚动条)的使用方法
Jun 14 Python
浅谈python多进程共享变量Value的使用tips
Jul 16 Python
解决jupyter notebook 出现In[*]的问题
Apr 13 Python
什么是Python中的顺序表
Jun 02 Python
python实现二分类和多分类的ROC曲线教程
Jun 15 Python
django数据模型中null和blank的区别说明
Sep 02 Python
scrapy中如何设置应用cookies的方法(3种)
Sep 22 Python
Python日志打印里logging.getLogger源码分析详解
Jan 17 Python
python 实现的车牌识别项目
Jan 25 #Python
Python实现给PDF添加水印的方法
Jan 25 #Python
2021年值得向Python开发者推荐的VS Code扩展插件
Jan 25 #Python
numba提升python运行速度的实例方法
Jan 25 #Python
python中K-means算法基础知识点
Jan 25 #Python
python中HTMLParser模块知识点总结
Jan 25 #Python
pycharm配置QtDesigner的超详细方法
Jan 25 #Python
You might like
PHP脚本的10个技巧(5)
2006/10/09 PHP
PHP实现GIF图片验证码
2015/11/04 PHP
jQuery 技巧小结
2010/04/02 Javascript
jQuery autocomplate 自扩展插件、自动完成示例代码
2011/03/28 Javascript
基于jquery & json的省市区联动代码
2012/06/26 Javascript
js获取select选中的option的text示例代码
2013/12/19 Javascript
jQuery中$.click()无效问题分析
2015/01/29 Javascript
JQuery实现动态添加删除评论的方法
2015/05/18 Javascript
Bootstrap基本插件学习笔记之折叠(22)
2016/12/08 Javascript
JS中页面与页面之间超链接跳转中文乱码问题的解决办法
2016/12/15 Javascript
Easyui Tree获取当前选择节点的所有顶级父节点
2017/02/14 Javascript
使用jQuery实现一个类似GridView的编辑,更新,取消和删除的功能
2017/03/15 Javascript
Vue实现购物车功能
2017/04/27 Javascript
浅谈 Vue v-model指令的实现原理
2017/06/08 Javascript
jQuery实现验证表单密码一致性及正则表达式验证邮箱、手机号的方法
2017/12/05 jQuery
基于Swiper实现移动端页面图片轮播效果
2017/12/28 Javascript
jQuery中ajax请求后台返回json数据并渲染HTML的方法
2018/08/08 jQuery
vue计算属性computed的使用方法示例
2019/03/13 Javascript
JavaScript箭头函数中的this详解
2019/06/19 Javascript
JS几个常用的函数和对象定义与用法示例
2020/01/15 Javascript
如何使用jQuery操作Cookies方法解析
2020/09/08 jQuery
vue实现轮播图帧率播放
2021/01/26 Vue.js
python 查找文件夹下所有文件 实现代码
2009/07/01 Python
python基础教程之元组操作使用详解
2014/03/25 Python
一则python3的简单爬虫代码
2014/05/26 Python
浅谈Python生成器generator之next和send的运行流程(详解)
2017/05/08 Python
Python书单 不将就
2017/07/11 Python
Python数据结构与算法之链表定义与用法实例详解【单链表、循环链表】
2017/09/28 Python
Python实现生成随机日期字符串的方法示例
2017/12/25 Python
python3实现字符串操作的实例代码
2019/04/16 Python
pyqt5 使用cv2 显示图片,摄像头的实例
2019/06/27 Python
PyCharm vs VSCode,作为python开发者,你更倾向哪种IDE呢?
2020/08/17 Python
大二学生学习个人自我评价
2014/01/19 职场文书
大学生优秀自荐信范文
2014/02/25 职场文书
事业单位人员的自我评价范文
2014/09/21 职场文书
2016元旦主持人经典开场白台词
2015/12/03 职场文书