Python爬虫自动化爬取b站实时弹幕实例方法


Posted in Python onJanuary 26, 2021

最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱,b站也有很多up主剪辑了关于王冰冰的视频。我们都是知道b站是一个弹幕网站,那你知道如何爬取b站实时弹幕吗?本文以王冰冰视频弹幕为例,向大家介绍Python爬虫实现自动化爬取b站实时弹幕的过程。

1、导入需要的库

import jieba # 分词
from wordcloud import WordCloud # 词云
from PIL import Image # 图片处理
import numpy as np # 图片处理
import matplotlib.pyplot as plt # 画图

2、 jieba分词

所谓的分词就是将一句话分成一个或几个词语的形式,

分词代码

# 读取停用词库,注意编码应为‘utf8'
f = open('小夜斗的停用词表.txt', encoding='utf8')
stopwords = f.read().split('\n')
print(stopwords) # 打印停用词
f.close() # 关闭停用词文件

3、打印出的为一个停用词列表

with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:
text = fp.read()

4、读取冰冰弹幕数据文件的操作,将其保存到text变量中

segs = jieba.cut(text) # 进行jieba分词
mytext_list = [] # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件
# 文本清洗
for seg in segs: # 循环遍历每一个分词文本
  # 如果该词不属于停用词表 并且非空 长度不为1
  if seg not in stopwords and seg != "" and len(seg) != 1:
    # 将该词语添加到mytext_list列表中
    mytext_list.append(seg.replace(" ", ""))
print(mytext_list) # 打印过滤后的冰冰弹幕数据

5、获取过滤停用词后的冰冰弹幕数据

cloud_text = ",".join(mytext_list) # 连接列表里面的词语
print(cloud_text)

到此这篇关于Python爬虫自动化爬取b站实时弹幕实例方法的文章就介绍到这了,更多相关Python爬虫如何实现自动化爬取b站实时弹幕内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
用python实现的去除win下文本文件头部BOM的代码
Feb 10 Python
Python获取Linux系统下的本机IP地址代码分享
Nov 07 Python
Python使用Pandas库实现MySQL数据库的读写
Jul 06 Python
Python爬取智联招聘数据分析师岗位相关信息的方法
Aug 13 Python
Python列表元素常见操作简单示例
Oct 25 Python
关于numpy.where()函数 返回值的解释
Dec 06 Python
使用 Python 写一个简易的抽奖程序
Dec 08 Python
pandas中ix的使用详细讲解
Mar 09 Python
python爬虫学习笔记之Beautifulsoup模块用法详解
Apr 09 Python
django 实现后台从富文本提取纯文本
Jul 02 Python
基于python判断字符串括号是否闭合{}[]()
Sep 21 Python
用Python进行websocket接口测试
Oct 16 Python
python 实现的车牌识别项目
Jan 25 #Python
Python实现给PDF添加水印的方法
Jan 25 #Python
2021年值得向Python开发者推荐的VS Code扩展插件
Jan 25 #Python
numba提升python运行速度的实例方法
Jan 25 #Python
python中K-means算法基础知识点
Jan 25 #Python
python中HTMLParser模块知识点总结
Jan 25 #Python
pycharm配置QtDesigner的超详细方法
Jan 25 #Python
You might like
php更新mysql后获取影响的行数发生异常解决方法
2013/03/28 PHP
PHP可变函数的使用详解
2013/06/14 PHP
无刷新动态加载数据 滚动条加载适合评论等页面
2013/10/16 PHP
ThinkPHP CURD方法之limit方法详解
2014/06/18 PHP
深入学习微信网址链接解封的防封原理visit_type
2019/08/15 PHP
广告切换效果(缓动切换)
2009/05/27 Javascript
使用js实现一个可编辑的select下拉列表
2014/02/20 Javascript
jquery队列queue与原生模仿其实现方法分享
2014/03/25 Javascript
js调试系列 断点与动态调试[基础篇]
2014/06/18 Javascript
JS实现自动变化的导航菜单效果代码
2015/09/09 Javascript
jQuery form插件之ajaxForm()和ajaxSubmit()的可选参数项对象
2016/01/23 Javascript
js验证真实姓名与身份证号,手机号的简单实例
2016/07/18 Javascript
gulp加批处理(.bat)实现ng多应用一键自动化构建
2017/02/16 Javascript
node.js 抓取代理ip实例代码
2017/04/30 Javascript
validationEngine 表单验证插件使用实例代码
2017/06/15 Javascript
详解javascript中的Error对象
2019/04/25 Javascript
vue键盘事件点击事件加native操作
2020/07/27 Javascript
Python基本数据类型详细介绍
2014/03/11 Python
Python实现CET查分的方法
2015/03/10 Python
使用apidoc管理RESTful风格Flask项目接口文档方法
2018/02/07 Python
Python中矩阵创建和矩阵运算方法
2018/08/04 Python
对python中大文件的导入与导出方法详解
2018/12/28 Python
浅谈pyqt5中信号与槽的认识
2019/02/17 Python
Python pandas.DataFrame调整列顺序及修改index名的方法
2019/06/21 Python
Python3 翻转二叉树的实现
2019/09/30 Python
tensorflow mnist 数据加载实现并画图效果
2020/02/05 Python
Hotels.com加拿大:领先的在线住宿网站
2018/10/05 全球购物
Proenza Schouler官方网站:纽约女装和配饰品牌
2019/01/03 全球购物
业务经理岗位职责
2013/11/11 职场文书
自我评价范文分享
2014/01/04 职场文书
应聘医药销售自荐书范文
2014/02/08 职场文书
小学社团活动总结
2014/06/27 职场文书
对照四风自我剖析材料
2014/10/07 职场文书
教师批评与自我批评发言稿
2014/10/15 职场文书
2014年党的群众路线学习心得体会
2014/11/05 职场文书
vue使用watch监听属性变化
2022/04/30 Vue.js