Python爬虫自动化爬取b站实时弹幕实例方法


Posted in Python onJanuary 26, 2021

最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱,b站也有很多up主剪辑了关于王冰冰的视频。我们都是知道b站是一个弹幕网站,那你知道如何爬取b站实时弹幕吗?本文以王冰冰视频弹幕为例,向大家介绍Python爬虫实现自动化爬取b站实时弹幕的过程。

1、导入需要的库

import jieba # 分词
from wordcloud import WordCloud # 词云
from PIL import Image # 图片处理
import numpy as np # 图片处理
import matplotlib.pyplot as plt # 画图

2、 jieba分词

所谓的分词就是将一句话分成一个或几个词语的形式,

分词代码

# 读取停用词库,注意编码应为‘utf8'
f = open('小夜斗的停用词表.txt', encoding='utf8')
stopwords = f.read().split('\n')
print(stopwords) # 打印停用词
f.close() # 关闭停用词文件

3、打印出的为一个停用词列表

with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:
text = fp.read()

4、读取冰冰弹幕数据文件的操作,将其保存到text变量中

segs = jieba.cut(text) # 进行jieba分词
mytext_list = [] # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件
# 文本清洗
for seg in segs: # 循环遍历每一个分词文本
  # 如果该词不属于停用词表 并且非空 长度不为1
  if seg not in stopwords and seg != "" and len(seg) != 1:
    # 将该词语添加到mytext_list列表中
    mytext_list.append(seg.replace(" ", ""))
print(mytext_list) # 打印过滤后的冰冰弹幕数据

5、获取过滤停用词后的冰冰弹幕数据

cloud_text = ",".join(mytext_list) # 连接列表里面的词语
print(cloud_text)

到此这篇关于Python爬虫自动化爬取b站实时弹幕实例方法的文章就介绍到这了,更多相关Python爬虫如何实现自动化爬取b站实时弹幕内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python兔子毒药问题实例分析
Mar 05 Python
python删除列表中重复记录的方法
Apr 28 Python
python生成随机密码或随机字符串的方法
Jul 03 Python
Python中防止sql注入的方法详解
Feb 25 Python
Python中关键字global和nonlocal的区别详解
Sep 03 Python
python 实现调用子文件下的模块方法
Dec 07 Python
Python3 实现文件批量重命名示例代码
Jun 03 Python
python字典的遍历3种方法详解
Aug 10 Python
Python 元组拆包示例(Tuple Unpacking)
Dec 24 Python
Python定时从Mysql提取数据存入Redis的实现
May 03 Python
解决pycharm修改代码后第一次运行不生效的问题
Feb 06 Python
Python函数中apply、map、applymap的区别
Nov 27 Python
python 实现的车牌识别项目
Jan 25 #Python
Python实现给PDF添加水印的方法
Jan 25 #Python
2021年值得向Python开发者推荐的VS Code扩展插件
Jan 25 #Python
numba提升python运行速度的实例方法
Jan 25 #Python
python中K-means算法基础知识点
Jan 25 #Python
python中HTMLParser模块知识点总结
Jan 25 #Python
pycharm配置QtDesigner的超详细方法
Jan 25 #Python
You might like
一段php加密解密的代码
2006/10/09 PHP
fleaphp常用方法分页之Pager使用方法
2011/04/23 PHP
php读取mysql乱码,用set names XXX解决的原理分享
2011/12/29 PHP
WordPress迁移时一些常见问题的解决方法整理
2015/11/24 PHP
实例讲解php数据访问
2016/05/09 PHP
Yii2 GridView实现列表页直接修改数据的方法
2016/05/16 PHP
thinkPHP3.x常量整理(预定义常量/路径常量/系统常量)
2016/05/20 PHP
创建无限极分类树型结构的简单方法
2017/06/20 PHP
javascript比较文档位置
2008/04/08 Javascript
用 Javascript 验证表单(form)中的单选(radio)值
2009/09/08 Javascript
JS 毫秒转时间示例代码
2013/09/22 Javascript
JavaScript更改原始对象valueOf的方法
2015/03/19 Javascript
ECMAScript5(ES5)中bind方法使用小结
2015/05/07 Javascript
jquery插件pagination实现无刷新ajax分页
2015/09/30 Javascript
Javascript中indexOf()和lastIndexOf应用方法实例
2016/08/24 Javascript
将JSON字符串转换成Map对象的方法
2016/11/30 Javascript
Node.js 中exports 和 module.exports 的区别
2017/03/14 Javascript
selenium 与 chrome 进行qq登录并发邮件操作实例详解
2017/04/06 Javascript
js的函数的按值传递参数(实例讲解)
2017/11/16 Javascript
jQuery UI实现动画效果代码分享
2018/08/19 jQuery
微信小程序自定义导航教程(兼容各种手机)
2018/12/12 Javascript
9种python web 程序的部署方式小结
2014/06/30 Python
Python中的anydbm模版和shelve模版使用指南
2015/07/09 Python
使用python实现省市三级菜单效果
2016/01/20 Python
对python:循环定义多个变量的实例详解
2019/01/20 Python
Python list列表中删除多个重复元素操作示例
2019/02/27 Python
Django Rest framework三种分页方式详解
2019/07/26 Python
HTML5中的进度条progress元素简介及兼容性处理
2016/06/02 HTML / CSS
Html5自定义字体解决方法
2019/10/09 HTML / CSS
韩国江南富人区高端时尚百货商场:Galleria(格乐丽雅)
2018/03/27 全球购物
导游的职业规划书范文
2013/12/27 职场文书
营销总经理岗位职责
2014/02/02 职场文书
加强机关作风建设心得体会
2014/10/22 职场文书
2014年政教处工作总结
2014/12/20 职场文书
2015年售票员工作总结
2015/04/29 职场文书
Apache POI的基本使用详解
2021/11/07 Servers