Python爬虫自动化爬取b站实时弹幕实例方法


Posted in Python onJanuary 26, 2021

最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱,b站也有很多up主剪辑了关于王冰冰的视频。我们都是知道b站是一个弹幕网站,那你知道如何爬取b站实时弹幕吗?本文以王冰冰视频弹幕为例,向大家介绍Python爬虫实现自动化爬取b站实时弹幕的过程。

1、导入需要的库

import jieba # 分词
from wordcloud import WordCloud # 词云
from PIL import Image # 图片处理
import numpy as np # 图片处理
import matplotlib.pyplot as plt # 画图

2、 jieba分词

所谓的分词就是将一句话分成一个或几个词语的形式,

分词代码

# 读取停用词库,注意编码应为‘utf8'
f = open('小夜斗的停用词表.txt', encoding='utf8')
stopwords = f.read().split('\n')
print(stopwords) # 打印停用词
f.close() # 关闭停用词文件

3、打印出的为一个停用词列表

with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:
text = fp.read()

4、读取冰冰弹幕数据文件的操作,将其保存到text变量中

segs = jieba.cut(text) # 进行jieba分词
mytext_list = [] # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件
# 文本清洗
for seg in segs: # 循环遍历每一个分词文本
  # 如果该词不属于停用词表 并且非空 长度不为1
  if seg not in stopwords and seg != "" and len(seg) != 1:
    # 将该词语添加到mytext_list列表中
    mytext_list.append(seg.replace(" ", ""))
print(mytext_list) # 打印过滤后的冰冰弹幕数据

5、获取过滤停用词后的冰冰弹幕数据

cloud_text = ",".join(mytext_list) # 连接列表里面的词语
print(cloud_text)

到此这篇关于Python爬虫自动化爬取b站实时弹幕实例方法的文章就介绍到这了,更多相关Python爬虫如何实现自动化爬取b站实时弹幕内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python常用web框架简单性能测试结果分享(包含django、flask、bottle、tornado)
Aug 25 Python
python自动截取需要区域,进行图像识别的方法
May 17 Python
python3实现微型的web服务器
Sep 03 Python
Python 函数用法简单示例【定义、参数、返回值、函数嵌套】
Sep 20 Python
学python安装的软件总结
Oct 12 Python
解决pycharm中opencv-python导入cv2后无法自动补全的问题(不用作任何文件上的修改)
Mar 05 Python
Django 删除upload_to文件的步骤
Mar 30 Python
python 错误处理 assert详解
Apr 20 Python
基于django2.2连oracle11g解决版本冲突的问题
Jul 02 Python
Python filter()及reduce()函数使用方法解析
Sep 05 Python
python与idea的集成的实现
Nov 20 Python
Python入门之基础语法详解
May 11 Python
python 实现的车牌识别项目
Jan 25 #Python
Python实现给PDF添加水印的方法
Jan 25 #Python
2021年值得向Python开发者推荐的VS Code扩展插件
Jan 25 #Python
numba提升python运行速度的实例方法
Jan 25 #Python
python中K-means算法基础知识点
Jan 25 #Python
python中HTMLParser模块知识点总结
Jan 25 #Python
pycharm配置QtDesigner的超详细方法
Jan 25 #Python
You might like
一个完整的PHP类包含的七种语法说明
2015/06/04 PHP
又拍云异步上传实例教程详解
2016/04/19 PHP
php如何获取Http请求
2020/04/30 PHP
toString()一个会自动调用的方法
2010/02/08 Javascript
javascript中字符串拼接需注意的问题
2010/07/13 Javascript
为超链接加上disabled后的故事
2010/12/10 Javascript
Jquery下:nth-child(an+b)的使用注意
2011/05/28 Javascript
同一页面多个商品倒计时JS 基于面向对象的javascript
2012/02/16 Javascript
使用iframe window的scroll方法控制iframe页面滚动
2014/03/05 Javascript
jquery中使用循环下拉菜单示例代码
2014/09/24 Javascript
Extjs实现下拉菜单效果
2016/04/01 Javascript
微信小程序 自己制作小组件实例详解
2016/12/22 Javascript
JavaScript实现的商品抢购倒计时功能示例
2017/04/17 Javascript
AngularJS select加载数据选中默认值的方法
2018/02/28 Javascript
通过vue提供的keep-alive减少对服务器的请求次数
2018/04/01 Javascript
js代码规范之Eslint安装与配置详解
2018/09/08 Javascript
Vue 组件注册实例详解
2019/02/23 Javascript
Vue路由模块化配置的完整步骤
2019/08/14 Javascript
js实现购物车商品数量加减
2020/09/21 Javascript
[00:36]DOTA2风云人物相约完美“圣”典 12月17日不见不散
2016/11/30 DOTA
Python生成随机密码
2015/03/10 Python
Python文件读取的3种方法及路径转义
2015/06/21 Python
python中的迭代和可迭代对象代码示例
2017/12/27 Python
树莓派实现移动拍照
2019/06/22 Python
python闭包与引用以及需要注意的陷阱
2020/09/18 Python
python自动化测试三部曲之unittest框架的实现
2020/10/07 Python
GitHub上值得推荐的8个python 项目
2020/10/30 Python
使用Python实现音频双通道分离
2020/12/25 Python
系统管理员的职责包括那些?管理的对象是什么?
2016/09/20 面试题
UNIX文件系统常用命令
2012/05/25 面试题
意向书范文
2014/03/31 职场文书
2014年林业工作总结
2014/12/05 职场文书
2016年小学生教师节广播稿
2015/12/18 职场文书
修辞手法有哪些?
2019/08/29 职场文书
Python利用folium实现地图可视化
2021/05/23 Python
springboot+zookeeper实现分布式锁
2022/03/21 Java/Android