编程 Python

Python爬虫自动化爬取b站实时弹幕实例方法

Posted in Python onJanuary 26, 2021

最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱，b站也有很多up主剪辑了关于王冰冰的视频。我们都是知道b站是一个弹幕网站，那你知道如何爬取b站实时弹幕吗？本文以王冰冰视频弹幕为例，向大家介绍Python爬虫实现自动化爬取b站实时弹幕的过程。

1、导入需要的库

import jieba # 分词
from wordcloud import WordCloud # 词云
from PIL import Image # 图片处理
import numpy as np # 图片处理
import matplotlib.pyplot as plt # 画图

2、 jieba分词

所谓的分词就是将一句话分成一个或几个词语的形式，

分词代码

# 读取停用词库,注意编码应为‘utf8'
f = open('小夜斗的停用词表.txt', encoding='utf8')
stopwords = f.read().split('\n')
print(stopwords) # 打印停用词
f.close() # 关闭停用词文件

3、打印出的为一个停用词列表

with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:
text = fp.read()

4、读取冰冰弹幕数据文件的操作，将其保存到text变量中

segs = jieba.cut(text) # 进行jieba分词
mytext_list = [] # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件
# 文本清洗
for seg in segs: # 循环遍历每一个分词文本
  # 如果该词不属于停用词表 并且非空 长度不为1
  if seg not in stopwords and seg != "" and len(seg) != 1:
    # 将该词语添加到mytext_list列表中
    mytext_list.append(seg.replace(" ", ""))
print(mytext_list) # 打印过滤后的冰冰弹幕数据

5、获取过滤停用词后的冰冰弹幕数据

cloud_text = ",".join(mytext_list) # 连接列表里面的词语
print(cloud_text)

到此这篇关于Python爬虫自动化爬取b站实时弹幕实例方法的文章就介绍到这了,更多相关Python爬虫如何实现自动化爬取b站实时弹幕内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Python爬虫自动化爬取b站实时弹幕实例方法

- Author -

宋宋大人

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

使用python解析xml成对应的html示例分享

Apr 02 Python

实例Python处理XML文件的方法

Aug 31 Python

详解Python pygame安装过程笔记

Jun 05 Python

基于Django的ModelForm组件(详解)

Dec 07 Python

python导出chrome书签到markdown文件的实例代码

Dec 27 Python

python使用Flask操作mysql实现登录功能

May 14 Python

python爬虫爬取微博评论案例详解

Mar 27 Python

Python常用模块logging——日志输出功能(示例代码)

Nov 20 Python

使用Keras中的ImageDataGenerator进行批次读图方式

Jun 17 Python

Python selenium键盘鼠标事件实现过程详解

Jul 28 Python

python设置 matplotlib 正确显示中文的四种方式

May 10 Python

使用Pytorch训练two-head网络的操作

May 28 Python

python 实现的车牌识别项目

Jan 25 #Python

Python实现给PDF添加水印的方法

Jan 25 #Python

2021年值得向Python开发者推荐的VS Code扩展插件

Jan 25 #Python

numba提升python运行速度的实例方法

Jan 25 #Python

python中K-means算法基础知识点

Jan 25 #Python

python中HTMLParser模块知识点总结

Jan 25 #Python

pycharm配置QtDesigner的超详细方法

Jan 25 #Python

You might like

如何做到多笔资料的同步

2006/10/09 PHP

php判断ip黑名单程序代码实例

2014/02/24 PHP

php给图片加文字水印

2015/07/31 PHP

PHP的Yii框架入门使用教程

2016/02/15 PHP

php实现当前页面点击下载文件的实例代码

2016/11/16 PHP

JavaScript入门教程(1) 什么是JS

2009/01/31 Javascript

某页码显示的helper 少量调整，另附js版

2010/09/12 Javascript

灵活应用js调试技巧解决样式问题的步骤分享

2012/03/15 Javascript

学习从实践开始之jQuery插件开发对话框插件开发

2012/04/26 Javascript

jQuery表单获取和失去焦点输入框提示效果的实例代码

2013/08/01 Javascript

原生js实现复制对象、扩展对象类似jquery中的extend()方法

2014/08/30 Javascript

JS实现自适应高度表单文本框的方法

2015/02/25 Javascript

JS组件Bootstrap ContextMenu右键菜单使用方法

2016/04/17 Javascript

JQuery Dialog对话框不能通过Esc关闭的原因分析及解决办法

2017/01/18 Javascript

对vue 键盘回车事件的实例讲解

2018/08/25 Javascript

js实现多张图片每隔一秒切换一张图片

2019/07/29 Javascript

javascript设计模式 ? 适配器模式原理与应用实例分析

2020/04/13 Javascript

Vue实现简单的拖拽效果

2020/08/25 Javascript

Python自动登录126邮箱的方法

2015/07/10 Python

Python 自动刷博客浏览量实例代码

2017/06/14 Python

python中csv文件的若干读写方法小结

2018/07/04 Python

Django实战之用户认证（初始配置）

2018/07/16 Python

python实现指定文件夹下的指定文件移动到指定位置

2018/09/17 Python

解决python3中的requests解析中文页面出现乱码问题

2019/04/19 Python

windows下python安装pip方法详解

2020/02/10 Python

pytorch实现seq2seq时对loss进行mask的方式

2020/02/18 Python

Python接口测试文件上传实例解析

2020/05/22 Python

python读取图像矩阵文件并转换为向量实例

2020/06/18 Python

HTML5不支持frameset的两种解决方法

2016/11/14 HTML / CSS

您的网上新华书店：文轩网

2016/08/24 全球购物

《夸父追日》教学反思

2014/02/26 职场文书

求职简历自荐信怎么写

2015/03/26 职场文书

《绝招》教学反思

2016/02/20 职场文书

python ansible自动化运维工具执行流程

2021/06/24 Python

javascript拖曳互换div的位置实现示例

2021/06/28 Javascript

Win11怎么进入安全模式？Windows 11进入安全模式的方法

2021/11/21 数码科技