Python爬虫自动化爬取b站实时弹幕实例方法


Posted in Python onJanuary 26, 2021

最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱,b站也有很多up主剪辑了关于王冰冰的视频。我们都是知道b站是一个弹幕网站,那你知道如何爬取b站实时弹幕吗?本文以王冰冰视频弹幕为例,向大家介绍Python爬虫实现自动化爬取b站实时弹幕的过程。

1、导入需要的库

import jieba # 分词
from wordcloud import WordCloud # 词云
from PIL import Image # 图片处理
import numpy as np # 图片处理
import matplotlib.pyplot as plt # 画图

2、 jieba分词

所谓的分词就是将一句话分成一个或几个词语的形式,

分词代码

# 读取停用词库,注意编码应为‘utf8'
f = open('小夜斗的停用词表.txt', encoding='utf8')
stopwords = f.read().split('\n')
print(stopwords) # 打印停用词
f.close() # 关闭停用词文件

3、打印出的为一个停用词列表

with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:
text = fp.read()

4、读取冰冰弹幕数据文件的操作,将其保存到text变量中

segs = jieba.cut(text) # 进行jieba分词
mytext_list = [] # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件
# 文本清洗
for seg in segs: # 循环遍历每一个分词文本
  # 如果该词不属于停用词表 并且非空 长度不为1
  if seg not in stopwords and seg != "" and len(seg) != 1:
    # 将该词语添加到mytext_list列表中
    mytext_list.append(seg.replace(" ", ""))
print(mytext_list) # 打印过滤后的冰冰弹幕数据

5、获取过滤停用词后的冰冰弹幕数据

cloud_text = ",".join(mytext_list) # 连接列表里面的词语
print(cloud_text)

到此这篇关于Python爬虫自动化爬取b站实时弹幕实例方法的文章就介绍到这了,更多相关Python爬虫如何实现自动化爬取b站实时弹幕内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python 获取et和excel的版本号
Apr 09 Python
python实现问号表达式(?)的方法
Nov 27 Python
python使用7z解压软件备份文件脚本分享
Feb 21 Python
Python实现的自定义多线程多进程类示例
Mar 23 Python
Pycharm2017版本设置启动时默认自动打开项目的方法
Oct 29 Python
python进行文件对比的方法
Dec 24 Python
Python multiprocess pool模块报错pickling error问题解决方法分析
Mar 20 Python
python实现超市商品销售管理系统
Nov 22 Python
用python实现名片管理系统
Jun 18 Python
Python绘图之柱形图绘制详解
Jul 28 Python
Python 连接 MySQL 的几种方法
Sep 09 Python
Python3接口性能测试实例代码
Jun 20 Python
python 实现的车牌识别项目
Jan 25 #Python
Python实现给PDF添加水印的方法
Jan 25 #Python
2021年值得向Python开发者推荐的VS Code扩展插件
Jan 25 #Python
numba提升python运行速度的实例方法
Jan 25 #Python
python中K-means算法基础知识点
Jan 25 #Python
python中HTMLParser模块知识点总结
Jan 25 #Python
pycharm配置QtDesigner的超详细方法
Jan 25 #Python
You might like
在PHP上显示JFreechart画的统计图方法
2013/11/03 PHP
php把数据表导出为Excel表的最简单、最快的方法(不用插件)
2014/05/10 PHP
php函数式编程简单示例
2019/08/08 PHP
Javascript 不能释放内存.
2006/09/07 Javascript
JavaScript 异步调用框架 (Part 3 - 代码实现)
2009/08/04 Javascript
jquery.simple.tree插件 更简单,兼容性更好的无限树插件
2010/09/03 Javascript
jquery EasyUI的formatter格式化函数代码
2011/01/12 Javascript
JavaScript判断一个URL链接是否有效的实现方法
2011/10/08 Javascript
js事件(Event)知识整理
2012/10/11 Javascript
jquery mobile的触控点击事件会多次触发问题的解决方法
2014/05/08 Javascript
IE8中使用javascript动态加载CSS的解决方法
2014/06/17 Javascript
js+html5实现canvas绘制镂空字体文本的方法
2015/06/05 Javascript
jQuery中serializeArray()与serialize()的区别实例分析
2015/12/09 Javascript
原生JS实现图片轮播效果
2016/12/26 Javascript
Angular 2父子组件数据传递之@Input和@Output详解(下)
2017/07/05 Javascript
vue2组件之select2调用的示例代码
2017/10/12 Javascript
Angularjs渲染的 using 指令的星级评分系统示例
2017/11/09 Javascript
移动端图片上传旋转、压缩问题的方法
2018/10/16 Javascript
基于Vue组件化的日期联动选择器功能的实现代码
2018/11/30 Javascript
在Vue里如何把网页的数据导出到Excel的方法
2020/09/30 Javascript
vue实现禁止浏览器记住密码功能的示例代码
2021/02/03 Vue.js
[02:38]DOTA2英雄基础教程 噬魂鬼
2014/01/03 DOTA
树莓派中python获取GY-85九轴模块信息示例
2013/12/05 Python
python中元类用法实例
2014/10/10 Python
Python实现国外赌场热门游戏Craps(双骰子)
2015/03/31 Python
使用django的ORM框架按月统计近一年内的数据方法
2019/07/18 Python
python3中替换python2中cmp函数的实现
2019/08/20 Python
css3的transition属性详解
2014/12/15 HTML / CSS
英国拳击装备购物网站:RDX Sports
2018/01/23 全球购物
师范生自我鉴定范文
2013/10/05 职场文书
实习协议书
2015/01/27 职场文书
四大名著读书笔记
2015/06/25 职场文书
教师正风肃纪心得体会
2016/01/15 职场文书
《索溪峪的野》教学反思
2016/02/19 职场文书
红灯733-1型14管5波段半导体收音机
2021/04/22 无线电
MySQL中的引号和反引号的区别与用法详解
2021/10/24 MySQL