Python脚本如何在bilibili中查找弹幕发送者


Posted in Python onJune 04, 2020

       总所周知bilibili是没有办法直接查看弹幕的发送者的,这使得当我们看到一些nt弹幕的时候虽然生气,却无可奈何,但是B站是可以屏蔽某个用户发送的弹幕的,这说明数据接口里肯定有用户信息,由于最近在学爬虫,所以我想先找找弹幕接口,分析下里面的数据。

找接口

       找接口当然是随便打开一个视频然后F12啦,可是当我找了两圈后我傻眼了,没找到啊。。得,不能把时间浪费在这种事情上,果断打开百度,不出所料,找到了如下的两个接口,都是XML格式网页

https://comment.bilibili.com/+cid
https://api.bilibili.com/x/v1/dm/list.so?oid=+cid

       这里面的cid是一种每个视频独有的数字,也就是每一P都有一个cid,查找cid可以打开网页然后F12,再ctrl+f搜索cid,一般八九位数的就是cid了。

       这里我找到了一个接口,可以通过aid找到cid

https://www.bilibili.com/widget/getPageList?aid=+aid

分析数据

       弹幕数据是获取到了,那么我们就要从这一堆数据中分析他们的用途了

Python脚本如何在bilibili中查找弹幕发送者

       这里大概能得到两个信息,其中第6个数据为时间戳第8个数据为用户uid的某种加密方式。经查询得到这是用户uid经过crc32校验得到的结果转为16进制数,所以只能通过uid得到对于的校验码,无法反推。。似乎只能通过彩虹表的方式查找数据了?那么这串8位16进制的数字在数据库中要用什么方式保存呢?
       选择似乎有varchar和bigint,由于B站有差不多6亿个用户,在6亿个数据中查找想要的字符串那速度必然很慢(但有人经测试得到varchar型数据和bigint型数据查找速度其实差的不多?)
       就在我决定用bigint储存数据时,我突然想到,8位16进制那就是2的32次方,int型的储存上限时2的31次方,如果用无符号的方式保存正好是2的32次方,也就是能储存到0xffffffff这么大的数据,正好满足要求。于是果断换成无符号int,与之对应的id也为无符号int,并将crc32b编码过后的数据作为主键,制成彩虹表存入我的服务器内。
       (粗略的算了一下,6亿数据就是需要27G左右的空间…而我的服务器一共才40G的大小…)

做成网页供大家使用

       接下来的操作似乎就水到渠成了,写了个python脚本,该python脚本接受2个参数,视频cid和想要搜索的弹幕关键字,返回用户发送的弹幕,用户的crc32b编码,时间戳。然后用php的exec函数执行python代码,并通过搜索数据库找出用户的uid,通过php返回json格式数据给前端。

python代码(写的很烂)

import requests
from bs4 import BeautifulSoup
import re
import io

import sys

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')
req = requests.get('https://comment.bilibili.com/'+sys.argv[1]+'.xml')
req.encoding = req.apparent_encoding
soup = BeautifulSoup(req.text, 'html.parser').find_all(name='d')
result = ""
for i in soup:
 s = re.sub('<(.*?)>', '', str(i))
 index = 0
 if(len(sys.argv[2])>0):
  index = s.find(str(sys.argv[2]))
 if(index!=-1):
  result+=str(i).split(",")[6]+","+s+","+str(i).split(",")[4]+","
print(result)

效果展示

       前端代码就是随便写的~至少功能实现了嘛

Python脚本如何在bilibili中查找弹幕发送者Python脚本如何在bilibili中查找弹幕发送者

       这里说一下为什么是NULL,因为我的服务器还在可怜巴巴的往数据库内写入彩虹表数据。。预计需要4天~
       今天加了个暴力破解的功能,避免了查询结果为NULL,但是相对的查询速度会非常慢。

       最后!附上该工具的链接:点我

总结

到此这篇关于Python脚本如何在bilibili中查找弹幕发送者的文章就介绍到这了,更多相关bilibili弹幕发送者内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python3利用SMTP协议发送E-mail电子邮件的方法
Sep 30 Python
python字典操作实例详解
Nov 16 Python
Python基于socket模块实现UDP通信功能示例
Apr 10 Python
Pycharm在创建py文件时,自动添加文件头注释的实例
May 07 Python
windows下python和pip安装教程
May 25 Python
解决Tensorflow使用pip安装后没有model目录的问题
Jun 13 Python
Django Rest framework之权限的实现示例
Dec 17 Python
djang常用查询SQL语句的使用代码
Feb 15 Python
Django实现单用户登录的方法示例
Mar 28 Python
解决tensorflow训练时内存持续增加并占满的问题
Jan 19 Python
python中for in的用法详解
Apr 17 Python
python os.listdir()乱码解决方案
Jan 31 Python
Python爬虫谷歌Chrome F12抓包过程原理解析
Jun 04 #Python
python实现按键精灵找色点击功能教程,使用pywin32和Pillow库
Jun 04 #Python
解决python图像处理图像赋值后变为白色的问题
Jun 04 #Python
Python爬虫JSON及JSONPath运行原理详解
Jun 04 #Python
python 实现图像快速替换某种颜色
Jun 04 #Python
python下对hsv颜色空间进行量化操作
Jun 04 #Python
Python-opencv实现红绿两色识别操作
Jun 04 #Python
You might like
Discuz!5的PHP代码高亮显示插件(黑暗中的舞者更新)
2007/01/29 PHP
对Session和Cookie的区分与解释
2007/03/16 PHP
thinkphp的CURD和查询方式介绍
2013/12/19 PHP
Laravel SQL语句记录方式(推荐)
2016/05/26 PHP
深入理解PHP中mt_rand()随机数的安全
2017/10/12 PHP
JavaScript 学习 - 提高篇
2007/02/02 Javascript
js 效率组装字符串 StringBuffer
2009/12/23 Javascript
javascript的内存管理详解
2013/08/07 Javascript
html文件中jquery与velocity变量中的$冲突的解决方法
2013/11/01 Javascript
JS打开新窗口防止被浏览器阻止的方法
2015/01/03 Javascript
JavaScript获取页面上被选中文字的方法技巧
2015/03/13 Javascript
BootStrap智能表单实战系列(九)表单图片上传的支持
2016/06/13 Javascript
判断数组的最佳方法(推荐)
2016/10/11 Javascript
使用openSpeDiv方法实现Ecshop登录弹窗框效果
2017/03/13 Javascript
理解Angular的providers给Http添加默认headers
2017/07/04 Javascript
jQuery实现table表格信息的展开和缩小功能示例
2018/07/21 jQuery
nuxt踩坑之Vuex状态树的模块方式使用详解
2019/09/06 Javascript
[03:18]DOTA2亚洲邀请赛小组赛第一日 RECAP赛事回顾
2015/01/30 DOTA
[00:10]DOTA2全国高校联赛速递
2018/05/30 DOTA
python实现k均值算法示例(k均值聚类算法)
2014/03/16 Python
Python中使用glob和rmtree删除目录子目录及所有文件的例子
2014/11/21 Python
python实现Decorator模式实例代码
2018/02/09 Python
Tornado Web Server框架编写简易Python服务器
2018/07/28 Python
解析python实现Lasso回归
2019/09/11 Python
Python完全识别验证码自动登录实例详解
2019/11/24 Python
pytorch中交叉熵损失(nn.CrossEntropyLoss())的计算过程详解
2020/01/02 Python
tensorflow使用freeze_graph.py将ckpt转为pb文件的方法
2020/04/22 Python
Python日志器使用方法及原理解析
2020/09/27 Python
利用css3如何设置没有上下边的列表间隔线
2017/07/03 HTML / CSS
css3遮罩层镂空效果的多种实现方法
2020/05/11 HTML / CSS
HTML5 Canvas+JS控制电脑或手机上的摄像头实例
2014/05/03 HTML / CSS
完美解决IE8下不兼容rgba()的问题
2017/03/31 HTML / CSS
护理专科毕业推荐信
2013/11/10 职场文书
银行党员批评与自我批评
2014/10/15 职场文书
护士岗位竞聘书
2015/09/15 职场文书
vue自定义右键菜单之全局实现
2022/04/09 Vue.js