使用Python获取爱奇艺电视剧弹幕数据的示例代码


Posted in Python onJanuary 12, 2021

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

以下文章来源于数据STUDIO,作者龙哥带你飞

Python分析抖音用户行为数据视频讲解地址

https://www.bilibili.com/video/BV1yp4y1q7ZC/

数据获取是数据分析中的重要的一步,数据获取的途径多种多样,在这个信息爆炸的时代,数据获取的代价也是越来越小。因此如此,仍然有很多小伙伴们无法如何获取有用信息。此处以最近的热播排行榜第一名的《流金岁月》为例,手把手教你如何获取爱奇艺电视剧弹幕数据。

使用Python获取爱奇艺电视剧弹幕数据的示例代码

寻找弹幕信息

爱奇艺的弹幕数据已通过.z形式的压缩文件存在,先通过以下步骤找到弹幕url, tvid列表,再获取压缩文件。利用工具对获取的压缩文件进行解压,处理,存储及分析。

使用Python获取爱奇艺电视剧弹幕数据的示例代码

绝对,实行多页爬取,需要分析url规律,利用url规律循环请求并获取所需内容。

此弹幕文件url地址为
https://cmts.iqiyi.com/bullet/93/00/6024766870349300_300_1.z
其中tvid = 6024766870349300

url普适形式为
url ='https:
//cmts.iqiyi.com/bullet/{}/{}/{}_300_{}.z'其中第一个与第二个花括号内容是tvid后3、4位,,后1、2位。第三个花括号为tvid。第四个花括号为子文件序号,其不是一个无穷大的数,会根据不同的电视剧有不同的最大数。

使用Python获取爱奇艺电视剧弹幕数据的示例代码

获取弹幕文件

可以利用浏览器通过url直接请求,并获取结果。

使用Python获取爱奇艺电视剧弹幕数据的示例代码

输入网址可获取弹幕内容的压缩文件文件。

使用Python获取爱奇艺电视剧弹幕数据的示例代码

利用解压/压缩包zlib对下载下来的压缩文件进行解压查看。

import zlib
from bs4 import BeautifulSoup
with open(r"C:\Users\HP\Downloads\6024766870349300_300_10.z", 'rb') as fin:
 content = fin.read()
btArr = bytearray(content)
xml=zlib.decompress(btArr).decode('utf-8')
bs = BeautifulSoup(xml,"xml")
bs

输出

使用Python获取爱奇艺电视剧弹幕数据的示例代码

因此tvid只要获得就能轻松获取该电视剧的弹幕文件数据。

import zlib
from bs4 import BeautifulSoup
import pandas as pd
import requests
def get_data(tv_name,tv_id):
 """
 获取每集的tvid
 :param tv_name: 集数,第1集、第2集...
 :param tv_id: 每集的tvid
 :return: DataFrame, 最终的数据
 """
 base_url = 'https://cmts.iqiyi.com/bullet/{}/{}/{}_300_{}.z'
 # 新建一个只有表头的DataFrame
 head_data = pd.DataFrame(columns=['uid','contentsId','contents','likeCount'])
 for i in range(1,20):
 url = base_url.format(tv_id[-4:-2],tv_id[-2:],tv_id,i)
 print(url)
 res = requests.get(url)
 if res.status_code == 200:
  btArr = bytearray(res.content) 
  xml=zlib.decompress(btArr).decode('utf-8') # 解压压缩文件
  bs = BeautifulSoup(xml,"xml") # BeautifulSoup网页解析
  data = pd.DataFrame(columns=['uid','contentsId','contents','likeCount'])
  data['uid'] = [i.text for i in bs.findAll('uid')]
  data['contentsId'] = [i.text for i in bs.findAll('contentId')]
  data['contents'] = [i.text for i in bs.findAll('content')]
  data['likeCount'] = [i.text for i in bs.findAll('likeCount')]
 else:
  break
 head_data = pd.concat([head_data,data],ignore_index = True)
 head_data['tv_name']= tv_name
 return head_data

获取tvid

上文已通过tvid获取到了弹幕文件数据,那么如何获取tvid又变成了一个问题。莫急,我们继续分析。直接Ctrl + F搜索tvid

使用Python获取爱奇艺电视剧弹幕数据的示例代码

因此可以直接从返回结果中通过正则表达式获取tvid。

from requests_html import HTMLSession, UserAgent
from bs4 import BeautifulSoup
import re
def get_tvid(url):
 """
 获取每集的tvid
 :param url: 请求网址
 :return: str, 每集的tvid
 """
 session = HTMLSession() #创建HTML会话对象
 user_agent = UserAgent().random #创建随机请求头
 header = {"User-Agent": user_agent}
 res = session.get(url, headers=header)
 res.encoding='utf-8'
 bs = BeautifulSoup(res.text,"html.parser")
 pattern =re.compile(".*?tvid.*?(\d{16}).*?") # 定义正则表达式
 text_list = bs.find_all(text=pattern) # 通过正则表达式获取内容
 for t in range(len(text_list)):
 res_list = pattern.findall(text_list[t])
 if not res_list:
  pass
 else:
  tvid = res_list[0]
 return tvid

由此问题tvid。来每一集都有一个tvid,有多少集电视剧就可以获取多少个tvid。那么问题又来了:获取tvid时,是通过url发送请求,从返回结果中获取。而每一集的url又该如何获取呢。

获取每集url

通过元素选择工具定位到集数选择信息。通过硒模拟浏览器获取动态加载信息。

使用Python获取爱奇艺电视剧弹幕数据的示例代码

有小伙伴会说,可以直接直接从返回内容中获取此href网址啊,你可以自己动手尝试下。

云朵君尝试后得到的结果是href="javascript:void(0);" rel="external nofollow" ,因此解决这一问题的方法之一是运用硒模拟浏览器获取js动态加载信息。

def get_javascript0_links(url, class_name, class_name_father, sleep_time=0.02):
 """
 Selenium模拟用户点击爬取url
 :param url: 目标页面
 :param class_name: 模拟点击的类
 :param class_name_father: 模拟点击的类,此类为class_name的父类
 :param sleep_time: 留给页面后退的时间
 :return: list, 点击class为class_name进去的超链接
 """

 def wait(locator, timeout=15):
 """等到元素加载完成"""
 WebDriverWait(driver, timeout).until(EC.presence_of_element_located(locator))

 options = Options()
# options.add_argument("--headless") # 无界面,若你需要查看界面内容,可以将此行注释掉
 driver = webdriver.Chrome(options=options)
 driver.get(url)

 locator = (By.CLASS_NAME, class_name)
 wait(locator)
 element = driver.find_elements_by_class_name(class_name_father)
 elements = driver.find_elements_by_class_name(class_name)
 link = []
 linkNum = len(elements)
 for j in range(len(element)):
 wait(locator)
 driver.execute_script("arguments[0].click();", element[j]) # 模拟用户点击
 for i in range(linkNum):
  print(i)
  wait(locator)
  elements = driver.find_elements_by_class_name(class_name) # 再次获取元素,预防StaleElementReferenceException
  driver.execute_script("arguments[0].click();", elements[i]) # 模拟用户点击
  time.sleep(sleep_time)
  link.append(driver.current_url)
  time.sleep(sleep_time)
  driver.back()
 driver.quit()
 return link

if __name__ == "__main__":
 url = "https://www.iqiyi.com/v_1meaw5kgh3s.html"
 class_name = "qy-episode-num"
 link = get_javascript0_links(url, class_name, class_name_father="tab-bar")
 for i, _link in enumerate(link):
 print(i, _link)

主函数

接下来通过主函数将所有步骤串起。

def main(sleep_second=0.02):
 url = "https://www.iqiyi.com/v_1meaw5kgh3s.html"
 class_name = "select-item"
 class_name_father = "bar-li"
 links = get_javascript0_links(url, class_name, class_name_father)
 head_data = pd.DataFrame(columns=['tv_name','uid','contentsId','contents','likeCount'])
 for num, link in enumerate(links):
 tv_name = f"第{num+1}集"
 tv_id = get_tvid(url=link)
 data = get_data(tv_name,tv_id)
 head_data = pd.concat([head_data,data],ignore_index = True)
 time.sleep(sleep_second)
 return head_data

获取到的数据结果如下:

>>> data = main()
>>> data.info()
"""
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 246716 entries, 0 to 246715
Data columns (total 5 columns):
 # Column Non-Null Count Dtype 
--- ------ -------------- ----- 
 0 tv_name 246716 non-null object
 1 uid  246716 non-null object
 2 contentsId 246716 non-null object
 3 contents 246716 non-null object
 4 likeCount 246716 non-null object
dtypes: object(5)
memory usage: 9.4+ MB
"""
>>> data.sample(10)

使用Python获取爱奇艺电视剧弹幕数据的示例代码

词云图先分词

运用中文分词库jieba分词,并去除撤销词。

def get_cut_words(content_series):
 """
 :param content_series: 需要分词的内容
 :return: list, 点击class为class_name进去的超链接
 """
 # 读入停用词表
 import jieba 
 stop_words = [] 
 with open("stop_words.txt", 'r', encoding='utf-8') as f:
 lines = f.readlines()
 for line in lines:
  stop_words.append(line.strip())
 # 添加关键词
 my_words = ['倪妮', '刘诗诗', '锁锁', '蒋三岁', '陈道明'] 
 for i in my_words:
 jieba.add_word(i) 
 # 自定义停用词
 my_stop_words = ['哈哈哈','哈哈哈哈', '真的'] 
 stop_words.extend(my_stop_words)  
 # 分词
 word_num = jieba.lcut(content_series.str.cat(sep='。'), cut_all=False)
 word_num_selected = [i for i in word_num if i not in stop_words and len(i)>=2] # 条件筛选
 
 return word_num_selected

后画图

运用升级版词云图库stylecloud可视化弹幕结果。

import stylecloud
from IPython.display import Image 
text1 = get_cut_words(content_series=data.contents)
stylecloud.gen_stylecloud(text=' '.join(text1), collocations=False,
    font_path=r'‪C:\Windows\Fonts\msyh.ttc',
    icon_name='fas fa-rocket',size=400,
    output_name='流金岁月-词云.png')
Image(filename='流金岁月-词云.png')

到此这篇关于使用Python获取爱奇艺电视剧弹幕数据的示例代码的文章就介绍到这了,更多相关Python获取爱奇艺电视剧弹幕数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python tempfile模块学习笔记(临时文件)
May 25 Python
基于Python实现的扫雷游戏实例代码
Aug 01 Python
python实现根据图标提取分类应用程序实例
Sep 28 Python
Python之文字转图片方法
May 10 Python
python实现定时提取实时日志程序
Jun 22 Python
python3实现多线程聊天室
Dec 12 Python
Python实现的爬取小说爬虫功能示例
Mar 30 Python
Python脚本利用adb进行手机控制的方法
Jul 08 Python
PYQT5开启多个线程和窗口,多线程与多窗口的交互实例
Dec 13 Python
Python如何在windows环境安装pip及rarfile
Jun 15 Python
Python requests及aiohttp速度对比代码实例
Jul 16 Python
Django框架请求生命周期实现原理
Nov 13 Python
将不规则的Python多维数组拉平到一维的方法实现
Jan 11 #Python
python用分数表示矩阵的方法实例
Jan 11 #Python
termux中matplotlib无法显示中文问题的解决方法
Jan 11 #Python
完美解决Pycharm中matplotlib画图中文乱码问题
Jan 11 #Python
Python脚本调试工具安装过程
Jan 11 #Python
装上这 14 个插件后,PyCharm 真的是无敌的存在
Jan 11 #Python
Jupyter Notebook 远程访问配置详解
Jan 11 #Python
You might like
php+mysql开源XNA 聚合程序发布 下载
2007/07/13 PHP
PHP防止跨域提交表单
2013/11/01 PHP
PHP 7.0新增加的特性介绍
2017/06/08 PHP
thinkphp5.1框架容器与依赖注入实例分析
2019/07/23 PHP
JavaScript使用prototype定义对象类型(转)[
2006/12/22 Javascript
JS解决url传值出现中文乱码的另类办法
2013/04/08 Javascript
javascript中键盘事件用法实例分析
2015/01/30 Javascript
js数组去重的方法汇总
2015/07/29 Javascript
基于jQuery实现带动画效果超炫酷的弹出对话框(附源码下载)
2016/02/22 Javascript
一些实用性较高的js方法
2016/04/19 Javascript
JavaScript装饰器函数(Decorator)实例详解
2017/03/30 Javascript
手把手教你把nodejs部署到linux上跑出hello world
2017/06/19 NodeJs
iscroll实现下拉刷新功能
2017/07/18 Javascript
简单谈谈关于Angular Cli打包的事
2017/09/05 Javascript
nodejs结合socket.io实现websocket通信功能的方法
2018/01/12 NodeJs
重学JS 系列:聊聊继承(推荐)
2019/04/11 Javascript
JS学习笔记之数组去重实现方法小结
2019/05/29 Javascript
通过js示例讲解时间复杂度与空间复杂度
2019/08/06 Javascript
jQuery--遍历操作实例小结【后代、同胞及过滤】
2020/05/22 jQuery
jQuery实时统计输入框字数及限制
2020/06/24 jQuery
antd Select下拉菜单动态添加option里的内容操作
2020/11/02 Javascript
python3新特性函数注释Function Annotations用法分析
2016/07/28 Python
Python二进制串转换为通用字符串的方法
2018/07/23 Python
python按行读取文件并找出其中指定字符串
2019/08/08 Python
Python *args和**kwargs用法实例解析
2020/03/02 Python
使用python实现CGI环境搭建过程解析
2020/04/28 Python
动态密码技术
2012/10/18 面试题
结婚邀请函范文
2014/01/14 职场文书
应聘编辑自荐信范文
2014/03/12 职场文书
经典的毕业生自荐信范文
2014/04/14 职场文书
上班迟到检讨书
2014/09/15 职场文书
质量整改报告范文
2014/11/08 职场文书
财务出纳岗位职责
2015/03/31 职场文书
房地产项目合作意向书
2015/05/08 职场文书
redis通过6379端口无法连接服务器(redis-server.exe闪退)
2021/05/08 Redis
Mysql 如何合理地统计一个数据库里的所有表的数据量
2022/04/18 MySQL