编程 Python

python 爬取腾讯视频评论的实现步骤

Posted in Python onFebruary 18, 2021

一、网址分析

查阅了网上的大部分资料，大概都是通过抓包获取。但是抓包有点麻烦，尝试了F12，也可以获取到评论。以电视剧《在一起》为例子。评论最底端有个查看更多评论猜测过去应该是 Ajax 的异步加载。
网上的大部分都是构建评论的网址，通过 requests 获取，正则表达式进行数据处理。本文也利用该方法进行数据处理，其实利用 scrapy 会更简单。
根据前辈给出的经验，顺利找到了评论所在的链接。

在新标签中打开，该网址的链接。

python 爬取腾讯视频评论的实现步骤

评论都在"content":"xxxxx"里面，所有可以通过正则表达式获取。
那么现在要开始构建网址，找到其规律。
在查找评论链接的过程中无意发现，点击影评旁边的评论总数，可以获取到更为干净的评论界面。结果是一样的。

python 爬取腾讯视频评论的实现步骤

既然是要爬取所有的评论，所以知道评论数是必不可少的。

python 爬取腾讯视频评论的实现步骤

再通过F12获取到评论链接，找到网址的规律，构建网址，加载三四个评论就行了。这里加载了四个网址。把所有网址复制到文本文件中，进行对比分析。

python 爬取腾讯视频评论的实现步骤

观察发现只有 cursor 和 source 进行了改变，其他是不变的，二 source 是在第一个的基础上进行加一操作，所以只需要获取到 cursor 即可。我们打开一个评论链接的网址，我们可以知道，cursor 其实是上一页最后一个用户的ID码。所以我们只需要在爬取上一页的时候一起爬虫了。然后就可以构建网址。

python 爬取腾讯视频评论的实现步骤

二、代码编写

这个代码还是简单的。套用之前上课做的模板就可以直接进行爬虫了。
通过正则表达式获取评论，返回一个列表；
正则表达式获得的 cursor 码是列表，所以要转化为字符串使用；
source 很简单了，直接在上一个的基础上加一即可。

def getComment(html): # 爬取单页评论

 findeComment = re.compile(r'"content":"(.*?)"', re.S)
 comment = re.findall(findeComment, html)
 # print(comment)
 return comment

def getCursor(html): # 获取下一页的cursor码
 findeCursor = re.compile(r'"last":"(.*?)"', re.S)
 cursor = re.findall(findeCursor, html)[0]
 # print(cursor)
 return cursor


def getSource(source): # 获取下一页的source码
 source = int(source) + 1
 return str(source)

有点难度的可能就送弄代理吧，但是代理可以模仿网上其他人的写法，所以还是不是很难。

#添加用户代理

def ua(uapools):
 thisua = random.choice(uapools)
 # print(thisua)
 headers = ("User-Agent", thisua)
 opener = urllib.request.build_opener()
 opener.addheaders = [headers]
 # 设置为全局变量
 urllib.request.install_opener(opener)

三、遇到的问题

1. 获取评论的时候也将子评论爬虫进去了。

仔细查看了源码，发现评论主要在 data 下面的 oriCommList 列表里，其他范围的评论为子评论。个人认为子评论也算有效评论，目前不打算处理。

python 爬取腾讯视频评论的实现步骤

2. 获取全部评论数，直接通过 requests 获取不到

尝试了 xpath 和 requests 发现不能获取全部评论数，所以目前只能通过 selenium 获取，但是 selenium 效率太低了，就获取一个评论总数，还不如打开源码直接修改评论总数，所以暂时没有修改

3. 评论总数数据太大

因为之前爬虫过很多网站，同一个 user-agent 很容易被 ban ，所以目前构建了用户代理，然后进行随机。其实还想加一个 ip 代理的，但是使用了 ip 代理的网址，上面写的正常的 ip ，在使用的时候，拒绝连接。也尝试过构建代理池。但是代理池一般都是使用docker 和 Redis 进行获取。暂时没有选用，之选用了用户代理，然后在获取 headers 的时候加个 time.sleep(1)。目前还是正常的。

4. 报错'utf-8' codec can't decode byte 0xff in position 1: invalid start byte

遇到这个问题，实在无语，我怀疑后面的评论是新出的 emjoy，然后utf-8不能识别，程序挂掉了。但是选取其他格式，在解释的过程估计还会挂掉，就暂时爬到1万条吧。

python 爬取腾讯视频评论的实现步骤

四、完整代码

代码仓库

以上就是python 爬取腾讯视频评论的实现步骤的详细内容，更多关于python 爬取腾讯视频评论的资料请关注三水点靠木其它相关文章！

python 爬取腾讯视频评论的实现步骤

- Author -

春日宴

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python实现的生成自我描述脚本分享(很有意思的程序)

Jul 18 Python

详解Django缓存处理中Vary头部的使用

Jul 24 Python

python 对给定可迭代集合统计出现频率,并排序的方法

Oct 18 Python

Python中判断子串存在的性能比较及分析总结

Jun 23 Python

使用Python中的reduce()函数求积的实例

Jun 28 Python

python实现关闭第三方窗口的方法

Jun 28 Python

python面向对象反射原理解析

Aug 12 Python

Django1.11配合uni-app发起微信支付的实现

Oct 12 Python

python 子类调用父类的构造函数实例

Mar 12 Python

python如何写出表白程序

Jun 01 Python

python--shutil移动文件到另一个路径的操作

Jul 13 Python

python和opencv构建运动检测器的实现

Mar 03 Python

Python之qq自动发消息的示例代码

Feb 18 #Python

Python对excel的基本操作方法

Feb 18 #Python

No module named ‘win32gui‘ 的解决方法(踩坑之旅)

Feb 18 #Python

Python操作Excel的学习笔记

Feb 18 #Python

手把手教你用Django执行原生SQL的方法

Feb 18 #Python

python中封包建立过程实例

Feb 18 #Python

python解包用法详解

Feb 17 #Python

You might like

星际争霸秘籍

2020/03/04 星际争霸

基于Jquery的动态创建DOM元素的代码

2010/12/28 Javascript

JavaScript实现页面滚动图片加载(仿lazyload效果)

2011/07/22 Javascript

JQuery事件e参数的方法preventDefault()取消默认行为

2013/09/26 Javascript

JS实现完全语义化的网页选项卡效果代码

2015/09/15 Javascript

JavaScript操作HTML元素和样式的方法详解

2015/10/21 Javascript

JavaScript控制浏览器全屏及各种浏览器全屏模式的方法、属性和事件

2015/12/20 Javascript

JavaScript判断DIV内容是否为空的方法

2016/01/29 Javascript

jquery自定义表单验证插件

2016/10/12 Javascript

bootstrap如何让dropdown menu按钮式下拉框长度一致

2017/04/10 Javascript

JavaScript的setter与getter方法

2017/11/29 Javascript

element-ui 表格实现单元格可编辑的示例

2018/02/26 Javascript

关于vue中的ajax请求和axios包问题

2018/04/19 Javascript

Vue在 Nuxt.js 中重定向 404 页面的方法

2019/04/23 Javascript

浅谈React中组件逻辑复用的那些事儿

2020/05/21 Javascript

Python实现队列的方法

2015/05/26 Python

Python实现以时间换空间的缓存替换算法

2016/02/19 Python

举例讲解Python中字典的合并值相加与异或对比

2016/06/04 Python

Python中selenium实现文件上传所有方法整理总结

2017/04/01 Python

python爬取网页转换为PDF文件

2018/06/07 Python

Python中pandas模块DataFrame创建方法示例

2018/06/20 Python

Python中list查询及所需时间计算操作示例

2018/06/21 Python

Django框架之登录后自定义跳转页面的实现方法

2019/07/18 Python

python编写计算器功能

2019/10/25 Python

pytorch 实现张量tensor,图片,CPU,GPU,数组等的转换

2020/01/13 Python

瑞典时尚耳机品牌：Urbanears

2017/07/26 全球购物

100％植物性、有机、即食餐：Sakara Life

2018/10/25 全球购物

进程的查看和调度分别使用什么命令

2015/03/25 面试题

航空大学应届生求职信

2013/11/10 职场文书

医学院校毕业生自荐信范文

2014/01/01 职场文书

校优秀毕业生主要事迹

2014/05/26 职场文书

管理标语大全

2014/06/24 职场文书

干部作风整顿自我剖析材料和整改措施

2014/09/18 职场文书

医德医风自我评价2015

2015/03/03 职场文书

校园歌手大赛主持词

2015/07/03 职场文书

国庆节到了,利用JS实现一个生成国庆风头像的小工具详解实现过程

2021/10/05 Javascript