编程 Python

Python爬取腾讯视频评论的思路详解

Posted in Python onDecember 19, 2019

一、前提条件

安装了Fiddler了（用于抓包分析）
谷歌或火狐浏览器
如果是谷歌浏览器，还需要给谷歌浏览器安装一个SwitchyOmega插件，用于代理服务器
有Python的编译环境，一般选择Python3.0及以上

声明：本次爬取腾讯视频里 《最美公里》纪录片的评论。本次爬取使用的浏览器是谷歌浏览器

二、分析思路

1、分析评论页面

Python爬取腾讯视频评论的思路详解

根据上图，我们可以知道：评论使用了Ajax异步刷新技术。这样就不能使用以前分析当前页面找出规律的手段了。因为展示的页面只有部分评论，还有大量的评论没有被刷新出来。

这时，我们应该想到使用抓包来分析评论页面刷新的规律。以后大部分爬虫，都会先使用抓包技术，分析出规律！

2、使用Fiddler进行抓包分析——得出评论网址规律

fiddler如何抓包，这个知识点，需要读者自行去学习，不在本博客讨论范围。

Python爬取腾讯视频评论的思路详解

把上面两张图里面的内容对比一下，可以知道这个JS就是评论存放页面。（这需要大家一个一个找，一般Ajax都是在JS里面，所以这也找JS进行对比即可）

我们复制这个JS的url：右击 > copy > Just Url

大家可以重复操作几次，多找几个JS的url，从url得出规律。下图是我刷新了4次得到的JS的url：

Python爬取腾讯视频评论的思路详解

根据上图，我们发现url不同的地方有两处：一是cursor=？；二是_=？。

我们很快就能发现 _=？的规律，它是从1576567187273加1。而cursor=？的规律看不出来。这个时候找到它的规律呢？

（1）百度一下，看前人有没有爬取过类型的网站，根据他们的规律和方法，去找出规律；

（2）羊毛出在羊身上。我们需要有的大胆想法——会不会这个cursor=?可以根据上一个JS页面得到呢？这只是很多大胆想法中的一个，我们就一个想法一个想法的试试。

我们就采用第二种方法，去js里面找。复制其中一个url为：

url = https://video.coral.qq.com/varticle/3242201702/comment/v2?callback=_varticle3242201702commentv2&orinum=10&oriorder=o&pageflag=1&cursor=6460163812968870071&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=132&_=1576567187273

去浏览器里面打开，在里面搜索一下此url的下一个url的cursor=？的值。我们发现一个惊喜！

Python爬取腾讯视频评论的思路详解

如下：

一般情况下，我们还要多试几次，确定我们的想法是正确的。

至此，我们发现了评论的url之间的规律：

_=？从1576567187273加1
cursor=？的值存在上面一个JS中。

三、代码编写

import re
import random
import urllib.request

#构建用户代理
uapools=["Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36",
  "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",
  "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/71.0",
 ]
#从用户代理池随机选取一个用户代理
def ua(uapools):
 thisua=random.choice(uapools)
 #print(thisua)
 headers=("User-Agent",thisua)
 opener=urllib.request.build_opener()
 opener.addheaders=[headers]
 #设置为全局变量
 urllib.request.install_opener(opener)

#获取源码
def get_content(page,lastId):
 url="https://video.coral.qq.com/varticle/3242201702/comment/v2?callback=_varticle3242201702commentv2&orinum=10&oriorder=o&pageflag=1&cursor="+lastId+"&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=132&_="+str(page)
 html=urllib.request.urlopen(url).read().decode("utf-8","ignore")
 return html

#从源码中获取评论的数据
def get_comment(html):
 pat='"content":"(.*?)"'
 rst = re.compile(pat,re.S).findall(html)
 return rst
 
#从源码中获取下一轮刷新页的ID
def get_lastId(html):
 pat='"last":"(.*?)"'
 lastId = re.compile(pat,re.S).findall(html)[0]
 return lastId

def main():
 ua(uapools)
 #初始页面
 page=1576567187274
 #初始待刷新页面ID
 lastId="6460393679757345760"
 for i in range(1,6):
 html = get_content(page,lastId)
 #获取评论数据
 commentlist=get_comment(html)
 print("------第"+str(i)+"轮页面评论------")
 for j in range(1,len(commentlist)):
  print("第"+str(j)+"条评论：" +str(commentlist[j]))
 #获取下一轮刷新页ID
 lastId=get_lastId(html)
 page += 1

main()

四、结果展示

Python爬取腾讯视频评论的思路详解

总结

以上所述是小编给大家介绍的Python爬取腾讯视频评论，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持！
如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

Python爬取腾讯视频评论的思路详解

- Author -

画师-开言

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python之列表的插入&替换修改方法

Jun 28 Python

用python标准库difflib比较两份文件的异同详解

Nov 16 Python

selenium+python自动化测试之鼠标和键盘事件

Jan 23 Python

pytorch 加载(.pth)格式的模型实例

Aug 20 Python

Python 仅获取响应头, 不获取实体的实例

Aug 21 Python

python网络编程之多线程同时接受和发送

Sep 03 Python

Python判断三段线能否构成三角形的代码

Apr 12 Python

基于matplotlib xticks用法详解

Apr 16 Python

Selenium webdriver添加cookie实现过程详解

Aug 12 Python

Python logging模块原理解析及应用

Aug 13 Python

Python常遇到的错误和异常

Nov 02 Python

python超详细实现完整学生成绩管理系统

Mar 17 Python

使用Pandas将inf, nan转化成特定的值

Dec 19 #Python

pandas中read_csv的缺失值处理方式

Dec 19 #Python

python错误调试及单元文档测试过程解析

Dec 19 #Python

Python3.5 win10环境下导入kera/tensorflow报错的解决方法

Dec 19 #Python

解决Python列表字符不区分大小写的问题

Dec 19 #Python

简单了解为什么python函数后有多个括号

Dec 19 #Python

解决Python使用列表副本的问题

Dec 19 #Python

You might like

广播爱好者需要了解的天线知识

2021/03/01 无线电

PHP获取网卡地址的代码

2008/04/09 PHP

PHP实现异步调用方法研究与分享

2011/10/27 PHP

基于PHP5魔术常量与魔术方法的详解

2013/06/13 PHP

PHP获取QQ达人QQ信息的方法

2015/03/05 PHP

laravel与thinkphp之间的区别与优缺点

2021/03/02 PHP

xheditor与validate插件冲突的解决方案

2010/04/15 Javascript

js判断变量是否未定义的代码

2020/03/28 Javascript

使用ImageMagick进行图片缩放、合成与裁剪(js+python)

2013/09/16 Javascript

JS+CSS实现自动改变切换方向图片幻灯切换效果的方法

2015/03/02 Javascript

javascript控制层显示或隐藏的方法

2015/07/22 Javascript

详解自动生成博客目录案例

2016/12/09 Javascript

Angularjs实现搜索关键字高亮显示效果

2017/01/17 Javascript

Vue实现购物车功能

2017/04/27 Javascript

详解使用vue脚手架工具搭建vue-webpack项目

2017/05/10 Javascript

javascript实现二叉树遍历的代码

2017/06/08 Javascript

layui监听下拉选框选中值变化的方法(包含监听普通下拉选框)

2019/09/24 Javascript

Vue通过WebSocket建立长连接的实现代码

2019/11/05 Javascript

python计数排序和基数排序算法实例

2014/04/25 Python

Python实现字符串格式化的方法小结

2017/02/20 Python

离线安装Pyecharts的步骤以及依赖包流程

2020/04/23 Python

python调用OpenCV实现人脸识别功能

2018/05/25 Python

python指定写入文件时的编码格式方法

2018/06/07 Python

详解Python爬取并下载《电影天堂》3千多部电影

2019/04/26 Python

Python 从subprocess运行的子进程中实时获取输出的例子

2019/08/14 Python

Python基于字典实现switch case函数调用

2020/07/22 Python

英国森林假期：Forest Holidays

2021/01/01 全球购物

新闻网站实习自我鉴定

2013/09/25 职场文书

营销总经理岗位职责

2014/02/02 职场文书

大学运动会入场词

2014/02/22 职场文书

学徒工职责

2014/03/06 职场文书

应届毕业生求职信范文

2014/05/08 职场文书

单位法定代表人授权委托书

2014/09/20 职场文书

2014年减负工作总结

2014/12/10 职场文书

经济纠纷起诉状

2015/05/20 职场文书

2016党员学习心得体会范文

2016/01/23 职场文书