Python爬虫实战之爬取携程评论


Posted in Python onJune 02, 2021

一、分析数据源

这里的数据源是指html网页?还是Aajx异步。对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍。

提示:以下操作均不需要登录(当然登录也可以)

咱们先在浏览器里面搜索携程,然后在携程里面任意搜索一个景点:长隆野生动物世界,这里就以长隆野生动物世界为例,讲解如何去爬取携程评论数据。

 Python爬虫实战之爬取携程评论

页面下方则是评论数据

 Python爬虫实战之爬取携程评论

Python爬虫实战之爬取携程评论 Python爬虫实战之爬取携程评论

从上面两张图可以看出,点击评论下一页,浏览器的链接没有变化,说明数据是Ajax异步请求。因此我们就找到了数据是异步加载过来的,这时候需要去network里面是查看数据包

二、分析数据包

在network中找到下面这个数据包

 Python爬虫实战之爬取携程评论

查看Preview里面的内容(请求返回内容)

Python爬虫实战之爬取携程评论

可以看到数据已经请求到了,下面看一下数据是否是正确的(和网页内容一致)。

 Python爬虫实战之爬取携程评论

ok,没问题之后,下面开始编写Python程序去请求数据。

1.请求地址

Python爬虫实战之爬取携程评论

可以获取到请求链接和请求方式。

Python爬虫实战之爬取携程评论

这里请求不用添加请求头header也是可以的。其中postUrl是请求链接,data_1是请求参数。

2.请求参数

在network里可以看到请求参数

Python爬虫实战之爬取携程评论

在程序中的构建如下:

Python爬虫实战之爬取携程评论

其中需要关注的是arg中的pageIndex(页数),pageSize(每页条数)。

Python爬虫实战之爬取携程评论

最终结果如下:

Python爬虫实战之爬取携程评论

该景点的评论就可以成功爬取下来了。

三、采集全部评论

上面只是采集了第一页的评论数据,通过改变arg中的pageIndex(页数),就可以遍历爬取全部的评论。

Python爬虫实战之爬取携程评论

比如这个景点一共是300页。现在把循环给加上

最终的完整代码如下:

Python爬虫实战之爬取携程评论

到此这篇关于Python爬虫实战之爬取携程评论的文章就介绍到这了,更多相关Python爬取携程评论内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
使用python解析xml成对应的html示例分享
Apr 02 Python
python实现根据图标提取分类应用程序实例
Sep 28 Python
python通过自定义isnumber函数判断字符串是否为数字的方法
Apr 23 Python
Python中的深拷贝和浅拷贝详解
Jun 03 Python
PyQt5每天必学之QSplitter实现窗口分隔
Apr 19 Python
Python日志模块logging基本用法分析
Aug 23 Python
关于python多重赋值的小问题
Apr 17 Python
python nohup 实现远程运行不宕机操作
Apr 16 Python
基于Python pyecharts实现多种图例代码解析
Aug 10 Python
python对批量WAV音频进行等长分割的方法实现
Sep 25 Python
python openssl模块安装及用法
Dec 06 Python
linux centos 7.x 安装 python3.x 替换 python2.x的过程解析
Dec 14 Python
Pytorch DataLoader shuffle验证方式
python 爬取吉首大学网站成绩单
python 批量压缩图片的脚本
Jun 02 #Python
python操作xlsx格式文件并读取
关于Numpy之repeat、tile的用法总结
Jun 02 #Python
Matlab如何实现矩阵复制扩充
Jun 02 #Python
给numpy.array增加维度的超简单方法
Jun 02 #Python
You might like
PHP使用递归生成文章树
2015/04/21 PHP
[原创]php使用curl判断网页404(不存在)的方法
2016/06/23 PHP
php实现产品加入购物车功能(1)
2020/07/23 PHP
Yii框架连表查询操作示例
2019/09/06 PHP
javascript 面向对象编程基础 多态
2009/08/21 Javascript
显示js对象所有属性和方法的函数
2009/10/16 Javascript
jquery中的on方法使用介绍
2013/12/29 Javascript
javascript去除空格方法小结
2015/05/21 Javascript
JavaScript中的Math.E属性使用详解
2015/06/12 Javascript
jquery.cookie实现的客户端购物车操作实例
2015/12/24 Javascript
jQuery解析XML 详解及方法总结
2016/09/28 Javascript
Bootstrap 网站实例之单页营销网站
2016/10/20 Javascript
Vue.js@2.6.10更新内置错误处机制Fundebug同步支持相应错误监控
2019/05/13 Javascript
javascript面向对象三大特征之封装实例详解
2019/07/24 Javascript
原生JavaScript实现留言板
2021/01/10 Javascript
TensorFlow平台下Python实现神经网络
2018/03/10 Python
python实现俄罗斯方块
2018/06/26 Python
Python3中在Anaconda环境下安装basemap包
2018/10/21 Python
Python操作Excel插入删除行的方法
2018/12/10 Python
python实现狄克斯特拉算法
2019/01/17 Python
使用Python+wxpy 找出微信里把你删除的好友实例
2019/02/21 Python
Python多进程fork()函数详解
2019/02/22 Python
Python 内置变量和函数的查看及说明介绍
2019/12/25 Python
Django CSRF认证的几种解决方案
2020/03/03 Python
解决django接口无法通过ip进行访问的问题
2020/03/27 Python
如何使用Pytorch搭建模型
2020/10/26 Python
css3 实现滚动条美化效果的实例代码
2021/01/06 HTML / CSS
迪卡侬(Decathlon)加拿大官网:源自法国的运动专业超市
2020/11/22 全球购物
自主招生自荐信
2013/12/08 职场文书
卫校中专生的自我评价
2014/01/15 职场文书
餐饮企业总经理岗位职责范文
2014/02/18 职场文书
监督检查工作方案
2014/05/28 职场文书
2019年度政务公开考核工作总结模板
2019/11/11 职场文书
六年级作文之家庭作文
2019/12/12 职场文书
如何避免mysql启动时错误及sock文件作用分析
2022/01/22 MySQL
分享3个非常实用的 Python 模块
2022/03/03 Python