Python爬虫实战之爬取携程评论


Posted in Python onJune 02, 2021

一、分析数据源

这里的数据源是指html网页?还是Aajx异步。对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍。

提示:以下操作均不需要登录(当然登录也可以)

咱们先在浏览器里面搜索携程,然后在携程里面任意搜索一个景点:长隆野生动物世界,这里就以长隆野生动物世界为例,讲解如何去爬取携程评论数据。

 Python爬虫实战之爬取携程评论

页面下方则是评论数据

 Python爬虫实战之爬取携程评论

Python爬虫实战之爬取携程评论 Python爬虫实战之爬取携程评论

从上面两张图可以看出,点击评论下一页,浏览器的链接没有变化,说明数据是Ajax异步请求。因此我们就找到了数据是异步加载过来的,这时候需要去network里面是查看数据包

二、分析数据包

在network中找到下面这个数据包

 Python爬虫实战之爬取携程评论

查看Preview里面的内容(请求返回内容)

Python爬虫实战之爬取携程评论

可以看到数据已经请求到了,下面看一下数据是否是正确的(和网页内容一致)。

 Python爬虫实战之爬取携程评论

ok,没问题之后,下面开始编写Python程序去请求数据。

1.请求地址

Python爬虫实战之爬取携程评论

可以获取到请求链接和请求方式。

Python爬虫实战之爬取携程评论

这里请求不用添加请求头header也是可以的。其中postUrl是请求链接,data_1是请求参数。

2.请求参数

在network里可以看到请求参数

Python爬虫实战之爬取携程评论

在程序中的构建如下:

Python爬虫实战之爬取携程评论

其中需要关注的是arg中的pageIndex(页数),pageSize(每页条数)。

Python爬虫实战之爬取携程评论

最终结果如下:

Python爬虫实战之爬取携程评论

该景点的评论就可以成功爬取下来了。

三、采集全部评论

上面只是采集了第一页的评论数据,通过改变arg中的pageIndex(页数),就可以遍历爬取全部的评论。

Python爬虫实战之爬取携程评论

比如这个景点一共是300页。现在把循环给加上

最终的完整代码如下:

Python爬虫实战之爬取携程评论

到此这篇关于Python爬虫实战之爬取携程评论的文章就介绍到这了,更多相关Python爬取携程评论内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python的迭代器与生成器实例详解
Jul 16 Python
python使用Queue在多个子进程间交换数据的方法
Apr 18 Python
python通过post提交数据的方法
May 06 Python
Python在for循环中更改list值的方法【推荐】
Aug 17 Python
对Python2与Python3中__bool__方法的差异详解
Nov 01 Python
详解python中@的用法
Mar 27 Python
Python3.5文件修改操作实例分析
May 01 Python
Django之全局使用request.user.username的实例详解
May 14 Python
在python3.64中安装pyinstaller库的方法步骤
Jun 02 Python
python matplotlib库的基本使用
Sep 23 Python
TensorFlow的环境配置与安装方法
Feb 20 Python
Python基础知识之变量的详解
Apr 14 Python
Pytorch DataLoader shuffle验证方式
python 爬取吉首大学网站成绩单
python 批量压缩图片的脚本
Jun 02 #Python
python操作xlsx格式文件并读取
关于Numpy之repeat、tile的用法总结
Jun 02 #Python
Matlab如何实现矩阵复制扩充
Jun 02 #Python
给numpy.array增加维度的超简单方法
Jun 02 #Python
You might like
BBS(php & mysql)完整版(三)
2006/10/09 PHP
PHP中mysqli_affected_rows作用行数返回值分析
2014/12/26 PHP
twig里使用js变量的方法
2016/02/05 PHP
php 判断字符串编码是utf-8 或gb2312实例
2016/11/01 PHP
PHP设计模式之适配器模式原理与用法分析
2018/04/25 PHP
PHP实现的XXTEA加密解密算法示例
2018/08/28 PHP
ASP SQL防注入的方法
2008/12/25 Javascript
用js实现in_array的方法
2013/11/05 Javascript
jQuery对象的selector属性用法实例
2014/12/27 Javascript
jQuery使用post方法提交数据实例
2015/03/25 Javascript
浅析JavaScript动画
2015/06/10 Javascript
详细分析JavaScript变量类型
2015/07/08 Javascript
JavaScript Length 属性的总结
2015/11/02 Javascript
谈谈JavaScript的New关键字
2016/08/26 Javascript
JS实现拖拽的方法分析
2016/12/20 Javascript
JS正则表达式之非捕获分组用法实例分析
2016/12/28 Javascript
JS实现二叉查找树的建立以及一些遍历方法实现
2017/04/17 Javascript
基于webpack-hot-middleware热加载相关错误的解决方法
2018/02/22 Javascript
express + jwt + postMan验证实现持久化登录
2019/06/05 Javascript
python获取元素在数组中索引号的方法
2015/07/15 Python
Python的Flask框架中使用Flask-Migrate扩展迁移数据库的教程
2016/06/14 Python
Python优先队列实现方法示例
2017/09/21 Python
win10下Python3.6安装、配置以及pip安装包教程
2017/10/01 Python
对Python发送带header的http请求方法详解
2019/01/02 Python
python中正则表达式与模式匹配
2019/05/07 Python
CSS3支持IE6, 7, and 8的边框border属性
2012/12/28 HTML / CSS
css3新增颜色表示方式分享
2014/04/15 HTML / CSS
利用HTML5画出一个坦克的形状具体实现代码
2013/06/20 HTML / CSS
美国在线奢侈品寄售商店:Luxury Garage Sale
2018/08/19 全球购物
知识竞赛拉拉队口号
2014/06/16 职场文书
化学教育专业自荐信
2014/07/04 职场文书
工作经常出错的检讨书
2014/09/13 职场文书
商铺租房协议书范本
2014/12/04 职场文书
毕业欢送会致辞
2015/07/29 职场文书
《正面管教》读后有感:和善而坚定的旅程
2019/12/19 职场文书
以下牛机,你有几个
2022/04/05 无线电