Python爬虫实战之爬取携程评论


Posted in Python onJune 02, 2021

一、分析数据源

这里的数据源是指html网页?还是Aajx异步。对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍。

提示:以下操作均不需要登录(当然登录也可以)

咱们先在浏览器里面搜索携程,然后在携程里面任意搜索一个景点:长隆野生动物世界,这里就以长隆野生动物世界为例,讲解如何去爬取携程评论数据。

 Python爬虫实战之爬取携程评论

页面下方则是评论数据

 Python爬虫实战之爬取携程评论

Python爬虫实战之爬取携程评论 Python爬虫实战之爬取携程评论

从上面两张图可以看出,点击评论下一页,浏览器的链接没有变化,说明数据是Ajax异步请求。因此我们就找到了数据是异步加载过来的,这时候需要去network里面是查看数据包

二、分析数据包

在network中找到下面这个数据包

 Python爬虫实战之爬取携程评论

查看Preview里面的内容(请求返回内容)

Python爬虫实战之爬取携程评论

可以看到数据已经请求到了,下面看一下数据是否是正确的(和网页内容一致)。

 Python爬虫实战之爬取携程评论

ok,没问题之后,下面开始编写Python程序去请求数据。

1.请求地址

Python爬虫实战之爬取携程评论

可以获取到请求链接和请求方式。

Python爬虫实战之爬取携程评论

这里请求不用添加请求头header也是可以的。其中postUrl是请求链接,data_1是请求参数。

2.请求参数

在network里可以看到请求参数

Python爬虫实战之爬取携程评论

在程序中的构建如下:

Python爬虫实战之爬取携程评论

其中需要关注的是arg中的pageIndex(页数),pageSize(每页条数)。

Python爬虫实战之爬取携程评论

最终结果如下:

Python爬虫实战之爬取携程评论

该景点的评论就可以成功爬取下来了。

三、采集全部评论

上面只是采集了第一页的评论数据,通过改变arg中的pageIndex(页数),就可以遍历爬取全部的评论。

Python爬虫实战之爬取携程评论

比如这个景点一共是300页。现在把循环给加上

最终的完整代码如下:

Python爬虫实战之爬取携程评论

到此这篇关于Python爬虫实战之爬取携程评论的文章就介绍到这了,更多相关Python爬取携程评论内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python实现忽略大小写对字符串列表排序的方法
Sep 25 Python
在Python中操作时间之strptime()方法的使用
Dec 30 Python
Python 异常处理的实例详解
Sep 11 Python
Python向Excel中插入图片的简单实现方法
Apr 24 Python
Python实现简单的文本相似度分析操作详解
Jun 16 Python
python自动发送邮件脚本
Jun 20 Python
java判断三位数的实例讲解
Jun 10 Python
python采集百度搜索结果带有特定URL的链接代码实例
Aug 30 Python
python 初始化一个定长的数组实例
Dec 02 Python
使用Keras训练好的.h5模型来测试一个实例
Jul 06 Python
Python pymsql模块的使用
Sep 07 Python
Python文件的操作示例的详细讲解
Apr 08 Python
Pytorch DataLoader shuffle验证方式
python 爬取吉首大学网站成绩单
python 批量压缩图片的脚本
Jun 02 #Python
python操作xlsx格式文件并读取
关于Numpy之repeat、tile的用法总结
Jun 02 #Python
Matlab如何实现矩阵复制扩充
Jun 02 #Python
给numpy.array增加维度的超简单方法
Jun 02 #Python
You might like
模拟OICQ的实现思路和核心程序(二)
2006/10/09 PHP
PHP 删除文件与文件夹操作 unlink()与rmdir()这两个函数的使用
2011/07/17 PHP
PHP操作文件的一些基本函数使用示例
2014/11/18 PHP
php实现ip白名单黑名单功能
2015/03/12 PHP
php解析字符串里所有URL地址的方法
2015/04/03 PHP
WordPress中自定义后台管理界面配色方案的小技巧
2015/12/29 PHP
php常用字符串String函数实例总结【转换,替换,计算,截取,加密】
2016/12/07 PHP
PHP编辑器PhpStrom运行缓慢问题
2017/02/21 PHP
PHP等比例压缩图片的实例代码
2018/07/26 PHP
PHP PDOStatement::setFetchMode讲解
2019/02/03 PHP
PHP后台备份MySQL数据库的源码实例
2019/03/18 PHP
在IE上直接编辑网页内容的js代码(IE地址栏js)
2009/04/27 Javascript
兼容多浏览器的iframe自适应高度(ie8 、谷歌浏览器4.0和 firefox3.5.3)
2009/11/04 Javascript
基于jQuery的公告无限循环滚动实现代码
2012/05/11 Javascript
深入理解JavaScript系列(19):求值策略(Evaluation strategy)详解
2015/03/05 Javascript
JavaScript操作XML/HTML比较常用的对象属性集锦
2015/10/30 Javascript
jquery实现倒计时效果
2015/12/14 Javascript
jquery采用oop模式class类的使用示例
2016/01/22 Javascript
jQuery与js实现颜色渐变的方法
2016/12/30 Javascript
JQuery实现文字无缝滚动效果示例代码(Marquee插件)
2017/03/07 Javascript
Javascript实现登录记住用户名和密码功能
2017/03/22 Javascript
详解Vue项目中出现Loading chunk {n} failed问题的解决方法
2018/09/14 Javascript
基于Vue-Cli 打包自动生成/抽离相关配置文件的实现方法
2018/12/09 Javascript
命令行批量截图Node脚本示例代码
2019/01/25 Javascript
Vue 开发必须知道的36个技巧(小结)
2019/10/09 Javascript
在vue中获取wangeditor的html和text的操作
2020/10/23 Javascript
Python实现的Kmeans++算法实例
2014/04/26 Python
Python对文件操作知识汇总
2016/05/15 Python
Python搭建FTP服务器的方法示例
2018/01/19 Python
基于python实现获取网页图片过程解析
2020/05/11 Python
联欢晚会主持词
2014/03/25 职场文书
计算机专业毕业生求职信
2014/04/30 职场文书
大学生暑期社会实践证明范本
2014/10/24 职场文书
万能检讨书
2015/01/27 职场文书
小学生心理健康活动总结
2015/05/08 职场文书
职业规划从高考志愿专业选择开始
2019/08/08 职场文书