编程 Python

Python爬虫实战之爬取携程评论

Posted in Python onJune 02, 2021

一、分析数据源

这里的数据源是指html网页？还是Aajx异步。对于爬虫初学者来说，可能不知道怎么判断，这里辰哥也手把手过一遍。

提示：以下操作均不需要登录（当然登录也可以）

咱们先在浏览器里面搜索携程，然后在携程里面任意搜索一个景点：长隆野生动物世界，这里就以长隆野生动物世界为例，讲解如何去爬取携程评论数据。

Python爬虫实战之爬取携程评论

页面下方则是评论数据

Python爬虫实战之爬取携程评论

从上面两张图可以看出，点击评论下一页，浏览器的链接没有变化，说明数据是Ajax异步请求。因此我们就找到了数据是异步加载过来的，这时候需要去network里面是查看数据包。

二、分析数据包

在network中找到下面这个数据包

Python爬虫实战之爬取携程评论

查看Preview里面的内容（请求返回内容）

Python爬虫实战之爬取携程评论

可以看到数据已经请求到了，下面看一下数据是否是正确的（和网页内容一致）。

Python爬虫实战之爬取携程评论

ok，没问题之后，下面开始编写Python程序去请求数据。

1.请求地址

Python爬虫实战之爬取携程评论

可以获取到请求链接和请求方式。

Python爬虫实战之爬取携程评论

这里请求不用添加请求头header也是可以的。其中postUrl是请求链接，data_1是请求参数。

2.请求参数

在network里可以看到请求参数

Python爬虫实战之爬取携程评论

在程序中的构建如下：

Python爬虫实战之爬取携程评论

其中需要关注的是arg中的pageIndex（页数），pageSize（每页条数）。

Python爬虫实战之爬取携程评论

最终结果如下：

Python爬虫实战之爬取携程评论

该景点的评论就可以成功爬取下来了。

三、采集全部评论

上面只是采集了第一页的评论数据，通过改变arg中的pageIndex（页数），就可以遍历爬取全部的评论。

Python爬虫实战之爬取携程评论

比如这个景点一共是300页。现在把循环给加上

最终的完整代码如下：

Python爬虫实战之爬取携程评论

到此这篇关于Python爬虫实战之爬取携程评论的文章就介绍到这了,更多相关Python爬取携程评论内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Python爬虫实战之爬取携程评论

- Author -

程序员启航

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

解决python写的windows服务不能启动的问题

Apr 15 Python

python解析xml文件操作实例

Oct 05 Python

基于Python实现的百度贴吧网络爬虫实例

Apr 17 Python

Python的面向对象编程方式学习笔记

Jul 12 Python

Python实现登录接口的示例代码

Jul 21 Python

使用django-crontab实现定时任务的示例

Feb 26 Python

python如何读写json数据

Mar 21 Python

Python重新加载模块的实现方法

Oct 16 Python

Python常用模块之requests模块用法分析

May 15 Python

django框架模板语言使用方法详解

Jul 18 Python

Python基于OpenCV实现人脸检测并保存

Jul 23 Python

pandas 如何分割字符的实现方法

Jul 29 Python

Pytorch DataLoader shuffle验证方式

python 爬取吉首大学网站成绩单

python 批量压缩图片的脚本

Jun 02 #Python

python操作xlsx格式文件并读取

关于Numpy之repeat、tile的用法总结

Jun 02 #Python

Matlab如何实现矩阵复制扩充

Jun 02 #Python

给numpy.array增加维度的超简单方法

Jun 02 #Python

You might like

php使用$_POST或$_SESSION[]向js函数传参

2014/09/16 PHP

zend framework中使用memcache的方法

2016/03/04 PHP

PHP的全局错误处理详解

2016/04/25 PHP

php获取'/'传参的值简单方法

2017/07/13 PHP

php中curl和soap方式请求服务超时问题的解决

2018/06/11 PHP

基于jQuery的一个扩展form序列化到json对象

2010/12/09 Javascript

Javascript使用post方法提交数据实例

2015/08/03 Javascript

javascript如何定义对象数组

2016/06/07 Javascript

BootStrap Progressbar 实现大文件上传的进度条的实例代码

2016/06/27 Javascript

javascript 解决浏览器不支持的问题

2016/09/24 Javascript

AngularJS实践之使用ng-repeat中$index的注意点

2016/12/22 Javascript

JS实现类似百叶窗下拉菜单效果

2016/12/30 Javascript

如何在AngularJs中调用第三方插件库

2017/05/21 Javascript

基于js原生和ajax的get和post方法以及jsonp的原生写法实例

2017/10/16 Javascript

JavaScript重复元素处理方法分析【统计个数、计算、去重复等】

2017/12/14 Javascript

vue+SSM实现验证码功能

2018/12/07 Javascript

JQuery复选框全选效果如何实现

2020/05/08 jQuery

jQuery实现飞机大战小游戏

2020/07/05 jQuery

python中redis查看剩余过期时间及用正则通配符批量删除key的方法

2018/07/30 Python

对python 调用类属性的方法详解

2019/07/02 Python

使用django的ORM框架按月统计近一年内的数据方法

2019/07/18 Python

python傅里叶变换FFT绘制频谱图

2019/07/19 Python

利用Python库Scapy解析pcap文件的方法

2019/07/23 Python

matplotlib命令与格式之tick坐标轴日期格式(设置日期主副刻度)

2019/08/06 Python

详解基于Facecognition+Opencv快速搭建人脸识别及跟踪应用

2021/01/21 Python

Tory Burch德国官网：美国时尚生活品牌

2018/01/03 全球购物

英国领先的男装设计师服装独立零售商：Repertoire Fashion

2020/10/19 全球购物

房地产开发计划书

2014/01/10 职场文书

售后服务经理岗位职责范本

2014/02/22 职场文书

工程采购员岗位职责

2014/03/09 职场文书

辩论赛主持词

2014/03/18 职场文书

2015年学生会纪检部工作总结

2015/03/31 职场文书

2015年助理工程师工作总结

2015/04/03 职场文书

庆七一活动简报

2015/07/20 职场文书

会议承办单位欢迎词

2019/07/09 职场文书

Python数据分析入门之教你怎么搭建环境

2021/05/13 Python