Python爬虫实战之爬取携程评论


Posted in Python onJune 02, 2021

一、分析数据源

这里的数据源是指html网页?还是Aajx异步。对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍。

提示:以下操作均不需要登录(当然登录也可以)

咱们先在浏览器里面搜索携程,然后在携程里面任意搜索一个景点:长隆野生动物世界,这里就以长隆野生动物世界为例,讲解如何去爬取携程评论数据。

 Python爬虫实战之爬取携程评论

页面下方则是评论数据

 Python爬虫实战之爬取携程评论

Python爬虫实战之爬取携程评论 Python爬虫实战之爬取携程评论

从上面两张图可以看出,点击评论下一页,浏览器的链接没有变化,说明数据是Ajax异步请求。因此我们就找到了数据是异步加载过来的,这时候需要去network里面是查看数据包

二、分析数据包

在network中找到下面这个数据包

 Python爬虫实战之爬取携程评论

查看Preview里面的内容(请求返回内容)

Python爬虫实战之爬取携程评论

可以看到数据已经请求到了,下面看一下数据是否是正确的(和网页内容一致)。

 Python爬虫实战之爬取携程评论

ok,没问题之后,下面开始编写Python程序去请求数据。

1.请求地址

Python爬虫实战之爬取携程评论

可以获取到请求链接和请求方式。

Python爬虫实战之爬取携程评论

这里请求不用添加请求头header也是可以的。其中postUrl是请求链接,data_1是请求参数。

2.请求参数

在network里可以看到请求参数

Python爬虫实战之爬取携程评论

在程序中的构建如下:

Python爬虫实战之爬取携程评论

其中需要关注的是arg中的pageIndex(页数),pageSize(每页条数)。

Python爬虫实战之爬取携程评论

最终结果如下:

Python爬虫实战之爬取携程评论

该景点的评论就可以成功爬取下来了。

三、采集全部评论

上面只是采集了第一页的评论数据,通过改变arg中的pageIndex(页数),就可以遍历爬取全部的评论。

Python爬虫实战之爬取携程评论

比如这个景点一共是300页。现在把循环给加上

最终的完整代码如下:

Python爬虫实战之爬取携程评论

到此这篇关于Python爬虫实战之爬取携程评论的文章就介绍到这了,更多相关Python爬取携程评论内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python的函数的一些高阶特性
Apr 27 Python
利用Python循环(包括while&for)各种打印九九乘法表的实例
Nov 06 Python
Python拼接微信好友头像大图的实现方法
Aug 01 Python
matplotlib.pyplot绘图显示控制方法
Jan 15 Python
Python 用三行代码提取PDF表格数据
Oct 13 Python
python3图片文件批量重命名处理
Oct 31 Python
python实现按关键字筛选日志文件
Dec 24 Python
python设置表格边框的具体方法
Jul 17 Python
python入门教程之基本算术运算符
Nov 13 Python
python Timer 类使用介绍
Dec 28 Python
python中pandas对多列进行分组统计的实现
Jun 18 Python
python数据分析之单因素分析线性拟合及地理编码
Jun 25 Python
Pytorch DataLoader shuffle验证方式
python 爬取吉首大学网站成绩单
python 批量压缩图片的脚本
Jun 02 #Python
python操作xlsx格式文件并读取
关于Numpy之repeat、tile的用法总结
Jun 02 #Python
Matlab如何实现矩阵复制扩充
Jun 02 #Python
给numpy.array增加维度的超简单方法
Jun 02 #Python
You might like
《被神捡到的男人》动画化计划进行中!
2020/03/06 日漫
用PHP实现读取和编写XML DOM代码
2010/04/07 PHP
PHP开发规范手册之PHP代码规范详解
2011/01/13 PHP
Yii入门教程之目录结构、入口文件及路由设置
2014/11/25 PHP
在textarea文本域中显示HTML代码的方法
2007/03/06 Javascript
转自Jquery官方 jQuery1.1.3发布,速度提升800%,体积保持20K
2007/08/19 Javascript
jquery 必填项判断表单是否为空的方法
2008/09/14 Javascript
基于JQuery实现的类似购物商城的购物车
2011/12/06 Javascript
Javascript获取当前时间函数和时间操作小结
2014/10/01 Javascript
解决JS请求服务器gbk文件乱码的问题
2015/10/16 Javascript
JavaScript 函数的定义-调用、注意事项
2017/04/16 Javascript
html中通过JS获取JSON数据并加载的方法
2017/11/30 Javascript
浅谈React深度编程之受控组件与非受控组件
2017/12/26 Javascript
小程序hover-class点击态效果实现
2019/02/26 Javascript
laydate只显示时分 不显示秒的功能实现方法
2019/09/28 Javascript
element中的$confirm的使用
2020/04/26 Javascript
vue父子组件间引用之$parent、$children
2020/05/20 Javascript
在vue中使用Echarts利用watch做动态数据渲染操作
2020/07/20 Javascript
python数据清洗系列之字符串处理详解
2017/02/12 Python
Python中循环引用(import)失败的解决方法
2018/04/22 Python
Python wxPython库Core组件BoxSizer用法示例
2018/09/03 Python
Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】
2018/12/05 Python
Django JWT Token RestfulAPI用户认证详解
2019/01/23 Python
python一些性能分析的技巧
2020/08/30 Python
python如何实时获取tcpdump输出
2020/09/16 Python
python3 通过 pybind11 使用Eigen加速代码的步骤详解
2020/12/07 Python
纯html5+css3下拉导航菜单实现代码
2013/03/18 HTML / CSS
Mistine官方海外旗舰店:泰国国民彩妆品牌
2016/12/28 全球购物
应用服务器有那些
2012/01/19 面试题
Linux机考试题
2015/10/16 面试题
如何获得EntityManager
2014/02/09 面试题
做一个有道德的人演讲稿
2014/05/14 职场文书
出生医学证明书
2014/09/15 职场文书
2014年财务经理工作总结
2014/12/08 职场文书
唤醒紫霞仙子,携手再游三界!大话手游X《大话西游》电影合作专属剧情任务
2022/04/03 其他游戏
Windows server 2012 配置Telnet以及用法详解
2022/04/28 Servers