Python爬虫实战之爬取携程评论


Posted in Python onJune 02, 2021

一、分析数据源

这里的数据源是指html网页?还是Aajx异步。对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍。

提示:以下操作均不需要登录(当然登录也可以)

咱们先在浏览器里面搜索携程,然后在携程里面任意搜索一个景点:长隆野生动物世界,这里就以长隆野生动物世界为例,讲解如何去爬取携程评论数据。

 Python爬虫实战之爬取携程评论

页面下方则是评论数据

 Python爬虫实战之爬取携程评论

Python爬虫实战之爬取携程评论 Python爬虫实战之爬取携程评论

从上面两张图可以看出,点击评论下一页,浏览器的链接没有变化,说明数据是Ajax异步请求。因此我们就找到了数据是异步加载过来的,这时候需要去network里面是查看数据包

二、分析数据包

在network中找到下面这个数据包

 Python爬虫实战之爬取携程评论

查看Preview里面的内容(请求返回内容)

Python爬虫实战之爬取携程评论

可以看到数据已经请求到了,下面看一下数据是否是正确的(和网页内容一致)。

 Python爬虫实战之爬取携程评论

ok,没问题之后,下面开始编写Python程序去请求数据。

1.请求地址

Python爬虫实战之爬取携程评论

可以获取到请求链接和请求方式。

Python爬虫实战之爬取携程评论

这里请求不用添加请求头header也是可以的。其中postUrl是请求链接,data_1是请求参数。

2.请求参数

在network里可以看到请求参数

Python爬虫实战之爬取携程评论

在程序中的构建如下:

Python爬虫实战之爬取携程评论

其中需要关注的是arg中的pageIndex(页数),pageSize(每页条数)。

Python爬虫实战之爬取携程评论

最终结果如下:

Python爬虫实战之爬取携程评论

该景点的评论就可以成功爬取下来了。

三、采集全部评论

上面只是采集了第一页的评论数据,通过改变arg中的pageIndex(页数),就可以遍历爬取全部的评论。

Python爬虫实战之爬取携程评论

比如这个景点一共是300页。现在把循环给加上

最终的完整代码如下:

Python爬虫实战之爬取携程评论

到此这篇关于Python爬虫实战之爬取携程评论的文章就介绍到这了,更多相关Python爬取携程评论内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python 文件与目录操作
Dec 24 Python
Python实现从url中提取域名的几种方法
Sep 26 Python
python统计字符串中指定字符出现次数的方法
Apr 04 Python
Python返回真假值(True or False)小技巧
Apr 10 Python
Python中的面向对象编程详解(下)
Apr 13 Python
Python获取邮件地址的方法
Jul 10 Python
详解Python中where()函数的用法
Mar 27 Python
windows下pycharm安装、创建文件、配置默认模板
Jul 31 Python
Python求解正态分布置信区间教程
Nov 20 Python
python 监测内存和cpu的使用率实例
Nov 28 Python
keras绘制acc和loss曲线图实例
Jun 15 Python
python使用PySimpleGUI设置进度条及控件使用
Jun 10 Python
Pytorch DataLoader shuffle验证方式
python 爬取吉首大学网站成绩单
python 批量压缩图片的脚本
Jun 02 #Python
python操作xlsx格式文件并读取
关于Numpy之repeat、tile的用法总结
Jun 02 #Python
Matlab如何实现矩阵复制扩充
Jun 02 #Python
给numpy.array增加维度的超简单方法
Jun 02 #Python
You might like
Symfony2中被遗弃的getRequest()方法分析
2016/03/17 PHP
PHP7创建COOKIE和销毁COOKIE的实例方法
2020/02/03 PHP
JavaScript高级程序设计 阅读笔记(二十一) JavaScript中的XML
2012/09/14 Javascript
javascript/jquery获取地址栏url参数的方法
2014/03/05 Javascript
详解javascript数组去重问题
2015/11/06 Javascript
JS实现响应鼠标点击动画渐变弹出层效果代码
2016/03/25 Javascript
JS用斜率判断鼠标进入DIV四个方向的方法
2016/11/07 Javascript
jQuery中checkbox反复调用attr('checked', true/false)只有第一次生效的解决方法
2016/11/16 Javascript
JavaScript控制输入框中只能输入中文、数字和英文的方法【基于正则实现】
2017/03/03 Javascript
Angular2 之 路由与导航详细介绍
2017/05/26 Javascript
JQuery 获取多个select标签option的text内容(实例)
2017/09/07 jQuery
使用nvm管理不同版本的node与npm的方法
2017/10/31 Javascript
vue-music关于Player播放器组件详解
2017/11/28 Javascript
基于 D3.js 绘制动态进度条的实例详解
2018/02/26 Javascript
jQuery实现鼠标移入移出事件切换功能示例
2018/09/06 jQuery
Js中使用正则表达式验证输入是否有特殊字符
2018/09/07 Javascript
使用vue点击li,获取当前点击li父辈元素的属性值方法
2018/09/12 Javascript
微信小程序实现的绘制table表格功能示例
2019/04/26 Javascript
通过实例讲解JS如何防抖动
2019/06/15 Javascript
详解Vuex下Store的模块化拆分实践
2019/07/31 Javascript
浅探express路由和中间件的实现
2019/09/30 Javascript
Python中文分词工具之结巴分词用法实例总结【经典案例】
2017/04/15 Python
Python中最大最小赋值小技巧(分享)
2017/12/23 Python
Flask入门之上传文件到服务器的方法示例
2018/07/18 Python
解决python 无法加载downsample模型的问题
2018/10/25 Python
python读取word文档,插入mysql数据库的示例代码
2018/11/07 Python
Python常用数据类型之间的转换总结
2019/09/06 Python
Python 操作 PostgreSQL 数据库示例【连接、增删改查等】
2020/04/21 Python
如何使用python socket模块实现简单的文件下载
2020/09/04 Python
Liu Jo西班牙官网:意大利服装品牌
2019/09/11 全球购物
德国大型箱包和皮具商店:Koffer
2019/10/01 全球购物
优秀的自荐信要注意哪些
2014/01/03 职场文书
医院合作协议书
2014/08/19 职场文书
英文感谢信格式
2015/01/21 职场文书
世界气象日活动总结
2015/02/27 职场文书
深入解析MySQL索引数据结构
2021/10/16 MySQL