Python爬虫实战之爬取携程评论


Posted in Python onJune 02, 2021

一、分析数据源

这里的数据源是指html网页?还是Aajx异步。对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍。

提示:以下操作均不需要登录(当然登录也可以)

咱们先在浏览器里面搜索携程,然后在携程里面任意搜索一个景点:长隆野生动物世界,这里就以长隆野生动物世界为例,讲解如何去爬取携程评论数据。

 Python爬虫实战之爬取携程评论

页面下方则是评论数据

 Python爬虫实战之爬取携程评论

Python爬虫实战之爬取携程评论 Python爬虫实战之爬取携程评论

从上面两张图可以看出,点击评论下一页,浏览器的链接没有变化,说明数据是Ajax异步请求。因此我们就找到了数据是异步加载过来的,这时候需要去network里面是查看数据包

二、分析数据包

在network中找到下面这个数据包

 Python爬虫实战之爬取携程评论

查看Preview里面的内容(请求返回内容)

Python爬虫实战之爬取携程评论

可以看到数据已经请求到了,下面看一下数据是否是正确的(和网页内容一致)。

 Python爬虫实战之爬取携程评论

ok,没问题之后,下面开始编写Python程序去请求数据。

1.请求地址

Python爬虫实战之爬取携程评论

可以获取到请求链接和请求方式。

Python爬虫实战之爬取携程评论

这里请求不用添加请求头header也是可以的。其中postUrl是请求链接,data_1是请求参数。

2.请求参数

在network里可以看到请求参数

Python爬虫实战之爬取携程评论

在程序中的构建如下:

Python爬虫实战之爬取携程评论

其中需要关注的是arg中的pageIndex(页数),pageSize(每页条数)。

Python爬虫实战之爬取携程评论

最终结果如下:

Python爬虫实战之爬取携程评论

该景点的评论就可以成功爬取下来了。

三、采集全部评论

上面只是采集了第一页的评论数据,通过改变arg中的pageIndex(页数),就可以遍历爬取全部的评论。

Python爬虫实战之爬取携程评论

比如这个景点一共是300页。现在把循环给加上

最终的完整代码如下:

Python爬虫实战之爬取携程评论

到此这篇关于Python爬虫实战之爬取携程评论的文章就介绍到这了,更多相关Python爬取携程评论内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
树莓派中python获取GY-85九轴模块信息示例
Dec 05 Python
python爬虫入门教程--优雅的HTTP库requests(二)
May 25 Python
python里使用正则的findall函数的实例详解
Oct 19 Python
Python 内置函数进制转换的用法(十进制转二进制、八进制、十六进制)
Apr 30 Python
详解python单元测试框架unittest
Jul 02 Python
用于业余项目的8个优秀Python库
Sep 21 Python
详解python3 + Scrapy爬虫学习之创建项目
Apr 12 Python
python给指定csv表格中的联系人群发邮件(带附件的邮件)
Dec 31 Python
Pandas实现一列数据分隔为两列
May 18 Python
python实现简单的tcp 文件下载
Sep 16 Python
python实现KNN近邻算法
Dec 30 Python
Django drf请求模块源码解析
Jun 08 Python
Pytorch DataLoader shuffle验证方式
python 爬取吉首大学网站成绩单
python 批量压缩图片的脚本
Jun 02 #Python
python操作xlsx格式文件并读取
关于Numpy之repeat、tile的用法总结
Jun 02 #Python
Matlab如何实现矩阵复制扩充
Jun 02 #Python
给numpy.array增加维度的超简单方法
Jun 02 #Python
You might like
初步介绍PHP扩展开发经验分享
2012/09/06 PHP
php表单处理操作
2017/11/16 PHP
PHP一个简单的无需刷新爬虫
2019/01/05 PHP
javascript下利用arguments实现string.format函数
2010/08/24 Javascript
基于mootools 1.3框架下的图片滑动效果代码
2011/04/22 Javascript
jQuery表格行换色的三种实现方法
2011/06/27 Javascript
Jquery index()方法 获取相应元素索引值
2012/10/12 Javascript
Bootstrap树形控件使用方法详解
2016/01/27 Javascript
Node.js模块封装及使用方法
2016/03/06 Javascript
以WordPress为例讲解jQuery美化页面Title的方法
2016/05/23 Javascript
js学习总结_选项卡封装(实例讲解)
2017/07/13 Javascript
详解如何搭建mpvue框架搭配vant组件库的小程序项目
2019/05/16 Javascript
Vue中遍历数组的新方法实例详解
2019/07/21 Javascript
小程序点击图片实现png转jpg
2019/10/22 Javascript
javascript中contains是否包含功能实现代码(扩展字符、数组、dom)
2020/04/07 Javascript
jQuery中getJSON跨域原理的深入讲解
2020/09/02 jQuery
js代码编写无缝轮播图
2020/09/13 Javascript
微信小程序:报错(in promise) MiniProgramError
2020/10/30 Javascript
[02:00]最后,我终于出了辉耀
2018/03/27 DOTA
[01:01:35]Optic vs paiN 2018国际邀请赛小组赛BO2 第二场 8.19
2018/08/21 DOTA
Python查询IP地址归属完整代码
2017/06/21 Python
Python之多线程爬虫抓取网页图片的示例代码
2018/01/10 Python
python实现在函数图像上添加文字和标注的方法
2019/07/08 Python
详解如何用python实现一个简单下载器的服务端和客户端
2019/10/28 Python
python 实现查询Neo4j多节点的多层关系
2019/12/23 Python
pytorch:torch.mm()和torch.matmul()的使用
2019/12/27 Python
python利用tkinter实现图片格式转换的示例
2020/09/28 Python
python 获取字典键值对的实现
2020/11/12 Python
英国体育器材进口商店:UK Sport Imports
2017/03/14 全球购物
介绍一下MYSQL常用的优化技巧
2012/10/25 面试题
自主招生自荐信格式
2013/12/03 职场文书
2014年城管工作总结
2014/11/20 职场文书
2015年敬老月活动总结
2015/03/27 职场文书
2016高中社会实践心得体会范文
2016/01/14 职场文书
《家庭教育》读后感3篇
2019/12/18 职场文书
Python可视化学习之matplotlib内置单颜色
2022/02/24 Python