Python3爬虫中关于Ajax分析方法的总结


Posted in Python onJuly 10, 2020

这里还以前面的微博为例,我们知道拖动刷新的内容由Ajax加载,而且页面的URL没有变化,那么应该到哪里去查看这些Ajax请求呢?

1. 查看请求

这里还需要借助浏览器的开发者工具,下面以Chrome浏览器为例来介绍。

首先,用Chrome浏览器打开微博的链接https://m.weibo.cn/u/2830678474,随后在页面中点击鼠标右键,从弹出的快捷菜单中选择“检查”选项,此时便会弹出开发者工具,如图6-2所示:

Python3爬虫中关于Ajax分析方法的总结

此时在Elements选项卡中便会观察到网页的源代码,右侧便是节点的样式。

不过这不是我们想要寻找的内容。切换到Network选项卡,随后重新刷新页面,可以发现这里出现了非常多的条目,如图6-3所示。

Python3爬虫中关于Ajax分析方法的总结

前面也提到过,这里其实就是在页面加载过程中浏览器与服务器之间发送请求和接收响应的所有记录。

Ajax其实有其特殊的请求类型,它叫作xhr。在图6-3中,我们可以发现一个名称以getIndex开头的请求,其Type为xhr,这就是一个Ajax请求。用鼠标点击这个请求,可以查看这个请求的详细信息,如图6-4所示。

Python3爬虫中关于Ajax分析方法的总结

在右侧可以观察到其Request Headers、URL和Response Headers等信息。其中Request Headers中有一个信息为X-Requested-With:XMLHttpRequest,这就标记了此请求是Ajax请求,如图6-5所示。

Python3爬虫中关于Ajax分析方法的总结

随后点击一下Preview,即可看到响应的内容,它是JSON格式的。这里Chrome为我们自动做了解析,点击箭头即可展开和收起相应内容,如图6-6所示。

Python3爬虫中关于Ajax分析方法的总结

观察可以发现,这里的返回结果是我的个人信息,如昵称、简介、头像等,这也是用来渲染个人主页所使用的数据。JavaScript接收到这些数据之后,再执行相应的渲染方法,整个页面就渲染出来了。

另外,也可以切换到Response选项卡,从中观察到真实的返回数据,如图6-7所示。

Python3爬虫中关于Ajax分析方法的总结

接下来,切回到第一个请求,观察一下它的Response是什么,如图6-8所示。

Python3爬虫中关于Ajax分析方法的总结

这是最原始的链接https://m.weibo.cn/u/2830678474返回的结果,其代码只有不到50行,结构也非常简单,只是执行了一些JavaScript。

所以说,我们看到的微博页面的真实数据并不是最原始的页面返回的,而是后来执行JavaScript后再次向后台发送了Ajax请求,浏览器拿到数据后再进一步渲染出来的。

2. 过滤请求

接下来,再利用Chrome开发者工具的筛选功能筛选出所有的Ajax请求。在请求的上方有一层筛选栏,直接点击XHR,此时在下方显示的所有请求便都是Ajax请求了,如图6-9所示。

Python3爬虫中关于Ajax分析方法的总结

接下来,不断滑动页面,可以看到页面底部有一条条新的微博被刷出,而开发者工具下方也一个个地出现Ajax请求,这样我们就可以捕获到所有的Ajax请求了。

随意点开一个条目,都可以清楚地看到其Request URL、Request Headers、Response Headers、Response Body等内容,此时想要模拟请求和提取就非常简单了。

图6-10所示的内容便是我的某一页微博的列表信息。

Python3爬虫中关于Ajax分析方法的总结

到现在为止,我们已经可以分析出来Ajax请求的一些详细信息了,接下来只需要用程序模拟这些Ajax请求,就可以轻松提取我们所需要的信息了。

在下一节中,我们用Python实现Ajax请求的模拟,从而实现数据的抓取。

以上就是Python3爬虫中关于Ajax分析方法的总结的详细内容,更多关于Python3爬虫里Ajax分析方法的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python爬虫框架Scrapy安装使用步骤
Apr 01 Python
使用python开发vim插件及心得分享
Nov 04 Python
python实现的简单RPG游戏流程实例
Jun 28 Python
Python字符串特性及常用字符串方法的简单笔记
Jan 04 Python
一步步解析Python斗牛游戏的概率
Feb 12 Python
浅谈python抛出异常、自定义异常, 传递异常
Jun 20 Python
Python编写一个闹钟功能
Jul 11 Python
Pandas之drop_duplicates:去除重复项方法
Apr 18 Python
python3连接MySQL数据库实例详解
May 24 Python
关于django 数据库迁移(migrate)应该知道的一些事
May 27 Python
Django和Flask框架优缺点对比
Oct 24 Python
Python语法垃圾回收机制原理解析
Mar 25 Python
Python3爬虫中Ajax的用法
Jul 10 #Python
Python3爬虫中Selenium的用法详解
Jul 10 #Python
Python3爬虫中Splash的知识总结
Jul 10 #Python
Python3爬虫里关于Splash负载均衡配置详解
Jul 10 #Python
python3爬虫中异步协程的用法
Jul 10 #Python
浅析Python面向对象编程
Jul 10 #Python
Python爬虫小例子——爬取51job发布的工作职位
Jul 10 #Python
You might like
咖啡与水的关系
2021/03/03 冲泡冲煮
亲密接触PHP之PHP语法学习笔记1
2006/12/17 PHP
PHP 加密解密内部算法
2010/04/22 PHP
使用PHP会话(Session)实现用户登陆功能
2013/06/29 PHP
ThinkPHP查询语句与关联查询用法实例
2014/11/01 PHP
PHP上传图片类显示缩略图功能
2016/06/30 PHP
PHP图片添加水印功能示例小结
2016/10/03 PHP
php处理静态页面:页面设置缓存时间实例
2017/06/22 PHP
Ajax中的JSON格式与php传输过程全面解析
2017/11/14 PHP
PHP写API输出的时用echo的原因详解
2019/04/28 PHP
NodeJS框架Express的模板视图机制分析
2011/07/19 NodeJs
Jquery 模板数据绑定插件的使用方法详解
2013/07/08 Javascript
JS+flash实现chrome和ie浏览器下同时可以复制粘贴
2013/09/22 Javascript
加随机数引入脚本不让浏览器读取缓存
2014/09/04 Javascript
微信小程序之拖拽排序(代码分享)
2017/01/21 Javascript
在vue项目中使用md5加密的方法
2018/09/14 Javascript
浅谈js闭包理解
2019/04/01 Javascript
vue如何获取自定义元素属性参数值的方法
2019/05/14 Javascript
Vue Cli3 打包配置并自动忽略console.log语句的方法
2020/04/23 Javascript
[01:09:19]DOTA2-DPC中国联赛 正赛 VG vs Aster BO3 第二场 2月28日
2021/03/11 DOTA
python3 与python2 异常处理的区别与联系
2016/06/19 Python
Python找出最小的K个数实例代码
2018/01/04 Python
python多线程调用exit无法退出的解决方法
2019/02/18 Python
Python爬虫实现验证码登录代码实例
2019/05/10 Python
Python学习笔记之文件的读写操作实例分析
2019/08/07 Python
python中利用numpy.array()实现俩个数值列表的对应相加方法
2019/08/26 Python
WEB控件及HTML服务端控件能否调用客户端方法?如果能,请解释如何调用?
2015/08/25 面试题
开办饭店创业计划书
2013/12/28 职场文书
社区工作者思想汇报
2014/01/13 职场文书
八一建军节部队活动方案
2014/02/04 职场文书
医院见习报告范文
2014/11/03 职场文书
社区党员群众路线教育实践活动心得体会
2014/11/03 职场文书
eval(cmd)与eval($cmd)的区别与联系
2021/07/07 PHP
Go语言应该什么情况使用指针
2021/07/25 Golang
MYSQL中文乱码问题的解决方案
2022/06/14 MySQL
5个实用的JavaScript新特性
2022/06/16 Javascript