编程 Python

Python3爬虫中关于Ajax分析方法的总结

Posted in Python onJuly 10, 2020

这里还以前面的微博为例，我们知道拖动刷新的内容由Ajax加载，而且页面的URL没有变化，那么应该到哪里去查看这些Ajax请求呢？

1. 查看请求

这里还需要借助浏览器的开发者工具，下面以Chrome浏览器为例来介绍。

首先，用Chrome浏览器打开微博的链接https://m.weibo.cn/u/2830678474，随后在页面中点击鼠标右键，从弹出的快捷菜单中选择“检查”选项，此时便会弹出开发者工具，如图6-2所示：

Python3爬虫中关于Ajax分析方法的总结

此时在Elements选项卡中便会观察到网页的源代码，右侧便是节点的样式。

不过这不是我们想要寻找的内容。切换到Network选项卡，随后重新刷新页面，可以发现这里出现了非常多的条目，如图6-3所示。

Python3爬虫中关于Ajax分析方法的总结

前面也提到过，这里其实就是在页面加载过程中浏览器与服务器之间发送请求和接收响应的所有记录。

Ajax其实有其特殊的请求类型，它叫作xhr。在图6-3中，我们可以发现一个名称以getIndex开头的请求，其Type为xhr，这就是一个Ajax请求。用鼠标点击这个请求，可以查看这个请求的详细信息，如图6-4所示。

Python3爬虫中关于Ajax分析方法的总结

在右侧可以观察到其Request Headers、URL和Response Headers等信息。其中Request Headers中有一个信息为X-Requested-With:XMLHttpRequest，这就标记了此请求是Ajax请求，如图6-5所示。

Python3爬虫中关于Ajax分析方法的总结

随后点击一下Preview，即可看到响应的内容，它是JSON格式的。这里Chrome为我们自动做了解析，点击箭头即可展开和收起相应内容，如图6-6所示。

Python3爬虫中关于Ajax分析方法的总结

观察可以发现，这里的返回结果是我的个人信息，如昵称、简介、头像等，这也是用来渲染个人主页所使用的数据。JavaScript接收到这些数据之后，再执行相应的渲染方法，整个页面就渲染出来了。

另外，也可以切换到Response选项卡，从中观察到真实的返回数据，如图6-7所示。

Python3爬虫中关于Ajax分析方法的总结

接下来，切回到第一个请求，观察一下它的Response是什么，如图6-8所示。

Python3爬虫中关于Ajax分析方法的总结

这是最原始的链接https://m.weibo.cn/u/2830678474返回的结果，其代码只有不到50行，结构也非常简单，只是执行了一些JavaScript。

所以说，我们看到的微博页面的真实数据并不是最原始的页面返回的，而是后来执行JavaScript后再次向后台发送了Ajax请求，浏览器拿到数据后再进一步渲染出来的。

2. 过滤请求

接下来，再利用Chrome开发者工具的筛选功能筛选出所有的Ajax请求。在请求的上方有一层筛选栏，直接点击XHR，此时在下方显示的所有请求便都是Ajax请求了，如图6-9所示。

Python3爬虫中关于Ajax分析方法的总结

接下来，不断滑动页面，可以看到页面底部有一条条新的微博被刷出，而开发者工具下方也一个个地出现Ajax请求，这样我们就可以捕获到所有的Ajax请求了。

随意点开一个条目，都可以清楚地看到其Request URL、Request Headers、Response Headers、Response Body等内容，此时想要模拟请求和提取就非常简单了。

图6-10所示的内容便是我的某一页微博的列表信息。

Python3爬虫中关于Ajax分析方法的总结

到现在为止，我们已经可以分析出来Ajax请求的一些详细信息了，接下来只需要用程序模拟这些Ajax请求，就可以轻松提取我们所需要的信息了。

在下一节中，我们用Python实现Ajax请求的模拟，从而实现数据的抓取。

以上就是Python3爬虫中关于Ajax分析方法的总结的详细内容，更多关于Python3爬虫里Ajax分析方法的资料请关注三水点靠木其它相关文章！

Python3爬虫中关于Ajax分析方法的总结

- Author -

爱喝马黛茶的安东尼

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python使用MD5加密字符串示例

Aug 22 Python

Python常用的爬虫技巧总结

Mar 28 Python

使用python和Django完成博客数据库的迁移方法

Jan 05 Python

Python基础教程之异常详解

Jan 10 Python

对Python协程之异步同步的区别详解

Feb 19 Python

python如何实现数据的线性拟合

Jul 19 Python

基于python plotly交互式图表大全

Dec 07 Python

python实现扫雷小游戏

Apr 24 Python

利用Python如何制作贪吃蛇及AI版贪吃蛇详解

Aug 24 Python

Python的logging模块基本用法

Dec 24 Python

用python监控服务器的cpu,磁盘空间,内存,超过邮件报警

Jan 29 Python

Python中rapidjson参数校验实现

Jul 25 Python

Python3爬虫中Ajax的用法

Jul 10 #Python

Python3爬虫中Selenium的用法详解

Jul 10 #Python

Python3爬虫中Splash的知识总结

Jul 10 #Python

Python3爬虫里关于Splash负载均衡配置详解

Jul 10 #Python

python3爬虫中异步协程的用法

Jul 10 #Python

浅析Python面向对象编程

Jul 10 #Python

Python爬虫小例子——爬取51job发布的工作职位

Jul 10 #Python

You might like

php 正则表达式小结

2009/08/31 PHP

php入门学习知识点四 PHP正则表达式基本应用

2011/07/14 PHP

PHP实现搜索相似图片

2015/09/22 PHP

PHP中FTP相关函数小结

2016/07/15 PHP

php设计模式之装饰模式应用案例详解

2019/06/17 PHP

基于PHP实现发微博动态代码实例

2020/12/11 PHP

php慢查询日志和错误日志使用详解

2021/02/27 PHP

Eclipse去除js(JavaScript)验证错误

2014/02/11 Javascript

表单提交前触发函数返回true表单才会提交

2014/03/11 Javascript

深入分析escape()、encodeURI()、encodeURIComponent()的区别及示例

2014/08/04 Javascript

PHP+jQuery实现随意拖动层并即时保存拖动位置

2015/04/30 Javascript

input点击后placeholder中的提示消息消失

2016/01/15 Javascript

jquery判断对象是否为空并遍历对象的简单实例

2016/07/26 Javascript

js智能获取浏览器版本UA信息的方法

2016/08/08 Javascript

vue-cli+axios实现文件上传下载功能(下载接收后台返回文件流)

2019/05/10 Javascript

初学vue出现空格警告的原因及其解决方案

2019/10/31 Javascript

vue props default Array或是Object的正确写法说明

2020/07/30 Javascript

[02:12]2015国际邀请赛 SHOWOPEN

2015/08/05 DOTA

[01:21:07]EG vs Liquid 2018国际邀请赛淘汰赛BO3 第一场 8.25

2018/08/29 DOTA

浅析Python3爬虫登录模拟

2018/02/07 Python

使用python Fabric动态修改远程机器hosts的方法

2018/10/26 Python

Python 实现数组相减示例

2019/12/27 Python

Python基于模块Paramiko实现SSHv2协议

2020/04/28 Python

python如何删除列为空的行

2020/07/17 Python

农业大学毕业生的个人自我评价

2013/10/11 职场文书

测绘工程专业个人自我评价

2013/12/01 职场文书

教师自我评价范文

2013/12/16 职场文书

小学教师管理制度

2014/01/18 职场文书

课改先进个人汇报材料

2014/01/26 职场文书

年度献血先进个人事迹材料

2014/02/14 职场文书

研修心得体会

2014/09/04 职场文书

学校总务处领导干部个人对照检查材料思想汇报

2014/10/06 职场文书

奖励通知

2015/04/22 职场文书

硕士论文致谢范文

2015/05/14 职场文书

读《钢铁是怎样炼成的》有感：百炼方成钢

2019/11/05 职场文书

linux中nohup和后台运行进程查看及终止

2021/06/24 Python