浅谈如何使用python抓取网页中的动态数据实现


Posted in Python onAugust 17, 2020

我们经常会发现网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的。所以也就引出了什么是动态数据的概念,动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到浏览器后动态生成的,而之前并没有的。

在编写爬虫进行网页数据抓取的时候,经常会遇到这种需要动态加载数据的HTML网页,如果还是直接从网页上抓取那么将无法获得任何数据。

今天,我们就在这里简单聊一聊如何用python来抓取页面中的JS动态加载的数据。

给出一个网页:豆瓣电影排行榜,其中的所有电影信息都是动态加载的。我们无法直接从页面中获得每个电影的信息。

如下图所示,我们无法在HTML中找到对应的电影信息。

浅谈如何使用python抓取网页中的动态数据实现

浅谈如何使用python抓取网页中的动态数据实现

在Chrome浏览器中,点击F12,打开Network中的XHR,我们来抓取对应的js文件来进行解析。如下图:

浅谈如何使用python抓取网页中的动态数据实现

在豆瓣页面向下拖拽,使得页面加载入更多的电影信息,从而我们可以抓取对应的报文。

我们可以看到它采用的是AJAX异步请求。通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新。因此就可以在不重新加载整个网页的情况下,对网页的某部分进行更新,从而实现数据的动态载入。

浅谈如何使用python抓取网页中的动态数据实现

我们可以看到,通过GET,我们得到的response之中包含了所对应的电影相关信息,它们以JSON的格式保存在一起。

浅谈如何使用python抓取网页中的动态数据实现

查看一下RequestURL信息,我们可以发现在action参数之后又跟了两个参数"start"和"limit",很显然它们的意思是:"从某个位置开始返回的电影的个数"。

如果想快速获取相关的电影信息,就可以直接把这个URL复制进地址栏,修改你所需要的start和limit参数值,将得到对应的结果进行抓取即可。

但是这样显得很不自动化,而且很多其他网站的RequestURL并不给的这么直接,所以我们接下来用python进行进一步的操作来获取这个返回的报文信息。

#coding:utf-8
import urllib
import requests

post_param = {'action':'','start':'0','limit':'1'}
return_data = requests.get("https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90",data =post_param, verify = False)
print return_data.text

因为豆瓣是https的,所以我们在此处需要稍微注意一下,将verify置为False表示不需要验证SSL证书。

我们可以发现打印出的结果中就是对应的JSON文件,下一步的解析和操作在这里就不赘述了。

[{"rating":["9.6","50"],"rank":1,"cover_url":"https://img3.doubanio.com\/view\/movie_poster_cover\/mpst\/public\/p480747492.jpg","is_playable":true,"id":"1292052","types":["犯罪","剧情"],"regions":["美国"],"title":"肖申克的救赎","url":"https:\/\/movie.douban.com\/subject\/1292052\/","release_date":"1994-09-10","actor_count":15,"vote_count":713205,"score":"9.6","actors":["蒂姆·罗宾斯","摩根·弗里曼","鲍勃·冈顿","威廉姆·赛德勒","克兰西·布朗","吉尔·贝罗斯","马克·罗斯顿","詹姆斯·惠特摩","杰弗里·德曼","拉里·布兰登伯格","尼尔·吉恩托利","布赖恩·利比","大卫·普罗瓦尔","约瑟夫·劳格诺","祖德·塞克利拉"],"is_watched":false}]

到此这篇关于浅谈如何使用python抓取网页中的动态数据实现的文章就介绍到这了,更多相关python抓取网页动态数据 内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中使用动态变量名的方法
May 06 Python
python学习笔记之列表(list)与元组(tuple)详解
Nov 23 Python
Python动态生成多维数组的方法示例
Aug 09 Python
在Python中pandas.DataFrame重置索引名称的实例
Nov 06 Python
python实现在函数图像上添加文字和标注的方法
Jul 08 Python
python实现对列表中的元素进行倒序打印
Nov 23 Python
Flask模板引擎Jinja2使用实例
Apr 23 Python
Python基于network模块制作电影人物关系图
Jun 19 Python
python对execl 处理操作代码
Jun 22 Python
使用keras框架cnn+ctc_loss识别不定长字符图片操作
Jun 29 Python
python 批量下载bilibili视频的gui程序
Nov 20 Python
Python+SeaTable实现计算两个日期间的工作日天数
Jul 07 Python
详解Python 中的容器 collections
Aug 17 #Python
Python 解析库json及jsonpath pickle的实现
Aug 17 #Python
Python实现爬取网页中动态加载的数据
Aug 17 #Python
Python 如何操作 SQLite 数据库
Aug 17 #Python
Python使用正则表达式实现爬虫数据抽取
Aug 17 #Python
Python 通过正则表达式快速获取电影的下载地址
Aug 17 #Python
Python 程序员必须掌握的日志记录
Aug 17 #Python
You might like
PHP 输出缓存详解
2009/06/20 PHP
php设计模式 DAO(数据访问对象模式)
2011/06/26 PHP
php使用parse_url和parse_str解析URL
2015/02/22 PHP
PHP实现十进制、二进制、八进制和十六进制转换相关函数用法分析
2017/04/25 PHP
详解php几行代码实现CSV格式文件输出
2017/07/01 PHP
PHP手机短信验证码实现流程详解
2018/05/17 PHP
PHP实现一维数组与二维数组去重功能示例
2018/05/24 PHP
JavaScript(JS) 压缩 / 混淆 / 格式化 批处理工具
2010/12/10 Javascript
jquery一般方法介绍 入门参考
2011/06/21 Javascript
extjs实现选择多表自定义查询功能 前台部分(ext源码)
2011/12/20 Javascript
javascript中不等于的代码是什么怎么写
2013/12/29 Javascript
JS检测输入字符是否包含非法字符的示例代码
2014/02/11 Javascript
js格式化输入框内金额、银行卡号
2016/02/01 Javascript
JavaScript实现DOM对象选择器
2016/09/24 Javascript
微信小程序 实现拖拽事件监听实例详解
2016/11/16 Javascript
AngularJS全局警告框实现方法示例
2017/05/18 Javascript
bootstrap 通过加减按钮实现输入框组功能
2017/11/15 Javascript
Angular中管道操作符(|)的使用方法
2017/12/15 Javascript
vue 组件中使用 transition 和 transition-group实现过渡动画
2019/07/09 Javascript
从0搭建vue-cli4脚手架
2020/06/17 Javascript
[01:47]2018年度DOTA2最具人气解说-完美盛典
2018/12/16 DOTA
python采集百度百科的方法
2015/06/05 Python
python anaconda 安装 环境变量 升级 以及特殊库安装的方法
2017/06/21 Python
python简单鼠标自动点击某区域的实例
2019/06/25 Python
python使用配置文件过程详解
2019/12/28 Python
用 python 进行微信好友信息分析
2020/11/28 Python
澳大利亚拥有最好的家具和家居用品在线目的地:Nestz
2019/02/23 全球购物
求职信模板标准格式范文
2014/02/23 职场文书
聚美优品恶搞广告词
2014/03/14 职场文书
2014年母亲节寄语
2014/05/07 职场文书
2014年教师节演讲稿
2014/09/03 职场文书
公司授权委托书范文
2014/09/21 职场文书
党的群众路线批评与自我批评发言稿
2014/10/16 职场文书
协议书格式模板
2016/03/24 职场文书
golang中的空接口使用详解
2021/03/30 Python
R9700摩机记
2022/04/05 无线电