Python爬取YY评级分数并保存数据实现过程解析


Posted in Python onJune 01, 2020

前言

当需要进行大规模查询时(比如目前遇到的情形:查询某个省所有发债企业的YY评级分数),人工查询显然太过费时,那就写个爬虫吧。

由于该爬虫实在过于简单,就只简单概述下。

一、请求端

通过观察YY评级的网页信息,如下图(F12或右击进入检查,点击network—>XHR—>headers)。

红色框表明是个get请求(其实这种网页基本都是Ajax get,需要总结实际url的规律的)。

绿色框即为实际URL,通过分析该URL,其由两部分组成。前半部分为“
https://web.ratingdog.cn/v1/search?”,后半部分为黄色框内内容用“&”符号连接后的结果。黄色框内的内容,只有企业名称为变量,且为已知变量,那URL即可据此确定了。

Python爬取YY评级分数并保存数据实现过程解析

另外需注意,YY评级需要登录才可查询数据,在构建头部信息进行访问时,一定要提前登录,并在头部信息中放入登录信息和登录状态。

二、响应端

通过观察网页的响应信息(F12或右击进入检查,点击network—>XHR—>response),如下图。响应信息及其简单,我们所需要的YY评级分数安详地躺在那里,简单到一个正则表达式就可以提取出该数据。正则如下:

"msg".*?"IssuerName":"(.*?)","YYRating":"(.*?)/10","IntrinsicRating".*?"

Python爬取YY评级分数并保存数据实现过程解析

三、代码

所需数据较少,代码相对简单,就不建立函数了,直接一路到底吧。如下:

Python爬取YY评级分数并保存数据实现过程解析

运行代码后,得到结果如下。安徽省的100多条数据,就到了本地了

Python爬取YY评级分数并保存数据实现过程解析

Python爬取YY评级分数并保存数据实现过程解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python网络编程示例(客户端与服务端)
Apr 24 Python
用实例详解Python中的Django框架中prefetch_related()函数对数据库查询的优化
Apr 01 Python
Python求两个文本文件以行为单位的交集、并集与差集的方法
Jun 17 Python
tensorflow使用神经网络实现mnist分类
Sep 08 Python
Python把对应格式的csv文件转换成字典类型存储脚本的方法
Feb 12 Python
Python比较配置文件的方法实例详解
Jun 06 Python
解决Django连接db遇到的问题
Aug 29 Python
python元组和字典的内建函数实例详解
Oct 22 Python
完美解决pycharm导入自己写的py文件爆红问题
Feb 12 Python
vscode写python时的代码错误提醒和自动格式化的方法
May 07 Python
基于python实现模拟数据结构模型
Jun 12 Python
Pygame游戏开发之太空射击实战敌人精灵篇
Aug 05 Python
基于Python绘制个人足迹地图
Jun 01 #Python
python 写函数在一定条件下需要调用自身时的写法说明
Jun 01 #Python
解决python调用自己文件函数/执行函数找不到包问题
Jun 01 #Python
Python如何在循环内使用list.remove()
Jun 01 #Python
IntelliJ 中配置 Anaconda的过程图解
Jun 01 #Python
解决python中import文件夹下面py文件报错问题
Jun 01 #Python
浅谈Python中文件夹和python package包的区别
Jun 01 #Python
You might like
PHP高级OOP技术演示
2009/08/27 PHP
让PHP显示Facebook的粉丝数量方法
2014/01/08 PHP
PHP实现抓取HTTPS内容
2014/12/01 PHP
PHP中常见的缓存技术实例分析
2015/09/23 PHP
PHP如何将图片文件上传到另外一台服务器上
2019/08/26 PHP
收集的网上用的ajax之chat.js文件
2007/04/08 Javascript
Zero Clipboard js+swf实现的复制功能使用方法
2010/03/07 Javascript
一些常用且实用的原生JavaScript函数
2010/09/08 Javascript
JavaScript 反科里化 this [译]
2012/09/20 Javascript
如何使用Jquery获取Form表单中被选中的radio值
2013/08/09 Javascript
判断文件是否正在被使用的JS代码
2013/12/21 Javascript
使用原生js写的一个简单slider
2014/04/29 Javascript
jQuery实现的仿百度分页足迹效果代码
2015/10/30 Javascript
JavaScript Ajax编程 应用篇
2016/07/02 Javascript
js实现表单及时验证功能 用户信息立即验证
2016/09/13 Javascript
AngularJS 所有版本下载地址
2016/09/14 Javascript
微信小程序使用第三方库Immutable.js实例详解
2016/09/27 Javascript
JavaScript基于replace+正则实现ES6的字符串模版功能
2017/04/25 Javascript
Vuex利用state保存新闻数据实例
2017/06/28 Javascript
JavaScript实现邮箱后缀提示功能的示例代码
2018/12/13 Javascript
详解js获取video任意时间的画面截图
2019/04/17 Javascript
详解JavaScript 作用域
2020/07/14 Javascript
vue-video-player视频播放器使用配置详解
2020/10/23 Javascript
python中sys.argv参数用法实例分析
2015/05/20 Python
Python打印输出数组中全部元素
2018/03/13 Python
对python 各种删除文件失败的处理方式分享
2018/04/24 Python
python实现复制大量文件功能
2019/08/31 Python
python实现的分析并统计nginx日志数据功能示例
2019/12/21 Python
CSS3轻松实现圆角效果
2017/11/09 HTML / CSS
深入浅析HTML5中的article和section的区别
2018/05/15 HTML / CSS
优秀生推荐信范文
2013/11/28 职场文书
创业计划书撰写原则
2014/01/25 职场文书
教师师德考核自我评价
2014/09/13 职场文书
销售员试用期自我评价
2014/09/15 职场文书
2015年上半年党建工作总结
2015/03/30 职场文书
python自然语言处理之字典树知识总结
2021/04/25 Python