Python爬取YY评级分数并保存数据实现过程解析


Posted in Python onJune 01, 2020

前言

当需要进行大规模查询时(比如目前遇到的情形:查询某个省所有发债企业的YY评级分数),人工查询显然太过费时,那就写个爬虫吧。

由于该爬虫实在过于简单,就只简单概述下。

一、请求端

通过观察YY评级的网页信息,如下图(F12或右击进入检查,点击network—>XHR—>headers)。

红色框表明是个get请求(其实这种网页基本都是Ajax get,需要总结实际url的规律的)。

绿色框即为实际URL,通过分析该URL,其由两部分组成。前半部分为“
https://web.ratingdog.cn/v1/search?”,后半部分为黄色框内内容用“&”符号连接后的结果。黄色框内的内容,只有企业名称为变量,且为已知变量,那URL即可据此确定了。

Python爬取YY评级分数并保存数据实现过程解析

另外需注意,YY评级需要登录才可查询数据,在构建头部信息进行访问时,一定要提前登录,并在头部信息中放入登录信息和登录状态。

二、响应端

通过观察网页的响应信息(F12或右击进入检查,点击network—>XHR—>response),如下图。响应信息及其简单,我们所需要的YY评级分数安详地躺在那里,简单到一个正则表达式就可以提取出该数据。正则如下:

"msg".*?"IssuerName":"(.*?)","YYRating":"(.*?)/10","IntrinsicRating".*?"

Python爬取YY评级分数并保存数据实现过程解析

三、代码

所需数据较少,代码相对简单,就不建立函数了,直接一路到底吧。如下:

Python爬取YY评级分数并保存数据实现过程解析

运行代码后,得到结果如下。安徽省的100多条数据,就到了本地了

Python爬取YY评级分数并保存数据实现过程解析

Python爬取YY评级分数并保存数据实现过程解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现在Linux系统下更改当前进程运行用户
Feb 04 Python
python 环境变量和import模块导入方法(详解)
Jul 11 Python
利用Python如何生成hash值示例详解
Dec 20 Python
Python基本socket通信控制操作示例
Jan 30 Python
钉钉群自定义机器人消息Python封装的实例
Feb 20 Python
Python实现的合并两个有序数组算法示例
Mar 04 Python
Python去除字符串前后空格的几种方法
Mar 04 Python
Python3实现计算两个数组的交集算法示例
Apr 03 Python
双向RNN:bidirectional_dynamic_rnn()函数的使用详解
Jan 20 Python
python 引用传递和值传递详解(实参,形参)
Jun 05 Python
Python通过kerberos安全认证操作kafka方式
Jun 06 Python
Python中的tkinter库简单案例详解
Jan 22 Python
基于Python绘制个人足迹地图
Jun 01 #Python
python 写函数在一定条件下需要调用自身时的写法说明
Jun 01 #Python
解决python调用自己文件函数/执行函数找不到包问题
Jun 01 #Python
Python如何在循环内使用list.remove()
Jun 01 #Python
IntelliJ 中配置 Anaconda的过程图解
Jun 01 #Python
解决python中import文件夹下面py文件报错问题
Jun 01 #Python
浅谈Python中文件夹和python package包的区别
Jun 01 #Python
You might like
php下封装较好的数字分页方法
2010/11/23 PHP
解决phpmyadmin中缺少mysqli扩展问题的方法
2013/05/06 PHP
MacOS 安装 PHP的图片裁剪扩展Tclip
2015/03/25 PHP
SESSION存放在数据库用法实例
2015/08/08 PHP
PHP通过GD库实现验证码功能示例
2019/02/23 PHP
PHP预定义接口――Iterator用法示例
2020/06/05 PHP
PHP如何防止用户重复提交表单
2020/12/09 PHP
javascript prototype原型操作笔记
2009/12/07 Javascript
javascript document.execCommand() 常用解析
2009/12/14 Javascript
JQuery select标签操作代码段
2010/05/16 Javascript
JS中confirm,alert,prompt函数区别分析
2011/01/17 Javascript
解决Extjs4中form表单提交后无法进入success函数问题
2013/11/26 Javascript
Jquery 实现弹出层插件
2015/01/28 Javascript
JQuery中层次选择器用法实例详解
2015/05/18 Javascript
jquery控制显示服务器生成的图片流
2015/08/04 Javascript
Angularjs中使用Filters详解
2016/03/11 Javascript
js贪吃蛇游戏实现思路和源码
2016/04/14 Javascript
基于JQuery实现图片上传预览与删除操作
2016/05/24 Javascript
简单理解js的冒泡排序
2016/12/19 Javascript
layui 表格的属性的显示转换方法
2018/08/14 Javascript
怎么使用javascript深度拷贝一个数组
2019/06/06 Javascript
JS 封装父页面子页面交互接口的实例代码
2019/06/25 Javascript
[04:41]2014DOTA2国际邀请赛 Liquid顺利突围晋级正赛
2014/07/09 DOTA
在Django的视图(View)外使用Session的方法
2015/07/23 Python
在Linux系统上通过uWSGI配置Nginx+Python环境的教程
2015/12/25 Python
python 第三方库的安装及pip的使用详解
2017/05/11 Python
Python基于numpy灵活定义神经网络结构的方法
2017/08/19 Python
记一次python 内存泄漏问题及解决过程
2018/11/29 Python
结束运行python的方法
2020/06/16 Python
如何在scrapy中集成selenium爬取网页的方法
2020/11/18 Python
HTML5 Web缓存和运用程序缓存(cookie,session)
2018/01/11 HTML / CSS
教育科学研究生自荐信
2013/10/09 职场文书
计算机数据库专业职业生涯规划书
2014/02/08 职场文书
2016年社会主义核心价值观心得体会
2016/01/21 职场文书
Python中三种花式打印的示例详解
2022/03/19 Python
《杜鹃的婚约》OP主题曲「凸凹」无字幕影像公开
2022/04/08 日漫