Python爬取YY评级分数并保存数据实现过程解析


Posted in Python onJune 01, 2020

前言

当需要进行大规模查询时(比如目前遇到的情形:查询某个省所有发债企业的YY评级分数),人工查询显然太过费时,那就写个爬虫吧。

由于该爬虫实在过于简单,就只简单概述下。

一、请求端

通过观察YY评级的网页信息,如下图(F12或右击进入检查,点击network—>XHR—>headers)。

红色框表明是个get请求(其实这种网页基本都是Ajax get,需要总结实际url的规律的)。

绿色框即为实际URL,通过分析该URL,其由两部分组成。前半部分为“
https://web.ratingdog.cn/v1/search?”,后半部分为黄色框内内容用“&”符号连接后的结果。黄色框内的内容,只有企业名称为变量,且为已知变量,那URL即可据此确定了。

Python爬取YY评级分数并保存数据实现过程解析

另外需注意,YY评级需要登录才可查询数据,在构建头部信息进行访问时,一定要提前登录,并在头部信息中放入登录信息和登录状态。

二、响应端

通过观察网页的响应信息(F12或右击进入检查,点击network—>XHR—>response),如下图。响应信息及其简单,我们所需要的YY评级分数安详地躺在那里,简单到一个正则表达式就可以提取出该数据。正则如下:

"msg".*?"IssuerName":"(.*?)","YYRating":"(.*?)/10","IntrinsicRating".*?"

Python爬取YY评级分数并保存数据实现过程解析

三、代码

所需数据较少,代码相对简单,就不建立函数了,直接一路到底吧。如下:

Python爬取YY评级分数并保存数据实现过程解析

运行代码后,得到结果如下。安徽省的100多条数据,就到了本地了

Python爬取YY评级分数并保存数据实现过程解析

Python爬取YY评级分数并保存数据实现过程解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现逆波兰计算表达式实例详解
May 06 Python
python时间日期函数与利用pandas进行时间序列处理详解
Mar 13 Python
Python+OpenCV实现车牌字符分割和识别
Mar 31 Python
Python实现读取机器硬件信息的方法示例
Jun 09 Python
Python定义一个跨越多行的字符串的多种方法小结
Jul 19 Python
Python数据结构与算法(几种排序)小结
Jun 22 Python
8种用Python实现线性回归的方法对比详解
Jul 10 Python
python threading和multiprocessing模块基本用法实例分析
Jul 25 Python
解决python 文本过滤和清理问题
Aug 28 Python
Python中三维坐标空间绘制的实现
Sep 22 Python
Python集合set()使用的方法详解
Mar 18 Python
讲解Python实例练习逆序输出字符串
May 06 Python
基于Python绘制个人足迹地图
Jun 01 #Python
python 写函数在一定条件下需要调用自身时的写法说明
Jun 01 #Python
解决python调用自己文件函数/执行函数找不到包问题
Jun 01 #Python
Python如何在循环内使用list.remove()
Jun 01 #Python
IntelliJ 中配置 Anaconda的过程图解
Jun 01 #Python
解决python中import文件夹下面py文件报错问题
Jun 01 #Python
浅谈Python中文件夹和python package包的区别
Jun 01 #Python
You might like
php文章内容分页并生成相应的htm静态页面代码
2010/06/07 PHP
浅谈PHP变量作用域以及地址引用问题
2013/12/27 PHP
Mac OS下配置PHP+MySql环境
2015/02/25 PHP
php通过正则表达式记取数据来读取xml的方法
2015/03/09 PHP
PHP使用strrev翻转中文乱码问题的解决方法
2017/01/13 PHP
关于PHP定时发送服务的解决办法
2017/04/23 PHP
js传值 判断
2006/10/26 Javascript
网页中的图片的处理方法与代码
2009/11/26 Javascript
28个JS验证函数收集
2010/03/02 Javascript
JavaScript面向对象知识串结(读JavaScript高级程序设计(第三版))
2012/07/17 Javascript
onclick与listeners的执行先后问题详细解剖
2013/01/07 Javascript
jQuery实现单行文字间歇向上滚动源代码
2013/06/02 Javascript
js 窗口抖动示例
2013/09/04 Javascript
框架页面高度自动刷新的Javascript脚本
2013/11/01 Javascript
Javascript 中创建自定义对象的方法汇总
2014/12/04 Javascript
JavaScript中setTimeout和setInterval函数的传参及调用
2016/03/11 Javascript
js中遍历Map对象的简单实例
2016/08/08 Javascript
Bootstrap基本样式学习笔记之按钮(4)
2016/12/07 Javascript
js+div+css下拉导航菜单完整代码分享
2016/12/28 Javascript
JavaScript基础进阶之数组方法总结(推荐)
2017/09/04 Javascript
Nodejs异步回调之异常处理实例分析
2018/06/22 NodeJs
基于JavaScript实现表格隔行换色
2020/05/08 Javascript
uniapp,微信小程序中使用 MQTT的问题
2020/07/11 Javascript
JavaScript实现滑块验证解锁
2021/01/07 Javascript
Python设置默认编码为utf8的方法
2016/07/01 Python
Python 保持登录状态进行接口测试的方法示例
2019/08/06 Python
Python3之字节串bytes与字节数组bytearray的使用详解
2019/08/27 Python
Keras实现将两个模型连接到一起
2020/05/23 Python
如何理解python对象
2020/06/21 Python
男女钓鱼靴和甲板鞋:XTRATUF
2021/01/09 全球购物
什么是Oracle的后台进程background processes?都有哪些后台进程?
2012/04/26 面试题
委托书范本
2014/09/13 职场文书
2014年军人思想汇报范文
2014/10/12 职场文书
库房管理员岗位职责
2015/02/12 职场文书
会计岗位职责范本
2015/04/02 职场文书
2015年行风建设工作总结
2015/05/15 职场文书