Python爬取YY评级分数并保存数据实现过程解析


Posted in Python onJune 01, 2020

前言

当需要进行大规模查询时(比如目前遇到的情形:查询某个省所有发债企业的YY评级分数),人工查询显然太过费时,那就写个爬虫吧。

由于该爬虫实在过于简单,就只简单概述下。

一、请求端

通过观察YY评级的网页信息,如下图(F12或右击进入检查,点击network—>XHR—>headers)。

红色框表明是个get请求(其实这种网页基本都是Ajax get,需要总结实际url的规律的)。

绿色框即为实际URL,通过分析该URL,其由两部分组成。前半部分为“
https://web.ratingdog.cn/v1/search?”,后半部分为黄色框内内容用“&”符号连接后的结果。黄色框内的内容,只有企业名称为变量,且为已知变量,那URL即可据此确定了。

Python爬取YY评级分数并保存数据实现过程解析

另外需注意,YY评级需要登录才可查询数据,在构建头部信息进行访问时,一定要提前登录,并在头部信息中放入登录信息和登录状态。

二、响应端

通过观察网页的响应信息(F12或右击进入检查,点击network—>XHR—>response),如下图。响应信息及其简单,我们所需要的YY评级分数安详地躺在那里,简单到一个正则表达式就可以提取出该数据。正则如下:

"msg".*?"IssuerName":"(.*?)","YYRating":"(.*?)/10","IntrinsicRating".*?"

Python爬取YY评级分数并保存数据实现过程解析

三、代码

所需数据较少,代码相对简单,就不建立函数了,直接一路到底吧。如下:

Python爬取YY评级分数并保存数据实现过程解析

运行代码后,得到结果如下。安徽省的100多条数据,就到了本地了

Python爬取YY评级分数并保存数据实现过程解析

Python爬取YY评级分数并保存数据实现过程解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中删除文件的程序代码
Mar 13 Python
python实现保存网页到本地示例
Mar 16 Python
Python栈类实例分析
Jun 15 Python
pytorch中tensor的合并与截取方法
Jul 26 Python
Python实现合并excel表格的方法分析
Apr 13 Python
python pytest进阶之fixture详解
Jun 27 Python
Python获取时间戳代码实例
Sep 24 Python
如何在python中实现随机选择
Nov 02 Python
Transpose 数组行列转置的限制方式
Feb 11 Python
python3安装OCR识别库tesserocr过程图解
Apr 02 Python
PyQt5连接MySQL及QMYSQL driver not loaded错误解决
Apr 29 Python
使用Keras实现简单线性回归模型操作
Jun 12 Python
基于Python绘制个人足迹地图
Jun 01 #Python
python 写函数在一定条件下需要调用自身时的写法说明
Jun 01 #Python
解决python调用自己文件函数/执行函数找不到包问题
Jun 01 #Python
Python如何在循环内使用list.remove()
Jun 01 #Python
IntelliJ 中配置 Anaconda的过程图解
Jun 01 #Python
解决python中import文件夹下面py文件报错问题
Jun 01 #Python
浅谈Python中文件夹和python package包的区别
Jun 01 #Python
You might like
cakephp打印sql语句的方法
2015/02/13 PHP
PHP查找与搜索数组元素方法总结
2015/06/12 PHP
PHP实现正则匹配所有括号中的内容
2018/06/22 PHP
Javascript this关键字使用分析
2008/10/21 Javascript
javascript判断chrome浏览器的方法
2014/03/26 Javascript
jquery 插件实现多行文本框[textarea]自动高度
2015/03/04 Javascript
使用jquery实现鼠标滑过弹出更多相关信息层附源码下载
2015/11/23 Javascript
JS显示日历和天气的方法
2016/03/01 Javascript
javascript表单处理具体实现代码(表单、链接、按钮)
2016/05/07 Javascript
详解Bootstrap的iCheck插件checkbox和radio
2016/08/24 Javascript
jQuery检查元素存在性(推荐)
2016/09/17 Javascript
angularJs关于指令的一些冷门属性详解
2016/10/24 Javascript
JS绘制微信小程序画布时钟
2016/12/24 Javascript
从零学习node.js之express入门(六)
2017/02/25 Javascript
mockjs,json-server一起搭建前端通用的数据模拟框架教程
2017/12/18 Javascript
再谈Angular4 脏值检测(性能优化)
2018/04/23 Javascript
node.js使用redis储存session的方法
2018/09/26 Javascript
详解在vue-cli项目下简单使用mockjs模拟数据
2018/10/19 Javascript
微信小程序云开发修改云数据库中的数据方法
2019/05/18 Javascript
详解BootStrap表单验证中重置BootStrap-select验证提示不清除的坑
2019/09/17 Javascript
layui use 定义js外部引用函数的方法
2019/09/26 Javascript
Egg Vue SSR 服务端渲染数据请求与asyncData
2019/11/24 Javascript
Python3实现的腾讯微博自动发帖小工具
2013/11/11 Python
python ftplib模块使用代码实例
2019/12/31 Python
pytorch中torch.max和Tensor.view函数用法详解
2020/01/03 Python
tensorflow之自定义神经网络层实例
2020/02/07 Python
Python restful框架接口开发实现
2020/04/13 Python
Pytorch实现将模型的所有参数的梯度清0
2020/06/24 Python
微信小程序实现可实时改变转速的css3旋转动画实例代码
2018/09/11 HTML / CSS
css3实现垂直下拉动画菜单示例
2014/04/22 HTML / CSS
HTML5自定义属性的问题分析
2019/08/16 HTML / CSS
如何在发生故障的节点上重新安装 SQL Server
2013/03/14 面试题
大型会议策划方案
2014/05/17 职场文书
师德师风的心得体会
2014/09/02 职场文书
2014年骨干教师工作总结
2014/12/19 职场文书
处世之道:关于真诚相待的名言推荐
2019/12/02 职场文书