Python爬取YY评级分数并保存数据实现过程解析


Posted in Python onJune 01, 2020

前言

当需要进行大规模查询时(比如目前遇到的情形:查询某个省所有发债企业的YY评级分数),人工查询显然太过费时,那就写个爬虫吧。

由于该爬虫实在过于简单,就只简单概述下。

一、请求端

通过观察YY评级的网页信息,如下图(F12或右击进入检查,点击network—>XHR—>headers)。

红色框表明是个get请求(其实这种网页基本都是Ajax get,需要总结实际url的规律的)。

绿色框即为实际URL,通过分析该URL,其由两部分组成。前半部分为“
https://web.ratingdog.cn/v1/search?”,后半部分为黄色框内内容用“&”符号连接后的结果。黄色框内的内容,只有企业名称为变量,且为已知变量,那URL即可据此确定了。

Python爬取YY评级分数并保存数据实现过程解析

另外需注意,YY评级需要登录才可查询数据,在构建头部信息进行访问时,一定要提前登录,并在头部信息中放入登录信息和登录状态。

二、响应端

通过观察网页的响应信息(F12或右击进入检查,点击network—>XHR—>response),如下图。响应信息及其简单,我们所需要的YY评级分数安详地躺在那里,简单到一个正则表达式就可以提取出该数据。正则如下:

"msg".*?"IssuerName":"(.*?)","YYRating":"(.*?)/10","IntrinsicRating".*?"

Python爬取YY评级分数并保存数据实现过程解析

三、代码

所需数据较少,代码相对简单,就不建立函数了,直接一路到底吧。如下:

Python爬取YY评级分数并保存数据实现过程解析

运行代码后,得到结果如下。安徽省的100多条数据,就到了本地了

Python爬取YY评级分数并保存数据实现过程解析

Python爬取YY评级分数并保存数据实现过程解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
学习python的几条建议分享
Feb 10 Python
Python中__init__和__new__的区别详解
Jul 09 Python
书单|人生苦短,你还不用python!
Dec 29 Python
Mac下Anaconda的安装和使用教程
Nov 29 Python
对python判断ip是否可达的实例详解
Jan 31 Python
Django 内置权限扩展案例详解
Mar 04 Python
django 单表操作实例详解
Jul 30 Python
Python使用matplotlib实现交换式图形显示功能示例
Sep 06 Python
Django实现文件上传和下载功能
Oct 06 Python
使用apiDoc实现python接口文档编写
Nov 19 Python
Django ORM实现按天获取数据去重求和例子
May 18 Python
Pycharm连接gitlab实现过程图解
Sep 01 Python
基于Python绘制个人足迹地图
Jun 01 #Python
python 写函数在一定条件下需要调用自身时的写法说明
Jun 01 #Python
解决python调用自己文件函数/执行函数找不到包问题
Jun 01 #Python
Python如何在循环内使用list.remove()
Jun 01 #Python
IntelliJ 中配置 Anaconda的过程图解
Jun 01 #Python
解决python中import文件夹下面py文件报错问题
Jun 01 #Python
浅谈Python中文件夹和python package包的区别
Jun 01 #Python
You might like
如何通过PHP实现Des加密算法代码实例
2020/05/09 PHP
js实现的真正的iframe高度自适应(兼容IE,FF,Opera)
2010/03/07 Javascript
从盛大通行证上摘下来的身份证验证js代码
2011/01/11 Javascript
js获得指定控件输入光标的坐标兼容IE,Chrome,火狐等多种主流浏览器
2013/05/21 Javascript
JavaScript中的立即执行函数表达式介绍
2015/03/15 Javascript
Bootstrap基本组件学习笔记之下拉菜单(7)
2016/12/07 Javascript
原生js实现淘宝购物车功能
2020/06/23 Javascript
解决vue.js在编写过程中出现空格不规范报错的问题
2017/09/20 Javascript
解决layui富文本编辑器图片上传无法回显的问题
2019/09/18 Javascript
JS错误处理与调试操作实例分析
2020/04/13 Javascript
vue2.0实现列表数据增加和删除
2020/06/17 Javascript
JavaScript常用8种数组去重代码实例
2020/09/09 Javascript
[01:13]这,就是刀塔
2014/07/16 DOTA
[42:39]老党炸弹人试玩视频
2014/09/03 DOTA
Python实现Tab自动补全和历史命令管理的方法
2015/03/12 Python
python结合opencv实现人脸检测与跟踪
2015/06/08 Python
PHP网页抓取之抓取百度贴吧邮箱数据代码分享
2016/04/13 Python
python字符串str和字节数组相互转化方法
2017/03/18 Python
Python迭代器与生成器基本用法分析
2018/07/26 Python
python3人脸识别的两种方法
2019/04/25 Python
Python hashlib加密模块常用方法解析
2019/12/18 Python
tensorflow 查看梯度方式
2020/02/04 Python
Pytorch中.new()的作用详解
2020/02/18 Python
keras实现基于孪生网络的图片相似度计算方式
2020/06/11 Python
推荐10个HTML5响应式框架
2016/02/25 HTML / CSS
LN-CC美国:伦敦时尚生活的缩影
2019/02/19 全球购物
全球性的在线婚纱礼服工厂:27dress.com
2019/03/21 全球购物
美国孕妇装购物网站:Motherhood Maternity
2019/09/22 全球购物
涉外文秘个人求职的自我评价
2013/10/07 职场文书
医药代表个人求职信范本
2013/12/19 职场文书
会展策划与管理专业大学生职业生涯规划
2014/02/07 职场文书
关爱老人标语
2014/06/21 职场文书
中学推普周活动总结
2015/05/07 职场文书
建筑工程催款函
2015/06/24 职场文书
python自动获取微信公众号最新文章的实现代码
2022/07/15 Python
在windows server 2012 r2中安装mysql的详细步骤
2022/07/23 Servers