Python实现获取网站PR及百度权重


Posted in Python onJanuary 21, 2015

访问它,得到Rank_1:1:0。第二个引号后面的数字是PR,因为我的站是没有PR的,所以PR为0.

于是,我们使用requests.get()来访问我们这个构造好的URL,然后获得类似Rank_1:1:0这样的结果,最后通过正则或其他方式得到PR值0。

以上是getPR这个函数的执行过程。再看获取百度权重的过程。

百度权重并不是百度官方给的一个标准,是一些第三方网站计算的一个值,所以并没有像PR一样的接口。所以我们就需要抓取这些第三方网站中的信息了。下面是获取百度权重的函数:

def getBR(www):

    try:

        url = 'http://mytool.chinaz.com/baidusort.aspx?host=%s&sortType=0' % ( www , )

        response = requests.get(url)

        data = response.text

        rex = re.search(r'(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>)',data,re.I)

        return rex.group(2)

    except :

        return None

使用方法也是传入域名,返回权重值。

我抓取的是站长工具的一个权重咨询的页面:http://mytool.chinaz.com/baidusort.aspx?host={域名}&sortType=0

我的正则就是它:(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>),大家可以自己查看源代码看一下,就知道正则怎么写了。

好了,我们来批量获取一下这些网站的PR和权重:

Python实现获取网站PR及百度权重

直接看结果:

Python实现获取网站PR及百度权重

单一一个进程扫的话速度会略慢,开10个20个线程批量获取的话应该比较快。

Python 相关文章推荐
python 装饰器功能以及函数参数使用介绍
Jan 27 Python
Python中map和列表推导效率比较实例分析
Jun 17 Python
Python的Flask框架中SQLAlchemy使用时的乱码问题解决
Nov 07 Python
python3解析库lxml的安装与基本使用
Jun 27 Python
详解python分布式进程
Oct 08 Python
python中dir()与__dict__属性的区别浅析
Dec 10 Python
Python Django 简单分页的实现代码解析
Aug 21 Python
Django上线部署之IIS的配置方法
Aug 22 Python
对django layer弹窗组件的使用详解
Aug 31 Python
淘宝秒杀python脚本 扫码登录版
Sep 19 Python
3种python调用其他脚本的方法
Jan 06 Python
python GUI库图形界面开发之PyQt5简单绘图板实例与代码分析
Mar 08 Python
Python实现抓取页面上链接的简单爬虫分享
Jan 21 #Python
Python中多线程及程序锁浅析
Jan 21 #Python
Python实现的多线程端口扫描工具分享
Jan 21 #Python
Python中的pprint折腾记
Jan 21 #Python
通过C++学习Python
Jan 20 #Python
python入门之语句(if语句、while语句、for语句)
Jan 19 #Python
Python实现删除Android工程中的冗余字符串
Jan 19 #Python
You might like
修改Zend引擎实现PHP源码加密的原理及实践
2008/04/14 PHP
用php实现百度网盘图片直链的代码分享
2012/11/01 PHP
php中利用str_pad函数生成数字递增形式的产品编号
2013/09/30 PHP
PHP图片等比缩放类SimpleImage使用方法和使用实例分享
2014/04/10 PHP
php中spl_autoload详解
2014/10/17 PHP
php常见的魔术方法详解
2014/12/25 PHP
php+Mysqli利用事务处理转账问题实例
2015/02/11 PHP
php判断数组中是否存在指定键(key)的方法
2015/03/17 PHP
php实现的SSO单点登录系统接入功能示例分析
2016/10/12 PHP
PHP中Trait及其应用详解
2017/02/14 PHP
thinkphp 验证码 的使用小结
2017/05/07 PHP
源码分析 Laravel 重复执行同一个队列任务的原因
2017/12/25 PHP
php实现推荐功能的简单实例
2019/09/29 PHP
js前台分页显示后端JAVA数据响应
2013/03/18 Javascript
详解JavaScript的AngularJS框架中的作用域与数据绑定
2016/03/04 Javascript
React中ES5与ES6写法的区别总结
2017/04/21 Javascript
关于Vue背景图打包之后访问路径错误问题的解决
2017/11/03 Javascript
vue.js内置组件之keep-alive组件使用
2018/07/10 Javascript
详解vue-cli 3.0 build包太大导致首屏过长的解决方案
2018/11/10 Javascript
vue输入节流,避免实时请求接口的实例代码
2019/10/30 Javascript
Vue 实现分页与输入框关键字筛选功能
2020/01/02 Javascript
[43:47]完美世界DOTA2联赛PWL S3 LBZS vs Phoenix 第一场 12.09
2020/12/11 DOTA
python socket网络编程之粘包问题详解
2018/04/28 Python
python判断一个数是否能被另一个整数整除的实例
2018/12/12 Python
Python进阶:生成器 懒人版本的迭代器详解
2019/06/29 Python
PyQt5实现登录页面
2020/05/30 Python
PyTorch中model.zero_grad()和optimizer.zero_grad()用法
2020/06/24 Python
利用python+ffmpeg合并B站视频及格式转换的实例代码
2020/11/24 Python
一份全面的PHP面试问题考卷
2012/07/15 面试题
WebSphere 应用服务器都支持哪些认证
2013/12/26 面试题
简短证婚人证婚词
2014/01/09 职场文书
商务英语专业求职信
2014/06/26 职场文书
运动会搞笑广播稿
2014/10/14 职场文书
中标通知书格式
2015/04/17 职场文书
订货会主持词
2015/07/01 职场文书
企业财务管理制度范本
2015/08/04 职场文书