Python实现获取网站PR及百度权重


Posted in Python onJanuary 21, 2015

访问它,得到Rank_1:1:0。第二个引号后面的数字是PR,因为我的站是没有PR的,所以PR为0.

于是,我们使用requests.get()来访问我们这个构造好的URL,然后获得类似Rank_1:1:0这样的结果,最后通过正则或其他方式得到PR值0。

以上是getPR这个函数的执行过程。再看获取百度权重的过程。

百度权重并不是百度官方给的一个标准,是一些第三方网站计算的一个值,所以并没有像PR一样的接口。所以我们就需要抓取这些第三方网站中的信息了。下面是获取百度权重的函数:

def getBR(www):

    try:

        url = 'http://mytool.chinaz.com/baidusort.aspx?host=%s&sortType=0' % ( www , )

        response = requests.get(url)

        data = response.text

        rex = re.search(r'(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>)',data,re.I)

        return rex.group(2)

    except :

        return None

使用方法也是传入域名,返回权重值。

我抓取的是站长工具的一个权重咨询的页面:http://mytool.chinaz.com/baidusort.aspx?host={域名}&sortType=0

我的正则就是它:(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>),大家可以自己查看源代码看一下,就知道正则怎么写了。

好了,我们来批量获取一下这些网站的PR和权重:

Python实现获取网站PR及百度权重

直接看结果:

Python实现获取网站PR及百度权重

单一一个进程扫的话速度会略慢,开10个20个线程批量获取的话应该比较快。

Python 相关文章推荐
Python中使用md5sum检查目录中相同文件代码分享
Feb 02 Python
Python捕捉和模拟鼠标事件的方法
Jun 03 Python
python实现DES加密解密方法实例详解
Jun 30 Python
深入理解python多进程编程
Jun 12 Python
python 计算数组中每个数字出现多少次--“Bucket”桶的思想
Dec 19 Python
用十张图详解TensorFlow数据读取机制(附代码)
Feb 06 Python
Python中偏函数用法示例
Jun 07 Python
Python键盘输入转换为列表的实例
Jun 23 Python
Pandas库之DataFrame使用的学习笔记
Jun 21 Python
详解python实现交叉验证法与留出法
Jul 11 Python
如何使用python代码操作git代码
Feb 29 Python
如何使用 Flask 做一个评论系统
Nov 27 Python
Python实现抓取页面上链接的简单爬虫分享
Jan 21 #Python
Python中多线程及程序锁浅析
Jan 21 #Python
Python实现的多线程端口扫描工具分享
Jan 21 #Python
Python中的pprint折腾记
Jan 21 #Python
通过C++学习Python
Jan 20 #Python
python入门之语句(if语句、while语句、for语句)
Jan 19 #Python
Python实现删除Android工程中的冗余字符串
Jan 19 #Python
You might like
PHP笔记之:日期函数的使用介绍
2013/04/24 PHP
浅谈discuz密码加密的方式
2014/05/22 PHP
php中单个数据库字段多列显示(单字段分页、横向输出)
2014/07/28 PHP
php导出生成word的方法
2015/12/25 PHP
PHP实现绘制二叉树图形显示功能详解【包括二叉搜索树、平衡树及红黑树】
2017/11/16 PHP
php的无刷新操作实现方法分析
2020/02/28 PHP
JavaScript词法作用域与调用对象深入理解
2012/11/29 Javascript
js操作checkbox遇到的问题解决
2013/06/29 Javascript
JavaScript事件委托的技术原理探讨示例
2014/04/17 Javascript
JS日期对象简单操作(获取当前年份、星期、时间)
2016/10/26 Javascript
SVG描边动画
2017/02/23 Javascript
如何使用Bootstrap创建表单
2017/03/29 Javascript
bootstrap table支持高度百分比的实例代码
2018/02/28 Javascript
vuejs实现标签选项卡动态更改css样式的方法
2018/05/31 Javascript
React之PureComponent的使用作用
2018/07/10 Javascript
layer页面跳转,获取html子节点元素的值方法
2019/09/27 Javascript
通过实例解析chrome如何在mac环境中安装vue-devtools插件
2020/07/10 Javascript
js实现验证码干扰(静态)
2021/02/22 Javascript
phpsir 开发 一个检测百度关键字网站排名的python 程序
2009/09/17 Python
在Python中使用Neo4j数据库的教程
2015/04/16 Python
python实现中文输出的两种方法
2015/05/09 Python
Python获取航线信息并且制作成图的讲解
2019/01/03 Python
对python判断ip是否可达的实例详解
2019/01/31 Python
详解Python循环作用域与闭包
2019/03/21 Python
Django接收post前端返回的json格式数据代码实现
2019/07/31 Python
Python continue语句实例用法
2020/02/06 Python
Burberry英国官网:英国标志性奢侈品牌
2017/03/29 全球购物
巴西箱包、背包、钱包和旅行配件购物网站:Inovathi
2019/12/14 全球购物
params有什么用
2016/03/01 面试题
营销总经理岗位职责
2014/02/02 职场文书
酒店保安领班职务说明书
2014/03/04 职场文书
教师拔河比赛广播稿
2014/10/14 职场文书
拾金不昧表扬稿大全
2015/05/05 职场文书
旷工检讨书大全
2015/08/15 职场文书
个人向公司借款协议书
2016/03/19 职场文书
Java比较两个对象中全部属性值是否相等的方法
2021/08/07 Java/Android