Python实现获取网站PR及百度权重


Posted in Python onJanuary 21, 2015

访问它,得到Rank_1:1:0。第二个引号后面的数字是PR,因为我的站是没有PR的,所以PR为0.

于是,我们使用requests.get()来访问我们这个构造好的URL,然后获得类似Rank_1:1:0这样的结果,最后通过正则或其他方式得到PR值0。

以上是getPR这个函数的执行过程。再看获取百度权重的过程。

百度权重并不是百度官方给的一个标准,是一些第三方网站计算的一个值,所以并没有像PR一样的接口。所以我们就需要抓取这些第三方网站中的信息了。下面是获取百度权重的函数:

def getBR(www):

    try:

        url = 'http://mytool.chinaz.com/baidusort.aspx?host=%s&sortType=0' % ( www , )

        response = requests.get(url)

        data = response.text

        rex = re.search(r'(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>)',data,re.I)

        return rex.group(2)

    except :

        return None

使用方法也是传入域名,返回权重值。

我抓取的是站长工具的一个权重咨询的页面:http://mytool.chinaz.com/baidusort.aspx?host={域名}&sortType=0

我的正则就是它:(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>),大家可以自己查看源代码看一下,就知道正则怎么写了。

好了,我们来批量获取一下这些网站的PR和权重:

Python实现获取网站PR及百度权重

直接看结果:

Python实现获取网站PR及百度权重

单一一个进程扫的话速度会略慢,开10个20个线程批量获取的话应该比较快。

Python 相关文章推荐
python数据结构树和二叉树简介
Apr 29 Python
Python实现将n个点均匀地分布在球面上的方法
Mar 12 Python
Python中的fileinput模块的简单实用示例
Jul 09 Python
Python验证企业工商注册码
Oct 25 Python
tensorflow建立一个简单的神经网络的方法
Feb 10 Python
使用Python自动化破解自定义字体混淆信息的方法实例
Feb 13 Python
Python模拟登录之滑块验证码的破解(实例代码)
Nov 18 Python
Pytorch之卷积层的使用详解
Dec 31 Python
python的help函数如何使用
Jun 11 Python
Python导入父文件夹中模块并读取当前文件夹内的资源
Nov 19 Python
如何用Python提取10000份log中的产品信息
Jan 14 Python
Python 实现Mac 屏幕截图详解
Oct 05 Python
Python实现抓取页面上链接的简单爬虫分享
Jan 21 #Python
Python中多线程及程序锁浅析
Jan 21 #Python
Python实现的多线程端口扫描工具分享
Jan 21 #Python
Python中的pprint折腾记
Jan 21 #Python
通过C++学习Python
Jan 20 #Python
python入门之语句(if语句、while语句、for语句)
Jan 19 #Python
Python实现删除Android工程中的冗余字符串
Jan 19 #Python
You might like
php编程实现获取excel文档内容的代码实例
2011/06/28 PHP
PHP投票系统防刷票判断流程分析
2012/02/04 PHP
php自动加载autoload机制示例分享
2014/02/20 PHP
关于php支持的协议与封装协议总结(推荐)
2017/11/17 PHP
laravel-admin的图片删除实例
2019/09/30 PHP
javascript 原型模式实现OOP的再研究
2009/04/09 Javascript
基于jquery的图片懒加载js
2010/06/30 Javascript
jquery属性过滤选择器使用示例
2013/06/18 Javascript
编写高效jQuery代码的4个原则和5个技巧
2014/04/24 Javascript
jQuery使用之处理页面元素用法实例
2015/01/19 Javascript
浅谈javascript 函数属性和方法
2015/01/21 Javascript
javascript实现点击商品列表checkbox实时统计金额的方法
2015/05/15 Javascript
js+html5实现canvas绘制圆形图案的方法
2015/06/05 Javascript
JavaScript实现非常简单实用的下拉菜单效果
2015/08/27 Javascript
JavaScript学习小结(7)之JS RegExp
2015/11/29 Javascript
Node.js中JavaScript操作MySQL的常用方法整理
2016/03/01 Javascript
AngularJS ng-bind-template 指令详解
2016/07/30 Javascript
bootstrap-table.js扩展分页工具栏(增加跳转到xx页)功能
2017/12/28 Javascript
vue项目前端埋点的实现
2019/03/06 Javascript
Vue+Koa2+mongoose写一个像素绘板的实现方法
2019/09/10 Javascript
通过javascript实现扫雷游戏代码实例
2020/02/09 Javascript
Python中的lstrip()方法使用简介
2015/05/19 Python
python MySQLdb使用教程详解
2018/03/20 Python
python opencv旋转图像(保持图像不被裁减)
2018/07/26 Python
Python用字典构建多级菜单功能
2019/07/11 Python
Python自动化完成tb喵币任务的操作方法
2019/10/30 Python
tensorflow之自定义神经网络层实例
2020/02/07 Python
Django 实现 Websocket 广播、点对点发送消息的代码
2020/06/03 Python
爬虫代理的cookie如何生成运行
2020/09/22 Python
市场专员岗位职责
2014/02/14 职场文书
学习决心书
2014/03/11 职场文书
2015年毕业实习工作总结
2014/12/12 职场文书
个人思想政治总结
2015/03/05 职场文书
给朋友的赠语
2015/06/23 职场文书
2015年社区国庆节活动总结
2015/07/30 职场文书
python 如何将两个实数矩阵合并为一个复数矩阵
2021/05/19 Python