Python实现获取网站PR及百度权重


Posted in Python onJanuary 21, 2015

访问它,得到Rank_1:1:0。第二个引号后面的数字是PR,因为我的站是没有PR的,所以PR为0.

于是,我们使用requests.get()来访问我们这个构造好的URL,然后获得类似Rank_1:1:0这样的结果,最后通过正则或其他方式得到PR值0。

以上是getPR这个函数的执行过程。再看获取百度权重的过程。

百度权重并不是百度官方给的一个标准,是一些第三方网站计算的一个值,所以并没有像PR一样的接口。所以我们就需要抓取这些第三方网站中的信息了。下面是获取百度权重的函数:

def getBR(www):

    try:

        url = 'http://mytool.chinaz.com/baidusort.aspx?host=%s&sortType=0' % ( www , )

        response = requests.get(url)

        data = response.text

        rex = re.search(r'(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>)',data,re.I)

        return rex.group(2)

    except :

        return None

使用方法也是传入域名,返回权重值。

我抓取的是站长工具的一个权重咨询的页面:http://mytool.chinaz.com/baidusort.aspx?host={域名}&sortType=0

我的正则就是它:(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>),大家可以自己查看源代码看一下,就知道正则怎么写了。

好了,我们来批量获取一下这些网站的PR和权重:

Python实现获取网站PR及百度权重

直接看结果:

Python实现获取网站PR及百度权重

单一一个进程扫的话速度会略慢,开10个20个线程批量获取的话应该比较快。

Python 相关文章推荐
SublimeText 2编译python出错的解决方法(The system cannot find the file specified)
Nov 27 Python
浅析Python 中整型对象存储的位置
May 16 Python
基于Python实现的ID3决策树功能示例
Jan 02 Python
tensorflow 用矩阵运算替换for循环 用tf.tile而不写for的方法
Jul 27 Python
对numpy中数组转置的求解以及向量内积计算方法
Oct 31 Python
python url 参数修改方法
Dec 26 Python
如何使用python操作vmware
Jul 27 Python
详解Python 字符串相似性的几种度量方法
Aug 29 Python
django 框架实现的用户注册、登录、退出功能示例
Nov 28 Python
django数据模型(Model)的字段类型解析
Dec 25 Python
使用Jupyter notebooks上传文件夹或大量数据到服务器
Apr 14 Python
python爬取网页版QQ空间,生成各类图表
Jun 02 Python
Python实现抓取页面上链接的简单爬虫分享
Jan 21 #Python
Python中多线程及程序锁浅析
Jan 21 #Python
Python实现的多线程端口扫描工具分享
Jan 21 #Python
Python中的pprint折腾记
Jan 21 #Python
通过C++学习Python
Jan 20 #Python
python入门之语句(if语句、while语句、for语句)
Jan 19 #Python
Python实现删除Android工程中的冗余字符串
Jan 19 #Python
You might like
PHP入门
2006/10/09 PHP
PHP中ob_start函数的使用说明
2013/11/11 PHP
PHP 提取图片img标记中的任意属性的简单实例
2013/12/10 PHP
Zend Framework页面缓存实例
2014/06/25 PHP
PHP5.3安装Zend Guard Loader图文教程
2014/09/29 PHP
PHP实现的简单三角形、矩形周长面积计算器分享
2014/11/18 PHP
php实现的mongoDB单例模式操作类
2018/01/20 PHP
克隆javascript对象的三个方法小结
2011/01/12 Javascript
原生JavaScript生成GUID的实现示例
2014/09/05 Javascript
jQuery统计上传文件大小的方法
2015/01/24 Javascript
jQuery实现分隔条左右拖动功能
2015/11/21 Javascript
js带闹铃功能的倒计时代码
2016/09/29 Javascript
利用jquery给指定的table动态添加一行、删除一行的方法
2016/10/12 Javascript
关于js函数解释(包括内嵌,对象等)
2016/11/20 Javascript
vue引入ueditor及node后台配置详解
2018/01/03 Javascript
JS打印彩色菱形的实例代码
2018/08/15 Javascript
Javascript 关于基本类型和引用类型的个人理解
2019/11/01 Javascript
JavaScript常用工具函数大全
2020/05/06 Javascript
解决Vue项目中tff报错的问题
2020/10/21 Javascript
如何基于viewport vm适配移动端页面
2020/11/13 Javascript
使用Python快速搭建HTTP服务和文件共享服务的实例讲解
2018/06/04 Python
python使用ddt过程中遇到的问题及解决方案【推荐】
2018/10/29 Python
浅谈Python的方法解析顺序(MRO)
2020/03/05 Python
django迁移文件migrations的实现
2020/03/31 Python
python 怎样进行内存管理
2020/11/10 Python
瑞典香水、须后水和美容产品购物网站:Parfym-Klick.se
2019/12/29 全球购物
Oral-B荷兰:牙医最推荐的品牌
2020/02/25 全球购物
早餐连锁店计划书
2014/01/08 职场文书
理财投资建议书
2014/03/12 职场文书
学校社会实践活动总结
2014/07/03 职场文书
行政专员岗位职责说明书
2014/09/01 职场文书
护理见习报告范文
2014/11/03 职场文书
2015公务员年度考核评语
2015/03/25 职场文书
如何用JS实现网页瀑布流布局
2021/04/24 Javascript
Nginx进程调度问题详解
2021/09/25 Servers
基于Android10渲染Surface的创建过程
2022/08/14 Java/Android