Python实现获取网站PR及百度权重


Posted in Python onJanuary 21, 2015

访问它,得到Rank_1:1:0。第二个引号后面的数字是PR,因为我的站是没有PR的,所以PR为0.

于是,我们使用requests.get()来访问我们这个构造好的URL,然后获得类似Rank_1:1:0这样的结果,最后通过正则或其他方式得到PR值0。

以上是getPR这个函数的执行过程。再看获取百度权重的过程。

百度权重并不是百度官方给的一个标准,是一些第三方网站计算的一个值,所以并没有像PR一样的接口。所以我们就需要抓取这些第三方网站中的信息了。下面是获取百度权重的函数:

def getBR(www):

    try:

        url = 'http://mytool.chinaz.com/baidusort.aspx?host=%s&sortType=0' % ( www , )

        response = requests.get(url)

        data = response.text

        rex = re.search(r'(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>)',data,re.I)

        return rex.group(2)

    except :

        return None

使用方法也是传入域名,返回权重值。

我抓取的是站长工具的一个权重咨询的页面:http://mytool.chinaz.com/baidusort.aspx?host={域名}&sortType=0

我的正则就是它:(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>),大家可以自己查看源代码看一下,就知道正则怎么写了。

好了,我们来批量获取一下这些网站的PR和权重:

Python实现获取网站PR及百度权重

直接看结果:

Python实现获取网站PR及百度权重

单一一个进程扫的话速度会略慢,开10个20个线程批量获取的话应该比较快。

Python 相关文章推荐
python中使用sys模板和logging模块获取行号和函数名的方法
Apr 15 Python
跟老齐学Python之用while来循环
Oct 02 Python
Centos Python2 升级到Python3的简单实现
Jun 21 Python
Python程序中设置HTTP代理
Nov 06 Python
python列表生成式与列表生成器的使用
Feb 23 Python
python判断数字是否是超级素数幂
Sep 27 Python
浅谈Python3中strip()、lstrip()、rstrip()用法详解
Apr 29 Python
python飞机大战pygame游戏框架搭建操作详解
Dec 17 Python
浅析Python 条件控制语句
Jul 15 Python
Pytorch之Tensor和Numpy之间的转换的实现方法
Sep 03 Python
python Matplotlib模块的使用
Sep 16 Python
Jmeter调用Python脚本实现参数互相传递的实现
Jan 22 Python
Python实现抓取页面上链接的简单爬虫分享
Jan 21 #Python
Python中多线程及程序锁浅析
Jan 21 #Python
Python实现的多线程端口扫描工具分享
Jan 21 #Python
Python中的pprint折腾记
Jan 21 #Python
通过C++学习Python
Jan 20 #Python
python入门之语句(if语句、while语句、for语句)
Jan 19 #Python
Python实现删除Android工程中的冗余字符串
Jan 19 #Python
You might like
PHP echo,print,printf,sprintf函数之间的区别与用法详解
2013/11/27 PHP
php $_SERVER windows系统与linux系统下的区别说明
2014/02/14 PHP
php array_map使用自定义的函数处理数组中的每个值
2016/10/26 PHP
php正则表达式使用方法整理集合
2020/01/31 PHP
CLASS_CONFUSION JS混淆 全源码
2007/12/12 Javascript
javascript 函数调用规则
2009/08/26 Javascript
提交表单时执行func方法实现代码
2013/03/17 Javascript
JQuery中使文本框获得焦点的方法实例分析
2015/02/28 Javascript
jQuery操作表单常用控件方法小结
2015/03/23 Javascript
使用jquery判断一个元素是否含有一个指定的类(class)实例
2017/02/12 Javascript
基于Bootstrap分页的实例讲解(必看篇)
2017/07/04 Javascript
原生js实现密码输入框值的显示隐藏
2017/07/17 Javascript
纯JS实现可用于页码更换的飞页特效示例
2018/05/21 Javascript
vue结合axios与后端进行ajax交互的方法
2018/07/06 Javascript
在vue中读取本地Json文件的方法
2018/09/06 Javascript
JS实现的点击按钮图片上下滚动效果示例
2019/01/28 Javascript
vue中created和mounted的区别浅析
2019/08/13 Javascript
echarts 使用formatter 修改鼠标悬浮事件信息操作
2020/07/20 Javascript
vue - props 声明数组和对象操作
2020/07/30 Javascript
python通过colorama模块在控制台输出彩色文字的方法
2015/03/19 Python
python实现将html表格转换成CSV文件的方法
2015/06/28 Python
使用Python实现博客上进行自动翻页
2017/08/23 Python
python的re正则表达式实例代码
2018/01/24 Python
python lxml中etree的简单应用
2019/05/10 Python
python实现五子棋人机对战游戏
2020/03/25 Python
matlab 计算灰度图像的一阶矩,二阶矩,三阶矩实例
2020/04/22 Python
html5 application cache遇到的严重问题
2012/12/26 HTML / CSS
Super-Pharm波兰:药房和香水在一个地方
2020/08/18 全球购物
兼职学生的自我评价
2013/11/24 职场文书
自荐书模板
2013/12/19 职场文书
酒店总经理欢迎词
2014/01/08 职场文书
公司新年寄语
2014/04/04 职场文书
活动宣传策划方案
2014/05/23 职场文书
花坛标语大全
2014/06/30 职场文书
2014年村支部书记四风对照检查材料思想汇报
2014/10/02 职场文书
2014年驾驶员工作总结
2014/11/18 职场文书