Python实现获取网站PR及百度权重


Posted in Python onJanuary 21, 2015

访问它,得到Rank_1:1:0。第二个引号后面的数字是PR,因为我的站是没有PR的,所以PR为0.

于是,我们使用requests.get()来访问我们这个构造好的URL,然后获得类似Rank_1:1:0这样的结果,最后通过正则或其他方式得到PR值0。

以上是getPR这个函数的执行过程。再看获取百度权重的过程。

百度权重并不是百度官方给的一个标准,是一些第三方网站计算的一个值,所以并没有像PR一样的接口。所以我们就需要抓取这些第三方网站中的信息了。下面是获取百度权重的函数:

def getBR(www):

    try:

        url = 'http://mytool.chinaz.com/baidusort.aspx?host=%s&sortType=0' % ( www , )

        response = requests.get(url)

        data = response.text

        rex = re.search(r'(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>)',data,re.I)

        return rex.group(2)

    except :

        return None

使用方法也是传入域名,返回权重值。

我抓取的是站长工具的一个权重咨询的页面:http://mytool.chinaz.com/baidusort.aspx?host={域名}&sortType=0

我的正则就是它:(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>),大家可以自己查看源代码看一下,就知道正则怎么写了。

好了,我们来批量获取一下这些网站的PR和权重:

Python实现获取网站PR及百度权重

直接看结果:

Python实现获取网站PR及百度权重

单一一个进程扫的话速度会略慢,开10个20个线程批量获取的话应该比较快。

Python 相关文章推荐
python tensorflow学习之识别单张图片的实现的示例
Feb 09 Python
python调用opencv实现猫脸检测功能
Jan 15 Python
PyQt5 加载图片和文本文件的实例
Jun 14 Python
opencv3/Python 稠密光流calcOpticalFlowFarneback详解
Dec 11 Python
python 解压、复制、删除 文件的实例代码
Feb 26 Python
Python通过4种方式实现进程数据通信
Mar 12 Python
Django实现将views.py中的数据传递到前端html页面,并展示
Mar 16 Python
django 前端页面如何实现显示前N条数据
Mar 16 Python
Python爬虫实例之2021猫眼票房字体加密反爬策略(粗略版)
Feb 22 Python
python爬取某网站原图作为壁纸
Jun 02 Python
利用Python第三方库实现预测NBA比赛结果
Jun 21 Python
python神经网络学习 使用Keras进行回归运算
May 04 Python
Python实现抓取页面上链接的简单爬虫分享
Jan 21 #Python
Python中多线程及程序锁浅析
Jan 21 #Python
Python实现的多线程端口扫描工具分享
Jan 21 #Python
Python中的pprint折腾记
Jan 21 #Python
通过C++学习Python
Jan 20 #Python
python入门之语句(if语句、while语句、for语句)
Jan 19 #Python
Python实现删除Android工程中的冗余字符串
Jan 19 #Python
You might like
关于zend studio 出现乱码问题的总结
2013/06/23 PHP
PHP中exec函数和shell_exec函数的区别
2014/08/20 PHP
select、radio表单回显功能实现避免使用jquery载入赋值
2013/06/08 Javascript
解决window.opener=null;window.close(),只支持IE6不支持IE7,IE8的问题
2014/01/14 Javascript
js动态创建上传表单通过iframe模拟Ajax实现无刷新
2014/02/20 Javascript
js查看一个函数的执行时间实例代码
2015/09/12 Javascript
jQuery插件Validate实现自定义表单验证
2016/01/18 Javascript
JS &amp; JQuery 动态添加 select option
2016/06/08 Javascript
bootstrapValidator.min.js表单验证插件
2017/02/09 Javascript
JavaScript中在光标处插入添加文本标签节点的详细方法
2017/03/22 Javascript
jQuery实现的简单无刷新评论功能示例
2017/11/08 jQuery
在vue中使用jointjs的方法
2018/03/24 Javascript
微信小程序实现文字从右向左无限滚动
2020/11/18 Javascript
[02:46]2014DOTA2国际邀请赛 选手为你解读比赛MVP充满梦想
2014/07/09 DOTA
Python编程对列表中字典元素进行排序的方法详解
2017/05/26 Python
windows下Python实现将pdf文件转化为png格式图片的方法
2017/07/21 Python
Python单例模式的两种实现方法
2017/08/14 Python
python实现简易版计算器
2020/06/22 Python
python入门前的第一课 python怎样入门
2018/03/06 Python
django 实现celery动态设置周期任务执行时间
2019/11/19 Python
使用keras实现孪生网络中的权值共享教程
2020/06/11 Python
解决Alexnet训练模型在每个epoch中准确率和loss都会一升一降问题
2020/06/17 Python
Python脚本打包成可执行文件过程解析
2020/10/20 Python
HTML5如何实现元素拖拽
2016/03/11 HTML / CSS
video结合canvas实现视频在线截图功能
2018/06/25 HTML / CSS
HTML5中div、article、section的区别及使用介绍
2013/08/14 HTML / CSS
捷克电器和DJ设备网上商店:Electronic-star
2017/07/18 全球购物
英国DIY汽车维修配件网站:DIY Car Service Parts
2019/08/30 全球购物
英国奢侈品在线精品店:Hervia
2020/09/03 全球购物
饭店工作计划书
2014/01/10 职场文书
日化店促销方案
2014/03/26 职场文书
村长贪污检举信
2014/04/04 职场文书
小学庆六一活动总结
2014/08/28 职场文书
民警个人对照检查剖析材料
2014/09/17 职场文书
CSS使用伪类控制边框长度的方法
2022/01/18 HTML / CSS
如何利用python实现Simhash算法
2022/06/28 Python