Python实现获取网站PR及百度权重


Posted in Python onJanuary 21, 2015

访问它,得到Rank_1:1:0。第二个引号后面的数字是PR,因为我的站是没有PR的,所以PR为0.

于是,我们使用requests.get()来访问我们这个构造好的URL,然后获得类似Rank_1:1:0这样的结果,最后通过正则或其他方式得到PR值0。

以上是getPR这个函数的执行过程。再看获取百度权重的过程。

百度权重并不是百度官方给的一个标准,是一些第三方网站计算的一个值,所以并没有像PR一样的接口。所以我们就需要抓取这些第三方网站中的信息了。下面是获取百度权重的函数:

def getBR(www):

    try:

        url = 'http://mytool.chinaz.com/baidusort.aspx?host=%s&sortType=0' % ( www , )

        response = requests.get(url)

        data = response.text

        rex = re.search(r'(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>)',data,re.I)

        return rex.group(2)

    except :

        return None

使用方法也是传入域名,返回权重值。

我抓取的是站长工具的一个权重咨询的页面:http://mytool.chinaz.com/baidusort.aspx?host={域名}&sortType=0

我的正则就是它:(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>),大家可以自己查看源代码看一下,就知道正则怎么写了。

好了,我们来批量获取一下这些网站的PR和权重:

Python实现获取网站PR及百度权重

直接看结果:

Python实现获取网站PR及百度权重

单一一个进程扫的话速度会略慢,开10个20个线程批量获取的话应该比较快。

Python 相关文章推荐
Python 初始化多维数组代码
Sep 06 Python
python冒泡排序简单实现方法
Jul 09 Python
详解常用查找数据结构及算法(Python实现)
Dec 09 Python
python获取指定时间差的时间实例详解
Apr 11 Python
Python中用psycopg2模块操作PostgreSQL方法
Nov 28 Python
TF-IDF与余弦相似性的应用(一) 自动提取关键词
Dec 21 Python
pycharm访问mysql数据库的方法步骤
Jun 18 Python
python发送多人邮件没有展示收件人问题的解决方法
Jun 21 Python
使用python os模块复制文件到指定文件夹的方法
Aug 22 Python
Python Opencv提取图片中某种颜色组成的图形的方法
Sep 19 Python
详解Django3中直接添加Websockets方式
Feb 12 Python
Selenium自动化测试工具使用方法汇总
Jun 12 Python
Python实现抓取页面上链接的简单爬虫分享
Jan 21 #Python
Python中多线程及程序锁浅析
Jan 21 #Python
Python实现的多线程端口扫描工具分享
Jan 21 #Python
Python中的pprint折腾记
Jan 21 #Python
通过C++学习Python
Jan 20 #Python
python入门之语句(if语句、while语句、for语句)
Jan 19 #Python
Python实现删除Android工程中的冗余字符串
Jan 19 #Python
You might like
ThinkPHP内置jsonRPC的缺陷分析
2014/12/18 PHP
详解WordPress中用于更新和获取用户选项数据的PHP函数
2016/03/08 PHP
php 运算符与表达式详细介绍
2016/11/30 PHP
php微信公众号开发之校园图书馆
2018/10/20 PHP
js 弹出框 替代浏览器的弹出框
2010/10/29 Javascript
JS响应鼠标点击实现两个滑块区间拖动效果
2015/10/26 Javascript
简述JavaScript提交表单的方式 (Using JavaScript Submit Form)
2016/03/18 Javascript
浅析JS原型继承与类的继承
2016/04/07 Javascript
js仿淘宝和百度文库的评分功能
2016/05/15 Javascript
利用jQuery实现CheckBox全选/全不选/反选的简单代码
2016/05/31 Javascript
浅谈Sublime Text 3运行JavaScript控制台
2016/06/06 Javascript
[原创]jQuery常用的4种加载方式分析
2016/07/25 Javascript
js获取元素的标签名实现方法
2016/10/08 Javascript
javascript滚轮控制模拟滚动条
2016/10/19 Javascript
Zabbix添加Node.js监控的方法
2016/10/20 Javascript
jQuery使用zTree插件实现可拖拽的树示例
2017/09/23 jQuery
JS改变页面颜色源码分享
2018/02/24 Javascript
vuex直接赋值的三种方法总结
2018/09/16 Javascript
小试小程序云开发(小结)
2019/06/06 Javascript
js实现盒子滚动动画效果
2020/08/09 Javascript
Python3实现抓取javascript动态生成的html网页功能示例
2017/08/22 Python
Python使用mongodb保存爬取豆瓣电影的数据过程解析
2019/08/14 Python
基于python 将列表作为参数传入函数时的测试与理解
2020/06/05 Python
python实现邮件循环自动发件功能
2020/09/11 Python
伊莱克斯阿根廷网上商店:Tienda Electrolux
2021/03/08 全球购物
.NET常见笔试题集
2012/12/01 面试题
优秀的教师个人的中文求职信
2013/09/21 职场文书
监理资料员岗位职责
2014/01/03 职场文书
买房子个人收入证明
2014/01/16 职场文书
报社实习生自荐信
2014/01/24 职场文书
创先争优承诺书范文
2014/03/31 职场文书
怎样填写就业意向
2014/04/02 职场文书
解除劳动合同协议书(样本)
2014/10/02 职场文书
针对吵架老公保证书
2015/05/08 职场文书
Java实现多文件上传功能
2021/06/30 Java/Android
《乙女游戏世界对路人角色很不友好》OP主题曲无字幕动画MV公开
2022/04/05 日漫