Python实现获取网站PR及百度权重


Posted in Python onJanuary 21, 2015

访问它,得到Rank_1:1:0。第二个引号后面的数字是PR,因为我的站是没有PR的,所以PR为0.

于是,我们使用requests.get()来访问我们这个构造好的URL,然后获得类似Rank_1:1:0这样的结果,最后通过正则或其他方式得到PR值0。

以上是getPR这个函数的执行过程。再看获取百度权重的过程。

百度权重并不是百度官方给的一个标准,是一些第三方网站计算的一个值,所以并没有像PR一样的接口。所以我们就需要抓取这些第三方网站中的信息了。下面是获取百度权重的函数:

def getBR(www):

    try:

        url = 'http://mytool.chinaz.com/baidusort.aspx?host=%s&sortType=0' % ( www , )

        response = requests.get(url)

        data = response.text

        rex = re.search(r'(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>)',data,re.I)

        return rex.group(2)

    except :

        return None

使用方法也是传入域名,返回权重值。

我抓取的是站长工具的一个权重咨询的页面:http://mytool.chinaz.com/baidusort.aspx?host={域名}&sortType=0

我的正则就是它:(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>),大家可以自己查看源代码看一下,就知道正则怎么写了。

好了,我们来批量获取一下这些网站的PR和权重:

Python实现获取网站PR及百度权重

直接看结果:

Python实现获取网站PR及百度权重

单一一个进程扫的话速度会略慢,开10个20个线程批量获取的话应该比较快。

Python 相关文章推荐
python从网络读取图片并直接进行处理的方法
May 22 Python
python中OrderedDict的使用方法详解
May 05 Python
Python3中bytes类型转换为str类型
Sep 27 Python
Jacobi迭代算法的Python实现详解
Jun 29 Python
wxPython实现整点报时
Nov 18 Python
基于Python中的yield表达式介绍
Nov 19 Python
python实现图像拼接
Mar 05 Python
python代码能做成软件吗
Jul 24 Python
基于Python实现全自动下载抖音视频
Nov 06 Python
详解python使用金山词霸的翻译功能(调试工具断点的使用)
Jan 07 Python
python调试工具Birdseye的使用教程
May 25 Python
pytorch 实现多个Dataloader同时训练
May 29 Python
Python实现抓取页面上链接的简单爬虫分享
Jan 21 #Python
Python中多线程及程序锁浅析
Jan 21 #Python
Python实现的多线程端口扫描工具分享
Jan 21 #Python
Python中的pprint折腾记
Jan 21 #Python
通过C++学习Python
Jan 20 #Python
python入门之语句(if语句、while语句、for语句)
Jan 19 #Python
Python实现删除Android工程中的冗余字符串
Jan 19 #Python
You might like
PHP脚本中include文件出错解决方法
2008/11/20 PHP
php+mysqli批量查询多张表数据的方法
2015/01/29 PHP
ThinkPHP开发框架函数详解:C方法
2015/08/14 PHP
jQuery学习基础知识小结
2010/11/25 Javascript
JS画5角星方法介绍
2013/09/17 Javascript
有效提高JavaScript执行效率的几点知识
2015/01/31 Javascript
JavaScript实现移动端滑动选择日期功能
2016/06/21 Javascript
JS实现字符串转驼峰格式的方法
2016/12/16 Javascript
vue 2.0组件与v-model详解
2017/03/27 Javascript
selenium 与 chrome 进行qq登录并发邮件操作实例详解
2017/04/06 Javascript
JS实现快速比较两个字符串中包含有相同数字的方法
2017/09/11 Javascript
Vue-路由导航菜单栏的高亮设置方法
2018/03/17 Javascript
教你如何编写Vue.js的单元测试的方法
2018/10/17 Javascript
node.js文件操作系统实例详解
2019/11/05 Javascript
Vue中父子组件的值传递与方法传递
2020/09/28 Javascript
python类继承用法实例分析
2014/10/10 Python
Python生成随机验证码的两种方法
2015/12/22 Python
Linux 下 Python 实现按任意键退出的实现方法
2016/09/25 Python
在cmd命令行里进入和退出Python程序的方法
2018/05/12 Python
Python浮点数四舍五入问题的分析与解决方法
2019/11/19 Python
HTML5 本地存储和内容按需加载的思路和方法
2011/04/07 HTML / CSS
移动端解决悬浮层(悬浮header、footer)会遮挡住内容的3种方法
2015/03/27 HTML / CSS
详解HTML5 录音的踩坑之旅
2017/12/26 HTML / CSS
AE美国鹰美国官方网站:American Eagle Outfitters
2016/08/22 全球购物
宿舍卫生检讨书
2014/01/16 职场文书
出纳员岗位责任制
2014/02/11 职场文书
企业公益活动策划方案
2014/08/24 职场文书
幼儿园个人师德总结
2015/02/06 职场文书
幼儿园小班个人工作总结
2015/02/12 职场文书
安全教育片观后感
2015/06/17 职场文书
超市店长竞聘书
2015/09/15 职场文书
护士岗位竞聘书
2015/09/15 职场文书
一个家长教育孩子的心得体会
2016/01/15 职场文书
如何用JavaScript检测当前浏览器是无头浏览器
2021/04/27 Javascript
Redis+Lua脚本实现计数器接口防刷功能(升级版)
2022/02/12 Redis
table设置超出部分隐藏,鼠标移上去显示全部内容的方法
2022/12/24 HTML / CSS