Python实现获取网站PR及百度权重


Posted in Python onJanuary 21, 2015

访问它,得到Rank_1:1:0。第二个引号后面的数字是PR,因为我的站是没有PR的,所以PR为0.

于是,我们使用requests.get()来访问我们这个构造好的URL,然后获得类似Rank_1:1:0这样的结果,最后通过正则或其他方式得到PR值0。

以上是getPR这个函数的执行过程。再看获取百度权重的过程。

百度权重并不是百度官方给的一个标准,是一些第三方网站计算的一个值,所以并没有像PR一样的接口。所以我们就需要抓取这些第三方网站中的信息了。下面是获取百度权重的函数:

def getBR(www):

    try:

        url = 'http://mytool.chinaz.com/baidusort.aspx?host=%s&sortType=0' % ( www , )

        response = requests.get(url)

        data = response.text

        rex = re.search(r'(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>)',data,re.I)

        return rex.group(2)

    except :

        return None

使用方法也是传入域名,返回权重值。

我抓取的是站长工具的一个权重咨询的页面:http://mytool.chinaz.com/baidusort.aspx?host={域名}&sortType=0

我的正则就是它:(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>),大家可以自己查看源代码看一下,就知道正则怎么写了。

好了,我们来批量获取一下这些网站的PR和权重:

Python实现获取网站PR及百度权重

直接看结果:

Python实现获取网站PR及百度权重

单一一个进程扫的话速度会略慢,开10个20个线程批量获取的话应该比较快。

Python 相关文章推荐
wxPython使用系统剪切板的方法
Jun 16 Python
简单谈谈Python中的json与pickle
Jul 19 Python
Python建立Map写Excel表实例解析
Jan 17 Python
python 3.6.5 安装配置方法图文教程
Sep 18 Python
Python使用sorted对字典的key或value排序
Nov 15 Python
Django集成celery发送异步邮件实例
Dec 17 Python
python django中8000端口被占用的解决
Dec 17 Python
Python属性和内建属性实例解析
Jan 14 Python
python 解决tqdm模块不能单行显示的问题
Feb 19 Python
详解python定时简单爬取网页新闻存入数据库并发送邮件
Nov 27 Python
python实现层次聚类的方法
Nov 01 Python
Python 避免字典和元组的多重嵌套问题
Jul 15 Python
Python实现抓取页面上链接的简单爬虫分享
Jan 21 #Python
Python中多线程及程序锁浅析
Jan 21 #Python
Python实现的多线程端口扫描工具分享
Jan 21 #Python
Python中的pprint折腾记
Jan 21 #Python
通过C++学习Python
Jan 20 #Python
python入门之语句(if语句、while语句、for语句)
Jan 19 #Python
Python实现删除Android工程中的冗余字符串
Jan 19 #Python
You might like
php通过ajax实现双击table修改内容
2014/04/28 PHP
Codeigniter操作数据库表的优化写法总结
2014/06/12 PHP
jquery获取多个checkbox的值异步提交给php的方法
2015/06/24 PHP
PHP实现的日历功能示例
2018/09/01 PHP
JavaScript中通过闭包解决只能取得包含函数中任何变量最后一个值的问题
2010/08/12 Javascript
前端轻量级MVC框架CanJS详解
2014/09/26 Javascript
node.js中的path.delimiter方法使用说明
2014/12/09 Javascript
javascript 实现map集合
2015/04/03 Javascript
javascript实现Email邮件显示与删除功能
2015/11/21 Javascript
Bootstrap每天必学之缩略图与警示窗
2015/11/29 Javascript
jquery心形点赞关注效果的简单实现
2016/11/14 Javascript
bootstrap网格系统使用方法解析
2017/01/13 Javascript
jquery手机触屏滑动拼音字母城市选择器的实例代码
2017/12/11 jQuery
anime.js 实现带有描边动画效果的复选框(推荐)
2017/12/24 Javascript
webpack4 CSS Tree Shaking的使用
2018/09/03 Javascript
layUI实现列表查询功能
2019/07/27 Javascript
用Python编写分析Python程序性能的工具的教程
2015/04/01 Python
Python实现的RSS阅读器实例
2015/07/25 Python
python psutil库安装教程
2018/03/19 Python
用python爬取租房网站信息的代码
2018/12/14 Python
python实现整数的二进制循环移位
2019/03/08 Python
Django密码存储策略分析
2020/01/09 Python
WiFi云数码相框:Nixplay
2018/07/05 全球购物
意大利在线药房:shop-farmacia.it
2019/03/12 全球购物
微软加拿大官方网站:Microsoft Canada
2019/04/28 全球购物
南京软件公司的.net程序员笔试题
2014/08/31 面试题
八年级音乐教学反思
2014/01/09 职场文书
家长通知书教师评语
2014/04/17 职场文书
平安家庭事迹材料
2014/12/20 职场文书
世界文化遗产导游词
2015/02/13 职场文书
2015年外联部工作总结
2015/04/03 职场文书
2015年小学美术工作总结
2015/05/25 职场文书
小学感恩主题班会
2015/08/12 职场文书
公务员岗前培训心得体会
2016/01/08 职场文书
简单了解 MySQL 中相关的锁
2021/05/25 MySQL
在vue中import()语法不能传入变量的问题及解决
2022/04/01 Vue.js