编程 Python

Python实现获取网站PR及百度权重

Posted in Python onJanuary 21, 2015

访问它，得到Rank_1:1:0。第二个引号后面的数字是PR，因为我的站是没有PR的，所以PR为0.

于是，我们使用requests.get()来访问我们这个构造好的URL，然后获得类似Rank_1:1:0这样的结果，最后通过正则或其他方式得到PR值0。

以上是getPR这个函数的执行过程。再看获取百度权重的过程。

百度权重并不是百度官方给的一个标准，是一些第三方网站计算的一个值，所以并没有像PR一样的接口。所以我们就需要抓取这些第三方网站中的信息了。下面是获取百度权重的函数:

def getBR(www):

    try:

        url = 'http://mytool.chinaz.com/baidusort.aspx?host=%s&sortType=0' % ( www , )

        response = requests.get(url)

        data = response.text

        rex = re.search(r'(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>)',data,re.I)

        return rex.group(2)

    except :

        return None

使用方法也是传入域名，返回权重值。

我抓取的是站长工具的一个权重咨询的页面：http://mytool.chinaz.com/baidusort.aspx?host={域名}&sortType=0

我的正则就是它：(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>)，大家可以自己查看源代码看一下，就知道正则怎么写了。

好了，我们来批量获取一下这些网站的PR和权重：

Python实现获取网站PR及百度权重

直接看结果：

Python实现获取网站PR及百度权重

单一一个进程扫的话速度会略慢，开10个20个线程批量获取的话应该比较快。

Python实现获取网站PR及百度权重

- Author -

junjie

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python selenium 三种等待方式解读

Sep 15 Python

Python列表切片用法示例

Apr 19 Python

pip安装时ReadTimeoutError的解决方法

Jun 12 Python

解决webdriver.Chrome()报错:Message:'chromedriver' executable needs to be in Path

Jun 12 Python

Django如何自定义model创建数据库索引的顺序

Jun 20 Python

python 正则表达式贪婪模式与非贪婪模式原理、用法实例分析

Oct 14 Python

python3图片文件批量重命名处理

Oct 31 Python

Django Form and ModelForm的区别与使用

Dec 06 Python

使用python实现哈希表、字典、集合操作

Dec 22 Python

Python属性和内建属性实例解析

Jan 14 Python

Python不支持 i ++ 语法的原因解析

Jul 22 Python

还在手动盖楼抽奖?教你用Python实现自动评论盖楼抽奖(一)

Jun 07 Python

Python实现抓取页面上链接的简单爬虫分享

Jan 21 #Python

Python中多线程及程序锁浅析

Jan 21 #Python

Python实现的多线程端口扫描工具分享

Jan 21 #Python

Python中的pprint折腾记

Jan 21 #Python

通过C++学习Python

Jan 20 #Python

python入门之语句(if语句、while语句、for语句)

Jan 19 #Python

Python实现删除Android工程中的冗余字符串

Jan 19 #Python

You might like

php sybase_fetch_array使用方法

2014/04/15 PHP

Linux下编译redis和phpredis的方法

2016/04/07 PHP

详解PHP归并排序的实现

2016/10/18 PHP

PHP基于phpqrcode类生成二维码的方法详解

2018/03/14 PHP

PHP实现将base64编码字符串转换成图片示例

2018/06/22 PHP

AJAX跨域请求json数据的实现方法

2013/11/11 Javascript

javascript实现动态统计图开发实例

2015/11/21 Javascript

详解JavaScript中localStorage使用要点

2016/01/13 Javascript

深入剖析JavaScript中的函数currying柯里化

2016/04/29 Javascript

纯js和css完成贪吃蛇小游戏demo

2016/09/01 Javascript

easyui form validate总是返回false的原因及解决方法

2016/11/07 Javascript

如何防止INPUT按回车自动提交表单FORM

2016/12/06 Javascript

利用Query+bootstrap和js两种方式实现日期选择器

2017/01/10 Javascript

ajax +NodeJS 实现图片上传实例

2017/06/06 NodeJs

在Vue组件化中利用axios处理ajax请求的使用方法

2017/08/25 Javascript

js中的闭包实例展示

2018/11/01 Javascript

vue如何限制只能输入正负数及小数

2019/07/04 Javascript

vue+node 实现视频在线播放的实例代码

2020/10/19 Javascript

详解Python中映射类型的内建函数和工厂函数

2015/08/19 Python

python从入门到精通（DAY 3）

2015/12/20 Python

实例讲解Python中global语句下全局变量的值的修改

2016/06/16 Python

python遍历文件夹找出文件夹后缀为py的文件方法

2018/10/21 Python

django数据关系一对多、多对多模型、自关联的建立

2019/07/24 Python

django 数据库连接模块解析及简单长连接改造方法

2019/08/29 Python

Html5移动端div固定到底部实现底部导航条的几种方式

2021/03/09 HTML / CSS

俄罗斯香水和化妆品在线商店：Aroma-butik

2020/02/28 全球购物

完美实现CSS垂直居中的11种方法

2021/03/27 HTML / CSS

行政专员工作职责

2013/12/22 职场文书

工作决心书

2014/03/11 职场文书

产品开发计划书

2014/04/27 职场文书

质量月活动总结

2014/08/26 职场文书

小兵张嘎观后感

2015/06/03 职场文书

centos8安装MongoDB的详细过程

2021/10/24 MongoDB

详解Vue slot插槽

2021/11/20 Vue.js

《LOL》“克隆大作战”久违归来幻灵战队皮肤上线

2022/04/03 其他游戏

JavaWeb Servlet开发注册页面实例

2022/04/11 Java/Android