python结合shell查询google关键词排名的实现代码


Posted in Python onFebruary 27, 2016

最近老婆大人的公司给老婆大人安排了一个根据关键词查询google网站排名的差事。老婆大人的公司是做seo的,查询的关键词及网站特别的多,看着老婆大人这么辛苦的重复着查询工作,心疼啊。所以花点时间用python写了一个根据关键词搜索网站排名的py脚本。

在写这个脚本之前,我也曾在网站搜索过关于在google查排名的脚本。很多是利用google的api。但是我测试了一下,不准。所以,自己写一个吧。

脚本内容如下:(关键词我在网站随便找了几个。以做测试使用)

#vim keyword.py 
import urllib,urllib2,cookielib,re,sys,os,time,random 
cj = cookielib.CookieJar() 
vibramkey=['cheap+five+fingers','vibram+five+fingers'] 
beatskey=['beats+by+dre','beats+by+dre+cheap'] 
vibramweb=['vibramforshoes.com','vibramfivetoeshoes.net','vibramfivefingersshoesx.com '] 
beatsweb=['beatsbydre.com','justlovebeats.com'] 
allweb=['vibramweb','beatsweb'] 
def serchkey(key,start): 
    url="http://www.google.com/search?hl=en&q=%s&revid=33815775&sa=X&ei=X6CbT4GrIoOeiQfth43GAw&ved=0CIgBENUCKAY&start=%s" %(key,start) 
    try: 
        opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) 
        opener.addheaders = [('User-agent', 'Opera/9.23')] 
        urllib2.install_opener(opener) 
        req=urllib2.Request(url) 
        response =urllib2.urlopen(req) 
        content = response.read() 
        f=open('google','w') 
        f.write(content) 
        tiqu=os.popen("grep -ioP '(?<=<cite>).*?(?=</cite>)' google|sed -r 's/(<*\/*cite>|<\/*b>)//g'").readlines() 
    except: 
        changeip() 
    else: 
        for yuming in pinpai: 
                a=1 
                for shouyuming in tiqu: 
                    real=shouyuming.find(yuming) 
                    if real>0: 
                        if start==0: 
                            page=1 
                        elif start==10: 
                            page=2 
                        elif start==20: 
                            page=3 
                        elif start==30: 
                            page=4 
                        else: 
                            page=5 
                        lastkey=key.replace("+"," ") 
                        xinxi="%s\t\t %s\t\t page%s,%s<br>\n" %(yuming,lastkey,page,a) 
                        xinxifile=open('index.html','a') 
                        xinxifile.write(xinxi) 
                        xinxifile.close() 
                    a=a+1 
def changeip(): 
    ip=random.randint(0,2) 
    de="route del -host google.com" 
    add="route add -host google.com eth1:%s" %ip 
    os.system(de) 
    os.system(add) 
    print "changip to %s" %ip 
pinpaiid=0 
for x in vibramkey,beatskey: 
    if  pinpaiid == 0: 
        pinpai=vibramweb 
    elif pinpaiid == 1: 
        pinpai=beatsweb 
pinpaiid=pinpaiid+1 
    for key in x: 
        for start in 0,10,20,30,40: 
            serchkey(key,start) 
    changeip()    
os.system("sh paiban.sh")
#vim paiban.sh 
#! /bin/bash 
sort index.html -o index.html 
line=`wc -l index.html|awk '{print $1}'` 
yuming2=`sed -n 1p index.html|awk '{print $1}'` 
for i in `seq 2 $line` 
do 
yuming=`sed -n "$i"p index.html|awk '{print $1}'` 
if [ $yuming == $yuming2 ];then 
sed -i ""$i"s/"$yuming"/\t\t/g" index.html 
else 
yuming2=$yuming 
fi 
done

这段脚本分两部分,第一部分是python利用关键词搜索google的页面。老婆大人说只要每一个关键词的前5页就可以。所以只查询了前5页。
第二部分是将查询出来的结果进行排版。也就是最下面调用paiban.sh 所做的事情,让最终出来的结果为如下格式:

网站1        关键词1  第几页  第几名
               关键词2   第几页  第几名
             关键词3   第几页  第几名

网站2        关键词1  第几页  第几名
               关键词2   第几页  第几名
              关键词3   第几页  第几名
下面就来对程序进行讲解。

import urllib,urllib2,cookielib,re,sys,os,time,random  #加载模块 
cj = cookielib.CookieJar() 
vibramkey=['cheap+five+fingers','vibram+five+fingers'] #定义要查询的关键词组1,里面的单引号里面就是要查询的关键词。 
beatskey=['beats+by+dre','beats+by+dre+cheap']    #同上,定义关键词组2,这个是另一组关键词。 
vibramweb=['vibramforshoes.com','vibramfivetoeshoes.net','vibramfivefingersshoesx.com '] 
#定义关健词组1要查询的网站 
beatsweb=[' beatsbydre.com',' justlovebeats.com'] #定义关健词组2要查询的网站 
allweb=['vibramweb','beatsweb']  #这里定义了一个所有网站的组,下面好调用。 
def serchkey(key,start): #这里定义一个函数,key为查询的关健词,start为页面,通过google查询页面可以看出来每个页面除ads外只有十条记录,start=0时显示为第一个页面第一至第十条记录,start=10时,显示第二页的第一至十条记录,以些类推。 
    url="http://www.google.com/search?hl=en&q=%s&revid=33815775&sa=X&ei=X6CbT4GrIoOeiQfth43GAw&ved=0CIgBENUCKAY&start=%s" %(key,start)  #这个定义了查询的URL 
    try: 
        opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) 
        opener.addheaders = [('User-agent', 'Opera/9.23')] #模拟浏览器访问 
        urllib2.install_opener(opener) 
        req=urllib2.Request(url) #用urllib2访问 
        response =urllib2.urlopen(req) 
        content = response.read()#这块是模拟浏览器进行访问url的页面并读取源代码 
        f=open('google','w') 
        f.write(content) #将读取出来的内容保存到google的一个页面里。 
        tiqu=os.popen("grep -ioP '(?<=<cite>).*?(?=</cite>)' google|sed -r 's/(<*\/*cite>|<\/*b>)//g'").readlines() #这里利用了系统命令了。利用正则的零宽断言提直接取出第一到第十位的网站域名。 
    except: 
        changeip() #这边是怕访问过多被google封了。所以这里有一个换ip的函数,下面有定义。上面如果try失败了,就执行换ip的动作。 
    else: 
        for yuming in pinpai:    #循环读取要查找的网站 
                a=1 
                for shouyuming in tiqu:  #循环读取查找出来的网站 
                    real=shouyuming.find(yuming)  #将查找出来的网站与需要查找的网站进行比对 
                    if real>0: 
                        if start==0: 
                            page=1 
                        elif start==10: 
                            page=2 
                        elif start==20: 
                            page=3 
                        elif start==30: 
                            page=4 
                        else: 
                            page=5 
         #这里的查看域名在google搜索后的哪一页。 
                        lastkey=key.replace("+"," ") #将定义的关键词中间的加号去掉。 
                        print yuming,lastkey,page,a 
                        xinxi="%s\t\t %s\t\t 第%s页,排名%s\n" %(yuming,lastkey,page,a) 
                        xinxifile=open('index.html','a') 
                        xinxifile.write(xinxi) 
                        xinxifile.close() #将查找出来的信息写入到index.html文件里 
                    aa=a+1 
def changeip():  #这里是定义查询时换ip的函数。如果机器只有一个ip那就不用这段了。 
    ip=random.randint(0,10)         #随机生成0-10的数 
    del="route del -host google.com"      #删除路由命令 
    add="route add -host google.com eth1:%s" %ip #添加路由命令 
    os.system(del)                #执行删除路由命令 
    os.system(add)   #执行添加路由命令 
    print "changip to %s" %ip           #打印更改路由信息 
pinpaiid=0  
for x in vibramkey,beatskey:     #循环所有的关键词组 
    if  pinpaiid == 0:     # 对应关键词组与要查询的网站组 
        pinpai=vibramweb 
    elif pinpaiid == 1: 
        pinpai=beatsweb 
pinpaiidpinpaiid=pinpaiid+1 
    for key in x:        #循环关键词组里的关键词 
        for start in 0,10,20,30,40:    #定义所要查找的google的页面 
            serchkey(key,start)   
    changeip()              #更改ip函数。在每一组关键词查询完毕后更改ip.

以上命令执行后,我们看一下index.html文件内容。如下:

#cat index.html 

vibramforshoes.com               cheap five fingers              page 1,rank 3 

vibramfivetoeshoes.net           cheap five fingers              page 5,rank 5 

vibramforshoes.com               vibram five fingers             page 1,rank 6 

vibramfivetoeshoes.net           vibram five fingers             page 5,rank 10 

beatsbydre.com                   beats by dre                    page 1,rank 1 

justlovebeats.com                beats by dre                    page 5,rank 7 

beatsbydre.com                   beats by dre cheap              page 2,rank 2 

beatsbydre.com                   beats by dre cheap              page 2,rank 3 

beatsbydre.com                   beats by dre cheap              page 5,rank 10

如图:

python结合shell查询google关键词排名的实现代码

这样看很乱,那么我们如何才能达到上面所讲 一个站后面对应多个关键词的格式呢,这里我们就要用到 paiban.sh 这个小脚本了。我们把paiban.sh放在py程序的最后,当执行py程序执行完毕后,执行paiban.sh 这个paiban.sh已经加在py程序里面了,所有不需要另外执行。我这里主要看一下区别。所有在py程序里注释了。

#sh  paiban.sh 
#cat index.html 
beatsbydre.com          beats by dre cheap       page 2,rank 2 
                 beats by dre cheap       page 2,rank 3 
                 beats by dre cheap       page 5,rank 10 
                 beats by dre          page 1,rank 1 
justlovebeats.com        beats by dre          page 5,rank 7 
vibramfivetoeshoes.net      cheap five fingers       page 5,rank 5 
                 vibram five fingers       page 5,rank 10 
vibramforshoes.com        cheap five fingers       page 1,rank 3 
                 vibram five fingers       page 1,rank 6

如图:

python结合shell查询google关键词排名的实现代码

这样就能达到上面的效果了。排版也很清楚,哪个站对应哪个关键词。在第几页,第几位,一目了然。

我们也对paiban.sh这个脚本做一下解释。

#vim paiban.sh 
#! /bin/bash 
sort index.html -o index.html          #先把index.html文件排下序,再写入index.html 
line=`wc -l index.html|awk '{print $1}'`     #统计行 
yuming2=`sed -n 1p index.html|awk '{print $1}'`  #取第一行的域名 给yuming2 
for i in `seq 2 $line`              #从第二行开始了取域名 
do 
yuming=`sed -n "$i"p index.html|awk '{print $1}'` 
if [ $yuming == $yuming2 ];then        
sed -i ""$i"s/"$yuming"/\t\t/g" index.html    #如果下一行域名与yuming2域名相同,就把下一行域名替换成空 
else 
yuming2=$yuming                  #如果不相等,就把下一行的域名给yuming2变量       
fi 
done

好了。这个小脚本挺好用的,老婆大人天天在用。为她减轻了不少工作量。直夸我能干。。。,哈哈。。如果有看不明白的,欢迎加QQ讨论。QQ:410018348

Python 相关文章推荐
10款最好的Web开发的 Python 框架
Mar 18 Python
Cpy和Python的效率对比
Mar 20 Python
以911新闻为例演示Python实现数据可视化的教程
Apr 23 Python
Python实现删除文件中含“指定内容”的行示例
Jun 09 Python
Python实现购物程序思路及代码
Jul 24 Python
Django rest framework基本介绍与代码示例
Jan 26 Python
python docx 中文字体设置的操作方法
May 08 Python
使用pandas实现csv/excel sheet互相转换的方法
Dec 10 Python
python画柱状图--不同颜色并显示数值的方法
Dec 13 Python
Python拼接字符串的7种方式详解
Mar 19 Python
基于Python共轭梯度法与最速下降法之间的对比
Apr 02 Python
python 删除excel表格重复行,数据预处理操作
Jul 06 Python
python的else子句使用指南
Feb 27 #Python
Python实现简单多线程任务队列
Feb 27 #Python
如何在Python中编写并发程序
Feb 27 #Python
Python 多线程抓取图片效率对比
Feb 27 #Python
Python 的描述符 descriptor详解
Feb 27 #Python
简析Python的闭包和装饰器
Feb 26 #Python
Android应用开发中Action bar编写的入门教程
Feb 26 #Python
You might like
PHP多个版本的分析解释
2011/07/21 PHP
php实现36进制与10进制转换功能示例
2017/01/10 PHP
ExtJS 2.0 GridPanel基本表格简明教程
2010/05/25 Javascript
jquery easyui使用心得
2014/07/07 Javascript
JavaScript处理解析JSON数据过程详解
2015/09/11 Javascript
JS实现的倒计时效果实例(2则实例)
2015/12/23 Javascript
JavaScript String(字符串)对象的简单实例(推荐)
2016/08/31 Javascript
jQuery基本过滤选择器用法示例
2016/09/09 Javascript
jquery实现手机端单店铺购物车结算删除功能
2017/02/22 Javascript
ES6中class类用法实例浅析
2017/04/06 Javascript
vue2利用Bus.js如何实现非父子组件通信详解
2017/08/25 Javascript
Vue.js在数组中插入重复数据的实现代码
2017/11/17 Javascript
javascript实现循环广告条效果
2017/12/12 Javascript
vue基于element-ui的三级CheckBox复选框功能的实现代码
2018/10/15 Javascript
vue form check 表单验证的实现代码
2018/12/09 Javascript
JS/HTML5游戏常用算法之碰撞检测 包围盒检测算法详解【圆形情况】
2018/12/13 Javascript
实用的Vue开发技巧
2019/05/30 Javascript
Vue关于组件化开发知识点详解
2020/05/13 Javascript
vue实现点击按钮切换背景颜色的示例代码
2020/06/23 Javascript
利用H5api实现时钟的绘制(javascript)
2020/09/13 Javascript
[00:08]DOTA2勇士令状等级奖励“天外飞星”
2019/05/24 DOTA
Python入门篇之列表和元组
2014/10/17 Python
理解Python中的With语句
2016/03/18 Python
python的pandas工具包,保存.csv文件时不要表头的实例
2018/06/14 Python
python使用__slots__让你的代码更加节省内存
2018/09/05 Python
eclipse创建python项目步骤详解
2019/05/10 Python
Python Tensor FLow简单使用方法实例详解
2020/01/14 Python
使用django自带的user做外键的方法
2020/11/30 Python
解决Pyinstaller打包软件失败的一个坑
2021/03/04 Python
英国景点门票网站:attractiontix
2019/08/27 全球购物
面向对象概念面试题(.NET)
2016/11/04 面试题
观看《永远的雷锋》心得体会
2014/03/12 职场文书
警察先进个人事迹材料
2014/05/16 职场文书
西安大雁塔导游词
2015/02/10 职场文书
教师听课学习心得体会
2016/01/15 职场文书
诚信高考倡议书
2019/06/24 职场文书