python实现代理服务功能实例


Posted in Python onNovember 15, 2013

代理服务原理很简单,就拿浏览器与web服务器来说。无非是A浏览器
发request给B代理,B代理再把request把送给C web服务,然后C的reponse->B->A。
要写web代理服务就要先了解下http协议,当然并不要多深入,除非要实现强大的功能:修改XX信息、
负载均衡等。http请求由三部分组成:请求行、消息报头、请求正文;
详细的网上有,想了解可以看看。下面是一个正常的GET请求头(Cookie部分本人没截屏,使用的系统w7):

python实现代理服务功能实例

可以看到首行:GET是请求方法, /是路径,在后面是协议版本;第二行以后是请求报头,都是键值对形式;
GET方法没有正文。post有正文,除此之外,请求方法头部基本一致,每一行结尾都是\r\n。
基本的请求方法,如下:

GET        请求获取Request-URI所标识的资源
POST      在Request-URI所标识的资源后附加新的数据
HEAD      请求获取由Request-URI所标识的资源的响应消息报头
PUT         请求服务器存储一个资源,并用Request-URI作为其标识
DELETE   请求服务器删除Request-URI所标识的资源
TRACE     请求服务器回送收到的请求信息,主要用于测试或诊断
CONNECT 保留将来使用
OPTIONS  请求查询服务器的性能,或者查询与资源相关的选项和需求
但是使用代理后,从代理服务上得到的请求如下:
python实现代理服务功能实例

与第一张图片对比一下,有什么不同......第一行的资源路径不对。当浏览器上设置代理请求时把整个url都作为资源路径了,所以我们要把域名删掉,然后代理服务器在把修改后的请求发送给目标
web服务器。就这么简单,当然CONNECT方法特别,要特别对待,所以先说其他方法。
基本的思路:
1、代理服务器运行监听,当有客户端浏览器请求到来时通过accept()获得client句柄(或者叫描述符);
2、利用client描述符接收浏览器发来的request,分离出第一行为了修改第一行和获得method,
要去掉的的部分,除去http://的部分用targetHost表示吧。
3、通过第2步能够获得方法method、request和targetHost,这一步可以根据不同的method做不同的处理,
由于GET、POET、PUT、DELETE等除了CONNECT处理基本一致,所以处理首行,比如:

GET http://www.a.com/ HTTP/1.1
替换为
GET / HTTP/1.1

此时targetHost也就是红色的部分,默认的请求80端口,此时port为80;如果targetHost中有端口(比如www.a.com:8081),
就要分理处端口,此时port为8081。然后根据targetHost和port连接到目标服务器target了,实现代码如下:
def getTargetInfo(self,host): #处理targetHost获得网址和端口,作为返回值。
        port=0
        site=None
        if ':' in host:
            tmp=host.split(':')
            site=tmp[0]
            port=int(tmp[1])
        else:
            site=host
            port=80
        return site,port
def commonMethod(self,request): #处理除CONNECT以外的方法
        tmp=self.targetHost.split('/')
        net=tmp[0]+'//'+tmp[2]
        request=request.replace(net,'') #替换掉首行不必要的部分
        targetAddr=self.getTargetInfo(tmp[2]) #调用上面的函数
        try:
            (fam,_,_,_,addr)=socket.getaddrinfo(targetAddr[0],targetAddr[1])[0]
        except Exception as e:
            print e
            return
        self.target=socket.socket(fam)
        self.target.connect(addr) #连接到目标web服务

4、这一步就好办了,根据第三步处理后的request就可以self.target.send(request)发送给web服务器了。
5、这一步web服务器的reponse反响通过代理服务直接转发给客户端就行了,本人用了非阻塞select,可以试试epoll。
基本步骤就是这样,使用的方法函数可以改进,比如主函数部分使用的多线程或者多进程,怎样选择......
但是思路差不多都是这样啦。想测试的话,chrome安装SwitchySharp插件,设置一下,代理端口8083;
firefox插件autoproxy。
 对于connect的处理还在解决中(如果有博友帮助就更好了),所以现在这个代理程序不支持https协议。
代理服务可以获得http协议的所有信息,想了解学习http,利用代理服务器是个不错的方法。
下面附上代码
#-*- coding: UTF-8 -*-
import socket,select
import sys
import thread
from multiprocessing import Process
class Proxy:
    def __init__(self,soc):
        self.client,_=soc.accept()
        self.target=None
        self.request_url=None
        self.BUFSIZE=4096
        self.method=None
        self.targetHost=None
    def getClientRequest(self):
        request=self.client.recv(self.BUFSIZE)
        if not request:
            return None
        cn=request.find('\n')
        firstLine=request[:cn]
        print firstLine[:len(firstLine)-9]
        line=firstLine.split()
        self.method=line[0]
        self.targetHost=line[1]
        return request
    def commonMethod(self,request):
        tmp=self.targetHost.split('/')
        net=tmp[0]+'//'+tmp[2]
        request=request.replace(net,'')
        targetAddr=self.getTargetInfo(tmp[2])
        try:
            (fam,_,_,_,addr)=socket.getaddrinfo(targetAddr[0],targetAddr[1])[0]
        except Exception as e:
            print e
            return
        self.target=socket.socket(fam)
        self.target.connect(addr)
        self.target.send(request)
        self.nonblocking()
    def connectMethod(self,request): #对于CONNECT处理可以添加在这里
        pass
    def run(self):
        request=self.getClientRequest()
        if request:
            if self.method in ['GET','POST','PUT',"DELETE",'HAVE']:
                self.commonMethod(request)
            elif self.method=='CONNECT':
                self.connectMethod(request)
    def nonblocking(self):
        inputs=[self.client,self.target]
        while True:
            readable,writeable,errs=select.select(inputs,[],inputs,3)
            if errs:
                break
            for soc in readable:
                data=soc.recv(self.BUFSIZE)
                if data:
                    if soc is self.client:
                        self.target.send(data)
                    elif soc is self.target:
                        self.client.send(data)
                else:
                    break
        self.client.close()
        self.target.close()
    def getTargetInfo(self,host):
        port=0
        site=None
        if ':' in host:
            tmp=host.split(':')
            site=tmp[0]
            port=int(tmp[1])
        else:
            site=host
            port=80
        return site,port
if __name__=='__main__':      
    host = '127.0.0.1' 
    port = 8083
    backlog = 5 
    server = socket.socket(socket.AF_INET,socket.SOCK_STREAM) 
    server.setsockopt(socket.SOL_SOCKET,socket.SO_REUSEADDR,1)
    server.bind((host,port)) 
    server.listen(5) 
    while True:
        thread.start_new_thread(Proxy(server).run,())
        # p=Process(target=Proxy(server).run, args=()) #多进程
        # p.start()
Python 相关文章推荐
Python实现从百度API获取天气的方法
Mar 11 Python
python中黄金分割法实现方法
May 06 Python
巧用python和libnmapd,提取Nmap扫描结果
Aug 23 Python
python爬虫_实现校园网自动重连脚本的教程
Apr 22 Python
使用Python横向合并excel文件的实例
Dec 11 Python
使用Python批量修改文件名的代码实例
Jan 24 Python
使用python判断jpeg图片的完整性实例
Jun 10 Python
python科学计算之numpy——ufunc函数用法
Nov 25 Python
tensorflow2.0与tensorflow1.0的性能区别介绍
Feb 07 Python
Python字符串split及rsplit方法原理详解
Jun 29 Python
python gui开发——制作抖音无水印视频下载工具(附源码)
Feb 07 Python
总结Pyinstaller打包的高级用法
Jun 28 Python
Python(Tornado)模拟登录小米抢手机
Nov 12 #Python
Python3实现的腾讯微博自动发帖小工具
Nov 11 #Python
python正则分组的应用
Nov 10 #Python
python Django连接MySQL数据库做增删改查
Nov 07 #Python
使用Python下载Bing图片(代码)
Nov 07 #Python
python中文乱码的解决方法
Nov 04 #Python
python Django模板的使用方法(图文)
Nov 04 #Python
You might like
Terran兵种介绍
2020/03/14 星际争霸
如何打开php的gd2库
2017/02/09 PHP
PHP实现的简单在线计算器功能示例
2017/08/02 PHP
PHP错误提示It is not safe to rely on the system……的解决方法
2019/03/25 PHP
PHP中常用的三种设计模式详解【单例模式、工厂模式、观察者模式】
2019/06/14 PHP
Microsoft Ajax Minifier 压缩javascript的方法
2010/03/05 Javascript
在javascript将NodeList作为Array数组处理的方法
2010/07/09 Javascript
P3P Header解决Cookie跨域的问题
2013/03/12 Javascript
Checbox的操作含已选、未选及判断代码
2013/11/07 Javascript
JavaScript操作Oracle数据库示例
2015/03/06 Javascript
node.js [superAgent] 请求使用示例
2015/03/13 Javascript
js网页滚动条滚动事件实例分析
2015/05/05 Javascript
js实现的简单图片浮动效果完整实例
2016/05/10 Javascript
灵活使用数组制作图片切换js实现
2016/07/28 Javascript
js上下视差滚动简单实现代码
2017/03/07 Javascript
js放到head中失效的原因与解决方法
2017/03/07 Javascript
浅谈Node异步编程的机制
2017/10/18 Javascript
JS实现点击发送验证码 xx秒后重新发送功能
2019/07/30 Javascript
使用js实现单链解决前端队列问题的方法
2020/02/03 Javascript
解决vuex数据页面刷新后初始化操作
2020/07/26 Javascript
Python Selenium Cookie 绕过验证码实现登录示例代码
2018/04/10 Python
Python爬虫教程之利用正则表达式匹配网页内容
2020/12/08 Python
详解win10下pytorch-gpu安装以及CUDA详细安装过程
2021/01/28 Python
印度最大的网上花店:Ferns N Petals(鲜花、礼品和蛋糕)
2017/10/16 全球购物
7 For All Mankind官网:美国加州洛杉矶的高级牛仔服装品牌
2018/12/20 全球购物
英国PC组件和在线电脑商店:SCAN
2019/04/18 全球购物
工商管理实习自我鉴定
2013/09/28 职场文书
售后服务科岗位职责范文
2013/11/13 职场文书
致裁判员加油稿
2014/02/08 职场文书
乡镇三项教育实施方案
2014/03/30 职场文书
孩子教育的心得体会
2014/09/01 职场文书
2014年党务工作总结
2014/11/25 职场文书
python中print格式化输出的问题
2021/04/16 Python
DjangoRestFramework 使用 simpleJWT 登陆认证完整记录
2021/06/22 Python
opencv-python图像配准(匹配和叠加)的实现
2021/06/23 Python
python使用shell脚本创建kafka连接器
2022/04/29 Python