Python程序中设置HTTP代理


Posted in Python onNovember 06, 2016

0x00 前言

大家对HTTP代理应该都非常熟悉,它在很多方面都有着极为广泛的应用。HTTP代理分为正向代理和反向代理两种,后者一般用于将防火墙后面的服务提供给用户访问或者进行负载均衡,典型的有Nginx、HAProxy等。本文所讨论的是正向代理。

HTTP代理最常见的用途是用于网络共享、网络加速和网络限制突破等。此外,HTTP代理也常用于Web应用调试、Android/IOS APP 中所调用的Web API监控和分析,目前的知名软件有Fiddler、Charles、Burp Suite和mitmproxy等。HTTP代理还可用于请求/响应内容修改,在不改变服务端的情况下为Web应用增加额外的功能或者改变应用行为等。

0x01 HTTP代理是什么

HTTP代理本质上是一个Web应用,它和其他普通Web应用没有根本区别。HTTP代理收到请求后,根据Header中Host字段的主机名和Get/POST请求地址综合判断目标主机,建立新的HTTP请求并转发请求数据,并将收到的响应数据转发给客户端。

如果请求地址是绝对地址,HTTP代理采用该地址中的Host,否则使用Header中的HOST字段。做一个简单测试,假设网络环境如下:

192.168.1.2 Web服务器
192.168.1.3 HTTP代理服务器

使用telnet进行测试

$ telnet 192.168.1.3
GET / HTTP/1.0
HOST: 192.168.1.2

注意最后需要连续两个回车,这是HTTP协议要求。完成后,可以收到 http://192.168.1.2/ 的页面内容。下面做一下调整,GET请求时带上绝对地址

$ telnet 192.168.1.3
GET http://httpbin.org/ip HTTP/1.0
HOST: 192.168.1.2

注意这里同样设置了HOST为192.168.1.2,但运行结果却返回了 http://httpbin.org/ip 页面的内容,也就是公网IP地址信息。

从上面的测试过程可以看出,HTTP代理并不是什么很复杂的东西,只要将原始请求发送到代理服务器即可。在无法设置HTTP代理的情况下,对于少量Host需要走HTTP代理的场景来说,最简单的方式就是将目标Host域名的IP指向代理服务器,可以采取修改hosts文件的方式来实现。

0x02 Python程序中设置HTTP代理

urllib2/urllib 代理设置

urllib2是Python标准库,功能很强大,只是使用起来稍微麻烦一点。在Python 3中,urllib2不再保留,迁移到了urllib模块中。urllib2中通过ProxyHandler来设置使用代理服务器。

proxy_handler = urllib2.ProxyHandler({'http': '121.193.143.249:80'})
opener = urllib2.build_opener(proxy_handler)
r = opener.open('http://httpbin.org/ip')
print(r.read())

也可以用install_opener将配置好的opener安装到全局环境中,这样所有的urllib2.urlopen都会自动使用代理。

urllib2.install_opener(opener)
r = urllib2.urlopen('http://httpbin.org/ip')
print(r.read())

在Python 3中,使用urllib。

proxy_handler = urllib.request.ProxyHandler({'http': 'http://121.193.143.249:80/'})
opener = urllib.request.build_opener(proxy_handler)
r = opener.open('http://httpbin.org/ip')
print(r.read())

requests 代理设置

requests是目前最优秀的HTTP库之一,也是我平时构造http请求时使用最多的库。它的API设计非常人性化,使用起来很容易上手。给requests设置代理很简单,只需要给proxies设置一个形如 {'http': 'x.x.x.x:8080', 'https': 'x.x.x.x:8080'} 的参数即可。其中http和https相互独立。

In [5]: requests.get('http://httpbin.org/ip', proxies={'http': '121.193.143.249:80'}).json()
Out[5]: {'origin': '121.193.143.249'}

可以直接设置session的proxies属性,省去每次请求都要带上proxies参数的麻烦。

s = requests.session()
s.proxies = {'http': '121.193.143.249:80'}
print(s.get('http://httpbin.org/ip').json())

0x03 HTTP_PROXY / HTTPS_PROXY 环境变量

urllib2 和 Requests 库都能识别 HTTP_PROXY 和 HTTPS_PROXY 环境变量,一旦检测到这些环境变量就会自动设置使用代理。这在用HTTP代理进行调试的时候非常有用,因为不用修改代码,可以随意根据环境变量来调整代理服务器的ip地址和端口。*nix中的大部分软件也都支持HTTP_PROXY环境变量识别,比如curl、wget、axel、aria2c等。

$ http_proxy=121.193.143.249:80 python -c 'import requests; print(requests.get("http://httpbin.org/ip").json())'
{u'origin': u'121.193.143.249'}

$ http_proxy=121.193.143.249:80 curl httpbin.org/ip
{
 "origin": "121.193.143.249"
}

在IPython交互环境中,可能经常需要临时性地调试HTTP请求,可以简单通过设置 os.environ['http_proxy'] 增加/取消HTTP代理来实现。

In [245]: os.environ['http_proxy'] = '121.193.143.249:80'
In [246]: requests.get("http://httpbin.org/ip").json()
Out[246]: {u'origin': u'121.193.143.249'}
In [249]: os.environ['http_proxy'] = ''
In [250]: requests.get("http://httpbin.org/ip").json()
Out[250]: {u'origin': u'x.x.x.x'}

0x04 MITM-Proxy

MITM 源于 Man-in-the-Middle Attack,指中间人攻击,一般在客户端和服务器之间的网络中拦截、监听和篡改数据。

mitmproxy 是一款Python语言开发的开源中间人代理神器,支持SSL,支持透明代理、反向代理,支持流量录制回放,支持自定义脚本等。功能上同Windows中的 Fiddler 有些类似,但mitmproxy是一款console程序,没有GUI界面,不过用起来还算方便。使用mitmproxy可以很方便的过滤、拦截、修改任意经过代理的HTTP请求/响应数据包,甚至可以利用它的scripting API,编写脚本达到自动拦截修改HTTP数据的目的。

# test.py
def response(flow):
  flow.response.headers["BOOM"] = "boom!boom!boom!"

上面的脚本会在所有经过代理的Http响应包头里面加上一个名为BOOM的header。用 mitmproxy -s 'test.py' 命令启动mitmproxy,curl验证结果发现的确多了一个BOOM头。

$ http_proxy=localhost:8080 curl -I 'httpbin.org/get'
HTTP/1.1 200 OK
Server: nginx
Date: Thu, 03 Nov 2016 09:02:04 GMT
Content-Type: application/json
Content-Length: 186
Connection: keep-alive
Access-Control-Allow-Origin: *
Access-Control-Allow-Credentials: true
BOOM: boom!boom!boom!
...

显然mitmproxy脚本能做的事情远不止这些,结合Python强大的功能,可以衍生出很多应用途径。除此之外,mitmproxy还提供了强大的API,在这些API的基础上,完全可以自己定制一个实现了特殊功能的专属代理服务器。

经过性能测试,发现mitmproxy的效率并不是特别高。如果只是用于调试目的那还好,但如果要用到生产环境,有大量并发请求通过代理的时候,性能还是稍微差点。我用twisted实现了一个简单的proxy,用于给公司内部网站增加功能、改善用户体验,以后有机会再和大家分享。

Python 相关文章推荐
Python编写Windows Service服务程序
Jan 04 Python
Python入门必须知道的11个知识点
Mar 21 Python
Python3.5多进程原理与用法实例分析
Apr 05 Python
python版DDOS攻击脚本
Jun 12 Python
python3+PyQt5 数据库编程--增删改实例
Jun 17 Python
django框架model orM使用字典作为参数,保存数据的方法分析
Jun 24 Python
django使用django-apscheduler 实现定时任务的例子
Jul 20 Python
python对象转字典的两种实现方式示例
Nov 07 Python
Python读取表格类型文件代码实例
Feb 17 Python
Python爬虫爬取电影票房数据及图表展示操作示例
Mar 27 Python
如何实现在jupyter notebook中播放视频(不停地展示图片)
Apr 23 Python
如何利用Python实现一个论文降重工具
Jul 09 Python
Python 搭建Web站点之Web服务器网关接口
Nov 06 #Python
Python 搭建Web站点之Web服务器与Web框架
Nov 06 #Python
读写json中文ASCII乱码问题的解决方法
Nov 05 #Python
django1.8使用表单上传文件的实现方法
Nov 04 #Python
Python+MongoDB自增键值的简单实现
Nov 04 #Python
基于Python的接口测试框架实例
Nov 04 #Python
浅谈Python爬取网页的编码处理
Nov 04 #Python
You might like
php 空格,换行,跳格使用说明
2009/12/18 PHP
javascript整除实现代码
2010/11/23 Javascript
js与运算符和或运算符的妙用
2014/02/14 Javascript
javascript包装对象实例分析
2015/03/27 Javascript
jQuery简单实现验证邮箱格式
2015/07/15 Javascript
高效的jquery数字滚动特效
2015/12/17 Javascript
JavaScript数组操作函数汇总
2016/08/05 Javascript
javascript 动态脚本添加的简单方法
2016/10/11 Javascript
seajs学习教程之基础篇
2016/10/20 Javascript
js实现无缝滚动图
2017/02/22 Javascript
关于Vue实现组件信息的缓存问题
2017/08/23 Javascript
推荐VSCode 上特别好用的 Vue 插件之vetur
2017/09/14 Javascript
bootstrap实现二级下拉菜单效果
2017/11/23 Javascript
手动用webpack搭建第一个ReactApp的示例
2018/04/11 Javascript
浅析Vue中拆分视图层代码的5点建议
2019/08/15 Javascript
Layui 数据表格批量删除和多条件搜索的实例
2019/09/04 Javascript
vue中 this.$set的用法详解
2019/09/06 Javascript
Vue请求java服务端并返回数据代码实例
2019/11/28 Javascript
JS深入学习之数组对象排序操作示例
2020/05/01 Javascript
uniapp实现可滑动选项卡
2020/10/21 Javascript
python正则表达式之作业计算器
2016/03/18 Python
Python编程实现线性回归和批量梯度下降法代码实例
2018/01/04 Python
Python常用模块之requests模块用法分析
2019/05/15 Python
django-rest-swagger的优化使用方法
2019/08/29 Python
python飞机大战pygame碰撞检测实现方法分析
2019/12/17 Python
解决Keras 与 Tensorflow 版本之间的兼容性问题
2020/02/07 Python
pycharm中import呈现灰色原因的解决方法
2020/03/04 Python
对Matlab中共轭、转置和共轭装置的区别说明
2020/05/11 Python
华为旗下电子商务平台:华为商城
2016/08/06 全球购物
KIKO MILANO俄罗斯官网:意大利领先的化妆品和护肤品品牌
2021/01/09 全球购物
有个性的自我评价范文
2013/11/15 职场文书
全民健身日活动方案
2014/01/29 职场文书
品牌推广策划方案
2014/05/28 职场文书
MySql存储过程之逻辑判断和条件控制
2021/05/26 MySQL
OpenCV全景图像拼接的实现示例
2021/06/05 Python
vue3使用vuedraggable实现拖拽功能
2022/04/06 Vue.js