win与linux系统中python requests 安装


Posted in Python onDecember 04, 2016

在 windows 系统下,只需要输入命令 pip install requests ,即可安装。

在 linux 系统下,只需要输入命令 sudo  pip install requests ,即可安装。

或者

=================

Window

1.  下载requests  被墙

 打开这个网址, http://www.lfd.uci.edu/~gohlke/pythonlibs 在这个网站上面有很多 python 的第三方库文件, ctrl+f 找到 requests 下载

.whl文件下载下来后,将后缀名从 .whl 改为 .zip ,然后解压文件,我们可以得到两个文件夹

将requests 文件夹复制到 python 的安装目录下的 lib 目录下

requests 已经安装完毕,输入 import requests 命令来试试是否安装成功,

   import requests 没有报错,说明 requests 已经成功安装。

2.快速指南

2.1 发送请求
发送请求很简单的,首先要导入requests模块:

>>>import requests

接下来让我们获取一个网页,例如我个人博客的首页:

>>>r = requests.get('http://www.zhidaow.com')

接下来,我们就可以使用这个r的各种方法和函数了。
另外,HTTP请求还有很多类型,比如POST,PUT,DELETE,HEAD,OPTIONS。也都可以用同样的方式实现:

>>> r = requests.post("http://httpbin.org/post")
>>> r = requests.put("http://httpbin.org/put")
>>> r = requests.delete("http://httpbin.org/delete")
>>> r = requests.head("http://httpbin.org/get")
>>> r = requests.options("http://httpbin.org/get")

因为目前我还没用到这些,所以没有深入研究。

2.2 在URLs中传递参数
有时候我们需要在URL中传递参数,比如在采集百度搜索结果时,我们wd参数(搜索词)和rn参数(搜素结果数量),你可以手工组成URL,requests也提供了一种看起来很NB的方法:

>>> payload = {'wd': '张亚楠', 'rn': '100'}
>>> r = requests.get("http://www.baidu.com/s", params=payload)
>>> print r.url
u'http://www.baidu.com/s?rn=100&wd=%E5%BC%A0%E4%BA%9A%E6%A5%A0'

上面wd=的乱码就是“张亚楠”的转码形式。(好像参数按照首字母进行了排序。)

2.3 获取响应内容
可以通过r.text来获取网页的内容。

>>> r = requests.get('https://www.zhidaow.com')
>>> r.text
u'<!DOCTYPE html>\n<html xmlns="http://www.w3.org/1999/xhtml"...'

文档里说,requests会自动将内容转码。大多数unicode字体都会无缝转码。但我在cygwin下使用时老是出现UnicodeEncodeError错误,郁闷。倒是在python的IDLE中完全正常。
另外,还可以通过r.content来获取页面内容。

>>> r = requests.get('https://www.zhidaow.com')
>>> r.content
b'<!DOCTYPE html>\n<html xmlns="http://www.w3.org/1999/xhtml"...'

文档中说r.content是以字节的方式去显示,所以在IDLE中以b开头。但我在cygwin中用起来并没有,下载网页正好。所以就替代了urllib2的urllib2.urlopen(url).read()功能。(基本上是我用的最多的一个功能。)

2.4 获取网页编码

可以使用r.encoding来获取网页编码。

>>> r = requests.get('http://www.zhidaow.com')
>>> r.encoding
'utf-8'

当你发送请求时,requests会根据HTTP头部来猜测网页编码,当你使用r.text时,requests就会使用这个编码。当然你还可以修改requests的编码形式。

>>> r = requests.get('http://www.zhidaow.com')
>>> r.encoding
'utf-8'
>>>r.encoding = 'ISO-8859-1'

像上面的例子,对encoding修改后就直接会用修改后的编码去获取网页内容。

2.5 json

像urllib和urllib2,如果用到json,就要引入新模块,如json和simplejson,但在requests中已经有了内置的函数,r.json()。就拿查询IP的API来说:

>>>r = requests.get('http://ip.taobao.com/service/getIpInfo.php?ip=122.88.60.28')
>>>r.json()['data']['country']
'中国'

2.6 网页状态码
我们可以用r.status_code来检查网页的状态码。

>>>r = requests.get('http://www.mengtiankong.com')
>>>r.status_code
200
>>>r = requests.get('http://www.mengtiankong.com/123123/')
>>>r.status_code
404
>>>r = requests.get('http://www.baidu.com/link?url=QeTRFOS7TuUQRppa0wlTJJr6FfIYI1DJprJukx4Qy0XnsDO_s9baoO8u1wvjxgqN')
>>>r.url
u'http://www.zhidaow.com/
>>>r.status_code
200

前两个例子很正常,能正常打开的返回200,不能正常打开的返回404。但第三个就有点奇怪了,那个是百度搜索结果中的302跳转地址,但状态码显示是200,接下来我用了一招让他原形毕露:

>>>r.history
(<Response [302]>,)

这里能看出他是使用了302跳转。也许有人认为这样可以通过判断和正则来获取跳转的状态码了,其实还有个更简单的方法:

>>>r = requests.get('http://www.baidu.com/link?url=QeTRFOS7TuUQRppa0wlTJJr6FfIYI1DJprJukx4Qy0XnsDO_s9baoO8u1wvjxgqN', allow_redirects = False)
>>>r.status_code
302

只要加上一个参数allow_redirects,禁止了跳转,就直接出现跳转的状态码了,好用吧?我也利用这个在最后一掌做了个简单的获取网页状态码的小应用,原理就是这个。

2.7 响应头内容

可以通过r.headers来获取响应头内容。

>>>r = requests.get('http://www.zhidaow.com')
>>> r.headers
{
 'content-encoding': 'gzip',
 'transfer-encoding': 'chunked',
 'content-type': 'text/html; charset=utf-8';
 ...
}

可以看到是以字典的形式返回了全部内容,我们也可以访问部分内容。

>>> r.headers['Content-Type']
'text/html; charset=utf-8'

>>> r.headers.get('content-type')
'text/html; charset=utf-8'

2.8 设置超时时间

我们可以通过timeout属性设置超时时间,一旦超过这个时间还没获得响应内容,就会提示错误。

>>> requests.get('http://github.com', timeout=0.001)

Traceback (most recent call last):

  File "<stdin>", line 1, in <module>

requests.exceptions.Timeout: HTTPConnectionPool(host='github.com', port=80): Request timed out. (timeout=0.001)

2.9 代理访问
采集时为避免被封IP,经常会使用代理。requests也有相应的proxies属性。

import requests

proxies = {
 "http": "http://10.10.1.10:3128",
 "https": "http://10.10.1.10:1080",
}

requests.get("http://www.zhidaow.com", proxies=proxies)

如果代理需要账户和密码,则需这样:

proxies = {
 "http": "http://user:pass@10.10.1.10:3128/",
}

2.10 请求头内容
请求头内容可以用r.request.headers来获取。

>>> r.request.headers
{'Accept-Encoding': 'identity, deflate, compress, gzip',
'Accept': '*/*', 'User-Agent': 'python-requests/1.2.3 CPython/2.7.3 Windows/XP'}

2.11 自定义请求头部
伪装请求头部是采集时经常用的,我们可以用这个方法来隐藏:

r = requests.get('http://www.zhidaow.com')
print r.request.headers['User-Agent']
#python-requests/1.2.3 CPython/2.7.3 Windows/XP

headers = {'User-Agent': 'alexkh'}
r = requests.get('http://www.zhidaow.com', headers = headers)
print r.request.headers['User-Agent']
#alexkh

2.12 持久连接keep-alive

requests的keep-alive是基于urllib3,同一会话内的持久连接完全是自动的。同一会话内的所有请求都会自动使用恰当的连接。

也就是说,你无需任何设置,requests会自动实现keep-alive。

3. 简单应用

获取网页返回码

def get_status(url):
 r = requests.get(url, allow_redirects = False)
 return r.status_code

print get_status('http://www.zhidaow.com') 
#200
print get_status('http://www.zhidaow.com/hi404/')
#404
print get_status('http://mengtiankong.com')
#301
print get_status('http://www.baidu.com/link?url=QeTRFOS7TuUQRppa0wlTJJr6FfIYI1DJprJukx4Qy0XnsDO_s9baoO8u1wvjxgqN')
#302
print get_status('http://www.huiya56.com/com8.intre.asp?46981.html')
#500
Python 相关文章推荐
Python命令行参数解析模块getopt使用实例
Apr 13 Python
python 统计代码行数简单实例
May 04 Python
基于Python log 的正确打开方式
Apr 28 Python
使用python的pandas库读取csv文件保存至mysql数据库
Aug 20 Python
完美解决Python matplotlib绘图时汉字显示不正常的问题
Jan 29 Python
Python代码生成视频的缩略图的实例讲解
Dec 22 Python
Pyecharts绘制全球流向图的示例代码
Jan 08 Python
Python3 io文本及原始流I/O工具用法详解
Mar 23 Python
python实现人机五子棋
Mar 25 Python
python变量的作用域是什么
May 26 Python
解决Alexnet训练模型在每个epoch中准确率和loss都会一升一降问题
Jun 17 Python
通过实例了解Python异常处理机制底层实现
Jul 23 Python
详解Python各大聊天系统的屏蔽脏话功能原理
Dec 01 #Python
python模块简介之有序字典(OrderedDict)
Dec 01 #Python
Python中字符串的修改及传参详解
Nov 30 #Python
简单谈谈Python中的闭包
Nov 30 #Python
浅析Python中yield关键词的作用与用法
Nov 29 #Python
Python中 Lambda表达式全面解析
Nov 28 #Python
利用Python抓取行政区划码的方法
Nov 28 #Python
You might like
15种PHP Encoder的比较
2007/04/17 PHP
php中经典方法实现判断多维数组是否为空
2011/10/23 PHP
TP(thinkPHP)框架多层控制器和多级控制器的使用示例
2018/06/13 PHP
PHP7 mongoDB扩展使用的方法分享
2019/05/02 PHP
win10下 php安装seaslog扩展的详细步骤
2020/12/04 PHP
alixixi runcode.asp的代码不错的应用
2007/08/08 Javascript
js 字符串操作函数
2009/07/25 Javascript
Jquery.TreeView结合ASP.Net和数据库生成菜单导航条
2010/08/27 Javascript
js自动闭合html标签(自动补全html标记)
2012/10/04 Javascript
jQuery控制输入框只能输入数值的小例子
2013/03/20 Javascript
鼠标移动到图片名上,显示图片的简单实例
2013/07/14 Javascript
js中如何复制一个对象并获取其所有属性和属性对应的值
2013/10/24 Javascript
js中数组排序sort方法的原理分析
2014/11/20 Javascript
浅谈javascript中return语句
2015/07/15 Javascript
Bootstrap每天必学之导航
2015/11/26 Javascript
JavaScript中数组去除重复的三种方法
2016/04/22 Javascript
js实现键盘自动打字效果
2016/12/23 Javascript
JavaScript中重名的函数与对象示例详析
2017/09/28 Javascript
layui前端时间戳转化实例
2019/11/15 Javascript
基于js实现判断浏览器类型代码实例
2020/07/17 Javascript
解决element-ui里的下拉多选框 el-select 时,默认值不可删除问题
2020/08/14 Javascript
[01:15]《辉夜杯》北京网鱼队巡礼
2015/10/26 DOTA
python生成随机验证码(中文验证码)示例
2014/04/03 Python
python socket网络编程之粘包问题详解
2018/04/28 Python
python简单操作excle的方法
2018/09/12 Python
python中退出多层循环的方法
2018/11/27 Python
python 基于pygame实现俄罗斯方块
2021/03/02 Python
iPhoneX安全区域(Safe Area)底部小黑条在微信小程序和H5的屏幕适配
2020/04/08 HTML / CSS
html5实现九宫格抽奖可固定抽中某项奖品
2020/06/15 HTML / CSS
巴西图书和电子产品购物网站:Saraiva
2017/06/07 全球购物
Merrell美国官网:美国登山运动鞋品牌
2018/02/07 全球购物
REISS美国官网:伦敦最受欢迎的时尚品牌
2019/08/16 全球购物
关于VPN
2012/06/10 面试题
个人委托书范本
2014/04/02 职场文书
高中运动会广播稿
2014/09/16 职场文书
2016年小学“感恩教师”主题队日活动总结
2016/04/01 职场文书