零基础写python爬虫之使用urllib2组件抓取网页内容


Posted in Python onNovember 04, 2014

版本号:Python2.7.5,Python3改动较大,各位另寻教程。

所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 
类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。

在Python中,我们使用urllib2这个组件来抓取网页。
urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。

它以urlopen函数的形式提供了一个非常简单的接口。

最简单的urllib2的应用代码只需要四行。

我们新建一个文件urllib2_test01.py来感受一下urllib2的作用:

import urllib2
response = urllib2.urlopen('http://www.baidu.com/')
html = response.read()
print html

按下F5可以看到运行的结果:

零基础写python爬虫之使用urllib2组件抓取网页内容

我们可以打开百度主页,右击,选择查看源代码(火狐OR谷歌浏览器均可),会发现也是完全一样的内容。

也就是说,上面这四行代码将我们访问百度时浏览器收到的代码们全部打印了出来。

这就是一个最简单的urllib2的例子。

除了"http:",URL同样可以使用"ftp:","file:"等等来替代。

HTTP是基于请求和应答机制的:

客户端提出请求,服务端提供应答。

urllib2用一个Request对象来映射你提出的HTTP请求。

在它最简单的使用形式中你将用你要请求的地址创建一个Request对象,

通过调用urlopen并传入Request对象,将返回一个相关请求response对象,

这个应答对象如同一个文件对象,所以你可以在Response中调用.read()。

我们新建一个文件urllib2_test02.py来感受一下:

import urllib2  
req = urllib2.Request('http://www.baidu.com')  
response = urllib2.urlopen(req)  
the_page = response.read()  
print the_page

可以看到输出的内容和test01是一样的。

urllib2使用相同的接口处理所有的URL头。例如你可以像下面那样创建一个ftp请求。

req = urllib2.Request('ftp://example.com/')

在HTTP请求时,允许你做额外的两件事。

1.发送data表单数据

这个内容相信做过Web端的都不会陌生,

有时候你希望发送一些数据到URL(通常URL与CGI[通用网关接口]脚本,或其他WEB应用程序挂接)。

在HTTP中,这个经常使用熟知的POST请求发送。

这个通常在你提交一个HTML表单时由你的浏览器来做。

并不是所有的POSTs都来源于表单,你能够使用POST提交任意的数据到你自己的程序。

一般的HTML表单,data需要编码成标准形式。然后做为data参数传到Request对象。

编码工作使用urllib的函数而非urllib2。

我们新建一个文件urllib2_test03.py来感受一下:

import urllib  
import urllib2  
url = 'http://www.someserver.com/register.cgi'  
values = {'name' : 'WHY',  
          'location' : 'SDU',  
          'language' : 'Python' }  
data = urllib.urlencode(values) # 编码工作
req = urllib2.Request(url, data)  # 发送请求同时传data表单
response = urllib2.urlopen(req)  #接受反馈的信息
the_page = response.read()  #读取反馈的内容

如果没有传送data参数,urllib2使用GET方式的请求。

GET和POST请求的不同之处是POST请求通常有"副作用",

它们会由于某种途径改变系统状态(例如提交成堆垃圾到你的门口)。

Data同样可以通过在Get请求的URL本身上面编码来传送。

import urllib2  
import urllib
data = {}
data['name'] = 'WHY'  
data['location'] = 'SDU'  
data['language'] = 'Python'
url_values = urllib.urlencode(data)  
print url_values
name=Somebody+Here&language=Python&location=Northampton  
url = 'http://www.example.com/example.cgi'  
full_url = url + '?' + url_values
data = urllib2.open(full_url)

这样就实现了Data数据的Get传送。

2.设置Headers到http请求

有一些站点不喜欢被程序(非人为访问)访问,或者发送不同版本的内容到不同的浏览器。

默认的urllib2把自己作为“Python-urllib/x.y”(x和y是Python主版本和次版本号,例如Python-urllib/2.7),

这个身份可能会让站点迷惑,或者干脆不工作。

浏览器确认自己身份是通过User-Agent头,当你创建了一个请求对象,你可以给他一个包含头数据的字典。

下面的例子发送跟上面一样的内容,但把自身模拟成Internet Explorer。

(多谢大家的提醒,现在这个Demo已经不可用了,不过原理还是那样的)。

import urllib  
import urllib2  
url = 'http://www.someserver.com/cgi-bin/register.cgi'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'  
values = {'name' : 'WHY',  
          'location' : 'SDU',  
          'language' : 'Python' }  
headers = { 'User-Agent' : user_agent }  
data = urllib.urlencode(values)  
req = urllib2.Request(url, data, headers)  
response = urllib2.urlopen(req)  
the_page = response.read() 

以上就是python利用urllib2通过指定的URL抓取网页内容的全部内容,非常简单吧,希望对大家能有所帮助

Python 相关文章推荐
python发腾讯微博代码分享
Jan 10 Python
Python实现删除文件但保留指定文件
Jun 21 Python
python保存字符串到文件的方法
Jul 01 Python
使用相同的Apache实例来运行Django和Media文件
Jul 22 Python
Python使用微信SDK实现的微信支付功能示例
Jun 30 Python
python xlsxwriter创建excel图表的方法
Jun 11 Python
Python数据结构与算法(几种排序)小结
Jun 22 Python
python实现图像拼接功能
Mar 23 Python
keras topN显示,自编写代码案例
Jul 03 Python
pycharm 2020 1.1的安装流程
Sep 29 Python
详解pycharm自动import所需的库的操作方法
Nov 30 Python
python Timer 类使用介绍
Dec 28 Python
零基础写python爬虫之爬虫的定义及URL构成
Nov 04 #Python
使用Python编写简单网络爬虫抓取视频下载资源
Nov 04 #Python
Python爬取Coursera课程资源的详细过程
Nov 04 #Python
使用python开发vim插件及心得分享
Nov 04 #Python
Python学习笔记之os模块使用总结
Nov 03 #Python
Python中获取网页状态码的两个方法
Nov 03 #Python
Python random模块常用方法
Nov 03 #Python
You might like
用PHP控制用户的浏览器--ob*函数的使用说明
2007/03/16 PHP
PHP中ADODB类详解
2008/03/25 PHP
php中理解print EOT分界符和echo EOT的用法区别小结
2010/02/21 PHP
php 文件缓存函数
2011/10/08 PHP
CI框架出现mysql数据库连接资源无法释放的解决方法
2016/05/17 PHP
PHP符合PSR编程规范的实例分享
2016/12/21 PHP
PHP编程中的Session阻塞问题与解决方法分析
2017/08/07 PHP
PHP基于openssl实现的非对称加密操作示例
2019/01/11 PHP
in.js 一个轻量级的JavaScript颗粒化模块加载和依赖关系管理解决方案
2011/07/26 Javascript
40个有创意的jQuery图片、内容滑动及弹出插件收藏集之一
2011/12/31 Javascript
js中typeof的用法汇总
2013/12/12 Javascript
jQuery中:has选择器用法实例
2014/12/30 Javascript
JavaScript实现自动消除按钮功能的方法
2015/08/05 Javascript
jQuery为动态生成的select元素添加事件的方法
2016/08/29 Javascript
微信小程序 出现47001 data format error原因解决办法
2017/03/10 Javascript
angular2中router路由跳转navigate的使用与刷新页面问题详解
2017/05/07 Javascript
vue-router单页面路由
2017/06/17 Javascript
vue.js组件vue-waterfall-easy实现瀑布流效果
2017/08/22 Javascript
vue滚动轴插件better-scroll使用详解
2017/10/17 Javascript
Node 升级到最新稳定版的方法分享
2018/05/17 Javascript
JS+HTML5 Canvas实现简单的写字板功能示例
2018/08/30 Javascript
[04:28]2014DOTA2国际邀请赛 采访小兔子LGD挺进钥匙体育馆
2014/07/14 DOTA
Python聚类算法之凝聚层次聚类实例分析
2015/11/20 Python
Python持续监听文件变化代码实例
2020/07/22 Python
python通过函数名调用函数的几种场景
2020/09/23 Python
html5通过postMessage进行跨域通信的方法
2017/12/04 HTML / CSS
世界最大的票务市场:viagogo
2017/02/16 全球购物
ManoMano英国:欧洲第一家专注于DIY和园艺市场的电商平台
2020/03/12 全球购物
优秀党支部事迹材料
2014/01/14 职场文书
创业者是否需要商业计划书?
2014/02/07 职场文书
政治学专业毕业生求职信
2014/08/11 职场文书
初中毕业生自我评价
2015/03/02 职场文书
2015年组织委员工作总结
2015/04/23 职场文书
导游词之上海豫园
2019/10/24 职场文书
Python-typing: 类型标注与支持 Any类型详解
2021/05/10 Python
Sentry的安装、配置、使用教程(Sentry日志手机系统)
2022/07/23 Python