使用Python的urllib和urllib2模块制作爬虫的实例教程


Posted in Python onJanuary 20, 2016

urllib
学习python完基础,有些迷茫.眼睛一闭,一种空白的窒息源源不断而来.还是缺少练习,遂拿爬虫来练练手.学习完斯巴达python爬虫课程后,将心得整理如下,供后续翻看.整篇笔记主要分以下几个部分:

  • 1.做一个简单的爬虫程序
  • 2.小试牛刀--抓取百度贴吧图片
  • 3.总结

1.做一个简单的爬虫程序
首先环境描述

  • Device: Mba 2012 Yosemite 10.10.1
  • Python: python 2.7.9
  • 编辑器: Sublime Text 3

这个没有什么好说的,直接上代码吧!

'''
@ urllib为python自带的一个网络库
@ urlopen为urllib的一个方法,用于打开一个连接并抓取网页,
 然后通过read()方法把值赋给read()
'''
import urllib

url = "http://www.lifevc.com"#多嘴两句,为什么要选lifevc呢,主要是最近它很惹我.
html = urllib.urlopen(url)
content = html.read()
html.close()
#可以通过print打印出网页内容
print content

很简单,基本上没有可说的,这个也就是python的魅力,几行代码就完成.
当然我们仅仅抓取网页,没有实在的价值.接下来我们就开始做一点有意义的事情.

2.小试牛刀
抓取百度贴吧图片
其实也很简单,因为要抓取图片,还需要先分析一下网页源代码
(这里以知道基本html知识,浏览器以chrome为例)
如图,这里简要说下步骤,请参考.

打开网页,右键点击,选择"inspect Element"(最下面这一项)
点击下面弹起来的框框最左边那个问号,问号会变成蓝色
移动鼠标去点击我们想要抓取的图片(一个萌妹子)
如图,我们就可以图片在源码中的位置了

使用Python的urllib和urllib2模块制作爬虫的实例教程

下面将源码相关拷贝出来

<img class="BDE_Image" src="http://imgsrc.baidu.com/forum/w%3D580/
sign=3d5aacaab21c8701d6b6b2ee177e9e6e/17a6d439b6003af329aece2e342ac65c1138b6d8.
jpg" height="840" width="560" style="cursor: url(http://tb2.bdstatic.com/tb/
static-pb/img/cur_zin.cur), pointer;">

经分析和对比(这里略掉),基本上可以看到要抓取的图片几个特征:

  • 在img标签下
  • 在名为BDE_Image的类下面
  • 图片格式为jpg

正则表达式后续我会更新,请关注

依照上述判断,直接上代码

'''
@本程序用来下载百度贴吧图片
@re 为正则说明库
'''
import urllib
import re

# 获取网页html信息
url = "http://tieba.baidu.com/p/2336739808"
html = urllib.urlopen(url)
content = html.read()
html.close()

# 通过正则匹配图片特征,并获取图片链接
img_tag = re.compile(r'class="BDE_Image" src="(.+?\.jpg)"')
img_links = re.findall(img_tag, content)

# 下载图片 img_counter为图片计数器(文件名)
img_counter = 0
for img_link in img_links:
  img_name = '%s.jpg' % img_counter
  urllib.urlretrieve(img_link, "//Users//Sean//Downloads//tieba//%s" %img_name)
  img_counter += 1

如图,我们就抓取你懂的图片

使用Python的urllib和urllib2模块制作爬虫的实例教程

3.总结
如上两节,我们就很轻松的就可以网页或者图片.
补充一点小技巧,如果遇到不是很明白的库或者方法,可以通过以下方法进行初步了解.

  • dir(urllib)                     #查看当前库有哪些方法
  • help(urllib.urlretrieve)        #查看跟当前方法相关的作用或者参数,官方比较权威

或者https://docs.python.org/2/library/index.html进项相关搜索.

当然百度也可以,但是效率太低.建议使用 http://xie.lu 进行相关搜索(你懂了,绝对满意).
这里我们讲解如何抓取网页和下载图片,在下面我们会讲解如何抓取有限制抓取的网站.

urllib2
上面我们讲解如何抓取网页和下载图片,在下一节里面我们会讲解如何抓取有限制抓取的网站
首先,我们依然用我们上一节课的方法去抓取一个大家都用来举例的网站<blog.cndn.net>,本文主要分以下几个部分:

  • 1.抓取受限网页
  • 2.对代码进行一些优化

1.抓取受限网页

首先使用我们上一节学到的知识测试一下:

'''
@本程序用来抓取blog.csdn.net网页
'''
import urllib

url = "http://blog.csdn.net/FansUnion"
html = urllib.urlopen(url)
#getcode()方法为返回Http状态码
print html.getcode()
html.close()
#输出
403

此处我们的输出为403,代表拒绝访问;同理200表示请求成功完成;404表示网址未找到.
可见csdn已做了相关屏蔽,通过第一节的方法是无法获取网页,在这里我们需要启动一个新的库:urllib2
但是我们也看到浏览器可以发那个文,是不是我们模拟浏览器操作,就可以获取网页信息.
老办法,我们先来看看浏览器是如何提交请求给csdn服务器的.首先简述一下方法:

  • 打开网页,右键点击,选择"inspect Element"(最下面这一项)
  • 点击下面弹起来的框框的Network选项卡
  • 刷新网页,就可以看到Network选项卡抓取了很多信息
  • 找到其中一个信息展开,就能看到请求包的Header

使用Python的urllib和urllib2模块制作爬虫的实例教程

以下就是整理后的Header信息

Request Method:GET
Host:blog.csdn.net
Referer:http://blog.csdn.net/?ref=toolbar_logo
User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.104 Safari/537.36

然后根据提取的Header信息,利用urllib2的Request方法模拟浏览器向服务器提交请求,代码如下:

# coding=utf-8
'''
@本程序用来抓取受限网页(blog.csdn.net)
@User-Agent:客户端浏览器版本
@Host:服务器地址
@Referer:跳转地址
@GET:请求方法为GET
'''
import urllib2

url = "http://blog.csdn.net/FansUnion"

#定制自定义Header,模拟浏览器向服务器提交请求
req = urllib2.Request(url)
req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36')
req.add_header('Host', 'blog.csdn.net')
req.add_header('Referer', 'http://blog.csdn.net')
req.add_header('GET', url)

#下载网页html并打印
html = urllib2.urlopen(req)
content = html.read()
print content
html.close()

呵呵,你限制我,我就跳过你的限制.据说只要浏览器能够访问的,就能够通过爬虫抓取.

2.对代码进行一些优化
简化提交Header方法
发现每次写那么多req.add_header对自己来说是一种折磨,有没有什么方法可以只要复制过来就使用.答案是肯定的.

#input:
help(urllib2.Request)
#output(因篇幅关系,只取__init__方法)
__init__(self, url, data=None, headers={}, origin_req_host=None, unverifiable=False)
通过观察,我们发现headers={},就是说可以以字典的方式提交header信息.那就动手试试咯!!

#只取自定义Header部分代码
csdn_headers = {
  "User-Agent": "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",
  "Host": "blog.csdn.net",
  'Referer': 'http://blog.csdn.net',
  "GET": url
  }
req = urllib2.Request(url,headers=csdn_headers)

发现是不是很简单,在这里感谢斯巴达的无私赐教.

提供动态头部信息
如果按照上述方法进行抓取,很多时候会因为提交信息过于单一,被服务器认为是机器爬虫进行拒绝.
那我们是不是有一些更为智能的方法提交一些动态的数据,答案肯定也是肯定的.而且很简单,直接上代码!

'''
@本程序是用来动态提交Header信息
@random 动态库,详情请参考<https://docs.python.org/2/library/random.html>
'''

# coding=utf-8
import urllib2
import random

url = 'http://www.lifevc.com/'

my_headers = [
  'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; .NET CLR 3.0.04506.648)',
  'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; InfoPath.1',
  'Mozilla/4.0 (compatible; GoogleToolbar 5.0.2124.2070; Windows 6.0; MSIE 8.0.6001.18241)',
  'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)',
  'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; Sleipnir/2.9.8)',
  #因篇幅关系,此处省略N条
]

random_header = random.choice(headers)
# 可以通过print random_header查看提交的header信息
req = urllib2.Request(url)
req.add_header("User-Agent", random_header)
req.add_header('Host', 'blog.csdn.net')
req.add_header('Referer', 'http://blog.csdn.net')
req.add_header('GET', url)
content = urllib2.urlopen(req).read()
print content

其实很简单,这样我们就完成了对代码的一些优化.

Python 相关文章推荐
在ironpython中利用装饰器执行SQL操作的例子
May 02 Python
Python实现mysql数据库更新表数据接口的功能
Nov 19 Python
Django框架模板语言实例小结【变量,标签,过滤器,继承,html转义】
May 23 Python
python使用HTMLTestRunner导出饼图分析报告的方法
Dec 30 Python
python super函数使用方法详解
Feb 14 Python
python实现音乐播放器 python实现花框音乐盒子
Feb 25 Python
Python多线程正确用法实例解析
May 30 Python
在django中查询获取数据,get, filter,all(),values()操作
Aug 09 Python
python全栈开发语法总结
Nov 22 Python
matplotlib 画动态图以及plt.ion()和plt.ioff()的使用详解
Jan 05 Python
pandas DataFrame.shift()函数的具体使用
May 24 Python
Python re.sub 反向引用的实现
Jul 07 Python
使用python实现省市三级菜单效果
Jan 20 #Python
八大排序算法的Python实现
Jan 28 #Python
详解C++编程中一元运算符的重载
Jan 19 #Python
Python中使用Queue和Condition进行线程同步的方法
Jan 19 #Python
简单总结Python中序列与字典的相同和不同之处
Jan 19 #Python
举例讲解如何在Python编程中进行迭代和遍历
Jan 19 #Python
Python的自动化部署模块Fabric的安装及使用指南
Jan 19 #Python
You might like
phpmyadmin操作流程
2006/10/09 PHP
PHP If Else(elsefi) 语句
2013/04/07 PHP
Laravel框架控制器,视图及模型操作图文详解
2019/12/04 PHP
TP3.2.3框架使用CKeditor编辑器在页面中上传图片的方法分析
2019/12/31 PHP
js 将json字符串转换为json对象的方法解析
2013/11/13 Javascript
Javascript基础教程之数据类型 (布尔型 Boolean)
2015/01/18 Javascript
javascript页面倒计时实例
2015/07/25 Javascript
纯javascript实现自动发送邮件
2015/10/21 Javascript
bootstrap modal弹出框的垂直居中
2016/12/14 Javascript
使用selenium抓取淘宝的商品信息实例
2018/02/06 Javascript
Angular5中状态管理的实现
2018/09/03 Javascript
基于VUE实现的九宫格抽奖功能
2018/09/30 Javascript
微信小程序框架的页面布局代码
2019/08/17 Javascript
vue中keep-alive内置组件缓存的实例代码
2020/04/16 Javascript
[01:06:19]DOTA2-DPC中国联赛定级赛 LBZS vs SAG BO3第二场 1月8日
2021/03/11 DOTA
图文讲解选择排序算法的原理及在Python中的实现
2016/05/04 Python
[原创]windows下Anaconda的安装与配置正解(Anaconda入门教程)
2018/04/05 Python
Django跨域请求问题的解决方法示例
2018/06/16 Python
python解析xml简单示例
2019/06/21 Python
python创建n行m列数组示例
2019/12/02 Python
python3+selenium获取页面加载的所有静态资源文件链接操作
2020/05/04 Python
python 爬取免费简历模板网站的示例
2020/09/27 Python
CSS3制作文字半透明倒影效果的两种实现方式
2014/08/08 HTML / CSS
Javascript 高级手势使用介绍
2013/04/21 HTML / CSS
美国知名的在线旅游服务网站:Priceline
2016/07/23 全球购物
描述一下JVM加载class文件的原理机制
2013/12/08 面试题
大学生应聘自荐信
2013/10/11 职场文书
大学生大二自我鉴定
2013/10/28 职场文书
《学棋》教后反思
2014/04/14 职场文书
四查四看自我剖析材料
2014/09/19 职场文书
学校师德师风整改措施
2014/10/27 职场文书
委托公证书样本
2015/01/23 职场文书
神农溪导游词
2015/02/11 职场文书
酒店前台岗位职责
2015/04/16 职场文书
详细介绍python类及类的用法
2021/05/31 Python
Python面向对象之成员相关知识总结
2021/06/24 Python