使用Python的urllib和urllib2模块制作爬虫的实例教程


Posted in Python onJanuary 20, 2016

urllib
学习python完基础,有些迷茫.眼睛一闭,一种空白的窒息源源不断而来.还是缺少练习,遂拿爬虫来练练手.学习完斯巴达python爬虫课程后,将心得整理如下,供后续翻看.整篇笔记主要分以下几个部分:

  • 1.做一个简单的爬虫程序
  • 2.小试牛刀--抓取百度贴吧图片
  • 3.总结

1.做一个简单的爬虫程序
首先环境描述

  • Device: Mba 2012 Yosemite 10.10.1
  • Python: python 2.7.9
  • 编辑器: Sublime Text 3

这个没有什么好说的,直接上代码吧!

'''
@ urllib为python自带的一个网络库
@ urlopen为urllib的一个方法,用于打开一个连接并抓取网页,
 然后通过read()方法把值赋给read()
'''
import urllib

url = "http://www.lifevc.com"#多嘴两句,为什么要选lifevc呢,主要是最近它很惹我.
html = urllib.urlopen(url)
content = html.read()
html.close()
#可以通过print打印出网页内容
print content

很简单,基本上没有可说的,这个也就是python的魅力,几行代码就完成.
当然我们仅仅抓取网页,没有实在的价值.接下来我们就开始做一点有意义的事情.

2.小试牛刀
抓取百度贴吧图片
其实也很简单,因为要抓取图片,还需要先分析一下网页源代码
(这里以知道基本html知识,浏览器以chrome为例)
如图,这里简要说下步骤,请参考.

打开网页,右键点击,选择"inspect Element"(最下面这一项)
点击下面弹起来的框框最左边那个问号,问号会变成蓝色
移动鼠标去点击我们想要抓取的图片(一个萌妹子)
如图,我们就可以图片在源码中的位置了

使用Python的urllib和urllib2模块制作爬虫的实例教程

下面将源码相关拷贝出来

<img class="BDE_Image" src="http://imgsrc.baidu.com/forum/w%3D580/
sign=3d5aacaab21c8701d6b6b2ee177e9e6e/17a6d439b6003af329aece2e342ac65c1138b6d8.
jpg" height="840" width="560" style="cursor: url(http://tb2.bdstatic.com/tb/
static-pb/img/cur_zin.cur), pointer;">

经分析和对比(这里略掉),基本上可以看到要抓取的图片几个特征:

  • 在img标签下
  • 在名为BDE_Image的类下面
  • 图片格式为jpg

正则表达式后续我会更新,请关注

依照上述判断,直接上代码

'''
@本程序用来下载百度贴吧图片
@re 为正则说明库
'''
import urllib
import re

# 获取网页html信息
url = "http://tieba.baidu.com/p/2336739808"
html = urllib.urlopen(url)
content = html.read()
html.close()

# 通过正则匹配图片特征,并获取图片链接
img_tag = re.compile(r'class="BDE_Image" src="(.+?\.jpg)"')
img_links = re.findall(img_tag, content)

# 下载图片 img_counter为图片计数器(文件名)
img_counter = 0
for img_link in img_links:
  img_name = '%s.jpg' % img_counter
  urllib.urlretrieve(img_link, "//Users//Sean//Downloads//tieba//%s" %img_name)
  img_counter += 1

如图,我们就抓取你懂的图片

使用Python的urllib和urllib2模块制作爬虫的实例教程

3.总结
如上两节,我们就很轻松的就可以网页或者图片.
补充一点小技巧,如果遇到不是很明白的库或者方法,可以通过以下方法进行初步了解.

  • dir(urllib)                     #查看当前库有哪些方法
  • help(urllib.urlretrieve)        #查看跟当前方法相关的作用或者参数,官方比较权威

或者https://docs.python.org/2/library/index.html进项相关搜索.

当然百度也可以,但是效率太低.建议使用 http://xie.lu 进行相关搜索(你懂了,绝对满意).
这里我们讲解如何抓取网页和下载图片,在下面我们会讲解如何抓取有限制抓取的网站.

urllib2
上面我们讲解如何抓取网页和下载图片,在下一节里面我们会讲解如何抓取有限制抓取的网站
首先,我们依然用我们上一节课的方法去抓取一个大家都用来举例的网站<blog.cndn.net>,本文主要分以下几个部分:

  • 1.抓取受限网页
  • 2.对代码进行一些优化

1.抓取受限网页

首先使用我们上一节学到的知识测试一下:

'''
@本程序用来抓取blog.csdn.net网页
'''
import urllib

url = "http://blog.csdn.net/FansUnion"
html = urllib.urlopen(url)
#getcode()方法为返回Http状态码
print html.getcode()
html.close()
#输出
403

此处我们的输出为403,代表拒绝访问;同理200表示请求成功完成;404表示网址未找到.
可见csdn已做了相关屏蔽,通过第一节的方法是无法获取网页,在这里我们需要启动一个新的库:urllib2
但是我们也看到浏览器可以发那个文,是不是我们模拟浏览器操作,就可以获取网页信息.
老办法,我们先来看看浏览器是如何提交请求给csdn服务器的.首先简述一下方法:

  • 打开网页,右键点击,选择"inspect Element"(最下面这一项)
  • 点击下面弹起来的框框的Network选项卡
  • 刷新网页,就可以看到Network选项卡抓取了很多信息
  • 找到其中一个信息展开,就能看到请求包的Header

使用Python的urllib和urllib2模块制作爬虫的实例教程

以下就是整理后的Header信息

Request Method:GET
Host:blog.csdn.net
Referer:http://blog.csdn.net/?ref=toolbar_logo
User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.104 Safari/537.36

然后根据提取的Header信息,利用urllib2的Request方法模拟浏览器向服务器提交请求,代码如下:

# coding=utf-8
'''
@本程序用来抓取受限网页(blog.csdn.net)
@User-Agent:客户端浏览器版本
@Host:服务器地址
@Referer:跳转地址
@GET:请求方法为GET
'''
import urllib2

url = "http://blog.csdn.net/FansUnion"

#定制自定义Header,模拟浏览器向服务器提交请求
req = urllib2.Request(url)
req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36')
req.add_header('Host', 'blog.csdn.net')
req.add_header('Referer', 'http://blog.csdn.net')
req.add_header('GET', url)

#下载网页html并打印
html = urllib2.urlopen(req)
content = html.read()
print content
html.close()

呵呵,你限制我,我就跳过你的限制.据说只要浏览器能够访问的,就能够通过爬虫抓取.

2.对代码进行一些优化
简化提交Header方法
发现每次写那么多req.add_header对自己来说是一种折磨,有没有什么方法可以只要复制过来就使用.答案是肯定的.

#input:
help(urllib2.Request)
#output(因篇幅关系,只取__init__方法)
__init__(self, url, data=None, headers={}, origin_req_host=None, unverifiable=False)
通过观察,我们发现headers={},就是说可以以字典的方式提交header信息.那就动手试试咯!!

#只取自定义Header部分代码
csdn_headers = {
  "User-Agent": "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",
  "Host": "blog.csdn.net",
  'Referer': 'http://blog.csdn.net',
  "GET": url
  }
req = urllib2.Request(url,headers=csdn_headers)

发现是不是很简单,在这里感谢斯巴达的无私赐教.

提供动态头部信息
如果按照上述方法进行抓取,很多时候会因为提交信息过于单一,被服务器认为是机器爬虫进行拒绝.
那我们是不是有一些更为智能的方法提交一些动态的数据,答案肯定也是肯定的.而且很简单,直接上代码!

'''
@本程序是用来动态提交Header信息
@random 动态库,详情请参考<https://docs.python.org/2/library/random.html>
'''

# coding=utf-8
import urllib2
import random

url = 'http://www.lifevc.com/'

my_headers = [
  'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; .NET CLR 3.0.04506.648)',
  'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; InfoPath.1',
  'Mozilla/4.0 (compatible; GoogleToolbar 5.0.2124.2070; Windows 6.0; MSIE 8.0.6001.18241)',
  'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)',
  'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; Sleipnir/2.9.8)',
  #因篇幅关系,此处省略N条
]

random_header = random.choice(headers)
# 可以通过print random_header查看提交的header信息
req = urllib2.Request(url)
req.add_header("User-Agent", random_header)
req.add_header('Host', 'blog.csdn.net')
req.add_header('Referer', 'http://blog.csdn.net')
req.add_header('GET', url)
content = urllib2.urlopen(req).read()
print content

其实很简单,这样我们就完成了对代码的一些优化.

Python 相关文章推荐
python实现k均值算法示例(k均值聚类算法)
Mar 16 Python
python基于xml parse实现解析cdatasection数据
Sep 30 Python
requests和lxml实现爬虫的方法
Jun 11 Python
Python 高级专用类方法的实例详解
Sep 11 Python
Python正则表达式知识汇总
Sep 22 Python
Python tornado队列示例-一个并发web爬虫代码分享
Jan 09 Python
值得收藏的10道python 面试题
Apr 15 Python
Django框架模型简单介绍与使用分析
Jul 18 Python
django框架模型层功能、组成与用法分析
Jul 30 Python
使用PyTorch训练一个图像分类器实例
Jan 08 Python
基于python获取本地时间并转换时间戳和日期格式
Oct 27 Python
python人工智能human learn绘图可创建机器学习模型
Nov 23 Python
使用python实现省市三级菜单效果
Jan 20 #Python
八大排序算法的Python实现
Jan 28 #Python
详解C++编程中一元运算符的重载
Jan 19 #Python
Python中使用Queue和Condition进行线程同步的方法
Jan 19 #Python
简单总结Python中序列与字典的相同和不同之处
Jan 19 #Python
举例讲解如何在Python编程中进行迭代和遍历
Jan 19 #Python
Python的自动化部署模块Fabric的安装及使用指南
Jan 19 #Python
You might like
php学习笔记 面向对象中[接口]与[多态性]的应用
2011/06/16 PHP
分享一个PHP数据流应用的简单例子
2012/06/01 PHP
LotusPhp笔记之:基于ObjectUtil组件的使用分析
2013/05/06 PHP
在Ubuntu 14.04上部署 PHP 环境及 WordPress
2014/09/02 PHP
分享php分页的功能模块
2015/06/16 PHP
PHP实现的memcache环形队列类实例
2015/07/28 PHP
PHP实现登录验证码校验功能
2018/05/17 PHP
又一个图片自动缩小的JS代码
2007/03/10 Javascript
JavaScript 模仿vbs中的 DateAdd() 函数的代码
2007/08/13 Javascript
Javascript 面向对象 继承
2010/05/13 Javascript
非常棒的10款jQuery 幻灯片插件
2011/06/14 Javascript
JQuery中serialize()、serializeArray()和param()方法示例介绍
2014/07/31 Javascript
jquery模拟进度条实现方法
2015/08/03 Javascript
同步异步动态引入js文件的几种方法总结
2016/09/23 Javascript
原生JS和jQuery操作DOM对比总结
2017/01/19 Javascript
微信小程序 scroll-view 水平滚动实现过程解析
2019/10/12 Javascript
vue@cli3项目模板怎么使用public目录下的静态文件
2020/07/07 Javascript
Vue使用Ref跨层级获取组件的步骤
2021/01/25 Vue.js
Python采用socket模拟TCP通讯的实现方法
2014/11/19 Python
Python实现测试磁盘性能的方法
2015/03/12 Python
python任务调度实例分析
2015/05/19 Python
详解Python 数据库的Connection、Cursor两大对象
2018/06/25 Python
python获取服务器响应cookie的实例
2018/12/28 Python
python 使用socket传输图片视频等文件的实现方式
2019/08/07 Python
python opencv实现证件照换底功能
2019/08/19 Python
Python实现新型冠状病毒传播模型及预测代码实例
2020/02/05 Python
python GUI库图形界面开发之PyQt5窗口类QMainWindow详细使用方法
2020/02/26 Python
中国电子产品外贸网站:MiniIntheBox
2017/02/06 全球购物
高中生毕业学习总结的自我评价
2013/11/14 职场文书
教师党员先进性教育自我剖析材料思想汇报
2014/09/24 职场文书
基层党支部承诺书
2015/04/30 职场文书
2015暑假打工实践报告
2015/07/13 职场文书
2016幼儿园教师年度考核评语
2015/12/01 职场文书
七年级话题作文之执着
2019/11/19 职场文书
windows11怎么查看wifi密码? win11查看wifi密码的技巧
2021/11/21 数码科技
微信小程序实现轮播图指示器
2022/06/25 Javascript