编程 Python

一些常用的Python爬虫技巧汇总

Posted in Python onSeptember 28, 2016

Python爬虫：一些常用的爬虫技巧总结

爬虫在开发过程中也有很多复用的过程，这里总结一下，以后也能省些事情。

1、基本抓取网页

get方法

import urllib2
url "http://www.baidu.com"
respons = urllib2.urlopen(url)
print response.read()

post方法

import urllib
import urllib2

url = "http://abcde.com"
form = {'name':'abc','password':'1234'}
form_data = urllib.urlencode(form)
request = urllib2.Request(url,form_data)
response = urllib2.urlopen(request)
print response.read()

2、使用代理IP

在开发爬虫过程中经常会遇到IP被封掉的情况，这时就需要用到代理IP；

在urllib2包中有ProxyHandler类，通过此类可以设置代理访问网页，如下代码片段：

import urllib2

proxy = urllib2.ProxyHandler({'http': '127.0.0.1:8087'})
opener = urllib2.build_opener(proxy)
urllib2.install_opener(opener)
response = urllib2.urlopen('http://www.baidu.com')
print response.read()

3、Cookies处理

cookies是某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)，python提供了cookielib模块用于处理cookies，cookielib模块的主要作用是提供可存储cookie的对象，以便于与urllib2模块配合使用来访问Internet资源.

代码片段：

import urllib2, cookielib

cookie_support= urllib2.HTTPCookieProcessor(cookielib.CookieJar())
opener = urllib2.build_opener(cookie_support)
urllib2.install_opener(opener)
content = urllib2.urlopen('http://XXXX').read()

关键在于CookieJar()，它用于管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中，对CookieJar实例进行垃圾回收后cookie也将丢失，所有过程都不需要单独去操作。

手动添加cookie

cookie = "PHPSESSID=91rurfqm2329bopnosfu4fvmu7; kmsign=55d2c12c9b1e3; KMUID=b6Ejc1XSwPq9o756AxnBAg="

request.add_header("Cookie", cookie)

4、伪装成浏览器

某些网站反感爬虫的到访，于是对爬虫一律拒绝请求。所以用urllib2直接访问网站经常会出现HTTP Error 403: Forbidden的情况

对有些 header 要特别留意，Server 端会针对这些 header 做检查

1).User-Agent 有些 Server 或 Proxy 会检查该值，用来判断是否是浏览器发起的 Request
2).Content-Type 在使用 REST 接口时，Server 会检查该值，用来确定 HTTP Body 中的内容该怎样解析。

这时可以通过修改http包中的header来实现，代码片段如下：

import urllib2

headers = {
 'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
}
request = urllib2.Request(
 url = 'http://my.oschina.net/jhao104/blog?catalog=3463517',
 headers = headers
)
print urllib2.urlopen(request).read()

5、页面解析

对于页面解析最强大的当然是正则表达式，这个对于不同网站不同的使用者都不一样，就不用过多的说明，附两个比较好的网址：

正则表达式入门：https://3water.com/article/79618.htm

正则表达式在线测试：http://tool.oschina.net/regex/

其次就是解析库了，常用的有两个lxml和BeautifulSoup，对于这两个的使用介绍两个比较好的网站：

lxml：http://my.oschina.net/jhao104/blog/639448

BeautifulSoup：http://cuiqingcai.com/1319.html

对于这两个库，我的评价是，都是HTML/XML的处理库，Beautifulsoup纯python实现，效率低，但是功能实用，比如能用通过结果搜索获得某个HTML节点的源码；lxmlC语言编码，高效，支持Xpath

6、验证码的处理

对于一些简单的验证码，可以进行简单的识别。本人也只进行过一些简单的验证码识别。但是有些反人类的验证码，比如12306，可以通过打码平台进行人工打码，当然这是要付费的。

7、gzip压缩

有没有遇到过某些网页，不论怎么转码都是一团乱码。哈哈，那说明你还不知道许多web服务具有发送压缩数据的能力，这可以将网络线路上传输的大量数据消减 60% 以上。这尤其适用于 XML web 服务，因为 XML 数据的压缩率可以很高。

但是一般服务器不会为你发送压缩数据，除非你告诉服务器你可以处理压缩数据。

于是需要这样修改代码：

import urllib2, httplib
request = urllib2.Request('http://xxxx.com')
request.add_header('Accept-encoding', 'gzip') 1
opener = urllib2.build_opener()
f = opener.open(request)

这是关键:创建Request对象，添加一个 Accept-encoding 头信息告诉服务器你能接受 gzip 压缩数据

然后就是解压缩数据：

import StringIO
import gzip

compresseddata = f.read() 
compressedstream = StringIO.StringIO(compresseddata)
gzipper = gzip.GzipFile(fileobj=compressedstream) 
print gzipper.read()

8、多线程并发抓取

单线程太慢的话，就需要多线程了，这里给个简单的线程池模板这个程序只是简单地打印了1-10，但是可以看出是并发的。

虽然说python的多线程很鸡肋，但是对于爬虫这种网络频繁型，还是能一定程度提高效率的。

from threading import Thread
from Queue import Queue
from time import sleep
# q是任务队列
#NUM是并发线程总数
#JOBS是有多少任务
q = Queue()
NUM = 2
JOBS = 10
#具体的处理函数，负责处理单个任务
def do_somthing_using(arguments):
 print arguments
#这个是工作进程，负责不断从队列取数据并处理
def working():
 while True:
 arguments = q.get()
 do_somthing_using(arguments)
 sleep(1)
 q.task_done()
#fork NUM个线程等待

 alert(“Hello CSDN”);
for i in range(NUM):
 t = Thread(target=working)
 t.setDaemon(True)
 t.start()
#把JOBS排入队列
for i in range(JOBS):
 q.put(i)
#等待所有JOBS完成
q.join()

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

一些常用的Python爬虫技巧汇总

- Author -

lijiao

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python为tornado添加recaptcha验证码功能

Feb 26 Python

wxpython中Textctrl回车事件无效的解决方法

Jul 21 Python

利用numpy+matplotlib绘图的基本操作教程

May 03 Python

Python基于PyGraphics包实现图片截取功能的方法

Dec 21 Python

Python实现删除时保留特定文件夹和文件的示例

Apr 27 Python

解决pandas无法在pycharm中使用plot()方法显示图像的问题

May 24 Python

python多进程（加入进程池）操作常见案例

Oct 21 Python

python tkinter的消息框模块(messagebox,simpledialog)

Nov 07 Python

浅析Python的命名空间与作用域

Nov 25 Python

PyTorch 中的傅里叶卷积实现示例

Dec 11 Python

matplotlib常见函数之plt.rcParams、matshow的使用(坐标轴设置)

Jan 05 Python

Python机器学习实战之k-近邻算法的实现

Nov 27 Python

Python三级目录展示的实现方法

Sep 28 #Python

Python黑帽编程 3.4 跨越VLAN详解

Sep 28 #Python

python 采集中文乱码问题的完美解决方法

Sep 27 #Python

20招让你的Python飞起来!

Sep 27 #Python

python搭建虚拟环境的步骤详解

Sep 27 #Python

利用python发送和接收邮件

Sep 27 #Python

实现python版本的按任意键继续/退出

Sep 26 #Python

You might like

咖啡常见的种类

2021/03/03 新手入门

php列出一个目录下的所有文件的代码

2012/10/09 PHP

php遍历目录与文件夹的多种方法详解

2013/11/14 PHP

PHP远程采集图片详细教程

2014/07/01 PHP

php中使用url传递数组的方法

2015/02/11 PHP

js实现权限树的更新权限时的全选全消功能

2009/02/17 Javascript

jquery autocomplete自动完成插件的的使用方法

2010/08/07 Javascript

JavaScript中变量声明有var和没var的区别示例介绍

2014/09/15 Javascript

javascript实现C语言经典程序题

2015/11/29 Javascript

jQuery获取attr()与prop()属性值的方法及区别介绍

2016/07/06 Javascript

简单的JS轮播图代码

2016/07/18 Javascript

Jquery和Js获得元素标签名称的方法总结

2016/10/08 Javascript

Kendo Grid editing 自定义验证报错提示的解决方法

2016/11/18 Javascript

浅谈Vuex@2.3.0 中的 state 支持函数申明

2017/11/22 Javascript

echarts学习笔记之箱线图的分析与绘制详解

2017/11/22 Javascript

总结js中的一些兼容性易错的问题

2017/12/18 Javascript

Vue实现table上下移动功能示例

2019/02/21 Javascript

js模拟实现烟花特效

2020/03/10 Javascript

利用React高阶组件实现一个面包屑导航的示例

2020/08/23 Javascript

[44:15]DOTA2上海特级锦标赛主赛事日 - 5 败者组决赛Liquid VS EG第二局

2016/03/06 DOTA

跟老齐学Python之有容乃大的list(3)

2014/09/15 Python

举例讲解Python设计模式编程中的访问者与观察者模式

2016/01/26 Python

使用Numpy读取CSV文件,并进行行列删除的操作方法

2018/07/04 Python

对python条件表达式的四种实现方法小结

2019/01/30 Python

python如何实现不可变字典inmutabledict

2020/01/08 Python

解决python图像处理图像赋值后变为白色的问题

2020/06/04 Python

Django mysqlclient安装和使用详解

2020/09/17 Python

浅谈利用缓存来优化HTML5 Canvas程序的性能

2015/05/12 HTML / CSS

关于解决iframe标签嵌套问题的解决方法

2020/03/04 HTML / CSS

美国狗旅行和户外用品领先供应商：kurgo

2020/08/18 全球购物

现场施工员岗位职责

2014/03/10 职场文书

医院领导班子四风问题对照检查材料

2014/10/26 职场文书

2015毕业生自我评价范文

2015/03/02 职场文书

Python源码解析之List

2021/05/21 Python

Vue vee-validate插件的简单使用

2021/06/22 Vue.js

Go语言应该什么情况使用指针

2021/07/25 Golang