在Python中使用zlib模块进行数据压缩的教程


Posted in Python onJune 26, 2015

Python标准模块中,有多个模块用于数据的压缩与解压缩,如zipfile,gzip, bz2等等。上次介绍了zipfile模块,今天就来讲讲zlib模块。
zlib.compress(string[, level])
zlib.decompress(string[, wbits[, bufsize]])

zlib.compress用于压缩流数据。参数string指定了要压缩的数据流,参数level指定了压缩的级别,它的取值范围是1到9。压缩速度与压缩率成反比,1表示压缩速度最快,而压缩率最低,而9则表示压缩速度最慢但压缩率最高。zlib.decompress用于解压数据。参数string指定了需要解压的数据,wbits和bufsize分别用于设置系统缓冲区大小(window buffer )与输出缓冲区大小(output buffer)。下面用一个例子来演示如何使用这两个方法:
 

#coding=gbk
 
import zlib, urllib
 
fp = urllib.urlopen('http://localhost/default.html')
str = fp.read()
fp.close()
 
#---- 压缩数据流。
str1 = zlib.compress(str, zlib.Z_BEST_COMPRESSION)
str2 = zlib.decompress(str1)
print len(str)
print len(str1)
print len(str2)
 
# ---- 结果
#5783
#1531
#5783

我们也可以使用Compress/Decompress对象来对数据进行压缩/解压缩。zlib.compressobj([level]) 与zlib.decompress(string[, wbits[, bufsize]]) 分别创建Compress/Decompress缩对象。通过对象对数据进行压缩和解压缩的使用方式与上面介绍的zlib.compress,zlib.decompress非常类似。但两者对数据的压缩还是有区别的,这主要体现在对大量数据进行操作的情况下。假如现在要压缩一个非常大的数据文件(上百M),如果使用zlib.compress来压缩的话,必须先一次性将文件里的数据读到内存里,然后将数据进行压缩。这样势必会战用太多的内存。如果使用对象来进行压缩,那么没有必要一次性读取文件的所有数据,可以先读一部分数据到内存里进行压缩,压缩完后写入文件,然后再读其他部分的数据压缩,如此循环重复,只到压缩完整个文件。下面一个例子来演示这之间的区别:
 

#coding=gbk
 
import zlib, urllib
 
fp = urllib.urlopen('http://localhost/default.html')  
# 访问的到的网址。
data = fp.read()
fp.close()
 
#---- 压缩数据流
str1 = zlib.compress(data, zlib.Z_BEST_COMPRESSION)
str2 = zlib.decompress(str1)
print '原始数据长度:', len(data)
print '-' * 30
print 'zlib.compress压缩后:', len(str1)
print 'zlib.decompress解压后:', len(str2)
print '-' * 30
 
#---- 使用Compress, Decompress对象对数据流进行压缩/解压缩
com_obj = zlib.compressobj(zlib.Z_BEST_COMPRESSION)
decom_obj = zlib.decompressobj()
 
str_obj = com_obj.compress(data)
str_obj += com_obj.flush()
print 'Compress.compress压缩后:', len(str_obj)
 
str_obj1 = decom_obj.decompress(str_obj)
str_obj1 += decom_obj.flush()
print 'Decompress.decompress解压后:', len(str_obj1)
print '-' * 30
 
#---- 使用Compress, Decompress对象,对数据进行分块压缩/解压缩。
com_obj1 = zlib.compressobj(zlib.Z_BEST_COMPRESSION)
decom_obj1 = zlib.decompressobj()
chunk_size = 30;
 
#原始数据分块
str_chunks = [data[i * chunk_size:(i + 1) * chunk_size] /
  for i in range((len(data) + chunk_size) / chunk_size)]
 
str_obj2 = ''
for chunk in str_chunks:
  str_obj2 += com_obj1.compress(chunk)
str_obj2 += com_obj1.flush()
print '分块压缩后:', len(str_obj2)
 
#压缩数据分块解压
str_chunks = [str_obj2[i * chunk_size:(i + 1) * chunk_size] /
  for i in range((len(str_obj2) + chunk_size) / chunk_size)]
str_obj2 = ''
for chunk in str_chunks:
  str_obj2 += decom_obj1.decompress(chunk)
str_obj2 += decom_obj1.flush()
print '分块解压后:', len(str_obj2)
 
# ---- 结果 ------------------------
原始数据长度: 5783
------------------------------
zlib.compress压缩后: 1531
zlib.decompress解压后: 5783
------------------------------
Compress.compress压缩后: 1531
Decompress.decompress解压后: 5783
------------------------------
分块压缩后: 1531
分块解压后: 5783

Python手册对zlib模块的介绍比较详细,更具体的应用,可以参考Python手册。

Python 相关文章推荐
Python中的jquery PyQuery库使用小结
May 13 Python
Python中使用tarfile压缩、解压tar归档文件示例
Apr 05 Python
深入剖析Python的爬虫框架Scrapy的结构与运作流程
Jan 20 Python
Python单例模式实例详解
Mar 01 Python
Python实现简易Web爬虫详解
Jan 03 Python
python3 图片referer防盗链的实现方法
Mar 12 Python
python用户管理系统
Mar 13 Python
python+pandas生成指定日期和重采样的方法
Apr 11 Python
python事件驱动event实现详解
Nov 21 Python
Python接口自动化测试的实现
Aug 28 Python
PyCharm安装PyQt5及其工具(Qt Designer、PyUIC、PyRcc)的步骤详解
Nov 02 Python
python实现简单的井字棋游戏(gui界面)
Jan 22 Python
Python中的zipfile模块使用详解
Jun 25 #Python
Python实现保证只能运行一个脚本实例
Jun 24 #Python
Python中的默认参数详解
Jun 24 #Python
Python中的下划线详解
Jun 24 #Python
Python装饰器使用实例:验证参数合法性
Jun 24 #Python
Python线程详解
Jun 24 #Python
Python函数式编程指南(四):生成器详解
Jun 24 #Python
You might like
smarty内置函数section的用法
2015/01/22 PHP
thinkphp5 migrate数据库迁移工具
2018/02/20 PHP
Javascript & DHTML 实例编程(教程)(三)初级实例篇1—上传文件控件实例
2007/06/02 Javascript
Javascript 篱式条件判断
2008/08/22 Javascript
javascript实现的网页局布刷新效果
2008/12/01 Javascript
JavaScript几种形式的树结构菜单
2010/05/10 Javascript
IE6/7 and IE8/9/10(IE7模式)依次隐藏具有absolute或relative的父元素和子元素后再显示父元素
2011/07/31 Javascript
JS 修改URL参数(实现代码)
2013/07/08 Javascript
JS实现网页表格自动变大缩小的方法
2015/03/09 Javascript
解决Jquery向页面append新元素之后事件的绑定问题
2015/03/16 Javascript
学习JavaScript设计模式(多态)
2015/11/25 Javascript
AngularJS ng-bind-template 指令详解
2016/07/30 Javascript
javascript入门之window对象【新手必看】
2016/11/22 Javascript
jQuery.cookie.js使用方法及相关参数解释
2017/03/06 Javascript
js实现移动端编辑添加地址【模仿京东】
2017/04/28 Javascript
Vuex提升学习篇
2018/01/11 Javascript
改变vue请求过来的数据中的某一项值的方法(详解)
2018/03/08 Javascript
js+cavans实现图片滑块验证
2020/09/29 Javascript
vue动态合并单元格并添加小计合计功能示例
2020/11/26 Vue.js
pycharm远程调试openstack的图文教程
2017/11/21 Python
使用python实现knn算法
2017/12/20 Python
python对excel文档去重及求和的实例
2018/04/18 Python
Python 微信爬虫完整实例【单线程与多线程】
2019/07/06 Python
世界上最大的网络主机公司:1&1
2016/10/12 全球购物
同步和异步有何异同,在什么情况下分别使用他们?举例说明
2014/02/27 面试题
结婚典礼证婚词
2014/01/11 职场文书
护理工作感言
2014/01/16 职场文书
远程研修随笔感言
2014/02/10 职场文书
物理教学随笔感言
2014/02/22 职场文书
抗洪救灾先进集体事迹材料
2014/05/26 职场文书
共产党员公开承诺践诺书
2014/05/28 职场文书
植物生产学专业求职信
2014/08/08 职场文书
建筑工地文明标语
2014/10/09 职场文书
群众路线查摆问题整改措施思想汇报
2014/10/10 职场文书
小学公民道德宣传日活动总结
2015/03/23 职场文书
酒店财务经理岗位职责
2015/04/08 职场文书