在Python中使用zlib模块进行数据压缩的教程


Posted in Python onJune 26, 2015

Python标准模块中,有多个模块用于数据的压缩与解压缩,如zipfile,gzip, bz2等等。上次介绍了zipfile模块,今天就来讲讲zlib模块。
zlib.compress(string[, level])
zlib.decompress(string[, wbits[, bufsize]])

zlib.compress用于压缩流数据。参数string指定了要压缩的数据流,参数level指定了压缩的级别,它的取值范围是1到9。压缩速度与压缩率成反比,1表示压缩速度最快,而压缩率最低,而9则表示压缩速度最慢但压缩率最高。zlib.decompress用于解压数据。参数string指定了需要解压的数据,wbits和bufsize分别用于设置系统缓冲区大小(window buffer )与输出缓冲区大小(output buffer)。下面用一个例子来演示如何使用这两个方法:
 

#coding=gbk
 
import zlib, urllib
 
fp = urllib.urlopen('http://localhost/default.html')
str = fp.read()
fp.close()
 
#---- 压缩数据流。
str1 = zlib.compress(str, zlib.Z_BEST_COMPRESSION)
str2 = zlib.decompress(str1)
print len(str)
print len(str1)
print len(str2)
 
# ---- 结果
#5783
#1531
#5783

我们也可以使用Compress/Decompress对象来对数据进行压缩/解压缩。zlib.compressobj([level]) 与zlib.decompress(string[, wbits[, bufsize]]) 分别创建Compress/Decompress缩对象。通过对象对数据进行压缩和解压缩的使用方式与上面介绍的zlib.compress,zlib.decompress非常类似。但两者对数据的压缩还是有区别的,这主要体现在对大量数据进行操作的情况下。假如现在要压缩一个非常大的数据文件(上百M),如果使用zlib.compress来压缩的话,必须先一次性将文件里的数据读到内存里,然后将数据进行压缩。这样势必会战用太多的内存。如果使用对象来进行压缩,那么没有必要一次性读取文件的所有数据,可以先读一部分数据到内存里进行压缩,压缩完后写入文件,然后再读其他部分的数据压缩,如此循环重复,只到压缩完整个文件。下面一个例子来演示这之间的区别:
 

#coding=gbk
 
import zlib, urllib
 
fp = urllib.urlopen('http://localhost/default.html')  
# 访问的到的网址。
data = fp.read()
fp.close()
 
#---- 压缩数据流
str1 = zlib.compress(data, zlib.Z_BEST_COMPRESSION)
str2 = zlib.decompress(str1)
print '原始数据长度:', len(data)
print '-' * 30
print 'zlib.compress压缩后:', len(str1)
print 'zlib.decompress解压后:', len(str2)
print '-' * 30
 
#---- 使用Compress, Decompress对象对数据流进行压缩/解压缩
com_obj = zlib.compressobj(zlib.Z_BEST_COMPRESSION)
decom_obj = zlib.decompressobj()
 
str_obj = com_obj.compress(data)
str_obj += com_obj.flush()
print 'Compress.compress压缩后:', len(str_obj)
 
str_obj1 = decom_obj.decompress(str_obj)
str_obj1 += decom_obj.flush()
print 'Decompress.decompress解压后:', len(str_obj1)
print '-' * 30
 
#---- 使用Compress, Decompress对象,对数据进行分块压缩/解压缩。
com_obj1 = zlib.compressobj(zlib.Z_BEST_COMPRESSION)
decom_obj1 = zlib.decompressobj()
chunk_size = 30;
 
#原始数据分块
str_chunks = [data[i * chunk_size:(i + 1) * chunk_size] /
  for i in range((len(data) + chunk_size) / chunk_size)]
 
str_obj2 = ''
for chunk in str_chunks:
  str_obj2 += com_obj1.compress(chunk)
str_obj2 += com_obj1.flush()
print '分块压缩后:', len(str_obj2)
 
#压缩数据分块解压
str_chunks = [str_obj2[i * chunk_size:(i + 1) * chunk_size] /
  for i in range((len(str_obj2) + chunk_size) / chunk_size)]
str_obj2 = ''
for chunk in str_chunks:
  str_obj2 += decom_obj1.decompress(chunk)
str_obj2 += decom_obj1.flush()
print '分块解压后:', len(str_obj2)
 
# ---- 结果 ------------------------
原始数据长度: 5783
------------------------------
zlib.compress压缩后: 1531
zlib.decompress解压后: 5783
------------------------------
Compress.compress压缩后: 1531
Decompress.decompress解压后: 5783
------------------------------
分块压缩后: 1531
分块解压后: 5783

Python手册对zlib模块的介绍比较详细,更具体的应用,可以参考Python手册。

Python 相关文章推荐
Python Queue模块详细介绍及实例
Dec 27 Python
Python3基于sax解析xml操作示例
May 22 Python
python模块smtplib实现纯文本邮件发送功能
May 22 Python
python可视化爬虫界面之天气查询
Jul 03 Python
简单了解Django ContentType内置组件
Jul 23 Python
解决Django连接db遇到的问题
Aug 29 Python
解决python彩色螺旋线绘制引发的问题
Nov 23 Python
Python 实现取多维数组第n维的前几位
Nov 26 Python
Python任务自动化工具tox使用教程
Mar 17 Python
Python实现aes加密解密多种方法解析
May 15 Python
Python 中的Sympy详细使用
Aug 07 Python
Python jiaba库的使用详解
Nov 23 Python
Python中的zipfile模块使用详解
Jun 25 #Python
Python实现保证只能运行一个脚本实例
Jun 24 #Python
Python中的默认参数详解
Jun 24 #Python
Python中的下划线详解
Jun 24 #Python
Python装饰器使用实例:验证参数合法性
Jun 24 #Python
Python线程详解
Jun 24 #Python
Python函数式编程指南(四):生成器详解
Jun 24 #Python
You might like
php inc文件使用的风险和注意事项
2013/11/12 PHP
php遍历目录与文件夹的多种方法详解
2013/11/14 PHP
PHP中多维数组的foreach遍历示例
2014/06/13 PHP
ThinkPHP3.1的Widget新用法
2014/06/19 PHP
极酷的javascirpt,让你随意编辑任何网页
2007/02/25 Javascript
Track Image Loading效果代码分析
2007/08/13 Javascript
javascript据option的value值快速设定初始的selected选项
2007/08/13 Javascript
JQuery操作三大控件(下拉,单选,复选)的方法
2013/08/06 Javascript
javascript 小数取整简单实现方式
2014/05/30 Javascript
一个字符串反转函数可实现字符串倒序
2014/09/15 Javascript
微信小程序开发之圆形菜单 仿建行圆形菜单实例
2016/12/12 Javascript
JavaScript运动框架 解决防抖动问题、悬浮对联(二)
2017/05/17 Javascript
jQuery简单实现对数组去重及排序操作实例
2017/10/31 jQuery
javascript canvas API内容整理
2020/02/16 Javascript
Fiddler如何抓取手机APP数据包
2016/01/22 Python
Python常见异常分类与处理方法
2017/06/04 Python
python爬虫框架scrapy实现模拟登录操作示例
2018/08/02 Python
python版本单链表实现代码
2018/09/28 Python
Python后台开发Django会话控制的实现
2019/04/15 Python
pygame实现俄罗斯方块游戏(基础篇3)
2019/10/29 Python
pytorch 图像预处理之减去均值,除以方差的实例
2020/01/02 Python
python使用paramiko实现ssh的功能详解
2020/03/06 Python
Python3.9新特性详解
2020/10/10 Python
html5版canvas自由拼图实例
2014/10/15 HTML / CSS
深深扎根运动世界的生活品牌:Tillys
2017/10/30 全球购物
大专生毕业的自我评价
2014/02/06 职场文书
小学教师国培感言
2014/02/08 职场文书
竞聘书怎么写,如何写?
2014/03/31 职场文书
质量负责人任命书
2014/06/06 职场文书
优秀大专毕业生求职信
2014/08/04 职场文书
法定代表人授权委托书范文
2014/09/22 职场文书
公司领导班子对照检查材料
2014/09/24 职场文书
房产证明范本
2015/06/19 职场文书
《去年的树》教学反思
2016/02/18 职场文书
详解Java实践之建造者模式
2021/06/18 Java/Android
python编程实现清理微信重复缓存文件
2021/11/01 Python