在Python中使用zlib模块进行数据压缩的教程


Posted in Python onJune 26, 2015

Python标准模块中,有多个模块用于数据的压缩与解压缩,如zipfile,gzip, bz2等等。上次介绍了zipfile模块,今天就来讲讲zlib模块。
zlib.compress(string[, level])
zlib.decompress(string[, wbits[, bufsize]])

zlib.compress用于压缩流数据。参数string指定了要压缩的数据流,参数level指定了压缩的级别,它的取值范围是1到9。压缩速度与压缩率成反比,1表示压缩速度最快,而压缩率最低,而9则表示压缩速度最慢但压缩率最高。zlib.decompress用于解压数据。参数string指定了需要解压的数据,wbits和bufsize分别用于设置系统缓冲区大小(window buffer )与输出缓冲区大小(output buffer)。下面用一个例子来演示如何使用这两个方法:
 

#coding=gbk
 
import zlib, urllib
 
fp = urllib.urlopen('http://localhost/default.html')
str = fp.read()
fp.close()
 
#---- 压缩数据流。
str1 = zlib.compress(str, zlib.Z_BEST_COMPRESSION)
str2 = zlib.decompress(str1)
print len(str)
print len(str1)
print len(str2)
 
# ---- 结果
#5783
#1531
#5783

我们也可以使用Compress/Decompress对象来对数据进行压缩/解压缩。zlib.compressobj([level]) 与zlib.decompress(string[, wbits[, bufsize]]) 分别创建Compress/Decompress缩对象。通过对象对数据进行压缩和解压缩的使用方式与上面介绍的zlib.compress,zlib.decompress非常类似。但两者对数据的压缩还是有区别的,这主要体现在对大量数据进行操作的情况下。假如现在要压缩一个非常大的数据文件(上百M),如果使用zlib.compress来压缩的话,必须先一次性将文件里的数据读到内存里,然后将数据进行压缩。这样势必会战用太多的内存。如果使用对象来进行压缩,那么没有必要一次性读取文件的所有数据,可以先读一部分数据到内存里进行压缩,压缩完后写入文件,然后再读其他部分的数据压缩,如此循环重复,只到压缩完整个文件。下面一个例子来演示这之间的区别:
 

#coding=gbk
 
import zlib, urllib
 
fp = urllib.urlopen('http://localhost/default.html')  
# 访问的到的网址。
data = fp.read()
fp.close()
 
#---- 压缩数据流
str1 = zlib.compress(data, zlib.Z_BEST_COMPRESSION)
str2 = zlib.decompress(str1)
print '原始数据长度:', len(data)
print '-' * 30
print 'zlib.compress压缩后:', len(str1)
print 'zlib.decompress解压后:', len(str2)
print '-' * 30
 
#---- 使用Compress, Decompress对象对数据流进行压缩/解压缩
com_obj = zlib.compressobj(zlib.Z_BEST_COMPRESSION)
decom_obj = zlib.decompressobj()
 
str_obj = com_obj.compress(data)
str_obj += com_obj.flush()
print 'Compress.compress压缩后:', len(str_obj)
 
str_obj1 = decom_obj.decompress(str_obj)
str_obj1 += decom_obj.flush()
print 'Decompress.decompress解压后:', len(str_obj1)
print '-' * 30
 
#---- 使用Compress, Decompress对象,对数据进行分块压缩/解压缩。
com_obj1 = zlib.compressobj(zlib.Z_BEST_COMPRESSION)
decom_obj1 = zlib.decompressobj()
chunk_size = 30;
 
#原始数据分块
str_chunks = [data[i * chunk_size:(i + 1) * chunk_size] /
  for i in range((len(data) + chunk_size) / chunk_size)]
 
str_obj2 = ''
for chunk in str_chunks:
  str_obj2 += com_obj1.compress(chunk)
str_obj2 += com_obj1.flush()
print '分块压缩后:', len(str_obj2)
 
#压缩数据分块解压
str_chunks = [str_obj2[i * chunk_size:(i + 1) * chunk_size] /
  for i in range((len(str_obj2) + chunk_size) / chunk_size)]
str_obj2 = ''
for chunk in str_chunks:
  str_obj2 += decom_obj1.decompress(chunk)
str_obj2 += decom_obj1.flush()
print '分块解压后:', len(str_obj2)
 
# ---- 结果 ------------------------
原始数据长度: 5783
------------------------------
zlib.compress压缩后: 1531
zlib.decompress解压后: 5783
------------------------------
Compress.compress压缩后: 1531
Decompress.decompress解压后: 5783
------------------------------
分块压缩后: 1531
分块解压后: 5783

Python手册对zlib模块的介绍比较详细,更具体的应用,可以参考Python手册。

Python 相关文章推荐
Python编程中装饰器的使用示例解析
Jun 20 Python
linux环境下的python安装过程图解(含setuptools)
Nov 22 Python
python3爬取各类天气信息
Feb 24 Python
利用python将pdf输出为txt的实例讲解
Apr 23 Python
python 实现求解字符串集的最长公共前缀方法
Jul 20 Python
Python编程图形库之Pillow使用方法讲解
Dec 28 Python
Django REST framework 如何实现内置访问频率控制
Jul 23 Python
Python for循环通过序列索引迭代过程解析
Feb 07 Python
Python xlrd excel文件操作代码实例
Mar 10 Python
Jupyter Notebook 实现正常显示中文和负号
Apr 24 Python
Django url 路由匹配过程详解
Jan 22 Python
python读取图片颜色值并生成excel像素画的方法实例
Feb 19 Python
Python中的zipfile模块使用详解
Jun 25 #Python
Python实现保证只能运行一个脚本实例
Jun 24 #Python
Python中的默认参数详解
Jun 24 #Python
Python中的下划线详解
Jun 24 #Python
Python装饰器使用实例:验证参数合法性
Jun 24 #Python
Python线程详解
Jun 24 #Python
Python函数式编程指南(四):生成器详解
Jun 24 #Python
You might like
php中文件上传的安全问题
2006/10/09 PHP
PHP中,文件上传
2006/12/06 PHP
细品javascript 寻址,闭包,对象模型和相关问题
2009/04/27 Javascript
JavaScript和CSS通过expression实现Table居中显示
2013/06/28 Javascript
script不刷新页面的联动前后代码
2013/09/18 Javascript
浅析document.ready和window.onload的区别讲解
2013/12/18 Javascript
jQuery中ajax和post处理json的不同示例对比
2014/11/02 Javascript
使用 JavaScript 进行函数式编程 (一) 翻译
2015/10/02 Javascript
利用JQuery阻止事件冒泡
2016/12/01 Javascript
Node.js使用orm2进行update操作时关联字段无法修改的解决方法
2017/06/13 Javascript
纯JavaScript实现实时反馈系统时间
2017/10/26 Javascript
微信小程序如何获取openid及用户信息
2018/01/26 Javascript
详解离线安装npm包的几种方法
2018/11/25 Javascript
Js和VUE实现跑马灯效果
2020/05/25 Javascript
vue前端和Django后端如何查询一定时间段内的数据
2021/02/28 Vue.js
python多线程threading.Lock锁用法实例
2014/11/01 Python
python 中random模块的常用方法总结
2017/07/08 Python
Python使用matplotlib的pie函数绘制饼状图功能示例
2018/01/08 Python
Python PIL读取的图像发生自动旋转的实现方法
2019/07/05 Python
python元组的概念知识点
2019/11/19 Python
python 实现屏幕录制示例
2019/12/23 Python
python线性插值解析
2020/07/05 Python
加拿大知名的国际儿童品牌:Hatley
2016/11/09 全球购物
莫斯科的韩国化妆品店:Sifo
2019/12/04 全球购物
Ashford台湾:以折扣价提供奢华的男女用表款
2019/12/04 全球购物
经济与贸易专业应届生求职信
2013/11/19 职场文书
采购主管的岗位职责
2013/12/17 职场文书
放飞梦想演讲稿
2014/05/05 职场文书
环保倡议书格式范文
2014/05/14 职场文书
人代会标语
2014/06/30 职场文书
规范化管理年活动总结
2014/08/29 职场文书
地下停车场租赁协议范本
2014/10/07 职场文书
医学生自荐信范文
2015/03/05 职场文书
2015年清明节扫墓演讲稿
2015/03/18 职场文书
物资采购管理制度
2015/08/06 职场文书
心得体会该怎么写呢?
2019/06/27 职场文书