在Python中使用zlib模块进行数据压缩的教程


Posted in Python onJune 26, 2015

Python标准模块中,有多个模块用于数据的压缩与解压缩,如zipfile,gzip, bz2等等。上次介绍了zipfile模块,今天就来讲讲zlib模块。
zlib.compress(string[, level])
zlib.decompress(string[, wbits[, bufsize]])

zlib.compress用于压缩流数据。参数string指定了要压缩的数据流,参数level指定了压缩的级别,它的取值范围是1到9。压缩速度与压缩率成反比,1表示压缩速度最快,而压缩率最低,而9则表示压缩速度最慢但压缩率最高。zlib.decompress用于解压数据。参数string指定了需要解压的数据,wbits和bufsize分别用于设置系统缓冲区大小(window buffer )与输出缓冲区大小(output buffer)。下面用一个例子来演示如何使用这两个方法:
 

#coding=gbk
 
import zlib, urllib
 
fp = urllib.urlopen('http://localhost/default.html')
str = fp.read()
fp.close()
 
#---- 压缩数据流。
str1 = zlib.compress(str, zlib.Z_BEST_COMPRESSION)
str2 = zlib.decompress(str1)
print len(str)
print len(str1)
print len(str2)
 
# ---- 结果
#5783
#1531
#5783

我们也可以使用Compress/Decompress对象来对数据进行压缩/解压缩。zlib.compressobj([level]) 与zlib.decompress(string[, wbits[, bufsize]]) 分别创建Compress/Decompress缩对象。通过对象对数据进行压缩和解压缩的使用方式与上面介绍的zlib.compress,zlib.decompress非常类似。但两者对数据的压缩还是有区别的,这主要体现在对大量数据进行操作的情况下。假如现在要压缩一个非常大的数据文件(上百M),如果使用zlib.compress来压缩的话,必须先一次性将文件里的数据读到内存里,然后将数据进行压缩。这样势必会战用太多的内存。如果使用对象来进行压缩,那么没有必要一次性读取文件的所有数据,可以先读一部分数据到内存里进行压缩,压缩完后写入文件,然后再读其他部分的数据压缩,如此循环重复,只到压缩完整个文件。下面一个例子来演示这之间的区别:
 

#coding=gbk
 
import zlib, urllib
 
fp = urllib.urlopen('http://localhost/default.html')  
# 访问的到的网址。
data = fp.read()
fp.close()
 
#---- 压缩数据流
str1 = zlib.compress(data, zlib.Z_BEST_COMPRESSION)
str2 = zlib.decompress(str1)
print '原始数据长度:', len(data)
print '-' * 30
print 'zlib.compress压缩后:', len(str1)
print 'zlib.decompress解压后:', len(str2)
print '-' * 30
 
#---- 使用Compress, Decompress对象对数据流进行压缩/解压缩
com_obj = zlib.compressobj(zlib.Z_BEST_COMPRESSION)
decom_obj = zlib.decompressobj()
 
str_obj = com_obj.compress(data)
str_obj += com_obj.flush()
print 'Compress.compress压缩后:', len(str_obj)
 
str_obj1 = decom_obj.decompress(str_obj)
str_obj1 += decom_obj.flush()
print 'Decompress.decompress解压后:', len(str_obj1)
print '-' * 30
 
#---- 使用Compress, Decompress对象,对数据进行分块压缩/解压缩。
com_obj1 = zlib.compressobj(zlib.Z_BEST_COMPRESSION)
decom_obj1 = zlib.decompressobj()
chunk_size = 30;
 
#原始数据分块
str_chunks = [data[i * chunk_size:(i + 1) * chunk_size] /
  for i in range((len(data) + chunk_size) / chunk_size)]
 
str_obj2 = ''
for chunk in str_chunks:
  str_obj2 += com_obj1.compress(chunk)
str_obj2 += com_obj1.flush()
print '分块压缩后:', len(str_obj2)
 
#压缩数据分块解压
str_chunks = [str_obj2[i * chunk_size:(i + 1) * chunk_size] /
  for i in range((len(str_obj2) + chunk_size) / chunk_size)]
str_obj2 = ''
for chunk in str_chunks:
  str_obj2 += decom_obj1.decompress(chunk)
str_obj2 += decom_obj1.flush()
print '分块解压后:', len(str_obj2)
 
# ---- 结果 ------------------------
原始数据长度: 5783
------------------------------
zlib.compress压缩后: 1531
zlib.decompress解压后: 5783
------------------------------
Compress.compress压缩后: 1531
Decompress.decompress解压后: 5783
------------------------------
分块压缩后: 1531
分块解压后: 5783

Python手册对zlib模块的介绍比较详细,更具体的应用,可以参考Python手册。

Python 相关文章推荐
Python struct.unpack
Sep 06 Python
Python二分查找详解
Sep 13 Python
教你用Python写安卓游戏外挂
Jan 11 Python
用python处理MS Word的实例讲解
May 08 Python
python的pandas工具包,保存.csv文件时不要表头的实例
Jun 14 Python
python使用Matplotlib绘制分段函数
Sep 25 Python
python 文本单词提取和词频统计的实例
Dec 22 Python
Python基于opencv实现的简单画板功能示例
Mar 04 Python
python实现H2O中的随机森林算法介绍及其项目实战
Aug 29 Python
解决Tensorflow 内存泄露问题
Feb 05 Python
Python抓新型冠状病毒肺炎疫情数据并绘制全国疫情分布的代码实例
Feb 05 Python
python输出数学符号实例
May 11 Python
Python中的zipfile模块使用详解
Jun 25 #Python
Python实现保证只能运行一个脚本实例
Jun 24 #Python
Python中的默认参数详解
Jun 24 #Python
Python中的下划线详解
Jun 24 #Python
Python装饰器使用实例:验证参数合法性
Jun 24 #Python
Python线程详解
Jun 24 #Python
Python函数式编程指南(四):生成器详解
Jun 24 #Python
You might like
一个PHP模板,主要想体现一下思路
2006/12/25 PHP
解决php接收shell返回的结果中文乱码问题
2014/01/23 PHP
VPS中使用LNMP安装WordPress教程
2014/12/28 PHP
PHP常用函数之根据生日计算年龄功能示例
2019/10/21 PHP
Laravel框架基础语法与知识点整理【模板变量、输出、include引入子视图等】
2019/12/03 PHP
JavaScript小技巧 2.5 则
2010/09/12 Javascript
Extjs4.0设置Ext.data.Store传参的请求方式(默认为GET)
2013/04/02 Javascript
js动态生成指定行数的表格
2013/07/11 Javascript
jQuery获得IE版本不准确webbrowser的解决方法
2014/02/23 Javascript
js重写alert控件(适合学习js的新手朋友)
2014/08/24 Javascript
微信小程序实现日历效果
2018/12/28 Javascript
html+jQuery实现拖动滑块图片拼图验证码插件【移动端适用】
2019/09/10 jQuery
微信小程序如何实现在线客服功能
2019/10/16 Javascript
json_decode 索引为数字时自动排序问题解决方法
2020/03/28 Javascript
在Python上基于Markov链生成伪随机文本的教程
2015/04/17 Python
Python 基础教程之闭包的使用方法
2017/09/29 Python
Python+Django搭建自己的blog网站
2018/03/13 Python
Python简单实现网页内容抓取功能示例
2018/06/07 Python
Python弹出输入框并获取输入值的实例
2019/06/18 Python
pytest中文文档之编写断言
2019/09/12 Python
如何安装2019Pycharm最新版本(详细教程)
2019/09/26 Python
Python configparser模块常用方法解析
2020/05/22 Python
如何基于Python爬取隐秘的角落评论
2020/07/02 Python
详解如何解决canvas图片getImageData,toDataURL跨域问题
2018/09/17 HTML / CSS
挪威太阳镜和眼镜网上商城:SmartBuyGlasses挪威
2016/08/20 全球购物
澳大利亚在线家具、灯饰和家居装饰店:LivingStyles
2018/11/20 全球购物
Ariat官网:美国马靴和服装品牌
2019/12/16 全球购物
电子商务网站的创业计划书
2014/01/05 职场文书
会计助理岗位职责
2014/02/17 职场文书
老师的检讨书
2014/02/23 职场文书
总经理工作职责范文
2014/03/14 职场文书
热爱祖国的演讲稿
2014/05/04 职场文书
缓刑人员思想汇报
2014/10/11 职场文书
销售助理岗位职责
2015/02/11 职场文书
2016应届毕业生自荐信范文
2016/01/28 职场文书
python创建字典及相关管理操作
2022/04/13 Python