在Python中使用zlib模块进行数据压缩的教程


Posted in Python onJune 26, 2015

Python标准模块中,有多个模块用于数据的压缩与解压缩,如zipfile,gzip, bz2等等。上次介绍了zipfile模块,今天就来讲讲zlib模块。
zlib.compress(string[, level])
zlib.decompress(string[, wbits[, bufsize]])

zlib.compress用于压缩流数据。参数string指定了要压缩的数据流,参数level指定了压缩的级别,它的取值范围是1到9。压缩速度与压缩率成反比,1表示压缩速度最快,而压缩率最低,而9则表示压缩速度最慢但压缩率最高。zlib.decompress用于解压数据。参数string指定了需要解压的数据,wbits和bufsize分别用于设置系统缓冲区大小(window buffer )与输出缓冲区大小(output buffer)。下面用一个例子来演示如何使用这两个方法:
 

#coding=gbk
 
import zlib, urllib
 
fp = urllib.urlopen('http://localhost/default.html')
str = fp.read()
fp.close()
 
#---- 压缩数据流。
str1 = zlib.compress(str, zlib.Z_BEST_COMPRESSION)
str2 = zlib.decompress(str1)
print len(str)
print len(str1)
print len(str2)
 
# ---- 结果
#5783
#1531
#5783

我们也可以使用Compress/Decompress对象来对数据进行压缩/解压缩。zlib.compressobj([level]) 与zlib.decompress(string[, wbits[, bufsize]]) 分别创建Compress/Decompress缩对象。通过对象对数据进行压缩和解压缩的使用方式与上面介绍的zlib.compress,zlib.decompress非常类似。但两者对数据的压缩还是有区别的,这主要体现在对大量数据进行操作的情况下。假如现在要压缩一个非常大的数据文件(上百M),如果使用zlib.compress来压缩的话,必须先一次性将文件里的数据读到内存里,然后将数据进行压缩。这样势必会战用太多的内存。如果使用对象来进行压缩,那么没有必要一次性读取文件的所有数据,可以先读一部分数据到内存里进行压缩,压缩完后写入文件,然后再读其他部分的数据压缩,如此循环重复,只到压缩完整个文件。下面一个例子来演示这之间的区别:
 

#coding=gbk
 
import zlib, urllib
 
fp = urllib.urlopen('http://localhost/default.html')  
# 访问的到的网址。
data = fp.read()
fp.close()
 
#---- 压缩数据流
str1 = zlib.compress(data, zlib.Z_BEST_COMPRESSION)
str2 = zlib.decompress(str1)
print '原始数据长度:', len(data)
print '-' * 30
print 'zlib.compress压缩后:', len(str1)
print 'zlib.decompress解压后:', len(str2)
print '-' * 30
 
#---- 使用Compress, Decompress对象对数据流进行压缩/解压缩
com_obj = zlib.compressobj(zlib.Z_BEST_COMPRESSION)
decom_obj = zlib.decompressobj()
 
str_obj = com_obj.compress(data)
str_obj += com_obj.flush()
print 'Compress.compress压缩后:', len(str_obj)
 
str_obj1 = decom_obj.decompress(str_obj)
str_obj1 += decom_obj.flush()
print 'Decompress.decompress解压后:', len(str_obj1)
print '-' * 30
 
#---- 使用Compress, Decompress对象,对数据进行分块压缩/解压缩。
com_obj1 = zlib.compressobj(zlib.Z_BEST_COMPRESSION)
decom_obj1 = zlib.decompressobj()
chunk_size = 30;
 
#原始数据分块
str_chunks = [data[i * chunk_size:(i + 1) * chunk_size] /
  for i in range((len(data) + chunk_size) / chunk_size)]
 
str_obj2 = ''
for chunk in str_chunks:
  str_obj2 += com_obj1.compress(chunk)
str_obj2 += com_obj1.flush()
print '分块压缩后:', len(str_obj2)
 
#压缩数据分块解压
str_chunks = [str_obj2[i * chunk_size:(i + 1) * chunk_size] /
  for i in range((len(str_obj2) + chunk_size) / chunk_size)]
str_obj2 = ''
for chunk in str_chunks:
  str_obj2 += decom_obj1.decompress(chunk)
str_obj2 += decom_obj1.flush()
print '分块解压后:', len(str_obj2)
 
# ---- 结果 ------------------------
原始数据长度: 5783
------------------------------
zlib.compress压缩后: 1531
zlib.decompress解压后: 5783
------------------------------
Compress.compress压缩后: 1531
Decompress.decompress解压后: 5783
------------------------------
分块压缩后: 1531
分块解压后: 5783

Python手册对zlib模块的介绍比较详细,更具体的应用,可以参考Python手册。

Python 相关文章推荐
用Python进行TCP网络编程的教程
Apr 29 Python
Python中字符串的修改及传参详解
Nov 30 Python
python中如何使用朴素贝叶斯算法
Apr 06 Python
Python使用struct处理二进制的实例详解
Sep 11 Python
python PyTorch参数初始化和Finetune
Feb 11 Python
浅谈python正则的常用方法 覆盖范围70%以上
Mar 14 Python
带你认识Django
Jan 15 Python
windows安装TensorFlow和Keras遇到的问题及其解决方法
Jul 10 Python
Python paramiko 模块浅谈与SSH主要功能模拟解析
Feb 29 Python
python怎么提高计算速度
Jun 11 Python
Django windows使用Apache实现部署流程解析
Oct 12 Python
python 爬取腾讯视频评论的实现步骤
Feb 18 Python
Python中的zipfile模块使用详解
Jun 25 #Python
Python实现保证只能运行一个脚本实例
Jun 24 #Python
Python中的默认参数详解
Jun 24 #Python
Python中的下划线详解
Jun 24 #Python
Python装饰器使用实例:验证参数合法性
Jun 24 #Python
Python线程详解
Jun 24 #Python
Python函数式编程指南(四):生成器详解
Jun 24 #Python
You might like
不错的PHP学习之php4与php5之间会穿梭一点点感悟
2007/05/03 PHP
分享ThinkPHP3.2中关联查询解决思路
2015/09/20 PHP
详细解读php的命名空间(二)
2018/02/21 PHP
PHP区块查询实现方法分析
2018/05/12 PHP
php如何比较两个浮点数是否相等详解
2019/02/12 PHP
PHP+Redis开发的书签案例实战详解
2019/07/09 PHP
HTML中Select不用Disabled实现ReadOnly的效果
2008/04/07 Javascript
无缝滚动js代码通俗易懂(自写)
2013/06/19 Javascript
多选列表框动态添加,移动,删除,全选等操作的简单实例
2014/01/13 Javascript
jquery高级编程的最佳实践详解
2014/03/23 Javascript
浅析AngularJs HTTP响应拦截器
2015/12/28 Javascript
特殊日期提示功能的实现方法
2016/06/16 Javascript
JavaScript每天必学之基础知识
2016/09/17 Javascript
不间断循环滚动效果的实例代码(必看篇)
2016/10/08 Javascript
微信小程序 选择器(时间,日期,地区)实例详解
2016/11/16 Javascript
prototype与__proto__区别详细介绍
2017/01/09 Javascript
如何用JS/HTML将时间戳转换为“xx天前”的形式
2017/02/06 Javascript
js原生Ajax的封装和原理详解
2017/03/11 Javascript
JavaScript面试出现频繁的一些易错点整理
2018/03/29 Javascript
微信小程序实现时间预约功能
2018/11/27 Javascript
Vue项目从webpack3.x升级webpack4不完全指南
2019/04/28 Javascript
详解vue 路由跳转四种方式 (带参数)
2019/04/28 Javascript
jQuery实现input输入框获取焦点与失去焦点时提示的消失与显示功能示例
2019/05/27 jQuery
bootstrap-table后端分页功能完整实例
2020/06/01 Javascript
python查找第k小元素代码分享
2013/12/18 Python
Python模块结构与布局操作方法实例分析
2017/07/24 Python
使用OpenCV-python3实现滑动条更新图像的Canny边缘检测功能
2019/12/12 Python
详解Python中的路径问题
2020/09/02 Python
联想加拿大官方网站:Lenovo Canada
2018/04/05 全球购物
英国标志性生活方式品牌:Skinnydip London
2019/12/15 全球购物
大学生专业个人学习的自我评价
2013/10/26 职场文书
竞争上岗演讲稿
2014/01/05 职场文书
青蓝工程实施方案
2014/03/27 职场文书
有关爱国演讲稿
2014/05/07 职场文书
职场中的你,辞职信写对了吗?
2019/06/26 职场文书
Ajax实现三级联动效果
2021/10/05 Javascript