对pandas写入读取h5文件的方法详解


Posted in Python onDecember 28, 2018

1、引言

通过参考相关博客对hdf5格式简要介绍。

hdf5在存储的是支持压缩,使用的方式是blosc,这个是速度最快的也是pandas默认支持的。 使用压缩可以提磁盘利用率,节省空间。 开启压缩也没有什么劣势,只会慢一点点。 压缩在小数据量的时候优势不明显,数据量大了才有优势。 同时发现hdf读取文件的时候只能是一次写,写的时候可以append,可以put,但是写完成了之后关闭文件,就不能再写了, 会覆盖。

另外,为什么单独说pandas,主要因为本人目前对于h5py这个包的理解不是很深入,不知道如果使用该包存pd.DataFrame格式的文件,不像numpy格式文件可以直接存储,因此本人只能依赖pandas自带一些函数进行处理。

2、写入文件

使用函数:pd.HDFStore

import numpy as np
import pandas as pd
####生成9000,0000条数据,9千万条
a = np.random.standard_normal((90000000,4))
b = pd.DataFrame(a)
####普通格式存储:
h5 = pd.HDFStore('/data/stock/test_s.h5','w')
h5['data'] = b
h5.close()

####压缩格式存储
h5 = pd.HDFStore('/data/stock/test_c4.h5','w', complevel=4, complib='blosc')
h5['data'] = b
h5.close()

3、读取文件

使用函数:pd.read_hdf

参数:文件名,key

data=pd.read_hdf('/data/stock/test_c4.h5',key='data')

以上这篇对pandas写入读取h5文件的方法详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现提取文章摘要的方法
Apr 21 Python
python 实现红包随机生成算法的简单实例
Jan 04 Python
python制作小说爬虫实录
Aug 14 Python
python模块smtplib实现纯文本邮件发送功能
May 22 Python
解决Mac下首次安装pycharm无project interpreter的问题
Oct 29 Python
python的xpath获取div标签内html内容,实现innerhtml功能的方法
Jan 02 Python
Python实现插入排序和选择排序的方法
May 12 Python
pytorch 模型可视化的例子
Aug 17 Python
python实现引用其他路径包里面的模块
Mar 09 Python
Python批量将图片灰度化的实现代码
Apr 11 Python
Python 捕获代码中所有异常的方法
Aug 03 Python
python3跳出一个循环的实例操作
Aug 18 Python
Python线程池模块ThreadPoolExecutor用法分析
Dec 28 #Python
Python实现的逻辑回归算法示例【附测试csv文件下载】
Dec 28 #Python
python 检查是否为中文字符串的方法
Dec 28 #Python
浅谈python3发送post请求参数为空的情况
Dec 28 #Python
python3使用flask编写注册post接口的方法
Dec 28 #Python
python通过tcp发送xml报文的方法
Dec 28 #Python
对python 生成拼接xml报文的示例详解
Dec 28 #Python
You might like
PHP实现文件安全下载
2006/10/09 PHP
PHP伪静态写法附代码
2008/06/20 PHP
php 前一天或后一天的日期
2008/06/28 PHP
如何使用Linux的Crontab定时执行PHP脚本的方法
2011/12/19 PHP
php5.x禁用eval的操作方法
2018/10/19 PHP
判断浏览器的javascript版本的代码
2010/09/03 Javascript
Js基础学习资料
2010/11/23 Javascript
Javascript中对象继承的实现小例
2014/05/12 Javascript
jQuery中[attribute*=value]选择器用法实例
2014/12/31 Javascript
javascript实现仿IE顶部的可关闭警告条
2015/05/05 Javascript
原生js仿jquery一些常用方法(必看篇)
2016/09/20 Javascript
详解微信小程序 wx.uploadFile 的编码坑
2017/01/23 Javascript
JQuery页面随滚动条动态加载效果的简单实现(推荐)
2017/02/08 Javascript
tween.js缓动补间动画算法示例
2018/02/13 Javascript
微信小程序使用wxParse解析html的方法示例
2019/01/17 Javascript
js实现通过开始结束控制的计时器
2019/02/25 Javascript
[01:52]深扒TI7聊天轮盘语音出处7
2017/05/11 DOTA
详解Python中for循环是如何工作的
2017/06/30 Python
Python模拟百度自动输入搜索功能的实例
2019/02/14 Python
python3 pygame实现接小球游戏
2019/05/14 Python
python pyinstaller打包exe报错的解决方法
2019/11/02 Python
Django数据库迁移常见使用方法
2020/11/12 Python
StubHub哥伦比亚:购买和出售您的门票
2016/10/20 全球购物
中软Java笔试题
2012/11/11 面试题
电脑教师的自我评价
2013/12/18 职场文书
学员自我鉴定
2014/03/19 职场文书
公司寄语大全
2014/04/10 职场文书
舞蹈兴趣小组活动总结
2014/07/07 职场文书
优秀团员事迹材料2000字
2014/08/20 职场文书
《我爱祖国》演讲稿1000字
2014/09/26 职场文书
初中生考试作弊检讨书
2014/12/14 职场文书
会议欢迎词
2015/01/23 职场文书
幼儿园托班开学寄语(2016秋季)
2015/12/03 职场文书
2016年世界人口日宣传活动总结
2016/04/05 职场文书
关于windows server 2012 DC 环境 重启后蓝屏代码:0xc00002e2的问题
2022/05/25 Servers
CSS元素定位之通过元素的标签或者元素的id、class属性定位详解
2022/09/23 HTML / CSS