对pandas写入读取h5文件的方法详解


Posted in Python onDecember 28, 2018

1、引言

通过参考相关博客对hdf5格式简要介绍。

hdf5在存储的是支持压缩,使用的方式是blosc,这个是速度最快的也是pandas默认支持的。 使用压缩可以提磁盘利用率,节省空间。 开启压缩也没有什么劣势,只会慢一点点。 压缩在小数据量的时候优势不明显,数据量大了才有优势。 同时发现hdf读取文件的时候只能是一次写,写的时候可以append,可以put,但是写完成了之后关闭文件,就不能再写了, 会覆盖。

另外,为什么单独说pandas,主要因为本人目前对于h5py这个包的理解不是很深入,不知道如果使用该包存pd.DataFrame格式的文件,不像numpy格式文件可以直接存储,因此本人只能依赖pandas自带一些函数进行处理。

2、写入文件

使用函数:pd.HDFStore

import numpy as np
import pandas as pd
####生成9000,0000条数据,9千万条
a = np.random.standard_normal((90000000,4))
b = pd.DataFrame(a)
####普通格式存储:
h5 = pd.HDFStore('/data/stock/test_s.h5','w')
h5['data'] = b
h5.close()

####压缩格式存储
h5 = pd.HDFStore('/data/stock/test_c4.h5','w', complevel=4, complib='blosc')
h5['data'] = b
h5.close()

3、读取文件

使用函数:pd.read_hdf

参数:文件名,key

data=pd.read_hdf('/data/stock/test_c4.h5',key='data')

以上这篇对pandas写入读取h5文件的方法详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
用Python中的wxPython实现最基本的浏览器功能
Apr 14 Python
介绍Python中的__future__模块
Apr 27 Python
深入理解Python中命名空间的查找规则LEGB
Aug 06 Python
基于Python实现的微信好友数据分析
Feb 26 Python
对python中的logger模块全面讲解
Apr 28 Python
python调用支付宝支付接口流程
Aug 15 Python
python 动态迁移solr数据过程解析
Sep 04 Python
python异步编程 使用yield from过程解析
Sep 25 Python
修改Pandas的行或列的名字(重命名)
Dec 18 Python
python实现异常信息堆栈输出到日志文件
Dec 26 Python
使用ITK-SNAP进行抠图操作并保存mask的实例
Jul 01 Python
详解Python中*args和**kwargs的使用
Apr 07 Python
Python线程池模块ThreadPoolExecutor用法分析
Dec 28 #Python
Python实现的逻辑回归算法示例【附测试csv文件下载】
Dec 28 #Python
python 检查是否为中文字符串的方法
Dec 28 #Python
浅谈python3发送post请求参数为空的情况
Dec 28 #Python
python3使用flask编写注册post接口的方法
Dec 28 #Python
python通过tcp发送xml报文的方法
Dec 28 #Python
对python 生成拼接xml报文的示例详解
Dec 28 #Python
You might like
农民和部队如何穿矿
2020/03/04 星际争霸
短波问题解答
2021/02/28 无线电
PHP 编程的 5个良好习惯
2009/02/20 PHP
phpmyadmin MySQL 加密配置方法
2009/07/05 PHP
php 静态变量与自定义常量的使用方法
2010/01/26 PHP
新手学习PHP的一些基础知识分享
2011/07/27 PHP
Ping服务的php实现方法,让网站快速被收录
2012/02/04 PHP
php 使用 __call实现重载功能示例
2019/11/18 PHP
基于JQuery的日期联动实现代码
2011/02/24 Javascript
node.js中的fs.mkdir方法使用说明
2014/12/17 Javascript
Angularjs基础知识及示例汇总
2015/01/22 Javascript
JavaScript获取当前网页标题(title)的方法
2015/04/03 Javascript
简单谈谈javascript中的变量、作用域和内存问题
2015/08/30 Javascript
Bootstrap入门书籍之(一)排版
2016/02/17 Javascript
详解Angular开发中的登陆与身份验证
2016/07/27 Javascript
深入理解JS继承和原型链的问题
2016/12/17 Javascript
js清除浏览器缓存的几种方法
2017/03/15 Javascript
vue图片加载与显示默认图片实例代码
2017/03/16 Javascript
jQuery Easyui Treegrid实现显示checkbox功能
2017/08/08 jQuery
浅谈vue父子组件怎么传值
2018/07/21 Javascript
[01:03:27]Optic vs VGJ.S 2018国际邀请赛小组赛BO2 第一场 8.17
2018/08/20 DOTA
如何搜索查找并解决Django相关的问题
2014/06/30 Python
Python导出数据到Excel可读取的CSV文件的方法
2015/05/12 Python
python复制文件的方法实例详解
2015/05/22 Python
python集合用法实例分析
2015/05/30 Python
Python用字典构建多级菜单功能
2019/07/11 Python
解决os.path.isdir() 判断文件夹却返回false的问题
2019/11/29 Python
pytorch实现Tensor变量之间的转换
2020/02/17 Python
Python Tornado实现WEB服务器Socket服务器共存并实现交互的方法
2020/05/26 Python
Python利用imshow制作自定义渐变填充柱状图(colorbar)
2020/12/10 Python
DOUGLAS荷兰:购买香水和化妆品
2020/10/24 全球购物
C语言中break与continue的区别
2012/07/12 面试题
会计师事务所审计实习自我鉴定
2013/09/20 职场文书
教师师德师风自我剖析材料
2014/09/29 职场文书
2015年志愿者服务工作总结
2015/04/20 职场文书
spring cloud 配置中心native配置方式
2021/09/25 Java/Android