对pandas写入读取h5文件的方法详解


Posted in Python onDecember 28, 2018

1、引言

通过参考相关博客对hdf5格式简要介绍。

hdf5在存储的是支持压缩,使用的方式是blosc,这个是速度最快的也是pandas默认支持的。 使用压缩可以提磁盘利用率,节省空间。 开启压缩也没有什么劣势,只会慢一点点。 压缩在小数据量的时候优势不明显,数据量大了才有优势。 同时发现hdf读取文件的时候只能是一次写,写的时候可以append,可以put,但是写完成了之后关闭文件,就不能再写了, 会覆盖。

另外,为什么单独说pandas,主要因为本人目前对于h5py这个包的理解不是很深入,不知道如果使用该包存pd.DataFrame格式的文件,不像numpy格式文件可以直接存储,因此本人只能依赖pandas自带一些函数进行处理。

2、写入文件

使用函数:pd.HDFStore

import numpy as np
import pandas as pd
####生成9000,0000条数据,9千万条
a = np.random.standard_normal((90000000,4))
b = pd.DataFrame(a)
####普通格式存储:
h5 = pd.HDFStore('/data/stock/test_s.h5','w')
h5['data'] = b
h5.close()

####压缩格式存储
h5 = pd.HDFStore('/data/stock/test_c4.h5','w', complevel=4, complib='blosc')
h5['data'] = b
h5.close()

3、读取文件

使用函数:pd.read_hdf

参数:文件名,key

data=pd.read_hdf('/data/stock/test_c4.h5',key='data')

以上这篇对pandas写入读取h5文件的方法详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python 正则式 概述及常用字符
May 07 Python
编写Python脚本使得web页面上的代码高亮显示
Apr 24 Python
Python数据结构与算法之链表定义与用法实例详解【单链表、循环链表】
Sep 28 Python
Django 使用logging打印日志的实例
Apr 28 Python
PyCharm的设置方法和第一个Python程序的建立
Jan 16 Python
Python中format()格式输出全解
Apr 12 Python
python实践项目之监控当前联网状态详情
May 23 Python
Python使用微信itchat接口实现查看自己微信的信息功能详解
Aug 22 Python
tensorflow 获取所有variable或tensor的name示例
Jan 04 Python
python实现UDP协议下的文件传输
Mar 20 Python
Python collections.deque双边队列原理详解
Oct 05 Python
Python+Selenium实现读取网易邮箱验证码
Mar 13 Python
Python线程池模块ThreadPoolExecutor用法分析
Dec 28 #Python
Python实现的逻辑回归算法示例【附测试csv文件下载】
Dec 28 #Python
python 检查是否为中文字符串的方法
Dec 28 #Python
浅谈python3发送post请求参数为空的情况
Dec 28 #Python
python3使用flask编写注册post接口的方法
Dec 28 #Python
python通过tcp发送xml报文的方法
Dec 28 #Python
对python 生成拼接xml报文的示例详解
Dec 28 #Python
You might like
Laravel框架用户登陆身份验证实现方法详解
2017/09/14 PHP
PHP扩展Swoole实现实时异步任务队列示例
2019/04/13 PHP
PHP设计模式(五)适配器模式Adapter实例详解【结构型】
2020/05/02 PHP
JavaScript传递变量: 值传递?引用传递?
2011/02/22 Javascript
nodejs创建web服务器之hello world程序
2015/08/20 NodeJs
如何用angularjs制作一个完整的表格
2016/01/21 Javascript
原生JS实现旋转木马式图片轮播插件
2016/04/25 Javascript
jQuery模仿阿里云购买服务器选择购买时间长度的代码
2016/04/29 Javascript
BootStrap 智能表单实战系列(十)自动完成组件的支持
2016/06/13 Javascript
JavaScript文件的同步和异步加载的实现代码
2017/08/19 Javascript
详解在React中跨组件分发状态的三种方法
2018/08/09 Javascript
video.js 一个页面同时播放多个视频的实例代码
2018/11/27 Javascript
jQuery高级编程之js对象、json与ajax用法实例分析
2019/11/01 jQuery
vue中使用elementUI组件手动上传图片功能
2019/12/13 Javascript
微信小游戏中three.js离屏画布的示例代码
2020/10/12 Javascript
python定时执行指定函数的方法
2015/05/27 Python
django自带的server 让外网主机访问方法
2018/05/14 Python
对Pytorch中nn.ModuleList 和 nn.Sequential详解
2019/08/18 Python
Python计算指定日期是今年的第几天(三种方法)
2020/03/26 Python
Python如何实现爬取B站视频
2020/05/20 Python
Python selenium如何打包静态网页并下载
2020/08/12 Python
python实现每天自动签到领积分的示例代码
2020/08/18 Python
Python 实现进度条的六种方式
2021/01/06 Python
CSS3+JavaScript实现炫酷呼吸效果的示例代码
2020/06/15 HTML / CSS
canvas烟花特效锦集
2018/01/17 HTML / CSS
巴塞罗那观光通票:Barcelona Pass
2019/10/30 全球购物
安全生产管理责任书
2014/04/16 职场文书
工地安全生产标语
2014/06/06 职场文书
监考失职检讨书
2015/01/26 职场文书
计划生育目标责任书
2015/05/09 职场文书
2015年手术室工作总结
2015/05/11 职场文书
干部培训简讯
2015/07/20 职场文书
三十年再续同学情倡议书
2019/11/27 职场文书
AI:如何训练机器学习的模型
2021/04/16 Python
详解Python类和对象内容
2021/06/22 Python
Redis监控工具RedisInsight安装与使用
2022/03/21 Redis