编程 Python

Python二进制文件读取并转换为浮点数详解

Posted in Python onJune 25, 2019

本文所用环境：

Python 3.6.5 |Anaconda custom (64-bit)|

引言

由于某些原因，需要用python读取二进制文件，这里主要用到struct包，而这个包里面的方法主要是unpack、pack、calcsize。详细介绍可以看：Python Struct 官方文档。这里主要讨论，python二进制转浮点数的操作。

python中一个float类型的数占4个字节。

二进制数据转float，可以用struct.unpack()来实现。

小文件读取

较小的文件，可以一次读取：

首先导入所需的包：

import numpy as np
import struct
Python

例如：我需要读取一个名为filename，存放着形状为[100,1025]的浮点数的文件。可以采用以下办法

# 加载测试数据
f = open('filename','rb')
# 102500为文档中包含的数字个数，而一个浮点数占4个字节
data_raw = struct.unpack('f'*102500,f.read(4*102500))
f.close()
verify_data = np.asarray(verify_data_raw).reshape(-1,1025)

大文件处理方法

我需要处理的文件大小有38.1G，存放着[10000000,1025]大小的向量。

Python二进制文件读取并转换为浮点数详解

关于大文件的处理，我参考了这文章，但是，这个方法不能很好的将二进制文件转换成浮点数。

所以我想到了另外一种办法：

通过Linux命令切割文件

通过split命令将38.1G的文件按照指定大小切割，

split -b 820000k -a 2 filename data_

上述代码的意思是，指定每块大小为820000k，-a 2代表2位数命名，‘data_'代表前缀是'data_'

最终生成49个文件(字典序 aa ? bw)，前48个文件每个204800行最后一个文件 169600行

Python二进制文件读取并转换为浮点数详解

通过python循环读取文件

首先构建词汇表：

voc = ['a','b','c','d','e','f','g','h','i','j','k','l',
'm','n','o','p','q','r','s','t','u','v','w','x',
'y','z']
voc_short = ['a','b','c','d','e','f','g','h','i','j','k','l',
'm','n','o','p','q','r','s','t','u','v']

为了方便读取，将49个二进制文件转换成numpy专用二进制格式*.npy

for i in voc:
data_name = 'data_a'+str(i)
f = open(data_name,'rb')
data_raw = struct.unpack('f'*209920000,f.read(4*209920000))
f.close()
data = np.asarray(data_raw).reshape(-1,1025)
np.save(data_name+'.npy',data) # 保存data_a*.npy文件
for i in voc_short:
data_name = 'data_b'+str(i)
f = open(data_name,'rb')
data_raw = struct.unpack('f'*209920000,f.read(4*209920000))
f.close()
data = np.asarray(data_raw).reshape(-1,1025)
np.save(data_name+'.npy',data) # 保存data_b*.npy文件
data_name = 'data_bw'
f = open(data_name,'rb')
data_raw = struct.unpack('f'*173840000,f.read(4*173840000))
np.save(data_name+'.npy',data_raw) # 保存data_bw.npy文件

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python二进制文件读取并转换为浮点数详解

- Author -

淡淡博客

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python连接PostgreSQL数据库的方法

Nov 28 Python

利用django-suit模板添加自定义的菜单、页面及设置访问权限

Jul 13 Python

如何安装多版本python python2和python3共存以及pip共存

Sep 18 Python

对python 匹配字符串开头和结尾的方法详解

Oct 27 Python

Python实现的大数据分析操作系统日志功能示例

Feb 11 Python

python实现抖音点赞功能

Apr 07 Python

Python识别快递条形码及Tesseract-OCR使用详解

Jul 15 Python

python解释器spython使用及原理解析

Aug 24 Python

使用Fabric自动化部署Django项目的实现

Sep 27 Python

Django 自定义分页器的实现代码

Nov 24 Python

python3实现raspberry pi（树莓派）4驱小车控制程序

Feb 12 Python

python生成大写32位uuid代码

Mar 03 Python

python print出共轭复数的方法详解

Jun 25 #Python

python安装pil库方法及代码

Jun 25 #Python

Python处理时间日期坐标轴过程详解

Jun 25 #Python

python 在某.py文件中调用其他.py内的函数的方法

Jun 25 #Python

python求最大值最小值方法总结

Jun 25 #Python

python安装requests库的实例代码

Jun 25 #Python

Python登录系统界面实现详解

Jun 25 #Python