python读取mnist数据集方法案例详解


Posted in Python onSeptember 04, 2021

mnist手写数字数据集在机器学习中非常常见,这里记录一下用python从本地读取mnist数据集的方法。

数据集格式介绍

这部分内容网络上很常见,这里还是简明介绍一下。网络上下载的mnist数据集包含4个文件:

python读取mnist数据集方法案例详解

前两个分别是测试集的image和label,包含10000个样本。后两个是训练集的,包含60000个样本。.gz表示这个一个压缩包,如果进行解压的话,会得到.ubyte格式的二进制文件。

python读取mnist数据集方法案例详解

上图是训练集的label和image数据的存储格式。两个文件最开始都有magic number和number of images/items两个数据,有用的是第二个,表示文件中存储的样本个数。另外要注意的是数据的位数,有32位整型和8位整型两种。

读取方法

.gz格式的文件读取

需要import gzip
读取训练集的代码如下:

def load_mnist_train(path, kind='train'): 
'‘'
path:数据集的路径
kind:值为train,代表读取训练集
‘'‘   
    labels_path = os.path.join(path,'%s-labels-idx1-ubyte.gz'% kind)
    images_path = os.path.join(path,'%s-images-idx3-ubyte.gz'% kind)
    #使用gzip打开文件
    with gzip.open(labels_path, 'rb') as lbpath:
	    #使用struct.unpack方法读取前两个数据,>代表高位在前,I代表32位整型。lbpath.read(8)表示一次从文件中读取8个字节
	    #这样读到的前两个数据分别是magic number和样本个数
        magic, n = struct.unpack('>II',lbpath.read(8))
        #使用np.fromstring读取剩下的数据,lbpath.read()表示读取所有的数据
        labels = np.fromstring(lbpath.read(),dtype=np.uint8)
    with gzip.open(images_path, 'rb') as imgpath:
        magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16))
        images = np.fromstring(imgpath.read(),dtype=np.uint8).reshape(len(labels), 784)
    return images, labels

读取测试集的代码类似。

非压缩文件的读取

如果在本地对四个文件解压缩之后,得到的就是.ubyte格式的文件,这时读取的代码有所变化。

def load_mnist_train(path, kind='train'): 
'‘'
path:数据集的路径
kind:值为train,代表读取训练集
‘'‘   
    labels_path = os.path.join(path,'%s-labels-idx1-ubyte'% kind)
    images_path = os.path.join(path,'%s-images-idx3-ubyte'% kind)
    #不再用gzip打开文件
    with open(labels_path, 'rb') as lbpath:
	    #使用struct.unpack方法读取前两个数据,>代表高位在前,I代表32位整型。lbpath.read(8)表示一次从文件中读取8个字节
	    #这样读到的前两个数据分别是magic number和样本个数
        magic, n = struct.unpack('>II',lbpath.read(8))
        #使用np.fromfile读取剩下的数据
        labels = np.fromfile(lbpath,dtype=np.uint8)
    with gzip.open(images_path, 'rb') as imgpath:
        magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16))
        images = np.fromfile(imgpath,dtype=np.uint8).reshape(len(labels), 784)
    return images, labels

读取之后可以查看images和labels的长度,确认读取是否正确。

到此这篇关于python读取mnist数据集方法案例详解的文章就介绍到这了,更多相关python读取mnist数据集方法内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python读写Excel文件方法介绍
Nov 22 Python
Python下调用Linux的Shell命令的方法
Jun 12 Python
python中plot实现即时数据动态显示方法
Jun 22 Python
Python对excel文档的操作方法详解
Dec 10 Python
Python数据抓取爬虫代理防封IP方法
Dec 23 Python
python+opencv实现阈值分割
Dec 26 Python
详解Python计算机视觉 图像扭曲(仿射扭曲)
Mar 27 Python
python文件和文件夹复制函数
Feb 07 Python
基于Tensorflow一维卷积用法详解
May 22 Python
TensorFlow-gpu和opencv安装详细教程
Jun 30 Python
tensorflow图像裁剪进行数据增强操作
Jun 30 Python
python 利用PyAutoGUI快速构建自动化操作脚本
May 31 Python
Pyqt5将多个类组合在一个界面显示的完整示例
Sep 04 #Python
一小时学会TensorFlow2之基本操作2实例代码
Python torch.flatten()函数案例详解
Aug 30 #Python
Python之基础函数案例详解
Aug 30 #Python
python中使用 unittest.TestCase单元测试的用例详解
Aug 30 #Python
python使用matplotlib绘制图片时x轴的刻度处理
使用Python+OpenCV进行卡类型及16位卡号数字的OCR功能
Aug 30 #Python
You might like
使用Apache的rewrite技术
2006/06/22 PHP
php.ini 中文版
2006/10/28 PHP
php中的三元运算符使用说明
2011/07/03 PHP
PHP利用REFERER根居访问来地址进行页面跳转
2013/09/28 PHP
Zend Framework教程之Autoloading用法详解
2016/03/08 PHP
Yii2.0框架模型多表关联查询示例
2019/07/18 PHP
验证用户是否修改过页面的数据的实现方法
2008/09/26 Javascript
非常棒的10款jQuery 幻灯片插件
2011/06/14 Javascript
使用js操作css实现js改变背景图片示例
2014/03/10 Javascript
node.js中使用node-schedule实现定时任务实例
2014/06/03 Javascript
JavaScript中判断原生函数检查function是否是原生代码
2014/09/09 Javascript
JavaScript中数据结构与算法(一):栈
2015/06/19 Javascript
浅谈Nodejs观察者模式
2015/10/13 NodeJs
IONIC自定义subheader的最佳解决方案
2016/09/22 Javascript
Javascript中作用域的详细介绍
2016/10/06 Javascript
JavaScript的变量声明提升问题浅析(Hoisting)
2016/11/30 Javascript
浅谈Node.js:Buffer模块
2016/12/05 Javascript
Angular实现的日程表功能【可添加及隐藏显示内容】
2017/12/27 Javascript
JS实现的DOM插入节点操作示例
2018/04/04 Javascript
微信小程序按钮点击跳转页面详解
2019/05/06 Javascript
JavaScript常用8种数组去重代码实例
2020/09/09 Javascript
vuex的使用和简易实现
2021/01/07 Vue.js
[02:00]最后,我终于出了辉耀
2018/03/27 DOTA
Python的时间模块datetime详解
2017/04/17 Python
K-means聚类算法介绍与利用python实现的代码示例
2017/11/13 Python
python处理csv数据动态显示曲线实例代码
2018/01/23 Python
Python多进程池 multiprocessing Pool用法示例
2018/09/07 Python
python监控进程状态,记录重启时间及进程号的实例
2019/07/15 Python
pycharm内无法import已安装的模块问题解决
2020/02/12 Python
大专自我鉴定范文
2013/10/01 职场文书
遗体告别仪式主持词
2014/03/20 职场文书
五好关工委申报材料
2014/05/31 职场文书
优秀研究生主要事迹
2014/06/03 职场文书
大学毕业生个人总结
2015/02/28 职场文书
老员工辞职信范文
2015/05/12 职场文书
JavaScript实现显示和隐藏图片
2021/04/29 Javascript