python读取mnist数据集方法案例详解


Posted in Python onSeptember 04, 2021

mnist手写数字数据集在机器学习中非常常见,这里记录一下用python从本地读取mnist数据集的方法。

数据集格式介绍

这部分内容网络上很常见,这里还是简明介绍一下。网络上下载的mnist数据集包含4个文件:

python读取mnist数据集方法案例详解

前两个分别是测试集的image和label,包含10000个样本。后两个是训练集的,包含60000个样本。.gz表示这个一个压缩包,如果进行解压的话,会得到.ubyte格式的二进制文件。

python读取mnist数据集方法案例详解

上图是训练集的label和image数据的存储格式。两个文件最开始都有magic number和number of images/items两个数据,有用的是第二个,表示文件中存储的样本个数。另外要注意的是数据的位数,有32位整型和8位整型两种。

读取方法

.gz格式的文件读取

需要import gzip
读取训练集的代码如下:

def load_mnist_train(path, kind='train'): 
'‘'
path:数据集的路径
kind:值为train,代表读取训练集
‘'‘   
    labels_path = os.path.join(path,'%s-labels-idx1-ubyte.gz'% kind)
    images_path = os.path.join(path,'%s-images-idx3-ubyte.gz'% kind)
    #使用gzip打开文件
    with gzip.open(labels_path, 'rb') as lbpath:
	    #使用struct.unpack方法读取前两个数据,>代表高位在前,I代表32位整型。lbpath.read(8)表示一次从文件中读取8个字节
	    #这样读到的前两个数据分别是magic number和样本个数
        magic, n = struct.unpack('>II',lbpath.read(8))
        #使用np.fromstring读取剩下的数据,lbpath.read()表示读取所有的数据
        labels = np.fromstring(lbpath.read(),dtype=np.uint8)
    with gzip.open(images_path, 'rb') as imgpath:
        magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16))
        images = np.fromstring(imgpath.read(),dtype=np.uint8).reshape(len(labels), 784)
    return images, labels

读取测试集的代码类似。

非压缩文件的读取

如果在本地对四个文件解压缩之后,得到的就是.ubyte格式的文件,这时读取的代码有所变化。

def load_mnist_train(path, kind='train'): 
'‘'
path:数据集的路径
kind:值为train,代表读取训练集
‘'‘   
    labels_path = os.path.join(path,'%s-labels-idx1-ubyte'% kind)
    images_path = os.path.join(path,'%s-images-idx3-ubyte'% kind)
    #不再用gzip打开文件
    with open(labels_path, 'rb') as lbpath:
	    #使用struct.unpack方法读取前两个数据,>代表高位在前,I代表32位整型。lbpath.read(8)表示一次从文件中读取8个字节
	    #这样读到的前两个数据分别是magic number和样本个数
        magic, n = struct.unpack('>II',lbpath.read(8))
        #使用np.fromfile读取剩下的数据
        labels = np.fromfile(lbpath,dtype=np.uint8)
    with gzip.open(images_path, 'rb') as imgpath:
        magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16))
        images = np.fromfile(imgpath,dtype=np.uint8).reshape(len(labels), 784)
    return images, labels

读取之后可以查看images和labels的长度,确认读取是否正确。

到此这篇关于python读取mnist数据集方法案例详解的文章就介绍到这了,更多相关python读取mnist数据集方法内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中函数的参数传递与可变长参数介绍
Jun 30 Python
python3读取MySQL-Front的MYSQL密码
May 03 Python
详解Python中的Numpy、SciPy、MatPlotLib安装与配置
Nov 17 Python
简单的python协同过滤程序实例代码
Jan 31 Python
Python下调用Linux的Shell命令的方法
Jun 12 Python
Python Selenium 之关闭窗口close与quit的方法
Feb 13 Python
详解python3安装pillow后报错没有pillow模块以及没有PIL模块问题解决
Apr 17 Python
Django Python 获取请求头信息Content-Range的方法
Aug 06 Python
redis数据库及与python交互用法简单示例
Nov 01 Python
使用遗传算法求二元函数的最小值
Feb 11 Python
python 成功引入包但无法正常调用的解决
Mar 09 Python
python opencv检测直线 cv2.HoughLinesP的实现
Jun 18 Python
Pyqt5将多个类组合在一个界面显示的完整示例
Sep 04 #Python
一小时学会TensorFlow2之基本操作2实例代码
Python torch.flatten()函数案例详解
Aug 30 #Python
Python之基础函数案例详解
Aug 30 #Python
python中使用 unittest.TestCase单元测试的用例详解
Aug 30 #Python
python使用matplotlib绘制图片时x轴的刻度处理
使用Python+OpenCV进行卡类型及16位卡号数字的OCR功能
Aug 30 #Python
You might like
对PHP PDO的一些认识小结
2015/01/23 PHP
详解PHP神奇又有用的Trait
2019/03/25 PHP
ThinkPHP框架整合微信支付之刷卡模式图文详解
2019/04/10 PHP
Yii框架 session 数据库存储操作方法示例
2019/11/18 PHP
用javascript操作xml
2006/11/04 Javascript
jQuery操作 input type=checkbox的实现代码
2012/06/14 Javascript
关于JS数组追加数组采用push.apply的问题
2014/06/09 Javascript
js/jquery判断浏览器的方法小结
2014/09/02 Javascript
使用phantomjs进行网页抓取的实现代码
2014/09/29 Javascript
Javascript递归打印Document层次关系实例分析
2015/05/15 Javascript
jQuery处理图片加载失败的常用方法
2015/06/08 Javascript
jQuery实现鼠标经过弹出提示信息的地图热点效果
2015/08/07 Javascript
JS实现根据文件字节数返回文件大小的方法
2016/08/02 Javascript
AngularJS 应用身份认证的技巧总结
2016/11/07 Javascript
JS 对java返回的json格式的数据处理方法
2016/12/05 Javascript
bootstrap滚动监控器使用方法解析
2017/01/13 Javascript
JS实现获取进今年第几天是周几的方法分析
2018/06/27 Javascript
vuex 解决报错this.$store.commit is not a function的方法
2018/12/17 Javascript
实例详解vue中的$root和$parent
2019/04/29 Javascript
基于jquery实现的tab选项卡功能示例【附源码下载】
2019/06/10 jQuery
js实现踩五彩块游戏
2020/02/08 Javascript
vue-cli —— 如何局部修改Element样式
2020/10/22 Javascript
Python中__init__和__new__的区别详解
2014/07/09 Python
一些Python中的二维数组的操作方法
2015/05/02 Python
100行python代码实现跳一跳辅助程序
2018/01/15 Python
解决pandas中读取中文名称的csv文件报错的问题
2018/07/04 Python
python 基于dlib库的人脸检测的实现
2019/11/08 Python
基于Pyinstaller打包Python程序并压缩文件大小
2020/05/28 Python
电大毕业生自我鉴定
2013/11/10 职场文书
工作个人的自我评价
2014/01/14 职场文书
计生专干事迹
2014/05/28 职场文书
党员领导干部民主生活会批评与自我批评发言
2014/09/28 职场文书
学生检讨书怎么写?
2014/10/10 职场文书
初三学生语文考试作弊检讨书
2014/12/14 职场文书
学术会议领导致辞
2015/07/29 职场文书
正确使用MySQL update语句
2021/05/26 MySQL