python读取mnist数据集方法案例详解


Posted in Python onSeptember 04, 2021

mnist手写数字数据集在机器学习中非常常见,这里记录一下用python从本地读取mnist数据集的方法。

数据集格式介绍

这部分内容网络上很常见,这里还是简明介绍一下。网络上下载的mnist数据集包含4个文件:

python读取mnist数据集方法案例详解

前两个分别是测试集的image和label,包含10000个样本。后两个是训练集的,包含60000个样本。.gz表示这个一个压缩包,如果进行解压的话,会得到.ubyte格式的二进制文件。

python读取mnist数据集方法案例详解

上图是训练集的label和image数据的存储格式。两个文件最开始都有magic number和number of images/items两个数据,有用的是第二个,表示文件中存储的样本个数。另外要注意的是数据的位数,有32位整型和8位整型两种。

读取方法

.gz格式的文件读取

需要import gzip
读取训练集的代码如下:

def load_mnist_train(path, kind='train'): 
'‘'
path:数据集的路径
kind:值为train,代表读取训练集
‘'‘   
    labels_path = os.path.join(path,'%s-labels-idx1-ubyte.gz'% kind)
    images_path = os.path.join(path,'%s-images-idx3-ubyte.gz'% kind)
    #使用gzip打开文件
    with gzip.open(labels_path, 'rb') as lbpath:
	    #使用struct.unpack方法读取前两个数据,>代表高位在前,I代表32位整型。lbpath.read(8)表示一次从文件中读取8个字节
	    #这样读到的前两个数据分别是magic number和样本个数
        magic, n = struct.unpack('>II',lbpath.read(8))
        #使用np.fromstring读取剩下的数据,lbpath.read()表示读取所有的数据
        labels = np.fromstring(lbpath.read(),dtype=np.uint8)
    with gzip.open(images_path, 'rb') as imgpath:
        magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16))
        images = np.fromstring(imgpath.read(),dtype=np.uint8).reshape(len(labels), 784)
    return images, labels

读取测试集的代码类似。

非压缩文件的读取

如果在本地对四个文件解压缩之后,得到的就是.ubyte格式的文件,这时读取的代码有所变化。

def load_mnist_train(path, kind='train'): 
'‘'
path:数据集的路径
kind:值为train,代表读取训练集
‘'‘   
    labels_path = os.path.join(path,'%s-labels-idx1-ubyte'% kind)
    images_path = os.path.join(path,'%s-images-idx3-ubyte'% kind)
    #不再用gzip打开文件
    with open(labels_path, 'rb') as lbpath:
	    #使用struct.unpack方法读取前两个数据,>代表高位在前,I代表32位整型。lbpath.read(8)表示一次从文件中读取8个字节
	    #这样读到的前两个数据分别是magic number和样本个数
        magic, n = struct.unpack('>II',lbpath.read(8))
        #使用np.fromfile读取剩下的数据
        labels = np.fromfile(lbpath,dtype=np.uint8)
    with gzip.open(images_path, 'rb') as imgpath:
        magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16))
        images = np.fromfile(imgpath,dtype=np.uint8).reshape(len(labels), 784)
    return images, labels

读取之后可以查看images和labels的长度,确认读取是否正确。

到此这篇关于python读取mnist数据集方法案例详解的文章就介绍到这了,更多相关python读取mnist数据集方法内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python类装饰器用法实例
Jun 04 Python
Python爬虫:通过关键字爬取百度图片
Feb 17 Python
如何用itertools解决无序排列组合的问题
May 18 Python
基于DataFrame筛选数据与loc的用法详解
May 18 Python
python抓取搜狗微信公众号文章
Apr 01 Python
django之状态保持-使用redis存储session的例子
Jul 28 Python
Django Form and ModelForm的区别与使用
Dec 06 Python
python字符串判断密码强弱
Mar 18 Python
什么是Python中的匿名函数
Jun 02 Python
Linux安装Python3如何和系统自带的Python2并存
Jul 23 Python
python3爬虫GIL修改多线程实例讲解
Nov 24 Python
使用Pytorch训练two-head网络的操作
May 28 Python
Pyqt5将多个类组合在一个界面显示的完整示例
Sep 04 #Python
一小时学会TensorFlow2之基本操作2实例代码
Python torch.flatten()函数案例详解
Aug 30 #Python
Python之基础函数案例详解
Aug 30 #Python
python中使用 unittest.TestCase单元测试的用例详解
Aug 30 #Python
python使用matplotlib绘制图片时x轴的刻度处理
使用Python+OpenCV进行卡类型及16位卡号数字的OCR功能
Aug 30 #Python
You might like
PHP 抓取新浪读书频道的小说并生成txt电子书的代码
2009/12/18 PHP
PHP Array交叉表实现代码
2010/08/05 PHP
php学习笔记 PHP面向对象的程序设计
2011/06/13 PHP
php控制linux服务器常用功能 关机 重启 开新站点等
2012/09/05 PHP
PHP读取PDF内容配合Xpdf的使用
2012/11/24 PHP
php 目录遍历、删除 函数的使用介绍
2013/04/28 PHP
ECshop 迁移到 PHP7版本时遇到的兼容性问题
2016/02/15 PHP
thinkphp 手机号和用户名同时登录
2017/01/20 PHP
JavaScript 获取用户客户端操作系统版本
2009/08/25 Javascript
jquery 面包屑导航 具体实现
2013/06/05 Javascript
网页防止tab键的使用快速解决方法
2013/11/07 Javascript
一个网页标题title的闪动提示效果实现思路
2014/03/22 Javascript
javascript数据类型示例分享
2015/01/19 Javascript
JS正则表达式验证密码格式的集中情况总结
2017/02/23 Javascript
vue.js的提示组件
2017/03/02 Javascript
angularjs中回车键触发某一事件的方法
2017/04/24 Javascript
jquery+css实现侧边导航栏效果
2017/06/12 jQuery
微信小程序模板(template)使用详解
2018/01/31 Javascript
详解vuex结合localstorage动态监听storage的变化
2018/05/03 Javascript
[06:25]DOTA2英雄梦之声_第17期_大地之灵
2014/06/20 DOTA
[40:53]完美世界DOTA2联赛PWL S3 Magma vs DLG 第二场 12.18
2020/12/20 DOTA
Linux下为不同版本python安装第三方库
2016/08/31 Python
pytorch 图像中的数据预处理和批标准化实例
2020/01/15 Python
PyQt5中向单元格添加控件的方法示例
2020/03/24 Python
完美解决TensorFlow和Keras大数据量内存溢出的问题
2020/07/03 Python
解决TensorFlow调用Keras库函数存在的问题
2020/07/06 Python
Python基于xlutils修改表格内容过程解析
2020/07/28 Python
美国孕妇装品牌:Destination Maternity
2018/02/04 全球购物
荷兰街头时尚之家:Funkie House
2019/03/18 全球购物
迪卡侬比利时官网:Decathlon比利时
2019/12/28 全球购物
Pharmacy Online中文直邮网站:澳洲大型药房
2020/06/27 全球购物
新娘父亲婚礼致辞
2014/01/16 职场文书
支行行长竞聘演讲稿
2014/05/15 职场文书
2015年学校党支部工作总结
2015/04/01 职场文书
入党培养人考察意见
2015/06/08 职场文书
导游词之山西关帝庙
2019/11/01 职场文书