详解如何从TensorFlow的mnist数据集导出手写体数字图片


Posted in Python onAugust 05, 2019

在TensorFlow的官方入门课程中,多次用到mnist数据集。

mnist数据集是一个数字手写体图片库,但它的存储格式并非常见的图片格式,所有的图片都集中保存在四个扩展名为idx3-ubyte的二进制文件。

如果我们想要知道大名鼎鼎的mnist手写体数字都长什么样子,就需要从mnist数据集中导出手写体数字图片。了解这些手写体的总体形状,也有助于加深我们对TensorFlow入门课程的理解。

下面先给出通过TensorFlow api接口导出mnist手写体数字图片的python代码,再对代码进行分析。代码在win7下测试通过,linux环境也可以参考本处代码。

(非常良心的注释和打印有木有)

#!/usr/bin/python3.5
# -*- coding: utf-8 -*-
 
import os
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
 
from PIL import Image
 
# 声明图片宽高
rows = 28
cols = 28
 
# 要提取的图片数量
images_to_extract = 8000
 
# 当前路径下的保存目录
save_dir = "./mnist_digits_images"
 
# 读入mnist数据
mnist = input_data.read_data_sets("MNIST_data/", one_hot=False)
 
# 创建会话
sess = tf.Session()
 
# 获取图片总数
shape = sess.run(tf.shape(mnist.train.images))
images_count = shape[0]
pixels_per_image = shape[1]
 
# 获取标签总数
shape = sess.run(tf.shape(mnist.train.labels))
labels_count = shape[0]
 
# mnist.train.labels是一个二维张量,为便于后续生成数字图片目录名,有必要一维化(后来发现只要把数据集的one_hot属性设为False,mnist.train.labels本身就是一维)
#labels = sess.run(tf.argmax(mnist.train.labels, 1))
labels = mnist.train.labels
 
# 检查数据集是否符合预期格式
if (images_count == labels_count) and (shape.size == 1):
  print ("数据集总共包含 %s 张图片,和 %s 个标签" % (images_count, labels_count))
  print ("每张图片包含 %s 个像素" % (pixels_per_image))
  print ("数据类型:%s" % (mnist.train.images.dtype))
 
  # mnist图像数据的数值范围是[0,1],需要扩展到[0,255],以便于人眼观看
  if mnist.train.images.dtype == "float32":
    print ("准备将数据类型从[0,1]转为binary[0,255]...")
    for i in range(0,images_to_extract):
      for n in range(pixels_per_image):
        if mnist.train.images[i][n] != 0:
          mnist.train.images[i][n] = 255
      # 由于数据集图片数量庞大,转换可能要花不少时间,有必要打印转换进度
      if ((i+1)%50) == 0:
        print ("图像浮点数值扩展进度:已转换 %s 张,共需转换 %s 张" % (i+1, images_to_extract))
 
  # 创建数字图片的保存目录
  for i in range(10):
    dir = "%s/%s/" % (save_dir,i)
    if not os.path.exists(dir):
      print ("目录 ""%s"" 不存在!自动创建该目录..." % dir)
      os.makedirs(dir)
 
  # 通过python图片处理库,生成图片
  indices = [0 for x in range(0, 10)]
  for i in range(0,images_to_extract):
    img = Image.new("L",(cols,rows))
    for m in range(rows):
      for n in range(cols):
        img.putpixel((n,m), int(mnist.train.images[i][n+m*cols]))
    # 根据图片所代表的数字label生成对应的保存路径
    digit = labels[i]
    path = "%s/%s/%s.bmp" % (save_dir, labels[i], indices[digit])
    indices[digit] += 1
    img.save(path)
    # 由于数据集图片数量庞大,保存过程可能要花不少时间,有必要打印保存进度
    if ((i+1)%50) == 0:
      print ("图片保存进度:已保存 %s 张,共需保存 %s 张" % (i+1, images_to_extract))
  
else:
  print ("图片数量和标签数量不一致!")

上述代码的实现思路如下:

1.读入mnist手写体数据;

2.把数据的值从[0,1]浮点范围转化为黑白格式(背景为0-黑色,前景为255-白色);

3.根据mnist.train.labels的内容,生成数字索引,也就是建立每一张图片和其所代表数字的关联,由此创建对应的保存目录;

4.循环遍历mnist.train.images,把每张图片的像素数据赋值给python图片处理库PIL的Image类实例,再调用Image类的save方法把图片保存在第3步骤中创建的对应目录。

在运行上述代码之前,你需要确保本地已经安装python的图片处理库PIL,pip安装命令如下:

pip3 install Pillow

或 pip install Pillow,取决于你的pip版本。

上述python代码运行后,在当前目录下会生成mnist_digits_images目录,在该目录下,可以看到如下内容:

详解如何从TensorFlow的mnist数据集导出手写体数字图片

可以看到,我们成功地生成了黑底白字的数字图片。

如果仔细观察这些图片,会看到一些肉眼也难以分辨的数字,譬如:

详解如何从TensorFlow的mnist数据集导出手写体数字图片

详解如何从TensorFlow的mnist数据集导出手写体数字图片

上面这几个数字是2。想不到吧?

下面这两个是5(看起来更像6):

详解如何从TensorFlow的mnist数据集导出手写体数字图片详解如何从TensorFlow的mnist数据集导出手写体数字图片

这个是7:(7长这样?有句MMP不知当讲不当讲)

详解如何从TensorFlow的mnist数据集导出手写体数字图片

猜猜下面这个是什么:

详解如何从TensorFlow的mnist数据集导出手写体数字图片

这是大写的L?不是。

有点像1,是1吗?也不是。

倒立拉粑的7?sorry,又猜错了。

实话告诉您,它是2!一开始我也是不相信的,知道真相的那一刻我下巴差点掉下来!

这些手写图片,一般人用肉眼观察,识别率能达到98%就不错了,但是通过TensorFlow搭建的卷积神经网络识别率可以达到99%,非常地神奇!

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python统计日志中每个IP出现次数的方法
Jul 06 Python
python开发中module模块用法实例分析
Nov 12 Python
Python中static相关知识小结
Jan 02 Python
python模拟表单提交登录图书馆
Apr 27 Python
使用Python操作FTP实现上传和下载的方法
Apr 01 Python
python自动化之Ansible的安装教程
Jun 13 Python
淘宝秒杀python脚本 扫码登录版
Sep 19 Python
python 求10个数的平均数实例
Dec 16 Python
python数据库操作mysql:pymysql、sqlalchemy常见用法详解
Mar 30 Python
DataFrame 数据合并实现(merge,join,concat)
Jun 14 Python
Python3使用 GitLab API 进行批量合并分支
Oct 15 Python
Python还能这么玩之用Python做个小游戏的外挂
Jun 04 Python
Python获取时间范围内日期列表和周列表的函数
Aug 05 #Python
Django ORM 查询管理器源码解析
Aug 05 #Python
python实现车牌识别的示例代码
Aug 05 #Python
使用python实现滑动验证码功能
Aug 05 #Python
Django 源码WSGI剖析过程详解
Aug 05 #Python
Python使用itchat 功能分析微信好友性别和位置
Aug 05 #Python
Python队列RabbitMQ 使用方法实例记录
Aug 05 #Python
You might like
php输出1000以内质数(素数)示例
2014/02/16 PHP
PHP实现批量清空删除指定文件夹所有内容的方法
2017/05/30 PHP
PHP7 弃用功能
2021/03/09 PHP
jquery isEmptyObject判断是否为空对象的函数
2011/02/14 Javascript
Prototype源码浅析 String部分(二)
2012/01/16 Javascript
JS上传图片前实现图片预览效果的方法
2015/03/02 Javascript
js 上传文件预览的简单实例
2016/08/16 Javascript
JavaScript 身份证号有效验证详解及实例代码
2016/10/20 Javascript
bootstrap fileinput 插件使用项目总结(经验)
2017/02/22 Javascript
Web纯前端“旭日图”实现元素周期表
2017/03/10 Javascript
使用vue制作FullPage页面滚动效果
2017/08/21 Javascript
vue刷新和tab切换实例
2018/02/11 Javascript
微信小程序Flex布局用法深入浅出分析
2019/04/25 Javascript
jQuery实现条件搜索查询、实时取值及升降序排序的方法分析
2019/05/04 jQuery
sortable+element 实现表格行拖拽的方法示例
2019/06/07 Javascript
微信小程序之几种常见的弹框提示信息实现详解
2019/07/11 Javascript
微信小程序 调用远程接口 给全局数组赋值代码实例
2019/08/13 Javascript
layui给下拉框、按钮状态、时间赋初始值的方法
2019/09/10 Javascript
[06:42]DOTA2每周TOP10 精彩击杀集锦vol.1
2014/06/25 DOTA
[48:48]VGJ.T vs Liquid 2018国际邀请赛小组赛BO2 第二场 8.19
2018/08/21 DOTA
[00:52]DOTA2国际邀请赛
2020/02/21 DOTA
Python原始字符串(raw strings)用法实例
2014/10/13 Python
Python解析json文件相关知识学习
2016/03/01 Python
解决python 输出是省略号的问题
2018/04/19 Python
Sanic框架异常处理与中间件操作实例分析
2018/07/16 Python
对Python3 pyc 文件的使用详解
2019/02/16 Python
Python简直是万能的,这5大主要用途你一定要知道!(推荐)
2019/04/03 Python
python 实现查找文件并输出满足某一条件的数据项方法
2019/06/12 Python
python logging模块书写日志以及日志分割详解
2019/07/22 Python
CSS3中的transform属性进行2D和3D变换的基本用法
2016/05/12 HTML / CSS
应届生如何写自荐信
2014/01/05 职场文书
《商鞅南门立木》教学反思
2014/02/16 职场文书
幼儿园小班教师寄语
2014/04/03 职场文书
家庭教育的心得体会
2014/09/01 职场文书
Rust 连接 PostgreSQL 数据库的详细过程
2022/01/22 PostgreSQL
Navicat Premium自定义 sql 标签的创建方式
2022/09/23 数据库