Python利用全连接神经网络求解MNIST问题详解


Posted in Python onJanuary 14, 2020

本文实例讲述了Python利用全连接神经网络求解MNIST问题。分享给大家供大家参考,具体如下:

1、单隐藏层神经网络

人类的神经元在树突接受刺激信息后,经过细胞体处理,判断如果达到阈值,则将信息传递给下一个神经元或输出。类似地,神经元模型在输入层输入特征值x之后,与权重w相乘求和再加上b,经过激活函数判断后传递给下一层隐藏层或输出层。

单神经元的模型只有一个求和节点(如左下图所示)。全连接神经网络(Full Connected Networks)如右下图所示,中间层有多个神经元,并且每层的每个神经元都是与上一层和下一层的节点都对应连接。中间隐藏层只有一层的神经元网络称为单隐藏层神经网络。如果有多个中间隐藏层则称为多隐藏层神经网络。

Python利用全连接神经网络求解MNIST问题详解           Python利用全连接神经网络求解MNIST问题详解

常见的激活函数如下所示:

Python利用全连接神经网络求解MNIST问题详解

下面是在单个神经元逻辑回归求解MNIST手写数字识别问题的基础上,采用单隐藏层神经网络进行求解的过程。

首先载入数据,从Tensor FLow提供的数据库中导入MNIST数据

import tensorflow as tf
import tensorflow.examples.tutorials.mnist.input_data as input_data
mnist=input_data.read_data_sets('MNIST_data/',one_hot=True)

构建输入层,其中x是图像的特征值,由于是28×28=784个像素点,所有输入为未知行数、每行784的二维数组。y是图像的标签值,共有0~9十种可能,所有为[None,10]的二维数组

x=tf.placeholder(tf.float32,[None,784],name='x')
y=tf.placeholder(tf.float32,[None,10],name='y')

构建隐藏层,设置隐藏层神经元个数为256,由于输入层输入为784,而隐藏层神经元为h1_num,所以W1为[784,h1_num]形式的二维数组,b为[h1_num]的一维向量。此外采用ReLU作为激活函数处理输出。

h1_num=256                        #设置隐藏层神经元数量
W1=tf.Variable(tf.random_normal([784,h1_num]),name='W1')
b1=tf.Variable(tf.zeros([h1_num]),name='b1')
Y1=tf.nn.relu(tf.matmul(x,W1)+b1)             #激活函数

构建输出层,由于隐藏层有h1_num个神经元输出,输出层输出10种输出结果,所以W2为[h1_num,10]的二维数组,b2为[10]的一维向量。最后结果通过softmax将线性输出Y2转化为独热编码方式。

W2=tf.Variable(tf.random_normal([h1_num,10]),name='W2')
b2=tf.Variable(tf.zeros([10]),name='b2')
Y2=tf.matmul(Y1,W2)+b2
pred=tf.nn.softmax(Y2)

设置训练的超参数、损失函数、优化器,这里采用Adam Optimizer进行优化。准确率是通过比较预测值和标签值是否一致来定义。在定义损失函数时,如果直接使用交叉熵的方式定义,会出现log0值为NaN的情况,导致数据不稳定,无法得出结果。Tensor Flow提供了结合softmax定义交叉熵的方式softmax_cross_entropy_with_logits(),第一个参数为不经softmax处理的前向计算结果Y2,第二个参数为标签值y

train_epochs=20                    #训练轮数
batch_size=50                     #每个批次的样本数
batch_num=int(mnist.train.num_examples/batch_size)  #一轮需要训练多少批
learning_rate=0.01
#定义损失函数、优化器
loss_function=tf.reduce_mean(             #softmax交叉熵损失函数
       tf.nn.softmax_cross_entropy_with_logits(logits=Y2,labels=y)) 
optimizer=tf.train.AdamOptimizer(learning_rate).minimize(loss_function)
#定义准确率
correct_prediction=tf.equal(tf.argmax(pred,1),tf.argmax(y,1))
accuracy=tf.reduce_mean(tf.cast(correct_prediction,tf.float32))

进行训练并输出损失值与准确率,训练进行多轮,每轮一开始分批次读入数据进行训练,每结束一轮输出一次损失和准确率。

ss=tf.Session()
ss.run(tf.global_variables_initializer())           #进行全部变量的初始化
 
for epoch in range(train_epochs):
  for batch in range(batch_num):              #分批次读取数据进行训练
    xs,ys=mnist.train.next_batch(batch_size)
    ss.run(optimizer,feed_dict={x:xs,y:ys})
  loss,acc=ss.run([loss_function,accuracy],\
          feed_dict={x:mnist.validation.images,y:mnist.validation.labels})
  print('第%2d轮训练:损失为:%9f,准确率:%.4f'%(epoch+1,loss,acc))
 
ss.close()

运行结果如下图,与单个神经元相比,可以较快得到较高的准确率

Python利用全连接神经网络求解MNIST问题详解

评估模型,将测试集数据填充入占位符x,y去求准确率,

test_res=ss.run(accuracy,feed_dict={x:mnist.test.images,y:mnist.test.labels})
print('测试集的准确率为:%.4f'%(test_res))

2、多层神经网络

多层是指中间的隐藏层有多个,例如使用两层隐藏层,第一个隐藏层在计算后将结果输出到第二个隐藏层,再由第二个隐藏层计算后交给输出层,而第二个隐藏层的设置与第一个基本相同,例如:

#构建输入层
x=tf.placeholder(tf.float32,[None,784],name='x')
y=tf.placeholder(tf.float32,[None,10],name='y')
#构建第一个隐藏层
h1_num=256                            #第一隐藏层神经元数量256
W1=tf.Variable(tf.truncated_normal([784,h1_num],stddev=0.1),name='W1')
b1=tf.Variable(tf.zeros([h1_num]),name='b1')
Y1=tf.nn.relu(tf.matmul(x,W1)+b1)
#构建第二个隐藏层
h2_num=64                             #第二隐藏层神经元数量64
W2=tf.Variable(tf.random_normal([h1_num,h2_num],stddev=0.1),name='W2')
b2=tf.Variable(tf.zeros([h2_num]),name='b2')
Y2=tf.nn.relu(tf.matmul(Y1,W2)+b2)
#构建输出层
W3=tf.Variable(tf.random_normal([h2_num,10],stddev=0.1),name='W3')
b3=tf.Variable(tf.zeros([10]),name='b3')
Y3=tf.matmul(Y2,W3)+b3
pred=tf.nn.softmax(Y3)

在第一隐藏层产生参数W1时采用的是截断正态分布的随机函数tf.truncated_normal(),与普通正太分布相比,截断正态分布生成的值之间的差距不会太大。

设置的第一隐藏层的神经元256个,第二层64个,因此第二层的每个输入有256个特征值,并产生64个输出,相应的W2的shape为[h1_num,h2_num],b2的shape为[h2_num]。输出层W3的shape为[h2_num,10]。函数的其他部分与单层神经网络相同。

经过运算多层的神经网络训练的准确率不一定比单层的高,因为还涉及到训练的超参数的设置等多种因素。但是多层神经网络的运行速度比单层慢,越多层的神经网络意味着更加复杂的计算量。

全连接层函数

通过以上多层神经网络的定义可以看出两个隐藏层与输出层的构建方法基本类似,都是定义对应的变量W、b,在定义W时其shape为[输出维度,输出维度],因此可以将隐藏层与输出层统一定义为一个全连接层函数:

#定义一个通用的全连接层函数模型
def fcn_layer(inputs,in_dim,out_dim,activation=None):
  W=tf.Variable(tf.truncated_normal([in_dim,out_dim],stddev=0.1))
  b=tf.Variable(tf.zeros([out_dim]))
  Y=tf.matmul(inputs,W)+b
  if activation==None:
    output=Y
  else:
    output=activation(Y)
  return output
#构建第一个隐藏层
Y1=fcn_layer(x,784,256,tf.nn.relu)
#构建第二个隐藏层
Y2=fcn_layer(Y1,256,64,tf.nn.relu)
#构建输出层
Y3=fcn_layer(Y2,64,10)
pred=tf.nn.softmax(Y3)

其中inputs为本层的输入,in_dim为本层的输入维度,也就是上一层的输出维度,out_dim为本层的输出维度,activation为激活函数,默认为None。将输入与权重W叉乘再加上偏置值b得到Y,如果定义了激活函数,用激活函数处理Y,否则直接将Y赋给output输出。

3、模型的保存与读取

在模型训练结束后,如果希望下次继续使用或训练模型则需要将储存起来。

模型的储存

首先需要定义模型数据的保存路径:

import os
save_dir='D:/Temp/MachineLearning/ModelSaving/'    #定义模型的保存路径
if not os.path.exists(save_dir):            #如果不存在该路径则创建
  os.makedirs(save_dir)

定义储存粒度与saver,所谓储存粒度即每个几轮数据进行一次储存

save_step=5            #定义存储粒度
 
saver=tf.train.Saver()      #定义saver

在每轮训练结束后进行判断,每隔5轮储存一次,储存路径中拼接轮数信息,

if epoch%save_step==0:
    saver.save(ss,os.path.join(save_dir,'mnist_fcn_{:02d}.ckpt'.format(epoch+1)))

在所有迭代训练执行结束后,再整体储存一次

saver.save(ss,os.path.join(save_dir,'mnist_fcn.ckpt'))

这样就会在指定目录下生成模型的保存文件:Python利用全连接神经网络求解MNIST问题详解

模型的读取

从定义的模型目录中读取存盘点数据,并将其中的参数赋值给当前的session,然后便可以直接利用session进行测试,其准确率与保存时一致。

save_dir='D:/Temp/MachineLearning/ModelSaving/'    #定义模型的保存路径
saver=tf.train.Saver()                 #定义saver
 
ss=tf.Session()
ss.run(tf.global_variables_initializer())
 
ckpt=tf.train.get_checkpoint_state(save_dir)      #读取存盘点
if ckpt and ckpt.model_checkpoint_path:
  saver.restore(ss,ckpt.model_checkpoint_path)    #从存盘中恢复参数到当前的session
  print('数据恢复从',ckpt.model_checkpoint_path)
 
test_res=accuracy.eval(session=ss,feed_dict={x:mnist.test.images,y:mnist.test.labels})
print('测试集的准确率为:%.4f'%(test_res))

在读取模型时有时候会遇到报错:

NotFoundError (see above for traceback): Restoring from checkpoint failed. This is most likely due to a Variable name or other graph key that is missing from the checkpoint. Please ensure that you have not altered the graph expected based on the checkpoint.

这时只需重启kernel即可。

通过图来保存模型

也可以将训练好的模型以图的形式保存为.pb文件,下次直接可以使用,但不可以继续训练。

通过tf.train.write_graph函数来保存模型如下:

import tensorflow as tf
 
v=tf.Variable(1.0,'new_var')
with tf.Session() as ss:
  tf.train.write_graph(ss.graph_def,'D:\Temp\MachineLearning\ModelSaving\Graph',
            'test_graph.pb',as_text=False)

读取图文件并还原:

with tf.Session() as ss:
  with tf.gfile.GFile('D:/Temp\MachineLearning/ModelSaving/Graph/test_graph.pb','rb') as pb_file:
    graph_def=tf.GraphDef()
    graph_def.ParseFromString(pb_file.read())
    ss.graph.as_default()
    tf.import_graph_def(graph_def)
    print(graph_def)

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python标准日志模块logging的使用方法
Nov 01 Python
在Django的URLconf中使用命名组的方法
Jul 18 Python
python list排序的两种方法及实例讲解
Mar 20 Python
用Python写王者荣耀刷金币脚本
Dec 21 Python
python爬虫爬取网页表格数据
Mar 07 Python
Python实现模拟浏览器请求及会话保持操作示例
Jul 30 Python
python for和else语句趣谈
Jul 02 Python
关于阿里云oss获取sts凭证 app直传 python的实例
Aug 20 Python
python支持多线程的爬虫实例
Dec 21 Python
python关于变量名的基础知识点
Mar 03 Python
如何基于Django实现上下文章跳转
Sep 16 Python
Opencv实现二维直方图的计算及绘制
Jul 21 Python
基于pytorch的lstm参数使用详解
Jan 14 #Python
Python利用逻辑回归模型解决MNIST手写数字识别问题详解
Jan 14 #Python
np.random.seed() 的使用详解
Jan 14 #Python
下载与当前Chrome对应的chromedriver.exe(用于python+selenium)
Jan 14 #Python
Python selenium 自动化脚本打包成一个exe文件(推荐)
Jan 14 #Python
pytorch+lstm实现的pos示例
Jan 14 #Python
Python中sorted()排序与字母大小写的问题
Jan 14 #Python
You might like
php实现解析xml并生成sql语句的方法
2018/02/03 PHP
解决PHP curl或file_get_contents下载图片损坏或无法打开的问题
2019/10/11 PHP
通过Unicode转义序列来加密,按你说的可以算是混淆吧
2007/05/06 Javascript
url地址自动加#号问题说明
2010/08/21 Javascript
使用ajaxfileupload.js实现ajax上传文件php版
2014/06/26 Javascript
javascript中eval函数用法分析
2015/04/25 Javascript
浅析JavaScript函数的调用模式
2016/08/10 Javascript
Nodejs抓取html页面内容(推荐)
2016/08/11 NodeJs
微信小程序 HTTPS报错整理常见问题及解决方案
2016/12/14 Javascript
详解windows下vue-cli及webpack 构建网站(二)导入bootstrap样式
2017/06/17 Javascript
webpack3+React 的配置全解
2017/08/21 Javascript
JS设计模式之状态模式概念与用法分析
2018/02/05 Javascript
Vue.js最佳实践(五招助你成为vuejs大师)
2018/05/04 Javascript
Vue 3.0双向绑定原理的实现方法
2019/10/23 Javascript
python操作xml文件示例
2014/04/07 Python
在Python中使用判断语句和循环的教程
2015/04/25 Python
python调用系统ffmpeg实现视频截图、http发送
2018/03/06 Python
python 将大文件切分为多个小文件的实例
2019/01/14 Python
Python字符串匹配之6种方法的使用详解
2019/04/08 Python
Python使用dict.fromkeys()快速生成一个字典示例
2019/04/24 Python
基于python的BP神经网络及异或实现过程解析
2019/09/30 Python
python安装dlib库报错问题及解决方法
2020/03/16 Python
python 两种方法删除空文件夹
2020/09/29 Python
Selenium 配置启动项参数的方法
2020/12/04 Python
html5绘制时钟动画
2014/12/15 HTML / CSS
新加坡时尚网上购物:Zalora新加坡
2016/07/26 全球购物
What is view? why do we have view?
2012/06/22 面试题
软件部经理岗位职责范本
2014/02/25 职场文书
商业门面租房协议书
2014/11/25 职场文书
沈阳故宫导游词
2015/01/31 职场文书
外贸业务员岗位职责
2015/02/13 职场文书
业务员辞职信范文
2015/03/02 职场文书
在人间读书笔记
2015/06/30 职场文书
欠条样本
2015/07/03 职场文书
详解SpringBoot异常处理流程及原理
2021/06/21 Java/Android
什么是clearfix (一文搞清楚css清除浮动clearfix)
2023/05/21 HTML / CSS