深入解析神经网络从原理到实现


Posted in Python onJuly 26, 2019

1.简单介绍

在机器学习和认知科学领域,人工神经网络(artificial neural network,缩写ANN),简称神经网络(neural network,缩写NN)或类神经网络,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具。典型的神经网络具有以下三个部分:

结构 (Architecture) 结构指定了网络中的变量和它们的拓扑关系。例如,神经网络中的变量可以是神经元连接的权重(weights)和神经元的激励值(activities of the neurons)。

激励函数(Activity Rule) 大部分神经网络模型具有一个短时间尺度的动力学规则,来定义神经元如何根据其他神经元的活动来改变自己的激励值。一般激励函数依赖于网络中的权重(即该网络的参数)。

学习规则(Learning Rule)学习规则指定了网络中的权重如何随着时间推进而调整。这一般被看做是一种长时间尺度的动力学规则。一般情况下,学习规则依赖于神经元的激励值。它也可能依赖于监督者提供的目标值和当前权重的值。

2.初识神经网络

如上文所说,神经网络主要包括三个部分:结构、激励函数、学习规则。图1是一个三层的神经网络,输入层有d个节点,隐层有q个节点,输出层有l个节点。除了输入层,每一层的节点都包含一个非线性变换。

深入解析神经网络从原理到实现 

图1

那么为什么要进行非线性变换呢?

(1)如果只进行线性变换,那么即使是多层的神经网络,依然只有一层的效果。类似于0.6*(0.2x1+0.3x2)=0.12x1+0.18x2。
(2)进行非线性变化,可以使得神经网络可以拟合任意一个函数,图2是一个四层网络的图。

深入解析神经网络从原理到实现 

图2

下面使用数学公式描述每一个神经元工作的方式

(1)输出x
(2)计算z=w*x
(3)输出new_x = f(z),这里的f是一个函数,可以是sigmoid、tanh、relu等,f就是上文所说到的激励函数。

3.反向传播(bp)算法

有了上面的网络结构和激励函数之后,这个网络是如何学习参数(学习规则)的呢?

首先我们先定义下本文使用的激活函数、目标函数

(1)激活函数(sigmoid):深入解析神经网络从原理到实现

def sigmoid(z):
  return 1.0/(1.0+np.exp(-z))

sigmoid函数有一个十分重要的性质:深入解析神经网络从原理到实现,即计算导数十分方便。

def sigmoid_prime(z):
  return sigmoid(z)*(1-sigmoid(z))

下面给出一个简单的证明:深入解析神经网络从原理到实现

(2)目标函数(差的平方和)深入解析神经网络从原理到实现,公式中的1/2是为了计算导数方便。

然后,这个网络是如何运作的

(1)数据从输入层到输出层,经过各种非线性变换的过程即前向传播。

def feedforward(self, a):
  for b, w in zip(self.biases, self.weights):
    a = sigmoid(np.dot(w, a)+b)
  return a

其中,初始的权重(w)和偏置(b)是随机赋值的

biases = [np.random.randn(y, 1) for y in sizes[1:]]
weights = [np.random.randn(y, x) for x, y in zip(sizes[:-1], sizes[1:])]

(2)参数更新,即反向传播

在写代码之前,先进行推导,即利用梯度下降更新参数,以上面的网络结构(图1)为例

(1)输出层与隐层之间的参数更新

深入解析神经网络从原理到实现

(2)隐层与输入层之间的参数更新

深入解析神经网络从原理到实现

有两点需要强调下:

(2)中的结果比(1)中的结果多了一个求和公式,这是因为计算隐层与输入层之间的参数时,输出层与隐层的每一个节点都有影响。

(2)中参数更新的结果可以复用(1)中的参数更新结果,从某种程度上,与反向传播这个算法名称不谋而合,不得不惊叹。

def backprop(self, x, y):
  """返回一个元组(nabla_b, nabla_w)代表目标函数的梯度."""
  nabla_b = [np.zeros(b.shape) for b in self.biases]
  nabla_w = [np.zeros(w.shape) for w in self.weights]
  # feedforward
  activation = x
  activations = [x] # list to store all the activations, layer by layer
  zs = [] # list to store all the z vectors, layer by layer
  for b, w in zip(self.biases, self.weights):
    z = np.dot(w, activation)+b
    zs.append(z)
    activation = sigmoid(z)
    activations.append(activation)
  # backward pass
  delta = self.cost_derivative(activations[-1], y) * \
    sigmoid_prime(zs[-1])
  nabla_b[-1] = delta
  nabla_w[-1] = np.dot(delta, activations[-2].transpose())
  """l = 1 表示最后一层神经元,l = 2 是倒数第二层神经元, 依此类推."""
  for l in xrange(2, self.num_layers):
    z = zs[-l]
    sp = sigmoid_prime(z)
    delta = np.dot(self.weights[-l+1].transpose(), delta) * sp
    nabla_b[-l] = delta
    nabla_w[-l] = np.dot(delta, activations[-l-1].transpose())
  return (nabla_b, nabla_w)

4.完整代码实现

# -*- coding: utf-8 -*-

import random
import numpy as np

class Network(object):

  def __init__(self, sizes):
  """参数sizes表示每一层神经元的个数,如[2,3,1],表示第一层有2个神经元,第二层有3个神经元,第三层有1个神经元."""
    self.num_layers = len(sizes)
    self.sizes = sizes
    self.biases = [np.random.randn(y, 1) for y in sizes[1:]]
    self.weights = [np.random.randn(y, x)
            for x, y in zip(sizes[:-1], sizes[1:])]

  def feedforward(self, a):
    """前向传播"""
    for b, w in zip(self.biases, self.weights):
      a = sigmoid(np.dot(w, a)+b)
    return a

  def SGD(self, training_data, epochs, mini_batch_size, eta,
      test_data=None):
    """随机梯度下降"""
    if test_data: 
      n_test = len(test_data)
    n = len(training_data)
    for j in xrange(epochs):
      random.shuffle(training_data)
      mini_batches = [
        training_data[k:k+mini_batch_size]
        for k in xrange(0, n, mini_batch_size)]
      for mini_batch in mini_batches:
        self.update_mini_batch(mini_batch, eta)
      if test_data:
        print "Epoch {0}: {1} / {2}".format(j, self.evaluate(test_data), n_test)
      else:
        print "Epoch {0} complete".format(j)

  def update_mini_batch(self, mini_batch, eta):
    """使用后向传播算法进行参数更新.mini_batch是一个元组(x, y)的列表、eta是学习速率"""
    nabla_b = [np.zeros(b.shape) for b in self.biases]
    nabla_w = [np.zeros(w.shape) for w in self.weights]
    for x, y in mini_batch:
      delta_nabla_b, delta_nabla_w = self.backprop(x, y)
      nabla_b = [nb+dnb for nb, dnb in zip(nabla_b, delta_nabla_b)]
      nabla_w = [nw+dnw for nw, dnw in zip(nabla_w, delta_nabla_w)]
    self.weights = [w-(eta/len(mini_batch))*nw
            for w, nw in zip(self.weights, nabla_w)]
    self.biases = [b-(eta/len(mini_batch))*nb
            for b, nb in zip(self.biases, nabla_b)]

  def backprop(self, x, y):
    """返回一个元组(nabla_b, nabla_w)代表目标函数的梯度."""
    nabla_b = [np.zeros(b.shape) for b in self.biases]
    nabla_w = [np.zeros(w.shape) for w in self.weights]
    # 前向传播
    activation = x
    activations = [x] # list to store all the activations, layer by layer
    zs = [] # list to store all the z vectors, layer by layer
    for b, w in zip(self.biases, self.weights):
      z = np.dot(w, activation)+b
      zs.append(z)
      activation = sigmoid(z)
      activations.append(activation)
    # backward pass
    delta = self.cost_derivative(activations[-1], y) * sigmoid_prime(zs[-1])
    nabla_b[-1] = delta
    nabla_w[-1] = np.dot(delta, activations[-2].transpose())
    """l = 1 表示最后一层神经元,l = 2 是倒数第二层神经元, 依此类推."""
    for l in xrange(2, self.num_layers):
      z = zs[-l]
      sp = sigmoid_prime(z)
      delta = np.dot(self.weights[-l+1].transpose(), delta) * sp
      nabla_b[-l] = delta
      nabla_w[-l] = np.dot(delta, activations[-l-1].transpose())
    return (nabla_b, nabla_w)

  def evaluate(self, test_data):
    """返回分类正确的个数"""
    test_results = [(np.argmax(self.feedforward(x)), y) for (x, y) in test_data]
    return sum(int(x == y) for (x, y) in test_results)

  def cost_derivative(self, output_activations, y):
    return (output_activations-y)

def sigmoid(z):
  return 1.0/(1.0+np.exp(-z))

def sigmoid_prime(z):
  """sigmoid函数的导数"""
  return sigmoid(z)*(1-sigmoid(z))

5.简单应用

# -*- coding: utf-8 -*-

from network import *

def vectorized_result(j,nclass):
  """离散数据进行one-hot"""
  e = np.zeros((nclass, 1))
  e[j] = 1.0
  return e

def get_format_data(X,y,isTest):
  ndim = X.shape[1]
  nclass = len(np.unique(y))
  inputs = [np.reshape(x, (ndim, 1)) for x in X]
  if not isTest:
    results = [vectorized_result(y,nclass) for y in y]
  else:
    results = y
  data = zip(inputs, results)
  return data

#随机生成数据
from sklearn.datasets import *
np.random.seed(0)
X, y = make_moons(200, noise=0.20)
ndim = X.shape[1]
nclass = len(np.unique(y))

#划分训练、测试集
from sklearn.cross_validation import train_test_split
train_x,test_x,train_y,test_y = train_test_split(X,y,test_size=0.2,random_state=0)

training_data = get_format_data(train_x,train_y,False)
test_data = get_format_data(test_x,test_y,True)

net = Network(sizes=[ndim,10,nclass])
net.SGD(training_data=training_data,epochs=5,mini_batch_size=10,eta=0.1,test_data=test_data)

参考文献
(1)周志华《机器学习》
(2)https://github.com/mnielsen/neural-networks-and-deep-learning
(3)https://zhuanlan.zhihu.com/p/21525237

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
浅析python 中__name__ = '__main__' 的作用
Jul 05 Python
Python使用MD5加密字符串示例
Aug 22 Python
PyCharm使用教程之搭建Python开发环境
Jun 07 Python
Python实现基本数据结构中栈的操作示例
Dec 04 Python
Request的中断和ErrorHandler实例解析
Feb 12 Python
Python实现的爬取网易动态评论操作示例
Jun 06 Python
pycharm修改界面主题颜色的方法
Jan 17 Python
一个可以套路别人的python小程序实例代码
Apr 09 Python
python ImageDraw类实现几何图形的绘制与文字的绘制
Feb 26 Python
Pytorch 解决自定义子Module .cuda() tensor失败的问题
Jun 23 Python
django template实现定义临时变量,自定义赋值、自增实例
Jul 12 Python
Python 如何操作 SQLite 数据库
Aug 17 Python
python单例模式的多种实现方法
Jul 26 #Python
django的ORM操作 增加和查询
Jul 26 #Python
Django在pycharm下修改默认启动端口的方法
Jul 26 #Python
Python解析命令行读取参数之argparse模块
Jul 26 #Python
Django Rest framework三种分页方式详解
Jul 26 #Python
浅析Windows 嵌入python解释器的过程
Jul 26 #Python
python flask几分钟实现web服务的例子
Jul 26 #Python
You might like
php实现mysql数据库备份类
2008/03/20 PHP
php date()日期时间函数详解
2010/05/16 PHP
调试一段PHP程序时遇到的三个问题
2012/01/17 PHP
遭遇php的in_array低性能问题
2013/09/17 PHP
php操作mysqli(示例代码)
2013/10/28 PHP
PHP实现创建一个RPC服务操作示例
2020/02/23 PHP
Javascript实现仿WebQQ界面的“浮云”兼容 IE7以上版本及FF
2011/04/27 Javascript
javascript使用中为什么10..toString()正常而10.toString()出错呢
2013/01/11 Javascript
手机号码,密码正则验证
2014/09/04 Javascript
浅析js中substring和substr的方法
2015/11/09 Javascript
对jQuary选择器的全面总结
2016/06/20 Javascript
JS+HTML5实现的前端购物车功能插件实例【附demo源码下载】
2016/10/17 Javascript
vue中如何实现变量和字符串拼接
2017/06/19 Javascript
浅谈JS 数字和字符串之间相互转化的纠纷
2017/10/20 Javascript
js定时器+简单的动画效果实例
2017/11/10 Javascript
详解一个基于react+webpack的多页面应用配置
2019/01/21 Javascript
从零开始用webpack构建一个vue3.0项目工程的实现
2020/09/24 Javascript
基于openlayers实现角度测量功能
2020/09/28 Javascript
Python设置Socket代理及实现远程摄像头控制的例子
2015/11/13 Python
python实现的正则表达式功能入门教程【经典】
2017/06/05 Python
python3实现表白神器
2019/04/09 Python
django 类视图的使用方法详解
2019/07/24 Python
利用Python的sympy包求解一元三次方程示例
2019/11/22 Python
mac使用python识别图形验证码功能
2020/01/10 Python
html5默认气泡修改的代码详解
2020/03/13 HTML / CSS
东南亚地区最大的购物网站Lazada新加坡站点:Lazada.sg
2016/07/17 全球购物
澳大利亚时尚前卫设计师珠宝在线:Amber Sceats
2017/10/04 全球购物
美国家居装饰店:Z Gallerie
2020/12/28 全球购物
农业局学习党的群众路线教育实践活动心得体会
2014/03/07 职场文书
求职者怎样写自荐信
2014/04/13 职场文书
七一讲话心得体会
2014/09/05 职场文书
工资收入证明
2014/10/07 职场文书
无房产证房屋转让协议书合同样本
2014/10/18 职场文书
师德标兵先进事迹材料
2014/12/19 职场文书
2015年大学辅导员工作总结
2015/05/12 职场文书
2016元旦晚会主持词开场白和结束语
2015/12/04 职场文书