神经网络总结（bp）

阅读原文时间：2023年07月13日阅读：1

一、从生物到计算机

神经细胞利用电-化学过程交换信号。输入信号来自另一些神经细胞。这些神经细胞的轴突末梢（也就是终端）和本神经细胞的树突相遇形成突触（synapse），信号就从树突上的突触进入本细胞。信号在大脑中实际怎样传输是一个相当复杂的过程，但就我们而言，重要的是把它看成和现代的计算机一样，利用一系列的0和1来进行操作。就是说，大脑的神经细胞也只有两种状态：兴奋（fire）和不兴奋（即抑制）。发射信号的强度不变，变化的仅仅是频率。神经细胞利用一种我们还不知道的方法,把所有从树突突触上进来的信号进行相加，如果全部信号的总和超过某个阀值，就会激发神经细胞进入兴奋（fire）状态，这时就会有一个电信号通过轴突发送出去给其他神经细胞。如果信号总和没有达到阀值，神经细胞就不会兴奋起来。这样的解释有点过分简单化，但已能满足我们的目的。

二、神经网络基本原理

图中，左边几个灰底圆中所标字母w代表浮点数，称为权重（weight，或权值，权数）。进入人工神经细胞的每一个input(输入)都与一个权重w相联系，正是这些权重将决定神经网络的整体活跃性。你现在暂时可以设想所有这些权重都被设置到了-１和１之间的一个随机小数。因为权重可正可负，故能对与它关联的输入施加不同的影响，如果权重为正，就会有激发（excitory）作用，权重为负，则会有抑制（inhibitory）作用。当输入信号进入神经细胞时，它们的值将与它们对应的权重相乘，作为图中大圆的输入。大圆的‘核’是一个函数，叫激励函数(activation function)，它把所有这些新的、经过权重调整后的输入全部加起来，形成单个的激励值(activation value)。激励值也是一浮点数，且同样可正可负。然后，再根据激励值来产生函数的输出也即神经细胞的输出：如果激励值超过某个阀值（作为例子我们假设阀值为1.0），就会产生一个值为1的信号输出；如果激励值小于阀值1.0，则输出一个0。这是人工神经细胞激励函数的一种最简单的类型。在这里，从激励值产生输出值是一个阶跃函数。

阶跃函数

一个人工神经细胞(从现在开始，我将把“人工神经细胞”简称它为“神经细胞”) 可以有任意n个输入，n代表总数。可以用下面的数学表达式来代表所有n个输入：

x1, x2, x3, x4, x5, …, xn

同样 n 个权重可表达为:

w1, w2, w3, w4, w5 …, wn

请记住，激励值就是所有输入与它们对应权重的之乘积之总和，因此，现在就可以写为:

a = w1x1 + w2x2 + w3x3 + w4x4 + w5x5 +…+ wnxn

以这种方式写下的求和式，用希腊字母Σ来简化：

图4以图形的方式表示了此方程。请别忘记，如果激励值超过了阀值，神经细胞就输出1; 如果激活小于阀值，则神经细胞的输出为0。这和一个生物神经细胞的兴奋和抑制是等价的。我们假设一个神经细胞有5个输入，他们的权重w都初始化成正负1之间的随机值(-1 < w < 1) 。表2说明了激励值的求和计算过程。

表2 神经细胞激励值的计算

输入

权重

输入与权重的乘积

运行后总和

0.5

-0.2

0.5

-0.3

0.2

0.9

1.1

0.1

1.1

大脑里的生物神经细胞和其他的神经细胞是相互连接在一起的。为了创建一个人工神经网络，人工神经细胞也要以同样方式相互连接在一起。为此可以有许多不同的连接方式，其中最容易理解并且也是最广泛地使用的，就是如图5所示那样，把神经细胞一层一层地连结在一起。这一种类型的神经网络就叫前馈网络（feedforword network）。这一名称的由来，就是因为网络的每一层神经细胞的输出都向前馈送（feed）到了它们的下一层（在图中是画在它的上面的那一层)，直到获得整个网络的输出为止。

由图可知，网络共有三层（译注：输入层不是神经细胞，神经细胞只有两层）。输入层中的每个输入都馈送到了隐藏层，作为该层每一个神经细胞的输入；然后，从隐藏层的每个神经细胞的输出都连到了它下一层（即输出层）的每一个神经细胞。图中仅仅画了一个隐藏层，作为前馈网络，一般地可以有任意多个隐藏层。但在对付你将处理的大多数问题时一层通常是足够的。事实上，有一些问题甚至根本不需要任何隐藏单元，你只要把那些输入直接连结到输出神经细胞就行了。另外，我为图5选择的神经细胞的个数也是完全任意的。每一层实际都可以有任何数目的神经细胞，这完全取决于要解决的问题的复杂性。但神经细胞数目愈多，网络的工作速度也就愈低，而且容易出现过拟合的现象，网络的规模总是要求保持尽可能的小。

一个简单的例子：

下面我们来看它是怎么完成的。我们以字符识别作为例子。设想有一个由8x8个格子组成的一块面板。每一个格子里放了一个小灯，每个小灯都可独立地被打开（格子变亮）或关闭（格子变黑），这样面板就可以用来显示十个数字符号。图6显示了数字“4”。

要解决这一问题，我们必需设计一个神经网络，它接收面板的状态作为输入，然后输出一个1或0；输出1代表ANN确认已显示了数字“4”，而输出0表示没有显示“4”。因此，神经网络需要有64个输入(每一个输入代表面板的一个具体格点) 和由许多神经细胞组成的一个隐藏层，还有仅有一个神经细胞的输出层，隐藏层的所有输出都馈送到它。

　　一旦神经网络体系创建成功后，它必须接受训练来认出数字“4”。为此可用这样一种方法来完成：先把神经网的所有权重初始化为任意值。然后给它一系列的输入，在本例中，就是代表面板不同配置的输入。对每一种输入配置，我们检查它的输出是什么，并调整相应的权重。如果我们送给网络的输入模式不是“4”，则我们知道网络应该输出一个0。因此每个非“4”字符时的网络权重应进行调节，使得它的输出趋向于0。当代表“4”的模式输送给网络时，则应把权重调整到使输出趋向于1。

　　如果你考虑一下这个网络，你就会知道要把输出增加到10是很容易的。然后通过训练，就可以使网络能识别0到9 的所有数字。但为什么我们到此停止呢？我们还可以进一步增加输出，使网络能识别字母表中的全部字符。这本质上就是手写体识别的工作原理。对每个字符，网络都需要接受许多训练，使它认识此文字的各种不同的版本。到最后，网络不单能认识已经训练的笔迹，还显示了它有显著的归纳和推广能力。也就是说，如果所写文字换了一种笔迹，它和训练集中所有字迹都略有不同，网络仍然有很大几率来认出它。正是这种归纳推广能力，使得神经网络已经成为能够用于无数应用的一种无价的工具，从人脸识别、医学诊断，直到跑马赛的预测，另外还有电脑游戏中的bot（作为游戏角色的机器人）的导航，或者硬件的robot（真正的机器人）的导航。

　这种类型的训练称作有监督的学习（supervised learnig），用来训练的数据称为训练集（training set）。调整权重可以采用许多不同的方法。对本类问题最常用的方法就是反向传播（backpropagation，简称backprop或BP）方法。

利用梯度下降法优化Bp神经网络

这里你就是用了反馈机制，即将实际结果和预期结果相比较，找出两者的不同之处，并借此改善下一次的行为,预期结果和实际结果之间的差距越小，你下一次需要调整的幅度就越小。神经网络正是通过这种方式学习，利用一种叫做“反向传播”的反馈机制，它由正向传播过程和反向传播过程组成。在正向传播过程中，输入信息通过输入层经隐含层，逐层处理并传向输出层。如果在输出层得不到期望的输出值，则取输出与期望的误差的平方和作为目标函数，转入反向传播，逐层求出目标函数对各神经元权值的偏导数，构成目标函数对权值向量的梯量，作为修改权值的依据，神经网络的学习在权重值修改过程中完成。误差达到所期望值时，神经网络学习结束。

首先介绍代价函数：

二次代价函数

式子代表预测值与样本值的差得平方和

由于使用的是梯度下降法，我们对变量w，b分别求偏导：

这种函数对于处理线性的关系比较好，但是如果遇到s型函数（如下图所示），效率不高。

从图中我们看出：当我们想要趋近于1时，B点接近于1，变化趋势变小（很正确），A点与1距离较远，变化趋势较大（很正确），C点（假设在x = -3处）远离1，变化趋势很小（发生错误），因此，二次代价函数中单凭梯度的大小决定变化的快慢是不对的。

由此我们引出了第二个代价函数——交叉熵代价函数

2，交叉熵代价函数

右边是balabalabalabalab的推导过程，最终得到表达式：

结论如上↑

在网上，发现可以通过神经网络工具箱这个GUI界面来创建神经网络,其一般的操作步骤如下：

1：在输入命令里面输入nntool命令，或者在应用程序这个选项下找到Netrual Net Fitting 这个应用程序，点击打开，就能看见如下界面

2：输入数据和输出数据的导入（在本文中选取了matlab自带的案例数据）

3：随机选择三种类型的数据所占的样本量的比例，一般选取默认即可

4：隐层神经元的确定

5：训练算法的选取，一般是选择默认即可，选择完成后点击按钮即可运行程序

6：根据得到的结果，一般是MSE的值越小，R值越接近1，其训练的效果比较，并第二张图给出了神经网络的各参数的设置以及其最终的结果，其拟合图R越接近1，模型拟合的更好

最终的结果图

7：如果所得到的模型不能满足你的需求，则需重复上述的步骤直至能够得到你想要的精确度8：将最终的得到的各种数据以及其拟合值进行保存，然后查看，就可以得到所要的拟合值

最后参考了网上和MATLAB的帮助，给出了一些与神经网络相关的函数
图形用户界面功能。
    nnstart - 神经网络启动GUI
    nctool - 神经网络分类工具
    nftool - 神经网络的拟合工具
    nntraintool - 神经网络的训练工具
    nprtool - 神经网络模式识别工具
    ntstool - NFTool神经网络时间序列的工具
    nntool - 神经网络工具箱的图形用户界面。
    查看 - 查看一个神经网络。

  网络的建立功能。
    cascadeforwardnet - 串级，前馈神经网络。
    competlayer - 竞争神经层。
    distdelaynet - 分布时滞的神经网络。
    elmannet - Elman神经网络。
    feedforwardnet - 前馈神经网络。
    fitnet - 函数拟合神经网络。
    layrecnet - 分层递归神经网络。
    linearlayer - 线性神经层。
    lvqnet - 学习矢量量化（LVQ）神经网络。
    narnet - 非线性自结合的时间序列网络。
    narxnet - 非线性自结合的时间序列与外部输入网络。
    newgrnn - 设计一个广义回归神经网络。
    newhop - 建立经常性的Hopfield网络。
    newlind - 设计一个线性层。
    newpnn - 设计概率神经网络。
    newrb - 径向基网络设计。
    newrbe - 设计一个确切的径向基网络。
    patternnet - 神经网络模式识别。
    感知 - 感知。
    selforgmap - 自组织特征映射。
    timedelaynet - 时滞神经网络。

  利用网络。
    网络 - 创建一个自定义神经网络。
    SIM卡 - 模拟一个神经网络。
    初始化 - 初始化一个神经网络。
    适应 - 允许一个神经网络来适应。
    火车 - 火车的神经网络。
    DISP键 - 显示一个神经网络的属性。
    显示 - 显示的名称和神经网络属性
    adddelay - 添加延迟神经网络的反应。
    closeloop - 神经网络的开放反馈转换到关闭反馈回路。
    formwb - 表格偏见和成单个向量的权重。
    getwb - 将它作为一个单一向量中的所有网络权值和偏差。
    noloop - 删除神经网络的开放和关闭反馈回路。
    开环 - 转换神经网络反馈，打开封闭的反馈循环。
    removedelay - 删除延迟神经网络的反应。
    separatewb - 独立的偏见和重量/偏置向量的权重。
    setwb - 将所有与单个矢量网络权值和偏差。

  Simulink的支持。
    gensim - 生成Simulink模块来模拟神经网络。
    setsiminit - 集神经网络的Simulink模块的初始条件
    getsiminit - 获取神经网络Simulink模块的初始条件
    神经元 - 神经网络Simulink的模块库。

  培训职能。
    trainb - 批具有重量与偏见学习规则的培训。
    trainbfg - 的BFGS拟牛顿倒传递。
    trainbr - 贝叶斯规则的BP算法。
    trainbu - 与重量与偏见一批无监督学习规则的培训。
    trainbuwb - 与体重无监督学习规则与偏见一批培训。
    trainc - 循环顺序重量/偏见的培训。
    traincgb - 共轭鲍威尔比尔重新启动梯度反向传播。
    traincgf - 共轭弗莱彻-里夫斯更新梯度反向传播。
    traincgp - 共轭波拉克- Ribiere更新梯度反向传播。
    traingd - 梯度下降反向传播。
    traingda - 具有自适应LR的反向传播梯度下降。
    traingdm - 与动量梯度下降。
    traingdx - 梯度下降瓦特/惯性与自适应LR的反向传播。
    trainlm - 采用Levenberg -马奎德倒传递。
    trainoss - 一步割线倒传递。
    trainr - 随机重量/偏见的培训。
    trainrp - RPROP反向传播。
    trainru - 无监督随机重量/偏见的培训。
    火车 - 顺序重量/偏见的培训。
    trainscg - 规模化共轭梯度BP算法。

  绘图功能。
    plotconfusion - 图分类混淆矩阵。
    ploterrcorr - 误差自相关时间序列图。
    ploterrhist - 绘制误差直方图。
    plotfit - 绘图功能适合。
    plotinerrcorr - 图输入错误的时间序列的互相关。
    plotperform - 小区网络性能。
    plotregression - 线性回归情节。
    plotresponse - 动态网络图的时间序列响应。
    plotroc - 绘制受试者工作特征。
    plotsomhits - 小区自组织图来样打。
    plotsomnc - 小区自组织映射邻居的连接。
    plotsomnd - 小区自组织映射邻居的距离。
    plotsomplanes - 小区自组织映射重量的飞机。
    plotsompos - 小区自组织映射重量立场

手机扫一扫

移动阅读更方便

你可能感兴趣的文章