3.2 神经激活函数_Python人工智能-QQ阅读女频现言网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

3.2　神经激活函数

取决于不同的架构和问题，人工神经网络中存在几种不同的神经激活函数。本节将讨论最常用的激活函数，因为这些函数决定了网络的架构和性能。线性激活函数和Sigmoid激活函数曾经在人工神经网络中使用较多，直到Hinton等人发明了修正线性单元（Rectified Linear Unit，ReLU），ReLU使人工神经网络的性能产生了翻天覆地的变化。

3.2.1　线性激活函数

线性激活函数神经元输出的是总输入对神经元的衰减，如图3-4所示。

图3-4　线性激活函数神经元

如果x是线性激活函数神经元的总输入，那么输出y如下所示。

3.2.2　Sigmoid激活函数

Sigmoid激活函数简称Sigmoid函数，也被称为S型函数。它可以将整个实数区间映射到（0,1）区间，因此经常被用来计算概率。它也是传统人工神经网络中经常被使用的一种激活函数。

Sigmoid函数的公式定义为

Sigmoid函数曲线如图3-5所示，其中，x的范围可以是正无穷到负无穷，但是对应y的范围为0～1，所以经过Sigmoid函数输出的值都会落在0～1的区间里，即Sigmoid函数能够把输入的值“压缩”到0～1。

图3-5　Sigmoid函数曲线

对于自然界中的各种复杂过程，输入与输出的关系通常是非线性的，因此，我们需要使用非线性激活函数通过神经网络来对它们建模。一个二元分类问题的神经网络，它的输出概率由Sigmoid神经元的输出给出，因为它的输出范围是0～1。输出概率可表示为

此处，x表示输出层中的Sigmoid神经元的总输入。

【例3-1】　利用Python绘制Sigmoid激活函数。

运行程序，效果如图3-6所示。

图3-6　Python绘制的Sigmoid激活函数

3.2.3　双曲正切激活函数

双曲正切激活函数（Hyperbolic Tangent Activation Function）又被称为tanh函数。它将整个实数区间映射到（-1,1），tanh函数也具有软饱和性。它的输出以0为中心，tanh函数的收敛速度比Sigmoid函数快。由于存在软饱和性，所以tanh函数也存在梯度消失的问题。

tanh函数的公式定义为

如图3-7所示，tanh函数输出值的范围是[-1,1]。

图3-7　tanh函数

值得注意的是，Sigmoid函数和tanh函数在一个小范围内是线性的，在此范围之外则输出趋于饱和。在饱和区间，激活函数（相对输入）的梯度非常小或趋于零，这意味着它们很容易产生梯度消失问题。之后可以看到，人工神经网络可以从反向传播方法学习，其中每一层的梯度由下一层激活函数的梯度决定，直到最终的输出层。因此，如果单元中的激活函数处于饱和区间，那么极少数的误差会被反向传播至之前的神经网络层。通过利用梯度，神经网络最小化预测误差来学习权重和偏置（W）。这意味着，如果梯度太小或趋于零，那么神经网络将无法有效地学习这些权重。

【例3-2】　利用Python绘制tanh函数。

运行程序，效果如图3-8所示。

图3-8　Python绘制的tanh函数

3.2.4　修正线性激活函数

当神经元的总输入大于零的时候，修正线性单元（ReLU）的输出是线性的；当总输入为负数时，输出为零。这个简单的激活函数为神经网络提供了非线性变换，同时，它为总输入提供了一个恒定的梯度。这个恒定的梯度可帮助人工神经网络避免其他激活函数（如Sigmoid函数和tanh函数）出现梯度消失问题。ReLU函数的输出为