激活函数和损失函数

非原创、ChatGPT 问答生成

激活函数和损失函数是神经网络中两个重要但不同的概念，它们在模型训练和性能优化中起着关键作用。

激活函数

激活函数（Activation Function）用于神经网络中的每个神经元，以引入非线性。它将神经元的输入加权求和并添加偏置后的输出进行变换，从而使神经网络能够学习和表示复杂的非线性关系。

常见的激活函数

Sigmoid（S形函数）：
[
\sigma(x) = \frac{1}{1 + e^{-x}}
]

输出范围：0 到 1
优点：将输出映射到 (0, 1) 区间，适合于二分类问题。
缺点：容易导致梯度消失问题。

Tanh（双曲正切函数）：
[ \tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} ]

输出范围：-1 到 1
优点：输出均值为0，比 Sigmoid 更好。
缺点：也会有梯度消失问题。

ReLU（Rectified Linear Unit）：
[
\text{ReLU}(x) = \max(0, x)
]

输出范围：0 到正无穷
优点：解决梯度消失问题，计算简单高效。
缺点：容易导致“死亡 ReLU”问题（神经元输出恒为0）。

Leaky ReLU：
[
\text{Leaky ReLU}(x) = \begin{cases}
x & \text{if } x > 0 \
\alpha x & \text{if } x \leq 0
\end{cases}
]

输出范围：0 到正无穷
优点：缓解“死亡 ReLU”问题。

Softmax：
[
\text{Softmax}(x_i) = \frac{e^{x_i}}{\sum_{j} e^{x_j}}
]

输出范围：0 到 1
优点：用于多分类问题，将输出转换为概率分布。

损失函数

损失函数（Loss Function），也称为目标函数或代价函数，用于衡量模型预测值与实际值之间的差距。它是模型优化过程中需要最小化的目标。

常见的损失函数

均方误差（MSE）：
[
\text{MSE} = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2
]

用于回归问题，计算预测值与实际值之间的平方误差。

均方根误差（RMSE）：
[
\text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2}
]

MSE 的平方根，更具解释性，单位与原数据一致。

平均绝对误差（MAE）：
[
\text{MAE} = \frac{1}{n} \sum_{i=1}^n |y_i - \hat{y}_i|
]

用于回归问题，计算预测值与实际值之间的绝对误差。

交叉熵损失（Cross-Entropy Loss）：

二分类交叉熵：
[
\text{Binary Cross-Entropy} = -\frac{1}{n} \sum_{i=1}^n [y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i)]
]
多分类交叉熵：
[
\text{Categorical Cross-Entropy} = -\sum_{i=1}^n \sum_{c=1}^C y_{i,c} \log(\hat{y}_{i,c})
]
用于分类问题，衡量预测概率分布与实际分布之间的差异。

Huber 损失：
[
L_\delta(a) = \begin{cases}
\frac{1}{2}a^2 & \text{for } |a| \leq \delta \
\delta(|a| - \frac{1}{2}\delta) & \text{otherwise}
\end{cases}
]

结合了 MAE 和 MSE 的优点，适用于对异常值鲁棒的回归问题。

区别与联系

作用不同：

激活函数用于神经网络的每个神经元，以引入非线性，使网络能够学习复杂的模式。
损失函数用于衡量模型的预测误差，并在训练过程中引导优化算法（如梯度下降）调整模型参数以最小化误差。

位置不同：

激活函数位于神经网络的每一层神经元中，影响每层的输出。
损失函数位于网络的输出层，用于计算整体预测误差。

影响不同：

激活函数影响网络的训练过程和最终表现，是网络结构的一部分。
损失函数影响模型的优化目标和学习过程的方向。

示例

在一个简单的神经网络中，我们可以同时使用 ReLU 激活函数和 MSE 损失函数：

import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# 构建简单的神经网络
model = Sequential([
    Dense(64, activation='relu', input_shape=(10,)),  # 使用 ReLU 作为激活函数
    Dense(64, activation='relu'),
    Dense(1)
])

# 编译模型，使用均方误差作为损失函数
model.compile(optimizer='adam', loss='mse')

# 模拟数据
X_train = np.random.rand(100, 10)
y_train = np.random.rand(100)

# 训练模型
model.fit(X_train, y_train, epochs=10)

在这个示例中，神经网络使用 ReLU 激活函数引入非线性，而均方误差损失函数用于衡量预测值与实际值之间的差距，并指导模型优化。

晴耕雨读

激活函数和损失函数

激活函数

常见的激活函数

损失函数

常见的损失函数

区别与联系

示例

发表回复取消回复

近期文章

归档

功能

晴耕雨读

激活函数和损失函数

激活函数

常见的激活函数

损失函数

常见的损失函数

区别与联系

示例

发表回复 取消回复

近期文章

归档

功能

发表回复取消回复