【漫画机器学习系列】102.带泄露线性整流函数（Leaky ReLU）

Leaky ReLU（带泄露线性整流函数）详解

1. 什么是 Leaky ReLU？

Leaky ReLU（带泄露线性整流函数）是一种改进的 ReLU（Rectified Linear Unit，线性整流单元）激活函数。与标准 ReLU 不同，Leaky ReLU 在输入值小于 0 时，不会直接将输出置为 0，而是给予一个小的非零梯度（通常是 0.01 倍的输入值）。这种特性使得 Leaky ReLU 在面对负输入时不会完全消失，从而减轻了“神经元死亡”（Dead Neurons）问题。

2. Leaky ReLU 的数学表达式

Leaky ReLU 的数学公式如下：

$\phi(z) = \begin{cases} z, & \text{if } z > 0 \\ 0.01z, & \text{otherwise} \end{cases}$

其中：

当 z > 0 时，Leaky ReLU 的输出与 ReLU 一样，直接输出 z；
当 z ≤ 0 时，输出不再是 0，而是输入值的 0.01 倍（即：0.01z）。
其中的泄露系数（Leakage Coefficient） 0.01 可以调整，通常记为 α：
$\phi(z) = \begin{cases} z, & z > 0 \\ \alpha z, & z \leq 0 \end{cases}$
其中 α\alphaα 通常取 0.01，但可以根据具体任务进行调整。

3. 为什么需要 Leaky ReLU？

3.1 解决 ReLU 的“神经元死亡”问题

在标准 ReLU 中，所有小于 0 的输入都会输出 0，这意味着在反向传播时，其梯度也是 0。如果某个神经元长期处于负输入状态，它的梯度会一直是 0，导致该神经元无法更新权重，最终可能永远不会被激活，即变成“死神经元”（Dead Neurons）。

Leaky ReLU 通过在负输入部分给予一个小的非零梯度（如 0.01），确保神经元仍然有梯度更新的可能，从而减轻了这个问题。

3.2 允许负值信息通过

在某些任务（如音频信号、金融时间序列预测等）中，输入可能会有重要的负值信息。标准 ReLU 会丢弃所有负输入，而 Leaky ReLU 允许这些信息部分保留，从而提升模型表现。

4. Leaky ReLU 与其他激活函数的比较

激活函数	定义	特点	缺点
ReLU	$f(z) = \max(0, z)$	计算简单，减少梯度消失	神经元死亡问题
Leaky ReLU	$f(z) = \max(0.01z, z)$	解决神经元死亡问题，允许负值通过	需要调整 α\alphaα
Parametric ReLU（PReLU）	$f(z) = \max(\alpha z, z)$	允许学习 α 值，提升适应性	增加了超参数
ELU（Exponential Linear Unit）	$f(z) = z, z > 0; \alpha (e^z - 1), z \leq 0$	负输入平滑过渡，均值接近 0	计算较复杂
Sigmoid	$f(z) = \frac{1}{1+e^{-z}}$	输出在 (0,1) 之间	容易梯度消失
Tanh	$f(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}}$	输出范围 (-1,1)，比 Sigmoid 更优	仍存在梯度消失问题

总结：

Leaky ReLU 是 ReLU 的改进版，适用于大多数深度学习任务。
如果希望让负值信息更多参与训练，可以使用 ELU 或 Tanh。
如果希望让神经元自行学习负斜率，可以使用 PReLU。

5. Leaky ReLU 在深度学习中的应用

5.1 计算机视觉

在 CNN（卷积神经网络）中，Leaky ReLU 被广泛用于特征提取层，例如：

目标检测（Object Detection）：如 YOLO（You Only Look Once）网络中广泛使用 Leaky ReLU。
图像分类（Image Classification）：如 ResNet 等模型。

5.2 自然语言处理（NLP）

在 NLP 任务中，Leaky ReLU 主要用于：

文本情感分析：处理文本向量化后的数据时，Leaky ReLU 允许更多信息流动。
序列生成（如 Transformer 结构）：有时会用 Leaky ReLU 替代标准 ReLU，以减少梯度消失问题。

5.3 强化学习

在 DQN（深度 Q 网络）等强化学习模型中，Leaky ReLU 通过保持负值信息，提升策略学习的稳定性。

6. Leaky ReLU 的超参数调优

Leaky ReLU 主要有一个超参数 α（泄露系数），常见的选择方法：

固定值：通常设为 0.01 或 0.1。
超参数搜索：使用 Grid Search 或 Random Search 选择最优的 α。
可学习参数（PReLU）：将 α 作为神经网络的可训练参数，让模型自动学习最优值。

7. 代码示例

7.1 在 NumPy 中实现 Leaky ReLU

import numpy as np

def leaky_relu(z, alpha=0.01):
    return np.where(z > 0, z, alpha * z)

# 示例
z = np.array([-3, -1, 0, 1, 3])
print(leaky_relu(z))

运行结果

[-0.03 -0.01  0.    1.    3.  ]

7.2 在 TensorFlow/Keras 中使用 Leaky ReLU

from tensorflow.keras.layers import Dense, LeakyReLU
from tensorflow.keras.models import Sequential

model = Sequential([
    Dense(128, input_shape=(10,)),
    LeakyReLU(alpha=0.01),  # 使用 Leaky ReLU
    Dense(64),
    LeakyReLU(alpha=0.01),
    Dense(1, activation='sigmoid')
])

7.3 在 PyTorch 中使用 Leaky ReLU

import torch
import torch.nn as nn

# 定义 Leaky ReLU 层
leaky_relu = nn.LeakyReLU(negative_slope=0.01)

# 示例数据
x = torch.tensor([-3.0, -1.0, 0.0, 1.0, 3.0])
print(leaky_relu(x))

运行结果

tensor([-0.0300, -0.0100,  0.0000,  1.0000,  3.0000])

8. 总结

Leaky ReLU 是 ReLU 的改进版本，解决了神经元死亡问题，同时允许负值信息通过。

不会让负值的梯度完全消失
计算简单，适用于 CNN、NLP、强化学习等任务
适用于深度神经网络，避免梯度消失
需要调整泄露系数 α，或使用 PReLU 让模型自动学习 α

在大多数情况下，Leaky ReLU 比 ReLU 更稳定，是深度学习模型的一个重要工具！