ReLU 介绍

死亡ReLU问题（Dead ReLU）
- 现象：若输入长期为负，梯度为0，导致神经元永久失活，无法更新参数。
- 改进方案：
  - Leaky ReLU：负区间引入小斜率（如0.01），保留微弱梯度：f(x)=max⁡(αx,x)f(x)=max(αx,x)。
  - PReLU：将负区间的斜率 αα 设为可学习参数，自适应调整。
  - ELU：负区间使用指数函数平滑过渡，输出均值接近0：f(x)=max⁡(α(ex−1),x)f(x)=max(α(ex−1),x)。
非零中心化输出
- 输出均值大于0，可能导致参数更新方向偏移，但实际影响较小。

激活函数	输出范围	梯度特性	适用场景
ReLU	[0,+∞)[0,+∞)	正区间梯度为1，负区间为0	隐藏层（主流选择）
Sigmoid	(0,1)(0,1)	易梯度消失，最大梯度0.25	二分类输出层
Tanh	(−1,1)(−1,1)	零中心化，但梯度仍会消失	替代Sigmoid的隐藏层
Leaky ReLU	(−∞,+∞)(−∞,+∞)	负区间保留小梯度	解决死亡ReLU问题

推动深度学习革命
- ReLU的引入解决了深层网络训练的梯度消失难题，使训练超深层网络（如ResNet-152）成为可能，推动计算机视觉、自然语言处理等领域的突破。
计算效率与工程友好性
- 相比传统激活函数，ReLU的计算速度和内存占用优势显著，支持大规模数据训练和实时推理。
启发后续研究
- ReLU的局限性催生了多种改进版本（如Swish、GELU），丰富了激活函数的设计思路，促进模型性能的持续提升。

import torch
import torch.nn as nn

relu = nn.ReLU()
x = torch.tensor([-2.0, 0.5, 3.0])
y = relu(x)  # 输出：tensor([0.0000, 0.5000, 3.0000])

ReLU通过其简单性、高效性和对梯度消失问题的缓解，成为现代深度学习的基石之一。尽管存在死亡ReLU等问题，其改进版本和变种进一步扩展了其适用性。理解ReLU的工作原理及优化策略，对于设计高效、稳定的神经网络模型至关重要。

Menu