激活函數之線性整流單元ReLU
線性整流單元(Rectified Linear Unit,ReLU) 是深度學習中最廣泛使用的激活函數之一。它因其簡單、高效的特性,成為大多數現代神經網絡(特別是卷積神經網絡 CNN)隱藏層的默認選擇。
1. 原理與定義
ReLU 激活函數的作用是給神經網絡引入非線性,使其能夠學習和逼近復雜的數據模式。
其數學表達式非常簡單:??(??)=max(0,??)
這意味著:
- 如果輸入值??大于 0,輸出就是輸入值本身 ( ??(??)=?? )。

- 如果輸入值??小于或等于 0,輸出就是 0 ( ??(??)=0 )。

2. 主要特點與優勢
ReLU 之所以被廣泛采用,主要得益于以下幾個顯著優勢:
- 計算高效: 相比于 Sigmoid 或 Tanh 函數涉及復雜的指數運算,ReLU 只需要進行簡單的閾值判斷(取最大值),計算速度非常快,有助于加速訓練和推理過程。
- 解決梯度消失問題: 對于正數輸入 (??>0),ReLU 的導數恒定為 1。這確保了在反向傳播過程中,梯度可以有效地流動到網絡的更深層,從而緩解了深層網絡中常見的梯度消失問題。
- 引入稀疏性: 由于負值輸入會被直接置為 0,網絡中的部分神經元處于非激活狀態。這種稀疏激活(Sparse Activation)有助于生成稀疏表示,減少計算量,并且具有正則化的效果,有助于防止過擬合。
3. 缺點與改進
盡管 ReLU 優點突出,但也存在一個主要的缺點:
- 「死亡 ReLU」問題 (Dying ReLU): 如果一個神經元在訓練過程中持續接收到負輸入,那么它的輸出將永遠是 0,導致反向傳播時梯度也永遠是 0。這個神經元將永遠無法被激活,即「死亡」了。
為了解決這個問題,研究人員提出了多種 ReLU 的變體,例如:
- Leaky ReLU: 允許負值輸入有一個非常小的非零斜率(例如 0.01x),而不是直接歸零,從而避免神經元徹底死亡。
- PReLU (Parametric ReLU): 將 Leaky ReLU 中的固定斜率 0.01 變成一個可學習的參數??。
- ELU、Swish 等其他現代激活函數也在不斷發展中。
總體而言,ReLU 憑借其卓越的性能和計算效率,是目前深度學習模型隱藏層激活函數的首選。
浙公網安備 33010602011771號