激活函數之雙曲正切函數Tanh
Tanh 激活函數,即雙曲正切函數(Hyperbolic Tangent Function),是神經網絡中一種常見的激活函數。它與 Sigmoid 函數形狀相似(都是 S 形曲線),但其輸出范圍不同,且具有零中心化的特點。
1. 數學表達式
Tanh 函數的數學公式如下:

tanh(??)=(??????????)/(????+?????)
這個公式也可以表示為 Sigmoid 函數的變換形式:

tanh(??)=2??(2??)?1
其中,??是神經元的加權輸入總和。

2. 關鍵特性
- 輸出范圍 (-1, 1):Tanh 函數將輸入值壓縮到 -1 到 1 之間。
- 零中心化 (Zero-Centered):與 Sigmoid 函數(輸出范圍 [0, 1])不同,Tanh 的輸出均值接近于零。這是 Tanh 相對于 Sigmoid 的一個顯著優勢。
- 非線性、平滑、可微:它是一個平滑的、連續可導的非線性函數,適用于基于梯度的優化方法。
- 單調遞增:函數值隨著輸入值的增大而增大。
優點
- 零中心化:由于輸出范圍在 -1 到 1 之間,輸出數據的均值接近于 0。這有助于使下一層的輸入數據保持在零均值附近,可以加快梯度下降的收斂速度,提高訓練效率。
- 更強的梯度:與 Sigmoid 函數相比,Tanh 的梯度在接近原點時更強,這有助于在反向傳播過程中更有效地更新權重,一定程度上緩解了梯度消失問題。
要深入了解 Tanh 函數的特性,以及為什么它能比 Sigmoid 函數提供更強的梯度,這里不再詳述,可以參考相關資料。
缺點
- 梯度消失問題:盡管比 Sigmoid 表現稍好,但 Tanh 函數仍然存在梯度消失問題。當輸入
??趨于極端值(很大或很小)時,函數的導數會趨近于零,導致反向傳播時梯度難以傳遞到網絡的深層。

- 計算成本:與簡單的 ReLU 函數(只需要判斷正負和閾值)相比,Tanh 涉及指數運算,計算量更大,速度相對較慢。
3. 應用場景
- 隱藏層:在過去,Tanh 函數因其零中心化的優點,常被用作神經網絡隱藏層的默認激活函數,通常性能優于 Sigmoid。
- 循環神經網絡 (RNN) 和長短期記憶網絡 (LSTM):在這些序列模型中,Tanh 函數常用于調節信息流(例如在 LSTM 的單元狀態更新中),因為它能有效地將值映射到正負之間。
- 替代趨勢:在現代深度學習中,由于 ReLU 及其變體能更好地解決梯度消失問題且計算速度更快,它們已成為大多數隱藏層的首選激活函數。
對于 Tanh 函數如何解決 Sigmoid 函數導致的零均值問題,以及它與 Sigmoid 和 ReLU 的區別,這里不再詳述
浙公網安備 33010602011771號