激活函數之雙曲正切函數Tanh

Tanh 激活函數，即雙曲正切函數（Hyperbolic Tangent Function），是神經網絡中一種常見的激活函數。它與 Sigmoid 函數形狀相似（都是 S 形曲線），但其輸出范圍不同，且具有零中心化的特點。

Tanh 函數的數學公式如下：

tanh(??)=（??^?????^???）/（??^??+??^???）

這個公式也可以表示為 Sigmoid 函數的變換形式：

tanh(??)=2??(2??)?1

其中，??是神經元的加權輸入總和。

輸出范圍 (-1, 1)：Tanh 函數將輸入值壓縮到 -1 到 1 之間。
零中心化 (Zero-Centered)：與 Sigmoid 函數（輸出范圍 [0, 1]）不同，Tanh 的輸出均值接近于零。這是 Tanh 相對于 Sigmoid 的一個顯著優勢。
非線性、平滑、可微：它是一個平滑的、連續可導的非線性函數，適用于基于梯度的優化方法。
單調遞增：函數值隨著輸入值的增大而增大。

優點

零中心化：由于輸出范圍在 -1 到 1 之間，輸出數據的均值接近于 0。這有助于使下一層的輸入數據保持在零均值附近，可以加快梯度下降的收斂速度，提高訓練效率。
更強的梯度：與 Sigmoid 函數相比，Tanh 的梯度在接近原點時更強，這有助于在反向傳播過程中更有效地更新權重，一定程度上緩解了梯度消失問題。

要深入了解 Tanh 函數的特性，以及為什么它能比 Sigmoid 函數提供更強的梯度，這里不再詳述，可以參考相關資料。

缺點

梯度消失問題：盡管比 Sigmoid 表現稍好，但 Tanh 函數仍然存在梯度消失問題。當輸入
??趨于極端值（很大或很小）時，函數的導數會趨近于零，導致反向傳播時梯度難以傳遞到網絡的深層。
計算成本：與簡單的 ReLU 函數（只需要判斷正負和閾值）相比，Tanh 涉及指數運算，計算量更大，速度相對較慢。

隱藏層：在過去，Tanh 函數因其零中心化的優點，常被用作神經網絡隱藏層的默認激活函數，通常性能優于 Sigmoid。
循環神經網絡 (RNN) 和長短期記憶網絡 (LSTM)：在這些序列模型中，Tanh 函數常用于調節信息流（例如在 LSTM 的單元狀態更新中），因為它能有效地將值映射到正負之間。
替代趨勢：在現代深度學習中，由于 ReLU 及其變體能更好地解決梯度消失問題且計算速度更快，它們已成為大多數隱藏層的首選激活函數。

對于 Tanh 函數如何解決 Sigmoid 函數導致的零均值問題，以及它與 Sigmoid 和 ReLU 的區別，這里不再詳述

posted @ 2025-11-06 15:35 PKICA 閱讀(6) 評論(0) 收藏舉報

刷新頁面返回頂部