機器學習激活函數

激活函數總結

1 統一數學表達

Hadamard product或element-wise product
- 多見\(\odot\)或\(\circ\)。在GLU論文中：\(\otimes\) is the element-wise product between matrices.
- ?由于在數學上\(\otimes\)表示的是Kronecker product，因此本文采用數學上的標準\(\odot\)來表示逐元素乘。
\(\sigma\)常用于表示激活函數，也更多用來表示Sigmoid。下文\(\sigma=\mathrm{Sigmoid}\)。
\(\boldsymbol{x}\)與計算機中的存儲方式（行優先）保持一致，即為行向量，與矩陣左乘。
盡管數學中常用\(\ln\)來表示\(\log_e\)，但在人工智能領域中多用\(\log\)來表示\(\log_e\)。

2 常見激活函數

2.1 ReLU

\(\mathrm{ReLU}(x)=\max\{0,x\}\)
緩解梯度消失，但會導致神經元死亡

Softplus

ReLU函數的平滑
\(\mathrm{Softplus}(x)=\log(1+e^x)\)

Leaky ReLU

\(\mathrm{LReLU}(x)=\max\{\alpha x, x\},0<\alpha<1\)，超參數\(\alpha\)一般設置為0.01
解決ReLU神經元死亡的問題

Parameterized ReLU

\(\mathrm{PReLU}(x)=\max\{0,x\}+\alpha\min\{0,x\}\)，其中\(\alpha\)是可學習的參數

ELU

\(\mathrm{ELU}(x)=\left\{\begin{matrix} x, & x>0 \\ e^x-1, & x\leqslant 0 \end{matrix}\right.\)。理論上優于ReLU及其變體，比如更快的訓練時間、沒有神經元死亡、梯度消失或爆炸

2.2 Tanh

\(\displaystyle \mathrm{Tanh}(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}\)。

Softsign

\(\displaystyle\mathrm{Softsign}(x)=\frac{x}{1+|x|}\)。
與Tanh相比能更好解決梯度消失問題。

2.3 Sigmoid

\(\displaystyle \sigma(x)=\frac{1}{1+e^{-x}}\)。

2.4 GELU

Gaussian Error Linear Unit
\(\mathrm{GELU}(x)=x\cdot \Phi(x)\)，其中\(\Phi(x)\)是標準正態分布的分布函數
結合隨機正則化Dropout，適合預訓練模型BERT

2.5 Swish

\(\mathrm{Swish}(x)=x\cdot \sigma(\beta x)\)。
默認\(\beta=1\)，此時為SiLU，Sigmoid Linear Unit。
- PyTorch調用：nn.SiLU()。

2.6 門控系列

一般用于大模型的FFN，Feed Forward Network層。先升維，然后再降維。

如Transformer結構的FFN：\(\mathrm{FFN}(x)=\max\{0,xW_1+b_1\}W_2+b_2\)。

import torch.nn  as nn 
 
class PositionwiseFFN(nn.Module):
    def __init__(self, d_model, d_ff):
        super().__init__()
        self.linear1  = nn.Linear(d_model, d_ff)
        self.linear2  = nn.Linear(d_ff, d_model)
        self.relu  = nn.ReLU()
 
    def forward(self, x):
        # x shape: (batch_size, seq_len, d_model)
        x = self.linear1(x)     # 擴展維度至 d_ff 一般是 4 * d_model
        x = self.relu(x)        # 激活函數 
        x = self.linear2(x)     # 壓縮回 d_model 
        return x

以下兩種是升維的方式。

GLU

Gated Linear Unit
\(\mathrm{GLU}(x)=(xW+b)\odot\sigma(xV+c)\)，其中\(W,b,V,c\)都是可學習的參數

?SwiGLU

Swish + GLU，大模型常用
- 門控機制動態過濾信息：通過 Swish 激活函數生成門控信號，決定哪些信息應被保留或抑制，增強模型對上下文的理解能力
- ReLU適用于淺層網絡，不擅長長序列建模
- GELU的計算成本高
\(\mathrm{SwiGLU}(x)=\mathrm{Swish}(xW)\odot(xV)\)，省略偏置項

posted on 2025-03-29 13:09 skeinz 閱讀(39) 評論(0) 收藏舉報

刷新頁面返回頂部

Skeinz

機器學習激活函數

激活函數總結

1 統一數學表達

2 常見激活函數

2.1 ReLU

Softplus

Leaky ReLU

Parameterized ReLU

ELU

2.2 Tanh

Softsign

2.3 Sigmoid

2.4 GELU

2.5 Swish

2.6 門控系列

GLU

?SwiGLU

導航

公告