<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      機器學習激活函數

      激活函數總結

      1 統一數學表達

      • Hadamard product或element-wise product
        • 多見\(\odot\)\(\circ\)。在GLU論文中:\(\otimes\) is the element-wise product between matrices.
        • ?由于在數學上\(\otimes\)表示的是Kronecker product,因此本文采用數學上的標準\(\odot\)來表示逐元素乘。
      • \(\sigma\)常用于表示激活函數,也更多用來表示Sigmoid。下文\(\sigma=\mathrm{Sigmoid}\)
      • \(\boldsymbol{x}\)與計算機中的存儲方式(行優先)保持一致,即為行向量,與矩陣左乘。
      • 盡管數學中常用\(\ln\)來表示\(\log_e\),但在人工智能領域中多用\(\log\)來表示\(\log_e\)

      2 常見激活函數

      2.1 ReLU

      • \(\mathrm{ReLU}(x)=\max\{0,x\}\)
      • 緩解梯度消失,但會導致神經元死亡

      Softplus

      • ReLU函數的平滑
      • \(\mathrm{Softplus}(x)=\log(1+e^x)\)

      Leaky ReLU

      • \(\mathrm{LReLU}(x)=\max\{\alpha x, x\},0<\alpha<1\),超參數\(\alpha\)一般設置為0.01
      • 解決ReLU神經元死亡的問題

      Parameterized ReLU

      • \(\mathrm{PReLU}(x)=\max\{0,x\}+\alpha\min\{0,x\}\),其中\(\alpha\)是可學習的參數

      ELU

      • \(\mathrm{ELU}(x)=\left\{\begin{matrix} x, & x>0 \\ e^x-1, & x\leqslant 0 \end{matrix}\right.\)。理論上優于ReLU及其變體,比如更快的訓練時間、沒有神經元死亡、梯度消失或爆炸

      2.2 Tanh

      • \(\displaystyle \mathrm{Tanh}(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}\)

      Softsign

      • \(\displaystyle\mathrm{Softsign}(x)=\frac{x}{1+|x|}\)
      • 與Tanh相比能更好解決梯度消失問題。

      2.3 Sigmoid

      • \(\displaystyle \sigma(x)=\frac{1}{1+e^{-x}}\)

      2.4 GELU

      • Gaussian Error Linear Unit
      • \(\mathrm{GELU}(x)=x\cdot \Phi(x)\),其中\(\Phi(x)\)是標準正態分布的分布函數
      • 結合隨機正則化Dropout,適合預訓練模型BERT

      2.5 Swish

      • \(\mathrm{Swish}(x)=x\cdot \sigma(\beta x)\)
      • 默認\(\beta=1\),此時為SiLU,Sigmoid Linear Unit。
        • PyTorch調用:nn.SiLU()

      2.6 門控系列

      • 一般用于大模型的FFN,Feed Forward Network層。先升維,然后再降維

      • 如Transformer結構的FFN:\(\mathrm{FFN}(x)=\max\{0,xW_1+b_1\}W_2+b_2\)

        • import torch.nn  as nn 
           
          class PositionwiseFFN(nn.Module):
              def __init__(self, d_model, d_ff):
                  super().__init__()
                  self.linear1  = nn.Linear(d_model, d_ff)
                  self.linear2  = nn.Linear(d_ff, d_model)
                  self.relu  = nn.ReLU()
           
              def forward(self, x):
                  # x shape: (batch_size, seq_len, d_model)
                  x = self.linear1(x)     # 擴展維度至 d_ff 一般是 4 * d_model
                  x = self.relu(x)        # 激活函數 
                  x = self.linear2(x)     # 壓縮回 d_model 
                  return x
          
      • 以下兩種是升維的方式。

      GLU

      • Gated Linear Unit
      • \(\mathrm{GLU}(x)=(xW+b)\odot\sigma(xV+c)\),其中\(W,b,V,c\)都是可學習的參數

      ?SwiGLU

      • Swish + GLU,大模型常用
        • 門控機制動態過濾信息:通過 Swish 激活函數生成門控信號,決定哪些信息應被保留或抑制,增強模型對上下文的理解能力
        • ReLU適用于淺層網絡,不擅長長序列建模
        • GELU的計算成本高
      • \(\mathrm{SwiGLU}(x)=\mathrm{Swish}(xW)\odot(xV)\),省略偏置項

      posted on 2025-03-29 13:09  skeinz  閱讀(39)  評論(0)    收藏  舉報

      主站蜘蛛池模板: 延边| 在线看国产精品自拍内射| 国产精品露脸3p普通话| 国产精品第一二三区久久| 亚洲色最新高清AV网站| 久久日产一线二线三线| 日韩精品一区二区三区视频| 国产一区二区三区黄色大片| 久久一区二区中文字幕| 综合色一色综合久久网| 国产熟睡乱子伦视频在线播放| 成年女人喷潮免费视频| 国产av日韩精品一区二区| 久久精品午夜视频| 亚洲综合91社区精品福利| 成年男女免费视频网站| 亚洲中文字幕日韩精品| 97精品人妻系列无码人妻| 东京热人妻无码一区二区AV| 男人用嘴添女人私密视频| 亚洲人成网站999久久久综合| 少妇午夜福利一区二区三区| 亚洲色大成网站WWW永久麻豆| 亚洲人妻一区二区精品| 国产福利视频区一区二区| 日韩国产av一区二区三区精品| 久久久久人妻精品一区三寸| 又白又嫩毛又多15p| 无码国产偷倩在线播放| 亚洲av成人午夜福利| 在线播放国产女同闺蜜| 亚洲精品一区三区三区在| 亚洲a成人片在线观看| 国产一区二区av天堂热| 亚洲精品综合一区二区三区| 激情国产一区二区三区四| 又黄又刺激又黄又舒服| 精品自拍偷拍一区二区三区| A男人的天堂久久A毛片| 国产成人综合色就色综合| 国产一区二区三区我不卡|