LSTM之父向何愷明開炮:我學生才是殘差學習奠基人
微信視頻號:sph0RgSyDYV47z6
快手號:4874645212
抖音號:dy0so323fq2w
小紅書號:95619019828
B站1:UID:3546863642871878
B站2:UID: 3546955410049087
何愷明殘差學習奠基人的身份,也被“挑戰”了。
為什么要說“也”?因為發起討論的,又雙叒是我們熟悉的Jürgen Schmidhuber——LSTM之父。
不過這一次,他不是要把功勞攬到自己身上,而是替LSTM的另一位作者Sepp Hochreiter發聲:
殘差學習這把改變深度學習格局的 “鑰匙”,其實早在30年前就已經誕生——Sepp Hochreiter在1991年就在使用循環殘差連接解決梯度消失問題。
添加圖片注釋,不超過 140 字(可選)
有一說一,Jürgen爭title也不是第一次了,作為深度學習的先驅者,Jürgen自認為自己的早期貢獻被人為忽視了。
ResNet發布的同年,深度學習三巨頭Bengio、Hinton、LeCun在Nature上聯合發表有關DL的綜述論文,其中大量引用他們三人的自身成果,卻對Jürgen等人只字不提。
隨即他們展開了長達多年的爭論,尤其是在18年的圖靈獎結果公布后,Jürgen更是洋洋灑灑寫了篇援引200多條文獻的小作文反擊。
之后在GAN的原創爭議上,雙方也是爭執不休,要知道GAN的提出者正是Bengio的得意門生。
而如今有關殘差學習的創始之爭,也是因為Jürgen自認為將殘差學習這一成果的發現完全歸因于何愷明團隊有失偏頗。
不過正如網友所說:
從Hochreiter到ResNet,光芒隨時間遞歸延續。陰影是被模糊的歸屬,但真理始終不變:1991年的種子閃耀著每一層。
添加圖片注釋,不超過 140 字(可選)
30年前的第一次提出
Jürgen Schmidhube這次要講的故事始于1991年。
當時還是Jürgen學生的Sepp Hochreiter,正在著手撰寫自己的博士論文,也正是在這篇論文里,他首次系統性分析了RNN的梯度消失問題,并提出用循環殘差連接解決。
添加圖片注釋,不超過 140 字(可選)
循環殘差連接的核心思想相當簡單:一個具有恒等激活函數的神經單元自連接,且權重固定為1.0,使其在每個時間步中僅將輸入疊加到先前狀態,該單元只作為增量積分器存在。
于是誤差信號就能在反向傳播中保持恒定,不會消失或爆炸。
不過與此前任意實數權重的自連接不同,只有權重嚴格為1.0,才能完全避免梯度問題。
接近1.0的近似值雖然可以接受,但衰減速度會隨時間加快,例如0.99的權重下誤差信號會在100個時間步后減少到原來的37%(0.991??≈37%),0.9的權重則只有原來的0.0027%(0.91??≈0.0027%)。
但盡管如此,這也為后來的深度學習殘差思想奠定了理論基礎。
添加圖片注釋,不超過 140 字(可選)
直到1997年,Jürgen和Hochreiter共同提出了著名的LSTM,在該理論的基礎上實現了進一步的擴展。
LSTM的核心單元是權重為1.0的循環殘差連接,也就是恒定誤差輪盤(CECs),這一機制保證了誤差可在數百乃至數千時間步中保持不衰減,使LSTM能有效捕捉輸入與輸出之間的長時間滯后,對語音、語言等任務至關重要。
另外這篇LSTM論文也是20世紀引用次數最多的人工智能論文。
1999年,LSTM演變出新的形態vanilla LSTM,在原來的基礎上加入了初始值為1.0的遺忘門,使其具備可控的殘差連接,既能保持長時依賴,又能在需要時重置記憶。
雖然這樣做會重新引入一定的梯度消失,不過整體仍然處于可控狀態。
到2005年,通過時間反向傳播 (BPTT)算法,LSTM可以展開為深度前饋神經網絡 (FNN),讓每個輸入序列的時間步都對應一個虛擬層,從而大幅增加了網絡深度,可以處理更長時間滯后。 而無論是循環還是前饋,殘差連接始終依賴權重固定為1.0。
接下來就是眾所周知的2015年,首先在同年5月,需要優先提及Highway網絡的貢獻。
添加圖片注釋,不超過 140 字(可選)
此前,基于反向傳播的前饋神經網絡的深度有限,只有20到30層,直到Highway網絡的出現,才首次成功訓練出上百層的深度前饋網絡,比過去要深10倍以上。
其核心是將LSTM的門控殘差思想從循環神經網絡引入前饋網絡,每層輸出為g(x)x+t(x)h(x),其中x是來自前一層的數據,g、t、h表示帶實值的非線性可微函數。
關鍵的殘差部分g(x)x初始化為1.0,讓Highway網絡既能保持類似ResNet的純殘差連接,又能根據任務需要,以依賴上下文的方式自適應調整殘差流,從而大幅提升深度可訓練性。
添加圖片注釋,不超過 140 字(可選)
最后再到12月,ResNet在ImageNet競賽中大獲成功,徹底將殘差學習帶入大眾視線。
ResNet在殘差部分設計上,與展開的LSTM以及初始化的Highway網絡相似,如果將Highway網絡的門恒定設置為1.0,就可以得到純殘差網絡ResNet,而它們本質上都是1997年的LSTM前饋變體。
ResNet的殘差連接允許誤差在深層網絡中穩定傳播,使網絡能夠訓練數百層,但Jürgen也指出,ResNet論文中并沒有明確說明它實際上就是開部門控的Highway網絡,二者之間存在相似的標準殘差連接。
添加圖片注釋,不超過 140 字(可選)
總結就是,LSTM與Highway網絡分別奠定了循環和前饋網絡的深度訓練基礎,ResNet則將這一原理成功應用于前饋網絡,延續了自1991年Hochreiter首創的殘差思想。
One More Thing
不過,這種說法目前僅代表Jürgen Schmidhuber的個人觀點。(疊甲doge)
因為這已經不是他第一次對著名神經網絡的起源提出質疑。
早在2021年,他就公開表示,LSTM、ResNet、AlexNet、VGG Net、GAN以及Transformer,都是受到了他實驗室成果的啟發。
添加圖片注釋,不超過 140 字(可選)
例如他認為AlexNet和VGG Net采用了他們的DanNet;GAN是對他在1990年提出的Adversarial Curiosity原則的應用;Transformer的變體,即線性Transformer,是對他提出的快速權重存儲系統的延伸。
但除了無可爭議的LSTM歸屬,其他幾項至今都沒有得到普遍認可。
甚至衍生出這樣一種說法:“Schmidhuber is all you need.”
添加圖片注釋,不超過 140 字(可選)
微信視頻號:sph0RgSyDYV47z6
快手號:4874645212
抖音號:dy0so323fq2w
小紅書號:95619019828
B站1:UID:3546863642871878
B站2:UID: 3546955410049087
參考文獻鏈接
[1]https://x.com/SchmidhuberAI/status/1972300268550369631
[2]https://people.idsia.ch/~juergen/who-invented-residual-neural-networks.html
人工智能芯片與自動駕駛

浙公網安備 33010602011771號