探秘Transformer系列之文章列表
探秘Transformer系列之文章列表
0x01 系列說明
因為各種事情,好久沒有寫博客了,之前寫得一些草稿也沒有時間整理(都沒有時間登錄博客和微信,導(dǎo)致最近才發(fā)現(xiàn)好多未讀消息和私信,在這里和各位朋友說下萬分抱歉)。現(xiàn)在恢復(fù)更新,是因為最近有些從非AI領(lǐng)域轉(zhuǎn)過來的新同學來找我詢問是否有比較好的學習資料,他們希望在短期內(nèi)迅速上手 Transformer。我在網(wǎng)上找了下,但是沒有找到非常合適的系統(tǒng)的學習資料,于是就萌發(fā)了自己寫一個系列的想法,遂有此系列。在整理過程中,我也發(fā)現(xiàn)了自己很多似是而非的錯誤理解,因此這個系列也是自己一個整理、學習和提高的過程。
本系列試圖從零開始解析Transformer,目標是:
- 解析Transformer如何運作,以及為何如此運作,讓新同學可以入門Transformer。
- 力爭融入一些比較新的或者有特色的論文或者理念,讓老鳥也可以通過閱讀本系列來了解一些新觀點,有所收獲。
幾點說明:
- 本系列是對論文、博客和代碼的學習和解讀,借鑒了很多網(wǎng)上朋友的文章,在此表示感謝,并且會在參考中列出。因為本系列參考文章太多,可能有漏給出處的現(xiàn)象。如果原作者發(fā)現(xiàn),還請指出,我在參考文獻中進行增補。
- 本系列有些內(nèi)容是個人梳理和思考的結(jié)果(反推或者猜測),可能和原始論文作者的思路或者與實際歷史發(fā)展軌跡不盡相同。這么寫是因為這樣推導(dǎo)讓我覺得可以給出直觀且合理的解釋。如果理解有誤,還請各位讀者指出。
- 對于某些領(lǐng)域,這里會融入目前一些較新的或者有特色的解釋,因為筆者的時間和精力有限,難以閱讀大量文獻。如果有遺漏的精品文獻,也請各位讀者指出。
0x02 目錄
探秘Transformer系列之(2)---總體架構(gòu)
探秘Transformer系列之(3)---數(shù)據(jù)處理
探秘Transformer系列之(4)--- 編碼器 & 解碼器
探秘Transformer系列之(7)--- embedding
探秘Transformer系列之(12)--- 多頭自注意力
探秘Transformer系列之(14)--- 殘差網(wǎng)絡(luò)和歸一化
探秘Transformer系列之(18)--- FlashAttention
探秘Transformer系列之(19)----FlashAttention V2 及升級版本
探秘Transformer系列之(20)--- KV Cache
探秘Transformer系列之(24)--- KV Cache優(yōu)化
探秘Transformer系列之(25)--- KV Cache優(yōu)化之處理長文本序列
探秘Transformer系列之(26)--- KV Cache優(yōu)化---分離or合并
探秘Transformer系列之(27)--- MQA & GQA
探秘Transformer系列之(28)--- DeepSeek MLA
浙公網(wǎng)安備 33010602011771號