真·淺隨筆·學習記錄

一、為什么一開始選用Bert模型作為最后意圖分類項目模型

Attention is all you need. Bert能很好的學習帶有上下文語境的詞向量和句子的前后順序，但也有不足就是不能用來生成句子/詞，畢竟其不是一個預測模型。

網絡結構：完全雙向，層數深，可表征的函數空間足夠大，self-attention 克服了長距離依賴問題
預訓練任務設計好：除了LM任務之外，加了句子級別的任務，有利于句子語義的表示和學習
訓練語料大，訓練充分

二、于是關注到了Transformer、BERT、GPT、ELMo的架構對比、優缺點對比、功能目的對比。

（Transformer是我建模整個過程的基礎，之前對其的了解不深，接下來首先是對其的統籌學習；GPT眼熟主要是最近熱門的Chat GPT以及GPT4.0著實令人震撼；ELMo不是很了解，將作為其與其他的對比學習）

架構對比

Model Architecture Difference

Transformer Encoder + Decoder

BERT Transformer's Encoder

GPT Transformer's Decoder

ELMo Concatenate left-to-right LSTM and right-to-left LSTM
優缺點對比

Model Good Bad

BERT Great representation can't generate text

GPT can generate text OK representation

ELMo NA OK representation

作用

Model	Function
Transformer	翻譯（e.g. French - English)
BERT	學習詞向量， Question & Answering,Sentiment classification,get word features
GPT	predict & generate （文章生成器）
ELMo	學習詞向量, get word features

能否自回歸

Model Auto regressive?

Transformer NA

BERT No

GPT Yes

ELMo Yes(forward and backwad)

三、NNLM → Word2Vec → Seq2Seq → Seq2Seq with Attention → Transformer → Elmo → GPT → BERT （爬樓梯進行系統學習）

學習 Transformer通俗筆記：從Word2Vec、Seq2Seq逐步理解到GPT、BERT-CSDN博客

一、一系列預訓練模型原因：

很多機器學習模型都需要運用帶標簽的數據集進行訓練
但是目前已有的存在大量沒有標注的數據
訓練數據少則很難很好地訓練這么復雜的網絡，但如果 1 先把好用的這些大模型的大量參數通過大的訓練集合初始化大模型的大部分參數，2 再通過手頭上少的數據去Fine-tuning(即微調參數)，更適合解決當前的任務

二、Word Embedding后，很容易找出語義相近的其它詞匯

三、N-gram模型→NNLM → Word2Vec

N-gram模型：（語言模型都）是為了使得條件概率 $P(w_t|w_1,w_2,..,w_{t-1})$ 最大化，不過當前詞只與距離它比較近的 $n$ 個詞更加相關(一般 $n$ 不超過5，所以局限性很大)
NNLM(神經網絡語言模型)：核心是一個多層感知機（MLP），它將詞向量序列映射到一個固定長度的向量表示，然后將這個向量輸入到一個softmax層中，計算出下一個詞的概率分布。該模型不會只推薦一個單詞，實際上，它對所有它知道的單詞(模型的詞庫，可能有幾千到幾百萬個單詞)均按可能性打分，最終輸入法程序選出其中分數最高的推薦給用戶，模型的輸出就是模型所知單詞的概率評分，就像我實現文章評分優先推薦功能的思想。
Word2Vec的兩種架構：CBOW(連續詞袋，以上下文詞匯預測當前詞)->Skipgram(以當前詞預測上下文詞匯)模型

傳統的one-hot 編碼僅僅只是將詞符號化，不包含任何語義信息。而且詞的獨熱表示（one-hot representation）是高維的，且在高維向量(詞典有多大就有多少維，一般至少上萬的維度)中只有一個維度描述了詞的語義。所以我們需要解決兩個問題：1 需要賦予詞語義信息，2 降低維度。Word2vec 最有價值的是讓不帶語義信息的詞帶上了語義信息，其次把詞語從 one-hot encoder 形式的表示降維到 Word2vec 形式的表示。

四、Seq2Seq(從一個序列到另一個序列)→Encoder-Dencoder(RNN/LSTM與GRU)模型

Seq2Seq with Attention(解決信息過長導致信息丟失)：計算相似性得出權重最后加權求和

五、Transformer 大規模預訓練時代

編碼：自注意力機制，1 通過生成查詢向量、鍵向量和值向量后計算得分用softmax后加權求和 2 通過矩陣運算計算查詢矩陣、鍵矩陣和值矩陣用softmax矩陣運算形式后實現；多頭注意力機制，每個注意力頭，只關注最終輸出序列中的一個子空間，互相獨立，有助于網絡捕捉到更豐富的特征信息。
CNN：提取的是局部特征，對于文本數據，忽略了長距離的依賴，CNN在文本中的編碼能力低于RNN；RNN：1 對于每個輸出的隱向量，包含信息最多的是當前的輸入，隨著距離的增加，信息衰減的越多 2 RNN是一個順序的結構，隱向量無法同時并行計算，導致RNN的計算效率不高；But Transformer：1 包含其他詞的信息不取決于當前詞與其的距離，而是取決于兩者的相關性 2 在對當前詞進行計算的時候，不僅可以用到前面的詞，也可以用到后面的詞，而RNN只能用到前面的詞(但也可以通過雙向RNN來解決) 3 隱向量可并行計算。
RNN的結構包含了序列的時序信息，而Transformer卻完全把時序信息給丟掉了-->位置編碼，即將每個位置編號，從而每個編號對應一個向量，最終通過結合位置向量和詞向量，作為輸入embedding，就給每個詞都引入了一定的位置信息，這樣Attention就可以分辨出不同位置的詞。
解碼：求和與歸一化，解碼器中自注意力層。
線性層、softmax層，Decoder輸出的向量變成一個詞。
訓練過程：1 預處理階段，創建詞匯表 2 訓練，隨機初始化one-hot編碼、損失函數、反向傳播。
影響力：OpenAI基于它發展出了GPT，并不斷迭代出GPT2、GPT3、GPT3.5及火爆全球的 ChatGPT、GPT4.0；Google則基于它發展出了在ChatGPT出現之前統治NLP各大任務的BERT。

六、BERT集大成

Word Embedding(無法區分多義詞的不同語義)-->ELMO(“Embedding from Language Models”，根據上下文動態調整，雙層雙向LSTM預訓練+特征融合(將預訓練的參數與特定任務的參數進行融合)，雖然采用的雙向結構，但兩個方向是彼此獨立訓練的(偽雙向)，1 LSTM提取特征能力弱于Transformer 2 采用雙向拼接特征融合能力弱于一體化的Bert) / GPT(“Generative Pre-Training”，生成式預訓練，單向Transformer預訓練+Fine-tuning，1 特征抽取器用的Transformer，解碼器Decoder模塊，GPT使用的Transformer結構就是將Encoder中的Self-Attention替換成了Masked Self-Attention，從而每個位置的詞看不到后面的詞，拋棄下文只通過上文預測單詞 2 GPT的預訓練雖然仍然是以語言模型作為目標任務，但是采用的是單向的語言模型)-->BERT(雙向Transformer預訓練+Fine-tuning，解碼器Encoder模塊)。
優勢：1 特征抽取器用的Transformer 2 預訓練采用雙向語言模型(綜合ELMO的雙向優勢和GPT的Transformer特征提取優勢)
創新點：1 Masked語言模型(完形填空) 2 Next Sentence Prediction(判斷句子B是否是句子A的下文) 3 多任務或多目標的訓練過程
BERT的輸入部分是個線性序列，兩個句子之間通過分隔符「SEP」分割，最前面是起始標識「CLS」，每個單詞有三個embedding疊加: 1 單詞embedding 2 句子embedding，用于區分兩個句子，例如B是否是A的下文（對話場景，問答場景等）3 位置信息embedding，句子有前后順序，組成句子的單詞也有前后順序，單詞順序是很重要的特征，要對位置信息進行編碼。
BERT的輸出部分：0 第一個字符位置CLS對應Transformer輸出分類結果 1 獲得Masked word 位置信息，掩碼取出，不定長 2 套上隱層 3 結果和詞典對應單詞矩陣乘法，即算e[masked]*e[dictionary word i]的內積，相似性 4 套上softmax預測最可能的單詞 5 累加loss

posted @ 2023-03-26 19:23 哦呦aholic 閱讀(97) 評論(0) 收藏舉報

刷新頁面返回頂部

Model	Architecture Difference
Transformer	Encoder + Decoder
BERT	Transformer's Encoder
GPT	Transformer's Decoder
ELMo	Concatenate left-to-right LSTM and right-to-left LSTM

Model	Good	Bad
BERT	Great representation	can't generate text
GPT	can generate text	OK representation
ELMo	NA	OK representation

Model	Auto regressive?
Transformer	NA
BERT	No
GPT	Yes
ELMo	Yes(forward and backwad)

哦呦aholic

真·淺隨筆·學習記錄

公告