【NLP】|01 NLP常見模型(三)LDA
理論:參考鏈接
Beta分布是二項式分布的共軛先驗分布,而狄利克雷(Dirichlet)分布是多項式分布的共軛分布。
共軛的意思是,以Beta分布和二項式分布為例,數據符合二項分布的時候,參數的先驗分布和后驗分布都能保持Beta分布的形式,這種形式不變的好處是,我們能夠在先驗分布中賦予參數很明確的物理意義,這個物理意義可以延續到后續分布中進行解釋,同時從先驗變換到后驗過程中從數據中補充的知識也容易有物理解釋。
計算過程:參考鏈接
文檔-主題矩陣:

主題-單詞矩陣:

參數說明:

訓練方法:

通過樣本的學習不斷調整先驗概率,最后學出一個參數的分布
z為主題詞,w為單詞。所以:
(1)兩個先驗分布分別生成主題詞的分布和單詞的分布

其中|V|是單詞的個數,所以相當于單詞的概率,K是主題的個數,對每個主題,它對每個單詞都有概率。
(2)由主題詞分布生成主題詞,再由主題詞生成單詞


整個LDA訓練的流程:

通過樣本的學習不斷調整先驗概率,最后學出一個參數的分布。
浙公網安備 33010602011771號