關于TF(詞頻) 和TF-IDF(詞頻-逆向文件頻率 )的理解
##TF-IDF
TF(詞頻): 假定存在一份有N個詞的文件A,其中‘明星‘這個詞出現的次數為T。那么 TF = T/N;
所以表示為: 某一個詞在某一個文件中出現的頻率.
TF-IDF(詞頻-逆向文件頻率): 表示的詞頻和逆向文件頻率的乘積.
比如: 假定存在一份有N個詞的文件A,其中‘明星‘這個詞出現的次數為T。那么 TF = T/N; 并且‘明星’這個詞,在W份文件中出現,而總共有X份文件,那么
IDF = log(X/W) ;
而: TF-IDF = TF * IDF = T/N * log(X/W); 我們發現,‘明星’,這個出現在W份文件,W越小 TF-IDF越大,也就是這個詞越有可能是該文檔的關鍵字,而不是習慣詞(類似于:‘的’,‘是’,‘不是’這些詞),
而TF越大,說明這個詞在文檔中的信息量越大.
編程是一種快樂,享受代碼帶給我的樂趣?。?!


浙公網安備 33010602011771號