全文檢索、數據挖掘、推薦引擎系列3---全文內容推薦引擎之中文分詞
摘要:
基于內容的推薦引擎有兩種實現途徑,一種是根據條目的元數據(可以將元數據理解為屬性),另一種是根據條目的文本描述信息。本系列中將先描述基于條目描述信息的全文檢索實現方式,然后描述基于元數據的內容推薦引擎實現方式。對于基于條目文本描述信息的內容推薦引擎,目前有很多資料可以參考,基本步聚是先對文本內容進行分詞,包括提取出單詞、去掉常用詞如的地得、加入同意詞、對英語還有去掉復數形式和過去分詞形式等;第二步是計算各個詞在每篇文章中的出現頻率,以及在所有文章中的出現頻率,即TF/IDF;第三步計算文章向量;最后是利用自動聚類算法,對條目進行聚類,這樣就可以實現向用戶推薦同類產品的需求了。但是在這里有一個非 閱讀全文
posted @ 2011-08-16 11:30 最老程序員閆濤 閱讀(2935) 評論(2) 推薦(4)
浙公網安備 33010602011771號