全文檢索、數據挖掘、推薦引擎系列5---文章術語向量表示法
摘要:
無論是要進行全文檢索,還是對文章進行自動聚類分析,都需要將文章表示為術語向量(Term Vector),在Lucene內部就是通過術語向量來對文章進行索引和搜索的,但是Lucene沒有向外提供合適的術語向量計算接口,所以對術語向量計算還必須我們自己來做。術語向量解述眾所周知,一篇文章由一個個的單詞組成,我們在進行文本處理時,首先進行中文分詞,包括去除“的、地、得”等常用停止詞,對關鍵詞加上同義詞,如縮寫和全稱,如果是英文可能還需要變為小寫,去除復數和過去分詞等,可能還需要提取詞根,總之經過上述步聚的預處理,文章將變成由一系列單詞組成的字符串數組。對一系統中的每一篇文章,我們首先計算每個單詞的出 閱讀全文
posted @ 2011-08-26 17:17 最老程序員閆濤 閱讀(1757) 評論(3) 推薦(4)
浙公網安備 33010602011771號