全文檢索、數據挖掘、推薦引擎系列---去除停止詞添加同義詞
摘要:
Lucene對文本解析是作為全文索引及全文檢索的預處理形式出現的,因此在一般的Lucene文檔中,這一部分都不是重點,往往一帶而過,但是對于要建立基于文本的內容推薦引擎來說,卻是相當關鍵的一步,因此有必要認真研究一下Lucene對文解析的過程。Lucene對文本的解析對用戶的接口是Analyzer的某個子類,Lucene內置了幾個子類,但是對于英文來說StandardAnalyzer是最常用的一個子類,可以處理一般英文的文解析功能。但是對于漢字而言,Lucene提供了兩個擴展包,一個是CJKAnalyzer和SmartChineseAnalyzer,其中SmartAnalyzer對處理中文分詞 閱讀全文
posted @ 2011-08-19 17:13 最老程序員閆濤 閱讀(2538) 評論(2) 推薦(4)
浙公網安備 33010602011771號