個性化搜索引擎調研(三)
七、如何表達用戶興趣與結果的關系?
1、如何有效地處理垃圾信息?(對我們來說,暫無意義)
采用可定制的白名單的方式,過濾掉與用戶無關的、使用戶反感的文檔或網站。
2、如何處理個性化信息(如何建立文檔和用戶興趣關系的表達)?
目的是,建立文檔和用戶興趣之間的關系,實現用戶興趣的建立、更新。
A、矢量空間模型
通常文檔的表達是矢量空間模型,這個很容易理解,將文本文檔看成由一組詞條,對于每一詞條,根據其在文檔中的重要程度賦予一定的權重,所有的文檔都表示用詞條特征矢量來表示,也就保證了文檔和用戶興趣之間相似性計算。
不足之處:
1、預先定義好主題詞表。
2、進行精確匹配不能保證兩個矢量之間存在很多相交的詞。
B、概率統計模型
建立一個領域分類模型,然后計算所有文檔和用戶興趣在這個分類模型上的概率分布,用該概率分布來表達文檔和用戶興趣。用戶在領域分類上更容易產生相似性。概率模型比矢量空間模型能更好地表達了用戶的興趣和變化。
(這是我們可能采用的方式,具體建模及計算概率公式,省略)
C、改進的地方:
概率統計模型實際上是建立另一個搜索引擎,對搜索結果中的每一篇文檔都必須計算其在領域分類模型上的概率分布,這會極大地影響算法的性能,如果該搜索引擎能夠預先計算好每一篇文檔在領域分類模型上的概率分布,則算法的性能會得到很大的提高,從而滿足實時處理的需要。
八、回顧整個個性化搜索引擎的實現流程
整個個性化模塊實現步驟:
1) 對用戶興趣進行收集。
2) 用戶描述信息確定、分類。
3) 資源信息特征選取、分類。
4) 建立用戶和興趣的關聯,興趣和資源的關聯。
5) 利用資源和用戶興趣的關系,計算出搜索結果中的每個文檔和用戶興趣的相似度,并對相似度進行排序。
6) 用戶對搜索結果進行評分(或記錄用戶行為),更新該類用戶的興趣規則。
九、預想的能夠實際實施的個性化搜索方案
只言片語,最終結果需要大家探討。
幾個實施的接入點(劃分模塊):
1) 用戶信息、行為收集、維護。
2) 用戶興趣領域模型的建立。
3) 資源的特征捕獲。
4) 相似度算法植入現有搜索引擎。
搜索后端:
立足在目前Solr引擎,通過改進建立索引時的預測計算、預留字段,對用戶行為改變進行記錄,周期性對某些用戶關注度高的關鍵詞,索引進行預留字段的更新。
搜索前端:
用戶行為分析、隱私保護
十、結語
說到底,個性化搜索引擎技術難點主要在數據挖掘和語義分析,而優秀和卓越的差距不外乎于這兩點關鍵。
對于目前屬于爭取做到優秀的我們而言,用戶需求和產品設計本身也是較為重要的內外在因素。
參考文獻:
1、曾春:《基于內容過濾的個性化搜索算法》,清華大學,2003
2、林潔:《基于用戶的個性化綜合倒排索引》,貴州電子科技信息技術學院,2008
3、魏小梅:《個性化搜索引擎技術探討》,華中理學院,2006
4、王秀坤:《垂直搜索引擎及其個性化推薦研究 》,大連理工大學,2009

浙公網安備 33010602011771號