個性化搜索引擎調研(二)
五、用戶描述信息的表達與更新、資源特征選取與表達
1、用戶描述信息表達與更新
基于內容信息過濾來說,同樣需要用戶的參與。為了跟蹤用戶的興趣和行為,需要為每個用戶建立一個用戶描述文件(User Profile),用戶描述文件可以包括個人信息、個人興趣、行為模式、以及用戶間的關系等。具體描述信息參見第六節。
A、用戶描述文件的建立。
從四個角度考慮:
內容:基于興趣和基于行為?
粒度:一個用戶一個描述或多個描述,還是一類用戶共享一個描述?
時效性:短期的或長期的?
存儲:是用文件來組織,還是用關系數據庫或其它數據庫來存儲、XML數據?
B、用戶描述文件的更新。
動態更新用戶的興趣可以提高個性化服務的質量。用戶第一次使用時,用戶注冊自己的基本信息和感興趣的內容,也可以隱式地收集用 戶信息。在定制好一個用戶描述文件后,可以讓用戶自主修改,也可以自適應地修改,這樣,隨用戶興趣的變化而變化。
用戶跟蹤:顯式跟蹤(很少有用戶向系統主動表達自己的喜好)和隱式跟蹤(行為跟蹤、日志挖掘)
標記書簽、瀏覽頁面和拖動滾動條所花時間能有效地揭示用戶的興趣。收集用戶感興趣的領域,有利于對用戶感興趣的內容進行分類。
2、資源的特征選取與表達
資源的表達需要獲取資源的特征,并表示為合適的方式。
基于內容的方法:從文檔本身抽取信息來表示文檔,利用特征詞條及其權值來表示。(特征選取)
基于分類的方法:基于分類的方法是利用類別來表示資源,將文檔資源分類有利于將文檔推薦給對該類文檔感興趣的用戶。(聚類算法)
六、個性化搜索里的個性化究竟代表哪些層面和因素?
個性化中的用戶層面:
頂級域名(TLD,Top Level Domain)的地理位置
IP地址
對查詢的地理位置分析
技術方面的因素
瀏覽器
操作系統
移動設備
時間因素
當前在一天中的時間因素
當前在一年中的時間因素
歷史性數據
行為性因素
搜索的歷史數據
與搜索結果頁(SERP)互動的數據
選擇率和跳出率的數據
和廣告的互動操作
瀏覽習慣(常用用戶 – 更新鮮的結果)
可能的個性化因素
社會化搜索
人口統計學(指使用者的年齡、職業等個人信息)
瀏覽歷史(隱性數據)

浙公網安備 33010602011771號