淺談文檔索引普遍原理<筆記>
--lvpei.cnblogs.com
搜索引擎普遍采用全文檢索技術,而其處理的大規模文檔本身都是非結構或半結構化信息,文檔索引技術是信息全文檢索和快速查詢的基礎。
一、索引概述
索引是一種數據存儲的組織結構。索引器用來完成信息索引的建立,維護和管理索引的功能。
倒排索引是一種高效率的索引組織方式,采用字或詞作為索引項,能夠很好的支持多種檢索模型,提供高性能的檢索。搜索引擎的索引使用了傳統信息檢索中的索引模型。索引結構通常組織成按照索引項排列的鏈表形式,在檢索時,使用檢索詞和索引項進行匹配,直接定位在檢索結果所在的列表。
二、索引器上下環境
索引器從原始文檔中抽取索引項,用于表示文檔,并生成文檔集合的索引表。索引器運行環境涉及到的主要內容是文本預處理和檢索數據庫。主要包括原始文本庫(網頁或者文檔),文本解析器(分析網頁和文檔內容,統一為無格式文檔或者中間格式文檔),文本中間格式庫(去除噪音垃圾信息,完成分詞之后的純文本或者統一的中間格式),索引器(對解析器處理的結果信息進行處理,利用預設的索引項字典建立按索引項排列的鏈表,并動態更改索引字典),索引字典(詞和編碼的二元組結構數據庫),文本索引庫(以索引形式組織存放的數據文件)。
三、倒排索引原理
索引技術的核心機制是倒排索引結構。大規模數據一般都是文件形式存儲,倒排索引是利用索引關鍵字直接確定文檔列表,最后確定希望找到的文檔本身。
四、索引分類
索引的分類一般從兩個角度考慮,索引處理的索引項的類型(字索引、詞索引、短語索引、混合索引)和索引建立更新的形式(靜態和動態)。
五、高性能索引的關注方向
1-如何提高索引建立的速度。
2-如何減少索引的資源占用。
3-索引使用當中如何合理分配有限的內存資源。
4-如何提高資源的訪問速度。

浙公網安備 33010602011771號