<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      淺談文檔索引普遍原理<筆記>

       

      --lvpei.cnblogs.com

      搜索引擎普遍采用全文檢索技術,而其處理的大規模文檔本身都是非結構或半結構化信息,文檔索引技術是信息全文檢索和快速查詢的基礎。

      一、索引概述

      索引是一種數據存儲的組織結構。索引器用來完成信息索引的建立,維護和管理索引的功能。

      倒排索引是一種高效率的索引組織方式,采用字或詞作為索引項,能夠很好的支持多種檢索模型,提供高性能的檢索。搜索引擎的索引使用了傳統信息檢索中的索引模型。索引結構通常組織成按照索引項排列的鏈表形式,在檢索時,使用檢索詞和索引項進行匹配,直接定位在檢索結果所在的列表。

       

      二、索引器上下環境

      索引器從原始文檔中抽取索引項,用于表示文檔,并生成文檔集合的索引表。索引器運行環境涉及到的主要內容是文本預處理和檢索數據庫。主要包括原始文本庫(網頁或者文檔),文本解析器(分析網頁和文檔內容,統一為無格式文檔或者中間格式文檔),文本中間格式庫(去除噪音垃圾信息,完成分詞之后的純文本或者統一的中間格式),索引器(對解析器處理的結果信息進行處理,利用預設的索引項字典建立按索引項排列的鏈表,并動態更改索引字典),索引字典(詞和編碼的二元組結構數據庫),文本索引庫(以索引形式組織存放的數據文件)。

       

      三、倒排索引原理

      索引技術的核心機制是倒排索引結構。大規模數據一般都是文件形式存儲,倒排索引是利用索引關鍵字直接確定文檔列表,最后確定希望找到的文檔本身。

       

      四、索引分類

      索引的分類一般從兩個角度考慮,索引處理的索引項的類型(字索引、詞索引、短語索引、混合索引)和索引建立更新的形式(靜態和動態)。

       

      五、高性能索引的關注方向

      1-如何提高索引建立的速度。

      2-如何減少索引的資源占用。

      3-索引使用當中如何合理分配有限的內存資源。

      4-如何提高資源的訪問速度。

      posted @ 2010-05-10 23:20  abstractwind  閱讀(679)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 潮喷无码正在播放| 国产精品久久蜜臀av| 青青青视频免费一区二区| 欧美白妞大战非洲大炮| 国产一区二区三区乱码在线观看| 成人啪精品视频网站午夜| 久久成人影院精品777| 免费看黄色亚洲一区久久| 少妇尿尿一区二区在线免费| 亚洲成aⅴ人在线观看| 国产精品亚洲二区在线播放| 中文字幕久久波多野结衣av| 国产精品啪| 国产情侣激情在线对白| 久久精品免视看国产成人| 99精品伊人久久久大香线蕉| 日日躁夜夜躁狠狠躁超碰97| 免费人妻无码不卡中文字幕18禁| 精品国产一区二区在线视| 国产二区三区不卡免费| 狠狠躁天天躁中文字幕无码| 国产成人综合久久亚洲av| 成年无码av片在线蜜芽| 久久国产成人高清精品亚洲| 亚洲黄色第一页在线观看| 爆乳2把你榨干哦ova在线观看| 亚洲熟妇色xxxxx欧美老妇| 人妻精品中文字幕av| 忘忧草社区在线www| 人妻中文字幕av资源站| 国产在线一区二区不卡| 日日躁夜夜躁狠狠久久av| 91一区二区三区蜜桃臀| 韩国免费a级毛片久久| 国模冰莲自慰肥美胞极品人体图| 国内精品人妻无码久久久影院导航 | 成人午夜在线观看日韩| 亚洲国产片一区二区三区| 国内不卡一区二区三区| 吐鲁番市| 久久久久人妻精品一区三寸|