<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      內存吞金獸(Elasticsearch)的那些事兒 -- 數據結構及巧妙算法

      系列目錄

      內存吞金獸(Elasticsearch)的那些事兒 -- 認識一下

      內存吞金獸(Elasticsearch)的那些事兒 -- 數據結構及巧妙算法

      內存吞金獸(Elasticsearch)的那些事兒 -- 架構&三高保證

      內存吞金獸(Elasticsearch)的那些事兒 -- 寫入&檢索原理

      內存吞金獸(Elasticsearch)的那些事兒 -- 常見問題痛點及解決方案

       

      ES 本質上是一個支持全文搜索的分布式內存數據庫,特別適合用于構建搜索系統。ES 之所以能有非常好的全文搜索性能,最重要的原因就是采用了倒排索引。倒排索引是一種特別為搜索而設計的索引結構,倒排索引先對需要索引的字段進行分詞,然后以分詞為索引組成一個查找樹,這樣就把一個全文匹配的查找轉換成了對樹的查找,這是倒排索引能夠快速進行搜索的根本原因。

       

      倒排索引

      一圖勝千言

       

       再舉個例子

      假設我們有這樣兩個商品,一個是煙臺紅富士蘋果,一個是蘋果手機 iPhone XS Max。

      DOCID
      SKUID
      標題
      666 1234 煙臺紅富士蘋果
      888 1235 蘋果手機 iPhone XS Max

      這個表里面的 DOCID 就是唯一標識一條記錄的 ID,和數據庫里面的主鍵是類似的。

      倒排索引的存儲

      TERM
      DOCID
      煙臺 666
      紅富士 666
      蘋果 666,888
      手機 888
      iPhone 888
      XS 888
      Max 888

      可以看到,這個倒排索引的表,它是以單詞作為索引的 Key,然后每個單詞的倒排索引的值是一個列表,這個列表的元素就是含有這個單詞的商品記錄的 DOCID。

      當我們往 ES 寫入商品記錄的時候,ES 會先對需要搜索的字段,也就是商品標題進行分詞。分詞就是把一段連續的文本按照語義拆分成多個單詞。然后 ES 按照單詞來給商品記錄做索引,就形成了上面那個表一樣的倒排索引。當我們搜索關鍵字“蘋果手機”的時候,ES 會對關鍵字也進行分詞,比如說,“蘋果手機”被分為“蘋果”和“手機”。然后,ES 會在倒排索引中去搜索我們輸入的每個關鍵字分詞,搜索結果應該是:

      TERM
      DOCID
      蘋果 666,888
      手機 888

      666 和 888 這兩條記錄都能匹配上搜索的關鍵詞,但是 888 這個商品比 666 這個商品匹配度更高,因為它兩個單詞都能匹配上,所以按照匹配度把結果做一個排序,最終返回的搜索結果就是:

      蘋果Apple iPhone XS Max

      煙臺紅富士蘋果

      這個搜索過程,其實就是對上面的倒排索引做了二次查找,一次找“蘋果”,一次找“手機”。注意,整個搜索過程中,我們沒有做過任何文本的模糊匹配。ES 的存儲引擎存儲倒排索引時,肯定不是像我們上面表格中展示那樣存成一個二維表,實際上它的物理存儲結構和 MySQL 的 InnoDB 的索引是差不多的,都是一顆查找樹。

      elasticsearch中的數據結構

      (當然也是lucene的數據結構

      升級版倒排索引

       

       

       

      組成三部分

      term dictionary

      會根據分詞器對文字進行分詞(也就是圖上所看到的Ada/Allen/Sara..),這些分詞匯總起來叫做Term Dictionary

      優化手段

         該部分的詞會非常非常多,所以es內部對其進行了排序,使用二分查找法來查,故而就不需要遍歷整個詞集

      posting list

      通過分詞找到對應的記錄,這些文檔ID保存在PostingList

      優化手段

          為節約磁盤空間和快速得出交并集結果 。使用FOR以及RBM編碼技術對內容壓縮

      FOR原理

       

       

      RBM原理

       

       

      term index

      由于Term Dictionary的詞實在太多了,不可能把Term Dictionary所有的詞都放在內存中,于是elastic還抽了一層叫做Term Index,這層只存儲 部分 詞的前綴Term Index會存在內存中(檢索會特別快)

      這里遺留一個問題,如果Term Index樹還是很大怎么辦?

      找的時候咋找

           字典里的索引頁一樣,A開頭的有哪些term,分別在哪頁,可以理解term index是一顆樹。通過term index可以快速地定位到term dictionary的某個offset,然后從這個位置再往后順序查找。大大減少了磁盤隨機讀的次數

      優化手段

         為節省內存  ,該部分在內存中是以FST(https://cs.nyu.edu/~mohri/pub/fla.pdf的形式保存的

       

      • 1)空間占用小。通過對詞典中單詞前綴和后綴的重復利用,壓縮了存儲空間;
      • 2)查詢速度快。O(len(str))的查詢時間復雜度。

       


       

       

      更多優化

         當對多個字段進行檢索時,利用了bitmap按位與進行歸并優化(本身也是用bitmap的方式進行了存儲

      # 假設條件為name=fsdm and age=18取出來的數據如下
      [1, 3, 5] ->  10101 
      [1, 2, 4, 5] -> 11011 
      # 這樣兩個二進制數組求與便可得出結果:
      10001 ->  [1, 5] 

       注:在特定場景非bitmap存儲時,使用跳表來進行聯合查詢

      為啥快

      • 磁盤東西盡量搬內存
      • 各種奇技淫巧算法
      • 苛刻態度使用內存

       

      posted @ 2021-08-25 11:36  房上的貓  閱讀(776)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 国产精品国产三级国产试看| 无码人妻一区二区三区兔费| 小鲜肉自慰网站xnxx| 秋霞电影网| 国产成人亚洲综合91精品| 手机在线看片不卡中文字幕| 日韩国产中文字幕精品| 任我爽精品视频在线播放| 亚洲午夜天堂| 少妇高潮尖叫黑人激情在线| 亚洲avav天堂av在线网爱情| 国产女人水真多18毛片18精品| 人妻性奴波多野结衣无码| 成人免费亚洲av在线| 察隅县| 美腿丝袜亚洲综合第一页| 天堂mv在线mv免费mv香蕉| 扎囊县| av天堂午夜精品一区| 东京热人妻无码一区二区av| 免费AV片在线观看网址| 国产一区在线播放无遮挡| 亚洲一区精品伊人久久| 一区二区三区av天堂| 看全色黄大黄大色免费久久| 99久久久无码国产精品免费| 久久九九久精品国产免费直播| 国产福利社区一区二区| 少妇人妻无码专区在线视频| 久久亚洲精品亚洲人av| 亚洲国产成人自拍视频网| 国产偷自视频区视频| 成人网站免费在线观看| 亚洲美免无码中文字幕在线| 泰顺县| 亚洲午夜精品国产电影在线观看| 国产成人影院一区二区三区| 国产精品一区二区中文| 一本久道久久综合久久鬼色| 亚洲国产理论片在线播放| 国产精品色内内在线播放|