內存吞金獸(Elasticsearch)的那些事兒 -- 寫入&檢索原理

系列目錄

客戶端寫入一條數據，到Elasticsearch集群里邊就是由協調節點來處理這次請求：

集群上的每個節點都是coordinating node，表明這個節點可以做路由。比如節點1接收到了請求，但發現這個請求的數據應該是由節點2處理（因為主分片在節點2上），所以會把請求轉發到節點2上。

Elasticsearch會把數據先寫入內存緩沖區，然后每隔1s刷新到文件系統緩存區（當數據被刷新到文件系統緩沖區以后，數據才可以被檢索到）。所以：Elasticsearch寫入的數據需要1s才能查詢到
為了防止節點宕機，內存中的數據丟失，Elasticsearch會另寫一份數據到日志文件上，但最開始的還是寫到內存緩沖區，每隔5s才會將緩沖區的刷到磁盤中。所以：Elasticsearch某個節點如果掛了，可能會造成有5s的數據丟失。
等到磁盤上的translog文件大到一定程度或者超過了30分鐘，會觸發commit操作，將內存中的segment文件異步刷到磁盤中，完成持久化操作。

說白了就是：寫內存緩沖區（定時去生成segment，生成translog），能夠讓數據能被索引、被持久化。最后通過commit完成一次的持久化。

等主分片寫完了以后，會將數據并行發送到副本集節點上，等到所有的節點寫入成功就返回ack給協調節點，協調節點返回ack給客戶端，完成一次的寫入。

給對應的doc記錄打上.del標識，如果是刪除操作就打上delete狀態，如果是更新操作就把原來的doc標志為delete，然后重新新寫入一條數據
前面提到了，每隔1s會生成一個segment 文件，那segment文件會越來越多越來越多。Elasticsearch會有一個merge任務，會將多個segment文件合并成一個segment文件。在合并的過程中，會把帶有delete狀態的doc給物理刪除掉。

es的檢索主要分為兩大類

QUERY_AND_FETCH（查詢完就返回整個Doc內容）
QUERY_THEN_FETCH（先查詢出對應的Doc id ，然后再根據Doc id 匹配去對應的文檔）
DFS_QUERY_THEN_FETCH（先算分，再查詢）
- 「這里的分指的是 詞頻率和文檔的頻率（Term Frequency、Document Frequency）眾所周知，出現頻率越高，相關性就更強」

一般我們用得最多的就是QUERY_THEN_FETCH，第一種查詢完就返回整個Doc內容（QUERY_AND_FETCH）只適合于只需要查一個分片的請求。

QUERY_THEN_FETCH總體的大概流程流程：

Query Phase階段時節點做的事：

Fetch Phase階段時節點做的是：

posted @ 2021-08-25 11:51 房上的貓閱讀(638) 評論(0) 收藏舉報

刷新頁面返回頂部