<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      自己動手寫SQL執(zhí)行引擎

      自己動手寫SQL執(zhí)行引擎

      前言

      在閱讀了大量關于數(shù)據(jù)庫的資料后,筆者情不自禁產(chǎn)生了一個造數(shù)據(jù)庫輪子的想法。來驗證一下自己對于數(shù)據(jù)庫底層原理的掌握是否牢靠。在筆者的github中給這個database起名為Freedom。

      整體結構

      既然造輪子,那當然得從前端的網(wǎng)絡協(xié)議交互到后端的文件存儲全部給擼一遍。下面是Freedom實現(xiàn)的整體結構,里面包含了實現(xiàn)的大致模塊:

      最終存儲結構當然是使用經(jīng)典的B+樹結構。當然在B+樹和文件系統(tǒng)block塊之間的轉換則通過Buffer(Page) Manager來進行。當然了,為了完成事務,還必須要用WAL協(xié)議,其通過Log Manager來操作。
      Freedom采用的是索引組織表,通過DruidSQL Parse來將sql翻譯為對應的索引操作符進而進行對應的語義操作。

      MySQL Protocol結構

      client/server之間的交互采用的是MySQL協(xié)議,這樣很容易就可以和mysql client以及jdbc進行交互了。

      query packet

      mysql通過3byte的定長包頭去進行分包,進而解決tcp流的讀取問題。再通過一個sequenceId來再應用層判斷packet是否連續(xù)。

      result set packet

      mysql協(xié)議部分最復雜的內容是其對于result set的讀取,在NIO的方式下加重了復雜性。
      Freedom通過設置一系列的讀取狀態(tài)可以比較好的在Netty框架下解決這一問題。

      row packet

      還有一個較簡單的是對row格式進行讀取,如上圖所示,只需要按部就班的解析即可。

      由于協(xié)議解析部分較為簡單,在這里就不再贅述。

      SQL Parse

      Freedom采用成熟好用的Druid SQL Parse作為解析器。事實上,解析sql就是將用文本表示
      的sql語義表示為一系列操作符(這里限于篇幅原因,僅僅給出select中where過濾的原理)。

      對where的處理

      例如where后面的謂詞就可以表示為一系列的以樹狀結構組織的SQL表達式,如下圖所示:

      當access層通過游標提供一系列row后,就可以通過這個樹狀表達式來過濾出符合where要求的數(shù)據(jù)。Druid采用了Parse中常用的visitor很方便的處理上面的表達式計算操作。

      對join的處理

      對join最簡單處理方案就是對兩張表進行笛卡爾積,然后通過上面的where condition進行過濾,如下圖所示:

      Freedom對于縮小笛卡爾積的處理

      由于Freedom采用的是B+樹作為底層存儲結構,所以可以通過where謂詞來界定B+樹scan(搜索)的范圍(也即最大搜索key和最小搜索key在B+樹種中的位置)??紤]sql

      select a.*,b.* from t_archer as a join t_rider as b where a.id>=3 and a.id<=11 and b.id>=19 and b.id<=31
      

      那么就可以界定出在id這個索引上,a的scan范圍為[3,11],如下圖所示:

      b的scan范圍為[19,31],如下圖所示(假設兩張表數(shù)據(jù)一樣,便于繪圖):

      scan少了從原來的15*15(一共15個元素)次循環(huán)減少到4*4次循環(huán),即循環(huán)次數(shù)減少到7.1%

      當然如果存在join condition的話,那么Freedom在底層cursor遞歸處理的過程中會預先過濾掉一部分數(shù)據(jù),進一步減少上層的過濾。

      B+Tree的磁盤結構

      leaf磁盤結構

      Freedom的B+Tree是存儲到磁盤里的??紤]到存儲的限制以及不定長的key值,所以會變得非常復雜。Freedom以page為單位來和磁盤進行交互。葉子節(jié)點和非葉子節(jié)點都由page承載并刷入磁盤。結構如下所示:

      一個元組(tuple/item)在一個page中分為定長的ItemPointer和不定長的Item兩部分。
      其中ItemPointer里面存儲了對應item的起始偏移和長度。同時ItemPointer和Item如圖所示是向著中心方向進行伸張,這種結構很有效的組織了非定長Item。

      leaf和node節(jié)點在Page中的不同

      雖然leaf和node在page中組織結構一致,但其item包含的項確有區(qū)別。由于Freedom采用的是索引組織表,所以對于leaf在聚簇索引(clusterIndex)和二級索引(secondaryIndex)中對item的表示也有區(qū)別,如下圖所示:

      其中在二級索引搜索時通過secondaryIndex通過index-key找到對應的clusterId,再通過
      clusterId在clusterIndex中找到對應的row記錄。
      由于要落盤,所以Freedom在node節(jié)點中的item里面寫入了index-key對應的pageno,
      這樣就可以容易的從磁盤恢復所有的索引結構了。

      B+Tree在文件中的組織

      有了Page結構,我們就可以將數(shù)據(jù)承載在一個個page大小的內存里面,同時還可以將page刷新到對應的文件里。有了node.item中的pageno,我們就可以較容易的進行文件和內存結構之間的互相映射了。
      B+樹在磁盤文件中的組織如下圖所示:

      B+樹在內存中相對應的映射結構如下圖所示:

      文件page和內存page中的內容基本是一致的,除了一些內存page中特有的字段,例如dirty等。

      每個索引一個B+樹

      在Freedom中,每個索引都是一顆B+樹,對記錄的插入和修改都要對所有的B+樹進行操作。

      B+Tree的測試

      筆者通過一系列測試case,例如隨機變長記錄對B+樹進行插入并落盤,修復了其中若干個非常詭異的corner case。

      B+Tree的todo

      筆者這里只是完成了最簡單的B+樹結構,沒有給其添加并發(fā)修改的鎖機制,也沒有在B+樹做操作的時候記錄log來保證B+樹在宕機等災難性情況下的一致性,所以就算完成了這么多的工作量,距離一個高并發(fā)高可用的bptree還有非常大的距離。

      Meta Data

      table的元信息由create table所創(chuàng)建。創(chuàng)建之后會將元信息落盤,以便Freedom在重啟的時候加載表信息。每張表的元信息只占用一頁的空間,依舊復用page結構,主要保存的是聚簇索引和二級索引的信息。元信息對應的Item如下圖所示:

      如果想讓mybatis可以自動生成關于Freedom的代碼,還需實現(xiàn)一些特定的sql來展現(xiàn)Freedom的元信息。這個在筆者另一個項目rider中有這樣的實現(xiàn)。原理如下圖所示:

      實現(xiàn)了上述4類SQL之后,mybatis-generator就可以通過jdbc從Freedom獲取元信息進而自動生成代碼了。

      事務支持

      由于當前Freedom并沒有保證并發(fā),所以對于事務的支持只做了最簡單的WAL協(xié)議。通過記錄redo/undolog從而實現(xiàn)原子性。

      redo/undo log協(xié)議格式

      Freedom在每做一個修改操作時,都會生成一條日志,其中記錄了修改前(undo)和修改后(redo)的行信息,undo用來回滾,redo用來宕機recover。結構如下圖所示:

      WAL協(xié)議

      WAL協(xié)議很好理解,就是在事務commit前將當前事務中所產(chǎn)生的的所有l(wèi)og記錄刷入磁盤。
      Freedom自然也做了這個操作,使得可以在宕機后通過log恢復出所有的數(shù)據(jù)。

      回滾的實現(xiàn)

      由于日志中記錄了undo,所以對于一個事務的回滾直接通過日志進行undo即可。如下圖所示:

      宕機恢復

      Freedom如果在page全部刷盤之后關機,則可以由通過加載page的方式獲取原來的數(shù)據(jù)。
      但如果突然宕機,例如kill -9之后,則可以通過WAL協(xié)議中記錄的redo/undo log來重新
      恢復所有的數(shù)據(jù)。由于時間和精力所限,筆者并沒有實現(xiàn)基于LSN的檢查點機制。

      Freedom運行

      git clone https://github.com/alchemystar/Freedom.git
      // 并沒有做打包部署的工作,所以最簡單的方法是在java編輯器里面
      run alchemystar.freedom.engine.server.main
      

      以下是筆者實際運行Freedom的例子:

      join查詢

      delete回滾

      Freedom todo

      Freedom還有很多工作沒有完成,例如有層次的鎖機制和MVCC等,由于工作忙起來就耽擱了。
      于是筆者就看了看MySQL源碼的實現(xiàn)理解了一下鎖和MVCC實現(xiàn)原理,并寫了兩篇博客。比起
      自己動手擼實在是輕松太多了_

      MVCC

      https://my.oschina.net/alchemystar/blog/1927425

      二階段鎖

      https://my.oschina.net/alchemystar/blog/1438839

      尾聲

      在造輪子的過程中一開始是非常有激情非常快樂的。但隨著系統(tǒng)越來越龐大,復雜性越來越高,進度就會越來越慢,還時不時要推翻自己原來的設想并重新設計,然后再協(xié)同修改關聯(lián)的所有代碼,就如同泥沼,越陷越深。至此,筆者才領悟了軟件工程最重要的其實是控制復雜度!始終保持簡潔的接口和優(yōu)雅的設計是實現(xiàn)一個大型系統(tǒng)的必要條件。

      收獲與遺憾

      這次造輪子的過程基本滿足了筆者的初衷,通過寫一個數(shù)據(jù)庫來學習數(shù)據(jù)庫。不僅僅是加深了理解,最重要的是筆者在寫的過程中終于明白了數(shù)據(jù)庫為什么要這么設計,為什么不那樣設計,僅僅對書本的閱讀可能并不會有這些思考與領悟。
      當然,還是有很多遺憾的,F(xiàn)reedom并沒有實現(xiàn)鎖機制和MVCC。由于只能在工作閑暇時間寫,所以斷斷續(xù)續(xù)寫了一兩個月,工作一忙就將這個項目閑置了?,F(xiàn)在將Freedom的設計寫出來,希望大家能有所收獲。

      github鏈接

      https://github.com/alchemystar/Freedom

      posted @ 2020-09-25 10:17  無毀的湖光-Al  閱讀(6088)  評論(41)    收藏  舉報
      主站蜘蛛池模板: 日本韩国一区二区精品| 少妇伦子伦精品无吗| 91亚洲国产三上悠亚在线播放| 高清欧美性猛交xxxx黑人猛交| 亚洲成在人天堂一区二区| 国产精品中文字幕观看| 国产精品午夜av福利| 国产欧美日韩精品丝袜高跟鞋| 色狠狠色婷婷丁香五月| 精品视频福利| 国产99久一区二区三区a片| 99精品国产一区二区三区不卡| 亚洲中文字幕精品久久久久久动漫 | 文水县| 尹人香蕉久久99天天拍| 亚洲一区黄色| 妺妺窝人体色www聚色窝仙踪| 日韩精品亚洲专在线电影| 中文字幕热久久久久久久| 人妻少妇偷人精品免费看| 久久精品不卡一区二区| 亚洲欧美激情在线一区| 芳草地社区在线视频| 18黑白丝水手服自慰喷水网站| 欧美日韩一区二区三区视频播放| 激情亚洲内射一区二区三区| 亚洲欧洲一区二区精品| 亚洲熟女片嫩草影院| 欧美日韩国产亚洲沙发| 国产精品一区免费在线看| 精品素人AV无码不卡在线观看| 在线日韩日本国产亚洲| 四虎精品视频永久免费| 国产精品va在线观看无码| 国产精品中文字幕第一页| 韩国无码AV片在线观看网站| 亚洲男女羞羞无遮挡久久丫| 国产av综合色高清自拍| 91精品国产免费人成网站| 亚洲国产精品一区二区第一页| 黄色特级片一区二区三区|