摘要:
我們來看最復雜的部分,就是Term Dictionary和Term Index文件,Term Dictionary文件的后綴名為tim,Term Index文件的后綴名是tip,格式如圖所示。Term Dictionary文件首先是一個Header,接下來是PostingsHeader,這兩個的格式... 閱讀全文
posted @ 2014-08-29 21:14
劉超覺先
閱讀(23693)
評論(2)
推薦(7)
摘要:
1. 定長編碼最容易想到的方式就是常用的普通二進制編碼,每個數值占用的長度相同,都占用最大的數值所占用的位數,如圖所示。這里有一個文檔ID列表,254,507,756,1007,如果按照二進制定長編碼,需要按照最大值1007所占用的位數10位進行編碼,每個數字都占用10位。和詞典的格式設計中順序列表... 閱讀全文
posted @ 2014-08-29 11:40
劉超覺先
閱讀(12523)
評論(7)
推薦(8)

浙公網安備 33010602011771號