字、字節(jié)、字符、編碼方式
參考文章:詳解計(jì)算機(jī)中的字、字節(jié)(Byte)、比特(bit)及它們之間的關(guān)系
字、字節(jié)
字由若干個(gè)字節(jié)組成,一個(gè)字節(jié)是8個(gè)比特bit。字的位數(shù)叫做字長,即cpu一次處理二進(jìn)制代碼的位數(shù)。
換算:
- 1字節(jié)(Byte/byte)= 8位(Bit/bit)
- 1字符占用的字節(jié)不確定(不同的編碼方式不同)
- 1KB=1024Byte;1MB=1024KB。。。
- 32位計(jì)算機(jī):1字=32位=4字節(jié);64位計(jì)算機(jī):1字=64位=8字節(jié)
字符的編碼
字符是指計(jì)算機(jī)中的文字和符號(hào)。在計(jì)算機(jī)的具體表示中,又有不同的編碼,估計(jì)編程的人都比較懂,常見有ASCII碼、GB2312、GBK,UTF-8編碼、Unicode編碼。
GB2312和GBK
GB2312和GBK是中國漢字編碼方案標(biāo)準(zhǔn),同時(shí)兼容ASCII碼。GB2312是簡體漢字編碼規(guī)范,但GBK是大字符集,不僅包含了簡體中文,繁體中文還包括了日語、韓語等所有亞洲文字的雙字節(jié)字符。
最新漢字編碼標(biāo)準(zhǔn)GB18030,其中已經(jīng)可以支持中日韓以及藏文、蒙文,維吾爾文等少數(shù)民族文字。但這些說到底還是以中文為主。
ASCII
ASCII碼是美國信息互換標(biāo)準(zhǔn)代碼,是一套基于拉丁字母的字符編碼,其中包含了33個(gè)控制字符(具有某些特殊功能)和95個(gè)可顯示字符,總共定義了128個(gè)字符。ASCII碼當(dāng)中一個(gè)漢字占兩個(gè)字節(jié)空間,一個(gè)英文字母(不區(qū)分大小寫)占一個(gè)字節(jié)空間。ASCII 編碼是最簡單的西文編碼方案。
Unicode
Unicode編碼是ASCII碼的一個(gè)擴(kuò)展,采用雙字節(jié)對(duì)字符進(jìn)行編碼。一個(gè)英文等于兩個(gè)字節(jié),一個(gè)中文(含繁體)也等于兩個(gè)字節(jié)。英文標(biāo)點(diǎn)占用一個(gè)字節(jié),中文標(biāo)點(diǎn)則占用2個(gè)字節(jié)。
UTF-8
UTF-8編碼是一種多字節(jié)編碼,也是目前互聯(lián)網(wǎng)應(yīng)用最廣泛的一種Unicode編碼方式。最大特點(diǎn)就是可變長,可根據(jù)字符的不同變換長度。一個(gè)英文字符占用一個(gè)字節(jié),一個(gè)中文(含繁體)占用三個(gè)字節(jié)。英文標(biāo)點(diǎn)占用1個(gè)字節(jié),中文標(biāo)點(diǎn)同樣占用3個(gè)字節(jié)。
UTF-8包含了全世界所有國家需要用到的字符,是國際編碼,通用性極強(qiáng)。使用這種編碼的話,一旦文章中同時(shí)出現(xiàn)中文、英文或者繁體,瀏覽器都會(huì)支持,而不會(huì)出現(xiàn)亂碼。

浙公網(wǎng)安備 33010602011771號(hào)