python 判斷是否為中文
python在執(zhí)行代碼過程是不知道這個字符是什么意思的、是否是中文,而是把所有代碼翻譯成二進制也就是000111這種形式,機器可以看懂的語言。
也就是在計算機中所有的字符都是有數(shù)字來表示的。漢字也是有數(shù)字表示的,Unicdoe4E00~9FFF表示中文,所以如果一個字符的utf-8編碼在這個區(qū)間內(nèi),就說明它是中文。
中文編碼對應(yīng)表
GBK UTF16 UTF8 漢字
D2BB 4E00 E4 B8 80 一
B6A1 4E01 E4 B8 81 丁
C6DF 4E03 E4 B8 83 七
CDF2 4E07 E4 B8 87 萬
.
.
.
EDE8 9F9B E9 BE 9B 龕
B9EA 9F9F E9 BE 9F 龜
D9DF 9FA0 E9 BE A0 龠
python判斷中文的方式:
(1)
def is_Chinese(ch):
if '\u4e00' <= ch <= '\u9fff':
return True
return False
(2)
def is_chinese(ch):
if ch < '一' or ch > '龥':
return False
return True

浙公網(wǎng)安備 33010602011771號