亚洲日本欧洲欧美视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

python 中文亂碼解決方案

python 處理文字內(nèi)容時(shí)，常常遇到編碼的問(wèn)題。

漢字常用的兩種編碼方式為 utf8 和 gbk，解析一個(gè) txt 文件或者一個(gè)字符串時(shí)經(jīng)常會(huì)遇到編碼問(wèn)題。

對(duì)于一行文本，我們分別嘗試用 utf8 或者 gbk 去解碼，哪一個(gè)解碼內(nèi)容多選擇哪一個(gè)

def force_decode(string:bytes) ->str:
    """
    sometimes neither gbk nor gbk can decode succseefully from string
    select longger decode result from utf8 or gbk
    """
    if not isinstance(string, bytes):
        raise ValueError('expected bytes array')
    decode_chars_count = []
    for i in ['utf8', 'gbk']:
        try:
            return string.decode(i)
        except UnicodeDecodeError as ex:
            decode_chars_count.append(ex.start)
    # neither utf8 or gbk decode successfully
    # select the longer decode one
    utf8_len, gbk_len = decode_chars_count
    selected_encoding = 'utf8' if utf8_len > gbk_len else 'gbk'
    return string.decode(selected_encoding, errors='ignore')

代碼鏈接：https://gist.github.com/albertofwb/b53bf32adca5c245c6dee6642ca5463d

posted @ 2020-06-24 16:46 SurfUniverse 閱讀(332) 評(píng)論(0) 收藏舉報(bào)

刷新頁(yè)面返回頂部

SurfUniverse

python 中文亂碼解決方案

公告