pypinyin很好用
〔https://gitee.com/mirrors/python-pinyin#id4〕
〔https://github.com/mozillazg/pypinyin-dict〕
pip install就噌噌地裝上了。
到靈格斯詞典網(wǎng)站下載了成語、文化等詞典,過幾天出個(gè)1~2萬詞的用戶詞典(中華文化小詞典)。
此文閱讀量不少,那我就多寫點(diǎn)吧:
① 傳輸 自傳 傳的拼音被我誤改為只有一個(gè),已改回,可能還有別的蟑螂。
② 1.6G的語料,unigram cutoff 0, 5500來個(gè),GB2312 6763個(gè)漢字頗有道理。5500**2≈3000萬。如今網(wǎng)速快電腦配置高,各個(gè)輸入法已經(jīng)開始拼誰的皮膚多了,有的安裝后200多M。我們可以多存些bigram,刪些trigram。如果一個(gè)拼音串的首選用n-gram能算對,詞典里還有必要存它嗎?這個(gè)比較麻煩,又得看sunpinyin的源碼。pypinyyin-dict好象有幾十萬詞的詞典。用二三字詞做詞庫,把別人的詞拿來分詞,比如市場監(jiān)督總局成為市場/監(jiān)督/總局,新疆維吾爾自治區(qū)成為新疆/維吾爾/自治區(qū)/,那就沒必要進(jìn)詞典,銀川市成為銀川/市,指鹿為馬成為指/鹿/為/馬,放進(jìn)詞典。
③ 基于字的模型不如基于詞的一例:這是一個(gè)向量的名字 還是 這是一個(gè)響亮的名字 ?i) 目前起碼兩個(gè)都有;ii) 詞的tri-gram也未必夠用吧?
④ 把pydict_sc.bin和lm_sc.t3g做成sunpinyin-data.deb,避免下載后又覆蓋的浪費(fèi)。先dpkg -i sunpinyin-data.deb,再apt install fcitx-sunpinyin. 但制作deb可能需要簽名、注冊。
⑤ 總之,心情激動(dòng)地驗(yàn)證了想法可行,接下來自己多用,再改改,出個(gè)精細(xì)版。
⑥ 反正都說到心情激動(dòng)了:-),我的理想是:所有搞NLP的實(shí)驗(yàn)室都有自己的輸入法:i) 讓Linux用戶不缺輸入法用;ii)對那些作輸入法的公司來說是條鯰魚(手機(jī)和Windows下都有開源的輸入法…)。讀懂讀透sunpinyin的源碼是普通高年級本科或低年級研究生力所能及的事。除了用Python extract_features和model.predict外,多點(diǎn)對底層的理解沒壞處。不過我不了解現(xiàn)狀,也許寫論文追熱點(diǎn)已經(jīng)忙不過來了。

浙公網(wǎng)安備 33010602011771號