輕松打造自己的專屬輸入法
來龍去脈請看后面的鏈接,此貼總結補充。貼子多是因為我廢話多,不是因為麻煩。
① 最簡單的方法是下載用googlepinyin的系統辭典作成的userdict,重復就重復,不在乎那一點浪費。
② 修改后的加詞程序速度很快。python程序去重。
③ 別的地方能下到30萬詞以上的詞典。4萬多詞userdict 3M多,30萬詞估計程序不會崩,速度不會慢。
④ 拿別人的詞典+自己的論文/筆記……當語料。不看slmbuild的源碼又不想被cutoff和backoff制裁,可idngram merge a a a重復多次
⑤ 多音字500多個,我原以為改這個不得煩死,split成了10個文件,然后發現只要改幾個常用字的就行,生僻字who cares? 半小時就改完了(每改一個文件起身溜達一圈)。
- http://www.rzrgm.cn/funwithwords/p/19163607
- http://www.rzrgm.cn/funwithwords/p/19164065
- http://www.rzrgm.cn/funwithwords/p/19164560
- http://www.rzrgm.cn/funwithwords/p/19169934
- http://www.rzrgm.cn/funwithwords/p/19177550
- http://www.rzrgm.cn/funwithwords/p/19177975
- http://www.rzrgm.cn/funwithwords/p/19178659
- http://www.rzrgm.cn/funwithwords/p/19185218
- http://www.rzrgm.cn/funwithwords/p/19178419
- http://www.rzrgm.cn/funwithwords/p/19172651
- http://www.rzrgm.cn/funwithwords/p/19171879
mmseg和id2ngram二合一,[65536]查id,hashmap, swiss table放頻率。
用戶語料count + 比如100。
pdfminer3k庫專注于從PDF中獲取和分析文本數據。antiword和catdoc是常用的DOC/DOCX文本提取工具。html2text可以讀取HTML文件并輸出除去標記的純文本。

浙公網安備 33010602011771號