<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12
      通過浪費時間獲得快樂不是對時間的浪費
      Penilum meum pullo sententia Latin a est

      10秒開發(fā)一個基于字的3-gram的拼音輸入法:魔改sunpinyin

      apt source libsunpinyin3v5 下載到當前目錄下。

      src/sunpinyin-dictgen是個有shebang的Makefile:

      #!/usr/bin/make -f
      W3M = wget -q -O -
      DL_LIST = https://sourceforge.net/projects/open-gram/files/
      DL_HOST = https://jaist.dl.sourceforge.net
      DL_ROOT = ${DL_HOST}/open-gram
      DICT_PAT = 'dict\.utf8-[0-9]\+.tar.bz2'
      SLM_PAT = 'lm_sc\.3gm\.arpa-[0-9]\+.tar.bz2'
      DICT_AR = $(shell ${W3M} ${DL_LIST} | grep -o ${DICT_PAT} | sort -u | tail -n 1)

      光腚make為了求變量DICT_AR的值也要聯(lián)網(wǎng),雖然比Android Studio快得多,我還是不喜歡。

      此版本下載dict.utf8就夠了。

      寫個小爛Python程序可從dict.utf8提取字,得到如下文件:

      <unknown> 0
      <unknown_cn> 2
      <amigu> 9
      <stok> 10
      <Digit> 20
      <Simbol> 21
      <NONEWORD_ALLWORD> 69
      , 70
      。 71
      ; 72
      ? 73
      ! 74
      : 75
      “ 76
      ” 77
      、 78
      … 79
      ? 100 qiu
      ...
      袏 26753 zuo
      阼 26754 zuo
      View Code

      注意調(diào)整ID連續(xù)。while 1: input(),用<輸入,split(), ' '.join(fields)...

      語料用的《錦醫(yī)衛(wèi)》。

      $ mmseg -d dict.utf8 corpus >ids

      $ ids2ngram -n 3 -s /dev/shm/swap -o 3gram -p 1024000 ids # 用內(nèi)存盤

      $ slmbuild -l -n 3 -o all.slm -w 26700 -c 0,3,2 -d GT,8,0.9995 -d ABS -d ABS -b 10,11,12 -e 9 3gram

      照抄光腚slmbuild的Example改了下文件名。

      $ slmthread all.slm lm_sc.t3g

      這步是必須的,因為它要浮點轉(zhuǎn)整數(shù)等,online部分不接受all.slm,雖然不crash,但候選字的順序都亂了。

      Compressing pr values...13530 float values ==> 13530 values
      Compressing bow values...17422 float values ==> 16384 values
      Threading the new model...slmthread: src/slm/thread/slmthread.cpp:383: int main(int, char**): Assertion `bowit != bow_map.end()' failed.
      已放棄

      不放棄,改程序。:-)

      // assert(bowit != bow_map.end());
      if (bowit == bow_map.end()) {
       cerr << "val=" << val << endl;
       for (bowit = bow_map.begin(); bowit != bow_map.end(); ++bowit)
         if (fabs(bowit->first - val) < 1e4) break;
       assert(bowit != bow_map.end());
      }

      map<float, int>里查不到。作者預(yù)見了,注釋里有// precision error,但沒預(yù)見到這種情況。cerr...后代碼為新增。沒幾個,一點不慢。

      slmprune不是必須的,我們的模型小。

      $ genpyt -i dict.utf -o pydict_sc.bin -l log -s all.slm -e le

      Opening language model...done!
      Writing out...done!
      Printing the lexicon out to log_file...段錯誤

      啊啊啊!最后一步啦!!原來是字典文件名輸入錯了。輸入錯LM文件名則:

      Opening language model...
      open al.slm: 沒有那個文件或目錄
      error!

      然后換數(shù)據(jù)文件。建個符號鏈接 data -> /usr/lib/x86_64-linux-gnu/sunpinyin/data/ 不然敲得太煩了。

      先備份原先的,不過就算壞了,可:apt reinstall sunpinyin-data

      雖然mmseg.cpp里setlocale(LC_ALL, ""); 含義是用當前l(fā)ocale;但portability.cpp里MBSTOWCS里寫死了iconv_open("UCS-4LE", "UTF-8"); 補充:還有fgetwc, setvbuf下?

      語料其實是head -n 10000的1.7MB. 模型:915K lm_sc.t3g 449K pydict_sc.bin

      雖然是字,但可是tri-gram啊。張紫萱、葛哨官……都有。


      本帖使用上述小模型和用戶辭典輸入。〔鏈接1〕〔鏈接2〕〔鏈接3


      image

      image

      在Intel N100上,12M語料訓(xùn)練秒級,100M語料(wiki_zh/AA)訓(xùn)練分鐘級。整句輸入效果不太好,“蹦詞”可以。

      模型小不了,數(shù)據(jù)太稠密了:16000**3受不了。【改:可增加cutoff,小模型依然可用,token量大時太小的模型無用】【110MB字3-gram模型輸入這些話很爽】

      語料1〕〔語料2〕語料1刪掉空格后45M,訓(xùn)練不到半分鐘。

      用高頻短詞+字應(yīng)該效果更好。蒼蠅拍打蒼蠅比高射炮好。這算不算種更針對領(lǐng)域,效果更好的平滑算法?

      google拼音:48,068詞, 41,442 二三字詞,哈哈哈 哦哦哦都是詞。

      輸入zhang zi xuan,出來長子縣。漢典:縣 xuan 同 “懸” —— 名人寫別字不算別字?!

      mmseg不允許一個詞有多個讀音,正在試驗系統(tǒng)詞典和分詞詞典不同:[成功]

      要是公安部把身份證上的人名和住址都dump出來當語料,就好了。分成兩個文件亂下序,好象也沒啥隱私問題。還有工商名錄。

      RIME (中州韻)是個開源的輸入法引擎,有多種平臺下的前端(client),Windows下的叫Weasel (小狼毫)。

      pydict_sc.bin: lm_sc.t3g
      	genpyt -e le -i sunzi -s $< -l /t/pydict_sc.log -o $@
      
      lm_sc.t3g: all.slm
      	slmthread $^ $@
      
      all.slm: 3gram
      	slmbuild -l -n 3 -o $@ -w 26700 -c 0,3,2 -d GT,8,0.9995 -d ABS -d ABS -b 10,11,12 -e 9 $<
      
      3gram:
      	mmseg -d sunzi jinyiwei >ids
      	ids2ngram -n 3 -s /t/swap -o $@ -p 1024000 ids
      	rm ids
      
      install:
      	mv lm_sc.t3g data
      	mv pydict_sc.bin data
      
      clean:
      	rm -f ids 3gram all.slm
      View Code
      posted @ 2025-10-27 19:25  華容道專家  閱讀(7)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 一区二区三区精品偷拍| 久热这里只有精品视频3| 永久免费av网站可以直接看的| 国产一区二区三区美女| 久在线精品视频线观看| 大地资源免费视频观看| 休宁县| 麻花传媒在线观看免费| 小嫩模无套内谢第一次| 久久天天躁狠狠躁夜夜躁2o2o| 国产成人无码免费视频在线| 丰满无码人妻热妇无码区| 久久国产精品波多野结衣| 中文字幕日韩一区二区不卡 | 亚洲熟女乱综合一区二区| 99网友自拍视频在线| 国产精品视频亚洲二区| 人妻少妇偷人无码视频| 亚洲精品成人久久av| 成人午夜在线播放| 亚洲暴爽av天天爽日日碰| 起碰免费公开97在线视频| 丰满人妻熟妇乱又伦精品软件| 国产粉嫩一区二区三区av| 亚洲精品成人福利网站| 精品超清无码视频在线观看| 亚洲国产精品黄在线观看| 亚洲精品一区二区三区色| 精品无人乱码一区二区三区的优势 | 亚洲一久久久久久久久| 邻居少妇张开腿让我爽了一夜| 国产av国片精品一区二区| 在线a亚洲v天堂网2018| 亚洲一区二区三区久久综合| 久久精品人人做人人爽电影蜜月| 久久蜜臀av一区三区| 亚洲男人AV天堂午夜在| 美女禁区a级全片免费观看| 色熟妇人妻久久中文字幕| 久久99精品久久久久久9| 房山区|