1.工具
1.tesseract 4.1.1下載
https://digi.bib.uni-mannheim.de/tesseract/
2.訓(xùn)練工具
https://github.com/serak/serak-tesseract-trainer
3.Box文件編輯工具
https://github.com/scotts48/tesseract-box-editor.git
4.Tiff合并工具
https://github.com/Darkseal/MergeTIFF.git
2.步驟
準(zhǔn)備:
下載代碼編譯訓(xùn)練工具,box編輯工具和tiff合并工具.
步驟:
1.準(zhǔn)備要訓(xùn)練的圖片文件,保存成tiff
2.用Tiff合并工具,將tiff圖片文件合并成一個文件

3.配置訓(xùn)練工具,包括配置tesseract的路徑和語言名稱.

4.使用訓(xùn)練工具步驟1,添加圖片并為tiff圖片生成box文件
第一次生成box時,使用create new box 按鈕,使用系統(tǒng)默認(rèn)的語言識別圖片并生成Box文件,
當(dāng)我們自己已經(jīng)有訓(xùn)練好的對應(yīng)語言的訓(xùn)練數(shù)據(jù)時,可以用bootstrapping a new character 按鈕,用自己的識別數(shù)據(jù)識別圖片來生成Box,

5.使用box文件編輯工具,編輯Box文件
這里主要是修改自動生成的文字邊框和識別錯誤的字符

6.使用訓(xùn)練工具的步驟2,生成字體屬性文件
7.使用訓(xùn)練工具的步驟3,4,進(jìn)行訓(xùn)練,并合并成最終結(jié)果
3.說明
serak-tesseract-trainer 訓(xùn)練工具,主要就是對tesseract的命令行的界面話,直接使用命令行訓(xùn)練其實也是可以的,網(wǎng)上這種介紹很多,比如下面這篇
http://www.rzrgm.cn/mtcnn/p/9411786.html
好多資料用的box編輯器都是jTessBoxEditor ,這個需要下載java環(huán)境,我懶得下載安裝,所以才找的tesseract-box-editor這個工具.
浙公網(wǎng)安備 33010602011771號