表格識(shí)別效果炸裂！小紅書dots.ocr 與百度PaddleOCR對(duì)比評(píng)測(cè)

本次測(cè)評(píng)內(nèi)容涵蓋表格識(shí)別、公式識(shí)別、報(bào)紙版面識(shí)別、手寫體識(shí)別、發(fā)票識(shí)別、報(bào)銷單識(shí)別，全面比較dots.ocr和paddleOCR在各個(gè)方面的表現(xiàn)。

OCR領(lǐng)域又迎來(lái)了新玩家——dots.ocr。這是小紅書Hi Lab最近發(fā)布的一款基于視覺(jué)語(yǔ)言模型的LLM，僅有1.7B參數(shù)。由于OCR在各類應(yīng)用中幾乎不可或缺，且該領(lǐng)域許久未見(jiàn)新面孔，這成功引起了AI指令員的注意。其官網(wǎng)介紹如下：

dots.ocr是一個(gè)強(qiáng)大的多語(yǔ)言文檔解析器，它在一個(gè)視覺(jué)語(yǔ)言模型中統(tǒng)一了布局檢測(cè)和內(nèi)容識(shí)別，同時(shí)保持了良好的閱讀順序。盡管其基礎(chǔ)是緊湊的 1.7B 參數(shù) LLM，但它實(shí)現(xiàn)了最先進(jìn)的(SOTA)性能。

強(qiáng)大性能：dots.ocr 在 OmniDocBench 上實(shí)現(xiàn)了文本、表格和閱讀順序的 SOTA 性能，同時(shí)提供的公式識(shí)別結(jié)果與 Doubao-1.5 和 gemini2.5-pro 等更大的模型相當(dāng)。

多語(yǔ)言支持：dots.ocr 展示了在低資源語(yǔ)言上的強(qiáng)大解析能力，在我們的多語(yǔ)言文檔基準(zhǔn)測(cè)試中，在布局檢測(cè)和內(nèi)容識(shí)別方面均取得了決定性優(yōu)勢(shì)。

統(tǒng)一且簡(jiǎn)單的架構(gòu)：通過(guò)利用單一視覺(jué)語(yǔ)言模型，dots.ocr 比依賴復(fù)雜、多模型管道的常規(guī)方法提供了顯著更精簡(jiǎn)的架構(gòu)。通過(guò)改變輸入提示即可在任務(wù)間切換，證明視覺(jué)語(yǔ)言模型可以實(shí)現(xiàn)與傳統(tǒng)檢測(cè)模型（如 DocLayout-YOLO）相比具有競(jìng)爭(zhēng)力的檢測(cè)結(jié)果。

高效且快速的性能：基于緊湊的 1.7B LLM 構(gòu)建，dots.ocr 提供了比許多基于更大基礎(chǔ)的高性能模型更快的推理速度。

那么，其實(shí)際效果如何？我們將dots.ocr與OCR領(lǐng)域的長(zhǎng)期霸主——百度PaddleOCR進(jìn)行橫向?qū)Ρ仍u(píng)測(cè)，探討這個(gè)基于視覺(jué)語(yǔ)言模型的OCR是否能在某些方面超越PaddleOCR。

本次測(cè)評(píng)內(nèi)容涵蓋表格識(shí)別、公式識(shí)別、報(bào)紙版面識(shí)別、手寫體識(shí)別、發(fā)票識(shí)別、報(bào)銷單識(shí)別，全面比較dots.ocr和paddleOCR在各個(gè)方面的表現(xiàn)。

詳細(xì)測(cè)評(píng)內(nèi)容請(qǐng)關(guān)注微信公眾號(hào)“AI指令員”，回復(fù)ocr，獲取完整測(cè)評(píng)分析報(bào)告！

posted @ 2025-08-12 10:06 鄭某閱讀(799) 評(píng)論(0) 收藏舉報(bào)

刷新頁(yè)面返回頂部

鄭某

表格識(shí)別效果炸裂！小紅書dots.ocr 與百度PaddleOCR對(duì)比評(píng)測(cè)

公告