表格識(shí)別效果炸裂!小紅書dots.ocr 與百度PaddleOCR對(duì)比評(píng)測(cè)
OCR領(lǐng)域又迎來(lái)了新玩家——dots.ocr。這是小紅書Hi Lab最近發(fā)布的一款基于視覺(jué)語(yǔ)言模型的LLM,僅有1.7B參數(shù)。由于OCR在各類應(yīng)用中幾乎不可或缺,且該領(lǐng)域許久未見(jiàn)新面孔,這成功引起了AI指令員的注意。其官網(wǎng)介紹如下:
dots.ocr是一個(gè)強(qiáng)大的多語(yǔ)言文檔解析器,它在一個(gè)視覺(jué)語(yǔ)言模型中統(tǒng)一了布局檢測(cè)和內(nèi)容識(shí)別,同時(shí)保持了良好的閱讀順序。盡管其基礎(chǔ)是緊湊的 1.7B 參數(shù) LLM,但它實(shí)現(xiàn)了最先進(jìn)的(SOTA)性能。
強(qiáng)大性能:dots.ocr 在 OmniDocBench 上實(shí)現(xiàn)了文本、表格和閱讀順序的 SOTA 性能,同時(shí)提供的公式識(shí)別結(jié)果與 Doubao-1.5 和 gemini2.5-pro 等更大的模型相當(dāng)。
多語(yǔ)言支持:dots.ocr 展示了在低資源語(yǔ)言上的強(qiáng)大解析能力,在我們的多語(yǔ)言文檔基準(zhǔn)測(cè)試中,在布局檢測(cè)和內(nèi)容識(shí)別方面均取得了決定性優(yōu)勢(shì)。
統(tǒng)一且簡(jiǎn)單的架構(gòu):通過(guò)利用單一視覺(jué)語(yǔ)言模型,dots.ocr 比依賴復(fù)雜、多模型管道的常規(guī)方法提供了顯著更精簡(jiǎn)的架構(gòu)。通過(guò)改變輸入提示即可在任務(wù)間切換,證明視覺(jué)語(yǔ)言模型可以實(shí)現(xiàn)與傳統(tǒng)檢測(cè)模型(如 DocLayout-YOLO)相比具有競(jìng)爭(zhēng)力的檢測(cè)結(jié)果。
高效且快速的性能:基于緊湊的 1.7B LLM 構(gòu)建,dots.ocr 提供了比許多基于更大基礎(chǔ)的高性能模型更快的推理速度。

那么,其實(shí)際效果如何?我們將dots.ocr與OCR領(lǐng)域的長(zhǎng)期霸主——百度PaddleOCR進(jìn)行橫向?qū)Ρ仍u(píng)測(cè),探討這個(gè)基于視覺(jué)語(yǔ)言模型的OCR是否能在某些方面超越PaddleOCR。
本次測(cè)評(píng)內(nèi)容涵蓋表格識(shí)別、公式識(shí)別、報(bào)紙版面識(shí)別、手寫體識(shí)別、發(fā)票識(shí)別、報(bào)銷單識(shí)別,全面比較dots.ocr和paddleOCR在各個(gè)方面的表現(xiàn)。
詳細(xì)測(cè)評(píng)內(nèi)容請(qǐng)關(guān)注微信公眾號(hào)“AI指令員”,回復(fù)ocr,獲取完整測(cè)評(píng)分析報(bào)告!


浙公網(wǎng)安備 33010602011771號(hào)