摘要:
本文聚焦多模態大語言模型(MLLMs)在文檔問答(DocQA)任務中的性能提升,提出無需改動模型架構或額外訓練的結構化輸入方法,通過保留文檔層次結構與空間關系(如標題、表格、圖像位置)優化理解能力。研究發現,傳統無結構OCR輸入導致注意力分散,性能下降,而 LaTeX 范式結構化輸入顯著提升表現。注意力分析揭示其誘導“結構化注意力”,減少無關區域干擾,聚焦語義核心。在MMLongBench、PaperTab等四個數據集上驗證,該方法尤其在復雜圖表任務中效果顯著,為智能文檔處理與自動問答提供高效的解決方案。 閱讀全文
posted @ 2025-09-11 10:31
vivo互聯網技術
閱讀(187)
評論(0)
推薦(2)

浙公網安備 33010602011771號