<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      聚焦結(jié)構(gòu)化注意力,探索提升多模態(tài)大模型文檔問答性能

      作者:vivo 互聯(lián)網(wǎng)算法團隊

      本文聚焦多模態(tài)大語言模型(MLLMs)在文檔問答(DocQA)任務中的性能提升,提出無需改動模型架構(gòu)或額外訓練的結(jié)構(gòu)化輸入方法,通過保留文檔層次結(jié)構(gòu)與空間關(guān)系(如標題、表格、圖像位置)優(yōu)化理解能力。研究發(fā)現(xiàn),傳統(tǒng)無結(jié)構(gòu)OCR輸入導致注意力分散,性能下降,而 LaTeX 范式結(jié)構(gòu)化輸入顯著提升表現(xiàn)。注意力分析揭示其誘導"結(jié)構(gòu)化注意力",減少無關(guān)區(qū)域干擾,聚焦語義核心。在MMLongBench、PaperTab等四個數(shù)據(jù)集上驗證,該方法尤其在復雜圖表任務中效果顯著,為智能文檔處理與自動問答提供高效的解決方案。

      本文提供配套演示代碼,可下載體驗:

      Github |StructureMatters

      一、引言

      多模態(tài)大語言模型(Multimodal Large Language Models, MLLMs)蓬勃發(fā)展的今天,文檔理解(Document Understanding)作為一項涉及文本、圖表和圖像的復雜任務,依然面臨諸多挑戰(zhàn)。如何高效整合多源信息、理解文檔的層次結(jié)構(gòu),成為提升 MLLMs 性能的關(guān)鍵問題。研究發(fā)現(xiàn)了一種無需修改模型架構(gòu)或額外訓練的新方法:僅通過結(jié)構(gòu)化輸入提升 MLLMs在文檔問答(DocQA)任務中的表現(xiàn),同時通過注意力分析實踐探尋結(jié)構(gòu)化輸入帶來性能提升的深層原因。

      二、文檔理解的核心挑戰(zhàn)

      文檔理解要求模型同時處理文本、圖表、圖像等多模態(tài)信息,并準確回答問題。然而,現(xiàn)有方法多依賴于擴展上下文窗口或優(yōu)化檢索增強生成(RAG),忽略了一個關(guān)鍵問題:輸入格式如何影響模型的理解能力?

      研究發(fā)現(xiàn),傳統(tǒng)的無結(jié)構(gòu) OCR 文本輸入在某些case下未提升模型性能,反而因注意力分散和結(jié)構(gòu)丟失導致性能下降。例如,在 MMLongBench 數(shù)據(jù)集上,加入無結(jié)構(gòu) OCR 文本后,模型準確率從 0.389 下降至 0.370。

      當前主流多模態(tài)大模型已經(jīng)具備處理多模態(tài)信息的能力,其中Qwen2.5-VL-7B-Instruct,Phi-3.5-Vision-Instruct,SmolVLM-Instruct等在多個多模態(tài)任務上達到了SOTA,但在文檔閱讀任務中仍表現(xiàn)不佳。以往文檔閱讀模型通過訓練得到專用模型來進行文檔閱讀理解,并基于文檔回答問題,如mPLUG-DocOwl,Textmonkey等模型。但隨著RAG的快速發(fā)展,像ColBERT 和ColPali 這樣的RAG方法在分別檢索文本或視覺信息方面已被證明有效,當前主流方法通常基于RAG檢索證據(jù)頁面,然后將證據(jù)信息直接輸入多模態(tài)大模型中以便回答DocQAs。但當問題需要整合來自兩種模態(tài)的信息時,它們通常表現(xiàn)不佳。

      隨著通用大模型的發(fā)展和AGI概念的普及,如何直接利用通用多模態(tài)大模型達到目的,不額外進行訓練成為研究熱點。改變輸入結(jié)構(gòu)能否幫助多模態(tài)大模型進行高效推理為本文探討的重點。本文致力于探尋通用多模態(tài)大模型在何種條件下能夠具有更加高效的推理理解能力,能否具備在trainning free的條件下達到較高的多元素文檔理解能力。

      三、創(chuàng)新方法:結(jié)構(gòu)化輸入與注意力分析

      為解決這一問題,提出了一種基于 LaTeX 范式的結(jié)構(gòu)保留方法。該方法通過保留文檔的層次結(jié)構(gòu)和空間關(guān)系(如標題、表格、圖像的位置),從而為模型提供更清晰的語義引導。

      具體流程包括:

      • 結(jié)構(gòu)化編碼:將 OCR 文本和圖像輸入 MLLMs,提示模型盡可能保留圖表、表格和文本的結(jié)構(gòu),生成 LaTeX 格式的表示。

      • 聯(lián)合輸入:將結(jié)構(gòu)化文本與原始圖像一同輸入模型,指導其在回答問題時關(guān)注關(guān)鍵區(qū)域。

      • 注意力分析:通過比較僅圖像輸入、圖像加無結(jié)構(gòu)文本、圖像加結(jié)構(gòu)化文本三種情況的注意力分布,發(fā)現(xiàn)結(jié)構(gòu)化輸入顯著減少了注意力浪費,引導模型聚焦于語義相關(guān)的文本和圖像區(qū)域。

      實驗結(jié)果表明,該方法在多個文檔理解基準數(shù)據(jù)集上顯著提升了模型性能。例如,在 MMLongBench 上,QWEN2.5-VL-7B-INSTRUCT 的準確率從 0.389 提升至 0.435;在 PaperTab 數(shù)據(jù)集上,準確率提升高達 20%,得益于 LaTeX 格式對表格和圖表的精準解析。

      四、通過注意力機制進行深層原因探究

      進一步的,通過注意力分析揭示了結(jié)構(gòu)化輸入的內(nèi)在機制。無結(jié)構(gòu)文本輸入導致模型注意力分布散亂,浪費在圖像邊緣或無關(guān)區(qū)域;而結(jié)構(gòu)化文本添加了結(jié)構(gòu)化約束,誘導模型形成"結(jié)構(gòu)化注意力"模式,聚焦于文檔的核心內(nèi)容(如圖表、文本塊)。例如,在一個案例中,模型需根據(jù)圖表回答"西德居民對美俄關(guān)系的看法比例"。無結(jié)構(gòu)輸入下,注意力分散在圖像空白區(qū)域;結(jié)構(gòu)化輸入后,注意力集中于圖表和相關(guān)文本,顯著提高答案準確性。

      結(jié)構(gòu)化輸入幫助減少MLLMs對于圖片邊界token的關(guān)注度,提高了模型對于文章主體部分的注意力得分。

      具體實例分析,證明結(jié)構(gòu)化輸入的重要意義。

      五、實驗驗證與數(shù)據(jù)支持

      在四個文檔理解基準數(shù)據(jù)集(MMLongBench、LongDocUrl、PaperTab、FetaTab)上測試4種 MLLMs 模型(如 QWEN2-VL-7B-INSTRUCT、Phi-3.5-Vision-Instruct)。結(jié)果顯示,結(jié)構(gòu)化輸入在所有數(shù)據(jù)集上均提升了模型性能,尤其在包含復雜圖表的 PaperTab 數(shù)據(jù)集上效果顯著。消融實驗進一步證明,僅用結(jié)構(gòu)化文本或僅用圖像的性能均低于兩者結(jié)合,驗證了結(jié)構(gòu)化輸入與圖像聯(lián)合使用的必要性。

      六、總結(jié)與展望

      實踐研究揭示了輸入格式對 MLLMs 文檔理解能力的關(guān)鍵影響,提出了一種簡單而高效的結(jié)構(gòu)化輸入方法。未來可進一步探索更先進的結(jié)構(gòu)提取技術(shù)或設計注意力控制插件,以進一步釋放 MLLMs 在文檔理解中的潛力。該研究提供了一種無需重訓模型即可提升性能的實用方案,適用于智能文檔處理、自動問答等場景。在沒有額外訓練和架構(gòu)修改的前提下,通過簡單的結(jié)構(gòu)化文本輸入,可以提升現(xiàn)有多模態(tài)大模型在文檔理解任務中的表現(xiàn)。此項研究可以幫助用戶分析、工作解析等場景中更準確地提取信息,提升工作效率。同時,RAG(檢索增強生成)系統(tǒng)也能結(jié)合結(jié)構(gòu)化輸入來降低信息檢索中的噪聲,從而更高效地利用檢索到的證據(jù)頁面,為未來文檔處理與分析提供了新的實踐路徑。

      posted @ 2025-09-11 10:31  vivo互聯(lián)網(wǎng)技術(shù)  閱讀(186)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 性做久久久久久久久| 肉大捧一进一出免费视频| 99久久精品国产亚洲精品| 亚洲码国产精品高潮在线| 麻豆a级片| 红桃视频成人传媒| 国产精品无码无片在线观看3d| 亚洲精品一区二区三区小| 国产毛片基地| 五月婷婷久久中文字幕| 日韩中文字幕人妻精品| 桓仁| 色婷婷亚洲精品综合影院| 国产在线观看免费观看| 午夜欧美精品久久久久久久| 国产精品美女久久久久久麻豆| 无码午夜福利片| 国产精品视频一区二区不卡| 国产精品中文字幕自拍| 无码人妻精品一区二区三区66| 国产免费午夜福利在线播放| 国产美女MM131爽爽爽| 成年女人免费碰碰视频| 亚洲女同精品久久女同| 国产迷姦播放在线观看| 精品无码成人片一区二区| 国产精品小仙女自拍视频| 久久精品国产91精品亚洲| 熟女人妻视频| 男人的天堂av社区在线| 中国老太婆video| 久久超碰色中文字幕超清| 国产亚洲精品超碰| 亚洲日韩一区二区| 色综合久久综合久鬼色88| 中文字幕人乱码中文| 国产精品SM捆绑调教视频| 亚洲国产日韩A在线亚洲| 亚洲欧美中文字幕日韩一区二区 | 亚洲欧美人成网站在线观看看| 亚洲中文一区二区av|