<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      剛剛,DeepSeek又一重大突破,小身材大智慧玩出新高度

      image

      原文:https://mp.weixin.qq.com/s/RWmTAk-SMadqi5BZEy9pqA

      全文摘要

      DeepSeek-OCR是由DeepSeek-AI提出的、用于探索通過光學2D映射壓縮長上下文可行性的視覺語言模型(VLM),核心包含DeepEncoder(編碼器)和DeepSeek3B-MoE-A570M(解碼器)兩大組件。其中DeepEncoder能在高分辨率輸入下保持低激活值并實現高壓縮比,實驗顯示當文本token數量為視覺token的10倍以內(壓縮比<10×)時,模型OCR精度達97%,壓縮比20×時精度仍約60%;在實用性能上,它在OmniDocBench基準測試中,僅用100個視覺token就超越需256個token的GOT-OCR2.0,用少于800個視覺token超越平均需6000+個token的MinerU2.0,且單A100-40G顯卡日生成20萬+頁LLM/VLM訓練數據,代碼和模型權重已開源(http://github.com/deepseek-ai/DeepSeek-OCR),為LLM長上下文壓縮、記憶遺忘機制研究及實際OCR任務提供重要價值。

      1

      論文方法

      DeepSeek-OCR概述

      • 基本定位:由DeepSeek-AI提出的視覺語言模型(VLM),核心目標是探索通過光學2D映射壓縮長上下文的可行性,為LLM處理長文本的計算挑戰提供解決方案(利用視覺模態作為文本信息的高效壓縮媒介)。
      • 核心組件:包含編碼器(DeepEncoder)和解碼器(DeepSeek3B-MoE-A570M),代碼與模型權重已開源(地址:http://github.com/deepseek-ai/DeepSeek-OCR)。
      • 核心優勢:兼顧高壓縮比與高OCR精度,同時具備強實用性能,可大規模生成LLM/VLM訓練數據。

      核心組件設計

      DeepEncoder(編碼器)

      • 設計目標:滿足高分辨率處理、高分辨率下低激活、少視覺token、多分辨率支持、參數適中5大需求,解決現有VLM視覺編碼器的缺陷(如token過多、激活量大等)。
      • 架構細節
        • 總參數約380M,由SAM-base(80M,窗口注意力主導)16×卷積壓縮器CLIP-large(300M,密集全局注意力) 串聯組成。
        • 卷積壓縮器:2層卷積(核3×3、步長2、填充1),通道從256→1024,實現視覺token16倍下采樣(如1024×1024圖像輸入,token從4096→256)。
      • 分辨率支持:通過位置編碼動態插值實現多分辨率,具體模式如下表:
      分辨率模式 子模式 原生分辨率 視覺token數 處理方式
      原生分辨率 Tiny 512×512 64 直接resize
      Small 640×640 100 直接resize
      Base 1024×1024 256 padding(保留寬高比)
      Large 1280×1280 400 padding(保留寬高比)
      動態分辨率 Gundam 640×640+1024×1024 n×100+256(n∈[2:9]) 分塊+resize+padding
      Gundam-M 1024×1024+1280×1280 n×256+400(n∈[2:9]) 分塊+resize+padding

      注:動態分辨率主要用于超高清輸入(如報紙),避免圖像過度碎片化;Gundam-M需在預訓練模型基礎上繼續訓練,平衡訓練速度。

      解碼器(DeepSeek3B-MoE-A570M)

      • 架構特點:基于DeepSeek3B-MoE,推理時激活64個路由專家中的6個+2個共享專家,激活參數約570M,兼顧3B模型的表達能力與500M小模型的推理效率
      • 核心功能:通過非線性映射(\(f_{dec}\))從DeepEncoder輸出的壓縮視覺token重構文本表示。

      訓練流程與數據引擎

      數據引擎(多樣化訓練數據)

      數據類型 內容細節 占比/規模 作用
      OCR 1.0數據 30M頁多語言PDF(中/英25M+其他5M,含粗/細標注)、3M頁Word、10M頁中/英自然場景圖 占總數據70% 訓練傳統OCR能力(文檔/場景文本識別)
      OCR 2.0數據 10M頁圖表(線圖/柱狀圖等,轉HTML表格)、5M頁化學公式(SMILES格式)、1M頁平面幾何圖 含于OCR數據70%內 訓練復雜圖像解析能力
      通用視覺數據 圖像描述、目標檢測、接地等任務數據(參考DeepSeek-VL2) 占總數據20% 保留通用視覺接口
      純文本數據 內部數據,統一處理為8192token長度 占總數據10% 保障模型語言能力

      注:OCR 1.0細標注含2M頁中/英數據,用PP-DocLayout(布局)、MinerU2.0/GOT-OCR2.0(識別)構建;小語種數據通過“模型飛輪”生成600K樣本。

      訓練流程

      • 階段1:獨立訓練DeepEncoder
        • 數據:所有OCR 1.0/2.0數據+100M采樣自LAION的通用數據
        • 配置:AdamW優化器,余弦退火調度器,學習率5e-5,批大小1280,訓練2輪,序列長度4096
      • 階段2:訓練DeepSeek-OCR
        • 平臺:HAI-LLM平臺
        • 并行策略:4段管道并行(DeepEncoder占2段,解碼器占2段),20節點(每節點8張A100-40G),數據并行40,全局批大小640
        • 配置:AdamW優化器,步長調度器,初始學習率3e-5;純文本數據訓練速度90B token/天,多模態數據70B token/天

      論文實驗

      核心實驗性能

      Fox基準測試(文本token600-1300,英文文檔,驗證壓縮-解壓縮能力)

      文本token范圍 視覺token=64(Tiny模式) 視覺token=100(Small模式) 測試頁數
      精度 壓縮比 精度 壓縮比
      600-700 96.5% 10.5× 98.5% 6.7× 7
      700-800 93.8% 11.8× 97.3% 7.5× 28
      800-900 83.8% 13.2× 96.8% 8.5× 28
      900-1000 85.9% 15.1× 96.8% 9.7× 14
      1000-1100 79.3% 16.5× 91.5% 10.6× 11
      1100-1200 76.4% 17.7× 89.8% 11.3× 8
      1200-1300 59.1% 19.7× 87.1% 12.6× 4
      • 關鍵結論壓縮比<10×時,精度≈97%;壓縮比20×時,精度≈60%;實際精度因輸出與標注格式差異會更高。

      OmniDocBench基準測試(真實文檔解析,指標為編輯距離,越小越好)

      模型/模式 視覺token數(有效token) 整體編輯距離 關鍵對比結論
      GOT-OCR2.0 256 - DeepSeek-OCR(100token)超越它
      MinerU2.0 6000+(平均) - DeepSeek-OCR(<800token)超越它
      DeepSeek-OCR(Small) 100 0.205 -
      DeepSeek-OCR(Base) 256(182) 0.156 -
      DeepSeek-OCR(Gundam) 795 0.083 接近SOTA性能

      實用價值

      1. 大規模訓練數據生成:單張A100-40G顯卡每日可生成20萬+頁LLM/VLM訓練數據;20節點(每節點8張A100-40G)每日可生成3300萬+頁
      2. 多場景OCR能力
        • 語言支持:可處理近100種語言,小語種文檔支持布局/非布局輸出。
        • 深度解析:支持圖表(轉HTML表格)、化學公式(轉SMILES)、平面幾何圖(結構化輸出)、自然圖像(密集描述)的深度解析。
      3. 通用視覺理解:保留圖像描述、目標檢測、接地等通用視覺能力,可通過提示激活。

      總結和展望

      • 總結
        • 為LLM長上下文壓縮提供新范式(光學壓縮,7-20×token reduction);
        • 為LLM記憶遺忘機制研究提供思路(模擬人類記憶衰減,通過逐步縮小圖像分辨率實現多級別壓縮);
        • 為VLMtoken分配優化提供實證指導。
      • 未來方向
        • 開展數字-光學文本交錯預訓練;
        • 進行“大海撈針”(needle-in-a-haystack)測試,驗證長上下文處理能力;
        • 進一步優化光學上下文壓縮的精度與效率。
      posted @ 2025-10-21 09:30  piggy俠  閱讀(1153)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 99久久99这里只有免费费精品| 国产精品午夜精品福利| 边吃奶边添下面好爽| 亚洲欧美日韩综合久久久| 草草浮力地址线路①屁屁影院| 熟妇高潮精品一区二区三区| 精品日韩亚洲AV无码| 亚洲人成电影在线天堂色| 日韩中文字幕亚洲精品一| 东京热av无码电影一区二区| 欧洲码亚洲码的区别入口| 国模肉肉视频一区二区三区| 真实国产老熟女无套中出| 国产成人精品久久一区二区 | 后入内射无码人妻一区| 国产精品一区二区三区黄色| 国产成人不卡无码免费视频| 肉大捧一进一出免费视频| 色熟妇人妻久久中文字幕| 国产成人a在线观看视频| 伦理片午夜视频在线观看| jizzjizz少妇亚洲水多| 华蓥市| 色噜噜一区二区三区| 三上悠亚精品二区在线观看| 日本一区二区精品色超碰| 亚洲综合在线一区二区三区 | 日韩精品无码区免费专区| 美日韩av一区二区三区| 四虎库影成人在线播放| 亚洲区中文字幕日韩精品| 日产国产一区二区不卡| 韩国无码AV片午夜福利| 国产精品一亚洲av日韩| 真实单亲乱l仑对白视频| 欧美刺激性大交| 亚洲欧美综合在线天堂| 国产精品一区中文字幕| 麻豆久久天天躁夜夜狠狠躁| 99国产精品99久久久久久| 天堂а√在线最新版中文在线|