<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      實用指南:Your ViT is Secretly an Image Segmentation Model

      論文基本信息 (Basic Information)

      標題 (Title)Your ViT is Secretly an Image Segmentation Model
      Adresshttps://arxiv.org/pdf/2503.19108
      Journal/TimeCVPR2025
      Author荷蘭Eindhoven University of Technology\ 意大利Polytechnic of Turin\ 德國RWTH Aachen University
      Codehttps://www.tue-mps.org/eomt/

      1. 核心思想 (Core Idea)

      在這里插入圖片描述

      就是將之前的 ViT-Adapter + Mask2Former 變成了 只有 ViT的,在ViT的后面部分進行了一些小改動,達到了 sota。

      疑問 (Problem):當前將視覺Transformer(ViT)應用于圖像分割任務的SOTA途徑(如ViT-Adapter + Mask2Former)架構過于困難。它們普遍依賴于多個為引入卷積歸納偏置而設計的附加組件:1) Adapter,用于生成多尺度特征;2) Pixel Decoder,用于融合多尺度特征;3) Transformer Decoder,用于處理可學習查詢(queries)并與圖像特征交互。這些組件雖然有效,但導致模型臃腫、計算密集、推理速度慢,且難以實現和優化。

      核心假設 (Hypothesis):當ViT骨干網絡足夠大,并且經過了足夠強大的大規模預訓練(如DINOv2)后,ViT自身已經具備了學習這些歸納偏置的能力,不再需要這些復雜的外部組件。

      解決方法 (Solution):基于該假設,作者提出了一種極簡的僅編碼器掩碼Transformer (Encoder-only Mask Transformer, EoMT)。該方法移除了所有上述的附加組件,通過將可學習的分割查詢(queries)直接注入到ViT編碼器的中間層,讓編碼器的后半部分同時承擔特征提取和解碼的功能。這種設計極大地簡化了模型架構,使其回歸到一個幾乎純粹的ViT結構,從而在保持高精度的同時,實現了數倍的推理速度提升。

      2. 研究背景與動機 (Background and Motivation)

      動機 (Motivation):追求模型設計的簡潔性(Simplicity)和推理效率(Efficiency)。作者觀察到,為了讓ViT適用于分割任務,研究社區陷入了一種不斷“做加法”的模式,借助堆疊各種模塊來彌補ViT所謂的“原生缺陷”(如缺乏多尺度能力)。這導致模型越來越復雜,違背了ViT誕生時簡潔統一的初衷,也使其難以完全享受底層計算庫(如FlashAttention)對標準Transformer架構的優化紅利。就是核心動機

      與前人研究的不同 (The Difference):

      思路上的根本對立:之前的工作(ViT-Adapter, Mask2Former等)是在“幫忙”ViT”,需要外部模塊來“賦能”;而本文則認為一個“強大”的ViT“天生就行”,之前的外部模塊在高水平的預訓練和模型規模面前是“冗余的輔助輪”。這是一種從“做加法”到“做減法”的范式轉變。

      經過“復用”編碼器的一部分來完成解碼作用。這與YOLOS等早期探索encoder-only的模型相比,在方法上更純粹,并且首次系統性地證明了這種極簡設計在強大的基礎模型加持下,性能上可以與麻煩SOTA模型相媲美。就是架構上的極簡主義:EoMT幾乎完全拋棄了獨立解碼器的概念,而

      疑問的提出方式 (How the question is proposed):論文的切入點非常精彩。它首先清晰地描繪了當前SOTA分割模型的復雜管線(ViT + Adapter + Pixel Decoder + Transformer Decoder),然后直接提出兩個核心假設作為待驗證的命題:

      1. 大規模預訓練(特殊是MIM)已經教會了ViT提取分割所需的細粒度信息,因此額外的輔助組件可能不再必要。
      2. 更大的模型容量允許ViT在沒有這些附加組件的情況下直接勝任分割任務。

      3. 方法論 (Methodology)

      在這里插入圖片描述

      EoMT的構建過程可以看作是一場“拆解實驗”,從一個復雜的SOTA模型逐步簡化而來:

      逐步拆解 (Step-by-step removal):

      • 基線: ViT-Adapter + Mask2Former。
      • 步驟1 (w/o ViT-Adapter):移除Adapter,用容易的轉置卷積和卷積從ViT的單尺度輸出(e.g.,
        1/16)生成一個簡化的特征金字塔。
      • 步驟2 (w/o Pixel Decoder):進一步移除Pixel Decoder,將上述簡化的特征金字塔直接送入Transformer
        Decoder。
      • 步驟3 (w/o Multi-scale):移除多尺度特征處理,Transformer Decoder只與ViT的原始單尺度輸出F_vit進行交互。
      • 步驟4 (w/o Transformer Decoder) -> EoMT誕生: 徹底移除獨立的Transformer Decoder。

      EoMT 架構:
      在這里插入圖片描述
      Query注入: 將K個可學習的分割查詢(queries)在ViT的第L1 個block之后,與patch tokens進行拼接(Concatenate)。
      聯合處理: 拼接后的序列(具備patch tokens和query tokens)共同送入剩余的L2個ViT block中。在這些block里,標準的自注意力機制會自然地處理四種交互:patch-patch, patch-query, query-patch, query-query。這巧妙地復用編碼器層來搭建了傳統解碼器的效果。
      預測頭: 經過所有L個block后,取出最終的query tokens,通過一個輕量的MLP預測類別(Class Logits)和掩碼(Mask Logits)。
      在這里插入圖片描述
      Mask Annealing (掩碼退火):
      動機:Mask2Former中的masked attention機制在訓練時能提升精度,但在推理時需要計算中間掩碼,非常耗時。
      策略:在訓練初期,masked attention以100%的概率被采用,以幫助模型穩定收斂。隨著訓練的進行,這個概率會分層、逐步地衰減(anneal)到0。例如,先讓第21個block的mask概率衰減,再到第22個,以此類推。
      效果:模型在訓練后期逐漸“忘記”對masked attention的依賴,從而在推理時行完全關閉它,大大提升速度,同時性能損失極小。

      4. 實驗結果 (Experimental Results)

      在這里插入圖片描述

      核心消融實驗 (Table 1):從ViT-Adapter+M2F逐步簡化到EoMT,在COCO數據集上,模型速度提升了4.4倍 (29 -> 128 FPS),而精度(PQ)僅從57.1輕微下降到56.0。這證明了復雜組件的“可替代性”。

      預訓練的影響 (Table 2):使用弱的ImageNet預訓練時,EoMT與復雜模型的性能差距較大(-3.9 PQ);但當換用強大的DINOv2預訓練時,差距迅速縮小到-1.1 PQ。這證明了強大的預訓練是簡化架構的前提。

      模型規模的影響 (Table 3 & Figure 1):隨著ViT模型從Small增大到Giant,EoMT與艱難模型的性能差距從-5.8 PQ縮小到-0.7 PQ。這證明了模型規模是彌補歸納偏置缺失的關鍵。Figure 1的精度-速度曲線清晰地表明,EoMT在所有模型尺寸上都給出了更優的帕累托前沿。

      實例分割,EoMT都取得了與SOTA方法(如Mask2Former, OneFormer)相當甚至更好的“精度-速度”權衡。就是各大基準測試 (Tables 4, 5, 6):在COCO, ADE20K, Cityscapes等主流內容集上,無論是全景、語義還

      附加優勢:

      • OOD泛化 (Table 8):得益于DINOv2預訓練和純ViT架構,EoMT在分布外(OOD)素材集上的泛化能力遠強于使用Swin或ConvNeXt等架構的SOTA模型。
      • 兼容性 (Table 9):EoMT的簡潔架構使其能無縫接入ViT的生態優化,如Token Merging,進一步提升吞吐量;而帶有復雜Adapter的模型則因為需解耦和交互,無法獲得同樣的速度增益。

      5. 結論與討論 (Conclusion & Discussion)

      通過核心結論:對于圖像分割任務,架構的復雜性能夠被模型規模和預訓練的質量所替代。一個經過大規模自監督預訓練的大尺寸ViT,其本身就蘊含了強大的分割能力,無需再為其設計繁瑣的外部“輔助結構”。

      討論與展望:這項工作倡導了一種**“少即是多”**的設計哲學。未來的研究重心或許應該從設計越來越精巧的任務頭,轉向如何更有效地擴大模型規模、提升預訓練的質量和效率。EoMT作為一個方便、可擴展的基線,為下一代分割模型的發展奠定了堅實的基礎,使其能更好地擁抱Transformer和基礎模型領域的飛速發展。

      6. 核心貢獻總結 (Summary of Key Contributions)

      提出并驗證了一個核心假設:系統性地證明了,隨著模型規模和預訓練水平的提升,用于圖像分割的ViT模型中復雜的任務專用組件(Adapter, Decoders)變得越來越不核心。

      提出了EoMT架構:設計了一種極簡、高效的Encoder-only分割模型,它依據在編碼器內部處理分割查詢,復用了ViT的標準模塊,顯著提升了推理速度,同時保持了SOTA級的精度。

      提出了Mask Annealing策略:發明了一種新穎的訓練技巧,能夠在不犧牲性能的前提下,移除推理時對計算昂貴的masked attention的依賴,進一步提升了模型的效率。

      樹立了新的效率標桿:在多個分割基準上,EoMT在“精度 vs. 速度”的權衡上達到了新的SOTA水平,證明了將計算資源投入到擴展ViT本身是比增加架構復雜性更優的選擇。

      posted @ 2025-11-05 15:40  yxysuanfa  閱讀(0)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 亚洲av永久无码精品秋霞电影影院| 日产一区日产2区| 日韩精品人妻中文字幕| 99久久国产一区二区三区| 国产成人久久精品二区三| 人人妻人人澡人人爽人人精品电影 | 中文字幕国产精品综合| 中文字幕精品人妻av在线| 日本高清无卡码一区二区久久| 国产色悠悠综合在线观看 | 亚洲精品成人区在线观看| 午夜福利精品国产二区| 成人无码午夜在线观看| 狠狠亚洲色一日本高清色| 国产精品一亚洲av日韩| 麻豆精品久久久久久久99蜜桃| 亚洲AV高清一区二区三区尤物| 免费大片av手机看片高清 | 国产97人人超碰caoprom| 久久三级国内外久久三级| 东兴市| jizz视频在线观看| 免费看黄片一区二区三区| 亚洲色欲色欲WWW在线丝| 在线观看特色大片免费网站| 男女xx00xx的视频免费观看| 国产乱久久亚洲国产精品| 不卡一区二区国产在线| 国产gaysexchina男外卖| 久久婷婷成人综合色综合| 特黄三级又爽又粗又大| 亚洲国内精品一区二区| 国产综合视频一区二区三区| 国产在线观看91精品亚瑟| 久久久久综合中文字幕| 久久91精品牛牛| 国产69精品久久久久99尤物 | 最新的国产成人精品2020| 丰满少妇被猛烈进出69影院| 亚洲国产精品无码久久电影| 国产精品嫩草99av在线|