<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      Qwen多模態系列模型筆記—Qwen-VL

      Qwen-VL論文筆記

      摘要

      在這項工作中,我們介紹Qwen-VL系列,一組旨在感知和理解文本與圖像的大規模視覺語言模型。從Qwen-LM這個基礎大語言模型出發,我們通過如下四條精心設計,賦予了其視覺能力: (1)視覺編碼器;(2)輸入輸出接口設計;(3)三階段訓練流程;(4)多語言多模態清理后的語料。除了常規的圖像描述和問答任務,我們通過對齊(圖像,注釋,坐標框)這種三元組方式,實現了Qwen-VL的定位和文本讀取能力。得到的模型包括Qwen-VL,Qwen-VL-Chat在很多視覺基準如圖像注釋、問答、視覺定位和不同設置下如零樣本、少樣本任務上都創造了新的記錄。此外,在現實世界對話基準上,我們的指令微調Qwen-VL-Chat模型相比現有視覺語言對話機器人也展現出了優越性能。所有模型都公開以促進未來的研究。

      方法

      模型結構

      Qwen-VL的整個網絡架構由三個組件構成,模型參數細節參考Table 1。

      大語言模型: Qwen-VL采用大語言模型Qwen-7B作為其基礎組件
      視覺編碼器: Qwen-VL視覺編碼器采用ViT架構,使用Openclip的VIT-BigG這個模型權重進行初始化。在訓練和推理過程中,輸入圖像都調整為特定的尺寸(224x224, 448x448)。視覺編碼器將圖片分拆為14x14的小塊,進而生成一組圖像特征。
      位置感知的視覺-語言適配器: 為了解決很長圖像特征序列帶來的效率問題,Qwen-VL采用了一個視覺-語言適配器來壓縮圖像特征。這個適配器是一個隨機初始化的單層cross-attention模塊,該模塊采用一組可訓練的向量作為Query向量,圖像特征作為Key向量。這種機制將視覺特征序列的長度壓縮為固定的256. 關于查詢向量數量的消融實驗請參考原味附錄E.2. 考慮到細粒度圖像理解位置信息的重要性,將2D絕對位置編碼集成到cross-attention中的query-key對中,以消除在壓縮過程中位置信息的損失。 壓縮后的圖像特征序列長度為256,然后被送給大語言模型。

      注: 位置信息是如何注入的? 假設將圖像分拆為hxw個patch,對應第(i,j)位置patch特征記為\(K_{i,j}\), 2D的絕對位置編碼可以求出pos_emb = get_2d_sincos_pos_embed(h, w, d),那么可以通過\(K_{i,j}^{'}=K_{i,j} + pos{\_}emb(i,j)\)這種方式注入。這種方式也很好理解。而查詢向量由于是訓練學習的,沒有明確2D空間位置,因此不太可能給查詢向量這樣加。真實的位置編碼如何添加請閱讀Qwen-VL代碼獲取。

      注: 如何實現圖像特征訓練的壓縮? 假設圖像特征序列長度為1024, 查詢特征序列長度為256. 
      # Q: [B, 256, D], K=V: [B, 1024, D]
      scores = torch.bmm(queries, image_features_with_pos.transpose(1, 2)) / (D ** 0.5)  # [B, 256, 1024]
      attn_weights = F.softmax(scores, dim=-1)  # [B, 256, 1024]
      
      # 加權聚合 Value(這里 V = 原始圖像特征 或 也可用帶位置的,依設計)
      compressed_features = torch.bmm(attn_weights, image_features)  # [B, 256, D]
      

      輸入和輸出

      圖像輸入: 圖像經過視覺編碼器和適配器后,得到固定長度的圖像特征序列。為了區分圖像特征輸入和文本特征輸入,2個特殊的token: <img>, </img>添加到圖像特征序列的前面和后面,表明圖像內容的開始和結束。

      坐標框輸入和輸出: 為了增強模型的細粒度視覺理解和定位能力,Qwen-VL訓練包含區域描述、問題和檢測的數據。不同于常規任務比如圖文描述/問題,這類任務要求模型精確的理解和以某種格式生成區域描述。為此對于任意給定的坐標框,首先歸一化范圍在[0,1000),再轉換為這種\((X_{topleft}, Y_{topleft}), (X_{bottomright}, Y_{bottomright})\)格式。 這個字符串按Text解析,為了區分檢測字符串和常規的文本字符串,使用兩個特殊token: <box>, </box>添加到這個坐標字符串的前面和后面。此外,為了恰當地將邊界框與其對應的描述性詞語或句子關聯起來,引入了另一組特殊token: <ref>,</ref>,用于標識邊框框所指代的內容。

      訓練

      如圖3所示,Qwen-VL模型的訓練過程包括3個階段:2個預訓練階段和最后一個指令微調階段。

      預訓練

      預訓練的第一階段,我們主要是利用大規模弱標注網絡爬取的圖文對。預訓練數據集中包含許多公開可獲取的資源和一些內部數據。我們努力清理了某些模式的數據集。總結在了表2中,原始數據集有50億個圖文對,清理后剩余14億;文本部分,其中77.3%是英文,22.7%是中文。 在這個階段訓練凍結大語言模型的參數,僅優化視覺編碼器和VL適配器。輸入圖片的尺寸統一調整為224x224。訓練目標是最小化文本token的交叉熵。最大學習率是\(2e^{-4}\),訓練batchsize設置為30720,整個預訓練過程持續50000步,預計消費了15億圖文對數據。(大約就是完成1個epoch訓練)

      第一階段預訓練隨著訓練圖像的增多,訓練損失值穩定地下降。而且觀察到,雖然在這個訓練階段沒有添加VQA數據,但是零樣本分數也在波動式增長。

      多任務預訓練

      在第二階段的多任務預訓練中,采用了具有更高輸入分辨率的高質量和細粒度的VL注釋數據,而且數據以圖文交替方式組織。Qwen-VL同時在7個任務上訓練,總結在表格3中。Caption數據與表格2中是一致的,除了使用更少的樣本和排除掉LAION-COCO。(之所以是使用更少的數據是可能由于篩選出圖片尺寸達到448x448分辨率,排除LAION-COCO是由于它是合成的數據。)最后通過將相同任務的數據以交替方式打包在一起,以達到2048的訓練長度。這個階段使用的圖片輸入分辨率是448x448以減少信息的損失。

      注: text-oriented task 表示什么含義? 指圖片中包含文字的這類圖片,識別出圖片中的文字,是多模態大模型能力一個重要方面。通常會用包含文字的圖片及對應文字內容構成數據集來訓練多模態模型。這里就使用來自Common Crawl中的pdf和HTML格式的數據來訓練多模態模型。pdf格式數據很好理解,HTML格式是指使用HTML渲染得到的界面截圖得到圖片,對應文字信息是HTML頁面中呈現的文字內容,可能也包含頁面中包含圖片信息的描述。

      有監督微調

      在這個階段,通過指令微調Qwen-VL預訓練模型來增強它的指令跟隨和對話能力,得到了交互式的Qwen-VL-Chat模型。多模態指令微調數據主要來自由LLM自指令生成的描述數據和對話數據。這經常只能解決單張圖片對話和推理,限制了圖像內容理解。本文通過人工標注、模型生成和策略拼接構建了一個額外的對話數據集,以賦予Qwen-VL模型定位和多圖理解能力。另外本文將多模態數據和純對話數據進行混合,以確保模型通用的對話能力。整個指令數據集達到了35萬條。

      strategy concatenation 策略拼接具體包含哪些呢?
      - 多輪對話拼接:把單輪的QA數據拼接為多輪對話,模擬真實的人機對話場景
      - 原始數據:
          - Q1: 這張圖里有什么?  -> A1: 一只貓。
          - Q2: 貓在做什么?    -> A2: 在沙發上睡覺
      - 拼接后:
          用戶: 這張圖片里有什么?
          模型: 一只貓。
          用戶: 貓在做什么?
          模型: 在沙發上睡覺。
      
      - 多圖拼接: 把多個單圖數據組合成一個任務,讓模型在多個圖像間進行比較或推理。
      - 原始數據:
          - 圖1  -> 描述: 一只狗在草地上跑。
          - 圖2  -> 描述: 一只貓在沙發上睡覺。
      - 拼接后:
          - Q: 對比這兩張圖片里的動物,它們在做什么?
          - A: 狗在跑,而貓在睡覺。
      
      - 任務拼接:把Caption、VQA、Grounding等不同類型的數據組合在一起
          - 給一張圖,既有caption,又有定位坐標,還有相關的QA。
          - 請描述這張圖,并標出人所在的位置。
      
      - LLM輔助拼接
          - 用大語言模型把原始數據擴展成多輪、多任務格式。
          - 比如給單一caption,讓LLM生成對應的問題,推理鏈,形成更復雜的instruction數據。
      

      We confirm that the model effectively transfers these capabilities to a wider range of languages and question types. 這句話如何理解?
      這里的these capabilities是指圖像caption、視覺問答、視覺定位、OCR識別、指令跟隨與對話交互能力等。雖然指令數據集有35萬,但是畢竟有限覆蓋不全,比如沒有包含西班牙語的多輪對方多模態樣本,或者視覺定位樣本比較少。 這句話所表達的含義就是,論文驗證了在這樣的條件下,模型仍將這些能力遷移到了更廣泛的語言和問題類型。

      數據格式

      多任務預訓練的數據格式

      下圖展示了7種任務的數據格式,黑色文本看作前綴序列不計算損失,而藍色文本作為Ground truth要計算損失值。

      SFT數據格式

      為了更好地支持多圖像對話和多個圖像輸入,我們在不同圖像前添加字符串“Picture id:”,其中 id 對應圖像在對話中輸入的順序。在對話格式方面,我們采用 ChatML(OpenAI)格式構建指令微調數據集,每個對話輪次的語句均使用兩個特殊標記(<im_start> 和 <im_end>)進行標注,以幫助模型識別對話的起止邊界。在訓練中,為保持訓練與推理分布一致,僅對答案和特殊標記進行監督(藍色標注),而不監督角色名和問題。

      posted @ 2025-09-25 19:59  星辰大海,綠色星球  閱讀(255)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 亚洲成av人片无码迅雷下载| 日韩乱码视频一区二区三区 | 成人做受120秒试看试看视频| 女同性恋一区二区三区视频| 精品午夜福利在线视在亚洲| 思南县| 午夜av高清在线观看| 日韩av高清在线看片| 国内精品久久人妻无码不卡| 美女黄网站人色视频免费国产| 天天澡日日澡狠狠欧美老妇| 国产自在自线午夜精品| 色天天天综合网色天天| 亚洲精品一区二区三区在线观看| 国产精品午夜福利在线观看 | 国产午夜福利免费入口| 区一区二区三区中文字幕| 日日碰狠狠添天天爽五月婷| 日韩精品一区二区午夜成人版| 国产午夜福利精品视频| 麻豆天美东精91厂制片| 天堂va亚洲va欧美va国产| 国产精品一码二码三码| 福利一区二区视频在线| 人妻中文字幕亚洲精品| 人人色在线视频播放| 国产激情第一区二区三区| 97视频精品全国免费观看| 国产精品人妻熟女男人的天堂 | 国产精品一区二区色综合| 奶头好大揉着好爽视频| 亚洲精品岛国片在线观看| free性开放小少妇| 亚洲高清国产自产拍av| 国产精品午夜福利91| 亚洲深夜精品在线观看| 三上悠亚精品一区二区久久| 国产尤物精品自在拍视频首页| 偷看少妇自慰xxxx| 精品国产一区二区三区性色| 不卡一区二区国产精品|