摘要:
本文詳細解析QwenVL2.5模型的處理流程及微調方法,包括模板化輸入(通過processor.apply_chat_template處理對話messages,含<|im_start|>等標記模擬用戶/assistant對話)、編碼輸入(圖像處理采用smart_resize動態調整分辨率確保可被patch_size整除,經歸一化后轉為Vit的patch序列;文本通過tokenizer編碼)、模型處理(視覺Transformer對pixel_values進行Conv3d處理生成特征,結合window-attention計算)。同時,闡述了SFT微調流程:數據層面構建對話模板生成input_ids、pixel_values等輸入,模型層面采用QLoRA優化并結合gradient_checkpointing等顯存優化策略。強化學習部分涵蓋DPO(處理三元組數據計算chosen/rejected_logps,通過KL散度等計算loss)和GRPO(無需ref_model,利用reward_function及高熵過濾優化loss),為QwenVL2.5-3B的實際應用與性能提升提供技 閱讀全文
posted @ 2025-09-22 22:22
Big-Yellow-J
閱讀(761)
評論(0)
推薦(0)
摘要:
最新內容:https://www.big-yellow-j.top/posts/2025/08/28/MultiModal2.html 對于多模態系列模型大致的多模態大語言模型的通用模型框架和每個模塊的一些實現方法[1]: 基本上就是對于圖片/視頻等通過不同的視覺編碼器(Vit/Clip等)進行編碼 閱讀全文
posted @ 2025-09-22 22:21
Big-Yellow-J
閱讀(120)
評論(0)
推薦(0)

浙公網安備 33010602011771號