摘要:
本文提出了一種無需額外訓(xùn)練的GUI定位框架DiMo-GUI,通過??逐級縮放動態(tài)聚焦??目標(biāo)區(qū)域減少視覺冗余,并??分離文本與圖標(biāo)模態(tài)??獨(dú)立推理后綜合評估確定目標(biāo),有效平衡多模態(tài)能力。在基準(zhǔn)測試中性能顯著提升,適用于網(wǎng)頁導(dǎo)航和移動應(yīng)用自動化等場景。 閱讀全文
posted @ 2025-08-26 16:25
vivo互聯(lián)網(wǎng)技術(shù)
閱讀(90)
評論(0)
推薦(0)

浙公網(wǎng)安備 33010602011771號