video dialog 有影響力的論文詳解
Multi-View Attention Networks for Visual Dialog
* 切入點:問題的重點是哪個 ,需要充分理解才能抓住重點——給定問題的語義意圖 determining the semantic intent of the given question and then leveraging question-relevant information from the dialog history and visual contents
這個賣點好,基于這個提出了三個module,提高了0.1%
Recursive Visual Attention in Visual Dialog
* 切入點: 和前面比較弱,畢竟前面比較新,這個是 讓模型反復查找 history ,直到有自信后去 看圖片,具體方法沒細看(累了ing)
Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline
* 切入點:利用了finetune 和 bert ,換了個切入點
DMRM: A Dual-channel Multi-hop Reasoning Model for Visual Dialog
* 切入點:之前的模型是用 問題得到最相關的 history后直接去找相關圖片信息,相當于單輪的推理。而這篇論文是來回的推理,符合人類解決這類問題的直覺。
也是有 兩個 module 進行兩端推理,最后利用了一個多模態的attention來更好的得到答案。
DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue
代碼這個是數據沒給跑不了 , 賣點——圖模型

浙公網安備 33010602011771號