逆視覺問答任務：一種根據回答與圖像想問題的模型

知識 06-21

作者：Feng Liu等人來源：arxiv、機器之心

隨著傳統的目標檢測和目標識別方法的發展，很多問題已經得到了解決，人們對於解決更具挑戰性的問題的興趣也在激增，這些問題需要計算機視覺系統更好的「理解」能力。圖像描述 [31]、可視化問答 [2]、自然語言對象檢索 [20] 和「可視化圖靈測試」[11] 等都存在要求豐富的視覺理解、語言理解以及知識表徵和推理能力的多模態 AI 挑戰。隨著對這些挑戰的興趣不斷增加，人們開始審視能夠解決這些問題的基準和模型。發現意想不到的相關性、提供找到答案的捷徑的神經網路，到底是針對這些挑戰取得的進展，還是只是最新的類似於聰明的漢斯 [29,30] 或波將金村 [12] 這樣的矯飾結果呢？

最近對 VQA 模型和基準的分析結果顯示，VQA 模型的成功很大程度上是根據所給問題中的數據集偏差和線索所做出的預測結果，這些預測結果幾乎與圖像內容的理解無關。例如，現有的 VQA 模型不會像人類一樣在回答問題的時候「回頭」看同一個地方 [6]；針對不同圖像的同一問題，它們給出的答案是相同的 [1]；在根本沒有給出圖像的情況下該模型也能表現得很好 [2,17]。此外，VQA 模型的預測結果至多依賴問題的前幾個單詞 [1]，模型的成功很大程度上取決於能否利用標籤偏差 [13]。

本文採取了不同的方法，並且探索了逆 VQA 任務是否能針對多模態智能提供有趣的基準。逆 VQA（iVQA）任務是輸入一組圖像和答案，然後提出（輸出）一個合適的適用於圖像內容和答案的問題。如圖 1 所示，我們推測 iVQA 是一個有趣挑戰的原因如下：（i）iVQA 模型利用問題偏差比 VQA 通過回答偏差得到高分所利用的問題偏差少（問題偏差越少，就越難利用問題對答案進行分類）。（ii）與 VQA 中的問題相比，它們自己的答案在 iVQA 中提供了非常稀疏的線索。因此，在 iQVA 中，僅從答案推導問題的機會比在 QVA 中從問題推導答案更少。也就是說，iQVA 任務更依賴於對圖像內容的理解。（iii）從知識表徵和推理的角度看，iVQA 可以提供測試更複雜的推理策略（如反事實推理）的機會。

圖 1. iVQA 任務圖示：輸入答案和圖像，以及本論文提出的模型生成的提問排序。

儘管與 VQA 密切相關，但現有的 VQA 模型無法解決 iVQA 問題。這是因為從答案中得到的可參考信息比從問題中得到的更少。此外，雖然答案一般都是由短語或幾個單片語成的短句子，但是 iVQA 模型生成的問題應該是由較長單詞序列組成的完整句子。iVQA 的關鍵在於，隨著下一個單詞的產生，模型有選擇地、動態地參與圖像的不同區域。這種動態的注意力機制必須以回答和已經生成的部分句子為條件。為此，研究者提出了一種基於動態多模態注意力的新 iVQA 模型，這種模型可以生成不同的、語法正確且內容相關的的問題，這些問題都能匹配所輸入的答案。

之前主要使用標準機器翻譯指標評估問題生成方法，例如 BLEU、METEOR 等。這些自動指標與人類對問題生成的判斷相關，但它們只能從這些模型成功或失敗的條件和原因等角度來簡單地判斷問題生成模型。本文第一次提出具有替代性和互補性的基於排名的評價指標，給定圖像和答案，該指標基於 iVQA 模型對替代干擾項中的標註問題進行排序。當使用這種模型時，通過控制干擾項可以更好地理解不同模型的成功和失敗。其次，本論文對 iVQA 一對多的性質進行了人工評估，即多個可能的問題都有一樣的答案。令人欣慰的是，人工評估的得分與我們提出的新的排序指標是高度相關的。

本文的貢獻如下：（1）為高等多模態視覺語言理解的挑戰引入新穎的 iVQA 問題。（2）提出了基於 iVQA 模型的多模態動態注意力機制。（3）針對 iVQA 提出了基於問題排序的評估方法論，這有助於判斷不同模型的長處和短處。（4）作為 VQA 模型的對偶問題，本文表明 iVQA 有助於提升 VQA 的性能。

圖 2：iVQA 模型的整體架構

iVQA 模型的架構如圖 2 所示。這個深度網路有三個子網路：一個圖像編碼器、一個答案編碼器以及一個問題解碼器。這兩個編碼器為解碼器提供輸入以產生與答案和圖像內容相匹配的問句。多模態注意力模塊（稍後會進行詳細介紹）也是個重要的組件，該組件在給定兩個編碼器的輸出和部分問題編碼器輸出的情況下，動態地引導注意圖像的不同部分。

圖 3：iVQA 的定性結果。括弧內的數字越大，意味著置信度越高。紫色是根據注意力生成的問題，在圖 5 中會進行詳細說明。

表 1：問題生成在測試集中性能的概覽。

表 2：關鍵的模型組件在驗證集上的消融研究（Ablation study）的結果。

圖 5：本文所述模型產生的動態注意力圖。輸入答案：「領結」（頂部）、「沙發」（底部）。因為答案不同，所以在生成輸出問題時，模型會生成完全不同的聚焦圖。

論文：iVQA: Inverse Visual Question Answering

論文鏈接：https://arxiv.org/pdf/1710.03370.pdf

摘要：我們提出了視覺問答的逆問題（iVQA），並研究了將其作為視覺語言理解基準的適用性。iVQA 任務的目的是生成與所給圖像和答案相關的問題。由於與問題相比答案所含信息更少，且問題可學習的偏差更少，因此與 VQA 模型相比，iVQA 模型需要更好地理解圖像才能成功。本文將問題生成視為一個多模態動態推斷過程，提出可以逐漸通過部分已生成問題和答案調整其注意力焦點的 iVQA 模型。在評估部分，除了現有的語言指標之外，我們提出了一個新的排序指標。該指標比較了干擾列表中真實問題的等級，這樣可以對不同演算法的缺點和誤差來源進行研究。實驗結果表明，本文提出的模型可以生成多樣、語法正確、內容相關且與所給答案相匹配的問題。

- 加入AI學院學習 -

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI講堂 的精彩文章:

※依圖科技宣布將於近期完成2億美元C＋輪融資
※從文本處理到自動駕駛：機器學習最常用的50大免費數據集

TAG:AI講堂 |