專欄 | 香儂科技獨家對話Facebook人工智慧研究院首席科學家Devi Parikh

科技 08-26

機器之心專欄

來源：香儂科技

Facebook 人工智慧研究院（FAIR）首席科學家 Devi Parikh 是 2017 年 IJCAI 計算機和思想獎獲得者（IJCAI 兩個最重要的獎項之一，被譽為國際人工智慧領域的「菲爾茲獎」），並位列福布斯 2017 年「20 位引領 AI 研究的女性」榜單。她主要從事計算機視覺和模式識別研究，具體研究領域包括計算機視覺、語言與視覺、通識推理、人工智慧、人機合作、語境推理以及模式識別。

2008 年到現在，Devi Parikh 先後在計算機視覺三大頂級會議（ICCV、CVPR、ECCV）發表多篇論文。她所主持開發的視覺問題回答數據集 (Visual Question Anwering) 受到了廣泛的關注，並在 CVPR 2016 上組織了 VQA 挑戰賽和 VQA 研討會，極大地推動了機器智能理解圖片這一問題的解決，並因此獲得了 2016 年美國國家科學基金會的「傑出青年教授獎（NSF CAREER Award）。她最近的研究集中在視覺、自然語言處理和推理的交叉領域，希望通過人和機器的互動來構造一個更加智能的系統。

香儂科技

：您和您的團隊開發的視覺問答數據集（VQA, Visual Question Answering Dataset, Antol et al. ICCV2015; Agrawal et al. IJCV 2017）極大地推動了該領域的發展。這一數據集囊括了包括計算機視覺，自然語言處理，常識推理等多個領域。您如何評估 VQA 數據集到目前產生的影響？是否實現了您開發此數據集的初衷？您期望未來幾年 VQA 數據集（及其進階版）對該領域產生何種影響？

Devi and Aishwarya：

VQA 數據集影響：

我們在 VQA 上的工作發布後短期內受到了廣泛的關注 – 被超過 800 篇論文所引用（(Antol et al. ICCV 2015; Agrawal et al. IJCV 2017)，還在 15 年 ICCV 上「對話中的物體認知」研討會中獲得最佳海報獎（Best Poster Award）。

為了評估 VQA 的進展，我們用 VQA 第一版為數據集，在 2016 年 IEEE 國際計算機視覺與模式識別會議（CVPR-16，IEEE Conference on Computer Vision and Pattern Recognition 2016）上組織了第一次 VQA 挑戰賽和第一次 VQA 研討會（Antol etal. ICCV 2015; Agrawal et al. IJCV 2017）。挑戰和研討會都很受歡迎：來自學術界和工業界的 8 個國家的大約 30 個團隊參與了這一挑戰。在此次挑戰中，VQA 的準確率從 58.5％提高到 67％，提升了 8.5％。

圖 1. VQA 數據集中的問答樣例。

VQA v1 數據集和 VQA 挑戰賽不僅促進了原有解決方案的改進，更催生了一批新的模型和數據集。例如，使用空間注意力來聚焦與問題相關的圖像區域的模型（Stacked Attention Networks, Yang et al., CVPR16）；以分層的方式共同推理圖像和問題應該注意何處的注意力神經網路（Hierarchical Question Image Co-attention, Lu et al., NIPS16）；可以動態組合模塊的模型，其中每個模塊專門用於顏色分類等子任務（Neural Module Networks, Andreas et al., CVPR16）；使用雙線性池化等運算融合視覺和語言特徵，從而提取更豐富的表徵的模型（Multimodal Compact Bilinear Pooling，Fukui et al.，EMNLP16）。

此外，VQA 也催生了許多新的數據集，包括側重於視覺推理和語言組合性的模型及相關數據集（CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning, Johnson et al., CVPR17）；對於 VQA 第一版數據集的重新切分，使其可以用來研究語言的組合性問題 C-VQA（A Compositional Split of the VQA v1.0 Dataset, Agrawal et al., ArXiv17）；還有需要模型克服先驗言語知識的影響，必須要觀察圖像才能回答問題的 VQA 數據集（Agrawal et al., CVPR18）。

簡而言之，我們在 VQA 上的工作已經在人工智慧中創建了一個新的多學科子領域。事實上，在這個數據集發布不久，在一些重要的 AI 會議上，當你提交論文並選擇相關的子主題時，VQA 已成為一個新增選項。

是否實現了 VQA 開發的初衷：

儘管 VQA 社區在提高 VQA 模型的性能方面取得了巨大進步（VQA v2 數據集上的預測準確率在 3 年內從 54％提高到 72％），但我們距離完全解決 VQA 任務還有很長的路要走。現有的 VQA 模型仍然缺乏很多必要的能力，比如：視覺落地 (visual grounding)，組合性（compositionality），常識推理等，而這些能力是解決 VQA 的核心。

當我們開發數據集時，我們認為模型的泛化應該是一個很大挑戰，因為你很難期望模型在訓練集上訓練，就能很好地推廣到測試集。因為在測試時，模型可能會遇到關於圖像的任何開放式問題，而很有可能在訓練期間沒有遇到過類似的問題。我們期望研究人員能嘗試利用外部知識來處理此類問題，但是在這方面的工作現階段還很少。不過我們已經看到了一些在該方面的初步進展（e.g., Narasimhan et al. ECCV 2018, Wang et al. PAMI 2017），希望將來會看到更多。

期望 VQA 數據集未來的影響：

我們希望 VQA 數據集對該領域能產生直接和間接的影響。直接的影響是指，我們期望在未來幾年內能湧現更多新穎的模型或技術，以進一步改進 VQA 第一版和 VQA 第二版數據集上的預測準確率。而間接的影響是指，我們希望更多全新的數據集和新任務能被開發出來，如 CLEVR（Johnson 等人, CVPR17），Compositional VQA（Agrawal 等人，ArXiv17），需要克服先驗語言知識的 VQA（Agrawal et al.，CVPR18），基於圖像的對話（Das et al.，CVPR17），需要具身認知的問答（Embodied Question Answering, Das et al.，CVPR18）。它們或直接構建在 VQA 數據集之上，或是為解決現有 VQA 系統的局限性所構造。因此，我們期待 VQA 數據集（及其變體）能進一步將現有 AI 系統的能力提升，構造可以理解語言圖像，能夠生成自然語言，執行動作並進行推理的系統。

香儂科技

：最近，您的團隊發布了 VQA 第二版（Goyal et al. CVPR 2017），其中包含對應同一問題有著不同答案的相似圖像對。這樣的數據集更具挑戰性。通常，創建更具挑戰性的數據集會迫使模型編碼更多有用的信息。但是，構建這樣的數據集會耗費大量人力。是否可以用自動的方式來生成干擾性或對抗性的示例，從而將模型的預測能力提升到一個新的水平呢？

圖 2. VQA 2.0 數據集中的圖片及問題示例，每個問題對應著兩個相似、但卻需要不同回答的圖片。圖片來自論文 Goyal et al. CVPR 2017。

Devi, Yash, and Jiasen

：構建大規模數據集確實是勞動密集型的工作。目前有一些基於現有標註自動生成新的問答對的工作。例如，Mahendru 等人 EMNLP 2017 使用基於模板的方法，根據 VQA 訓練集的問題前提，生成關於日常生活中的基本概念的新問答對。這一研究發現，將這些簡單的新問答對添加到 VQA 訓練數據可以提高模型的性能，尤其是在處理語言組合性（compositionality）的問題上。

在數據增強這一問題上，生成與圖像相關的問題也是一個很重要的課題。與上述基於模板生成問題的方法不同，這種方法生成的問題更自然。但是，這些模型還遠不成熟，且無法對生成問題進行回答。因此，為圖像自動生成準確的問答對目前還是非常困難的。要解決這一問題，半監督學習和對抗性例子生成可能會提供一些比較好的思路。

值得注意的是，關於圖像問題的早期數據集之一是 Mengye Ren 等人在 2015 年開發的 Toronto COCO-QA 數據集。他們使用自然語言處理工具自動將關於圖像的標註轉換為問答對。雖然這樣的問答對通常會留下奇怪的人為痕迹，但是將一個任務的標註（在本例中為字幕）轉換為另一個相關任務的標註（在這種情況下是問答）是一個極好的方法。

香儂科技

：除 VQA 任務外，您還開發了基於圖像的對話數據集--Visual Dialog Dataset（Das et al., CVPR 2017, Spotlight）。在收集數據時，您在亞馬遜勞務眾包平台（一個被廣泛使用的眾包式數據標註平台) 上配對了兩個參與者，給其中一個人展示一張圖片和圖的標題，另一個人只能看到圖的標題，任務要求只能看到標題的參與者向另一個能看到圖片的參與者提出有關圖片的問題，以更好地想像這個圖像的場景。這個數據集為我們清晰地揭示了圖像中哪些信息人們認為更值得獲取。您是否認為對模型進行預訓練來猜測人們可能會問什麼問題，可以讓模型具備更像人類的注意力機制，從而提高其問答能力？

圖 3. 基於圖像的對話任務，聊天機器人需要就圖像內容與一個人展開對話。樣例來自論文 Das et al., CVPR 2017。

Devi and Abhishek

：在這些對話中，問題的提出存在一些規律：對話總是開始於談論最醒目的對象及其屬性（如人，動物，大型物體等），結束在關於環境的問題上（比如，「圖像中還有什麼？」，「天氣怎麼樣？」等）。如果我們可以使模型學習以區分相似圖像為目的來提出問題並提供答案，從而使提問者可以猜出圖像，就可以生成更好的視覺對話模型。Das & Kottur et al., ICCV 2017 展示了一些相關的工作。

香儂科技

：組合性是自然語言處理領域的一個經典問題。您和您的同事曾研究評估和改進 VQA 系統的組合性（Agrawal et al. 2017）。一個很有希望的方向是結合符號方法和深度學習方法（例, Lu et al. CVPR 2018, Spotlight）。您能談談為什麼神經網路普遍不能系統性地泛化，以及我們能如何解決這個問題嗎？

圖 4. 組合性 VQA 數據集（C-VQA）的示例。測試集中詞語的組合是模型在訓練集中沒有學習過的，雖然這些組合中的每一單個詞在訓練集中都出現過。圖片來源於 Agrawal et al. 2017。

Devi and Jiasen

：我們認為產生這樣結果的一個原因是這些模型缺乏常識，如世界是如何運作的，什麼是可以預期的，什麼是不可預期的。這類知識是人類如何從例子中學習，或者說面對突發事件時依然可以做出合理決策的關鍵。當下的神經網路更接近模式匹配演算法，它們擅長從訓練數據集中提取出輸入與輸出之間複雜的相關性，但在某種程度上說，這也是它們可以做的全部了。將外部知識納入神經網路的方法現在仍然非常匱乏。

香儂科技

：您的工作已經超越了視覺和語言的結合，擴展到了多模式整合。在您最近發表的「Embodied Question Answering」論文中（Das et al. CVPR, 2018），您介紹了一項包括主動感知，語言理解，目標驅動導航，常識推理以及語言落地為行動的任務。這是一個非常有吸引力的方向，它更加現實，並且與機器人關係更加緊密。在這種背景下的一個挑戰是快速適應新環境。您認為在 3D 房間環境中訓練的模型（如您的那篇論文中的模型）會很快適應其他場景，如戶外環境嗎？我們是否必須在模型中專門建立元學習（meta-learning）能力才能實現快速適應？

圖 5. 在具身問答（Embodied QA）任務中，機器人通過探索周圍的 3D 環境來回答問題。為完成這項任務，機器人必須結合自然語言處理、視覺推理和目標導航的能力。圖片來自於 Das et al. CVPR 2018.

Devi and Abhishek

：在目前的實例中，他們還不能推廣到戶外環境。這些系統學習到的東西與他們接受訓練時的圖像和環境的特定分布密切相關。因此，雖然對新的室內環境的一些泛化是可能的，但對於戶外環境，他們在訓練期間還沒有看到過足夠多的戶外環境示例。例如，在室內環境中，牆壁結構和深度給出了關於可行路徑和不可行路徑的線索。而在室外環境中，路表面的情況（例如，是道路還是草坪）可能與系統能否在該路徑上通行更相關，而深度卻沒那麼相關了。

即使在室內的範圍內，從 3D 房間到更逼真的環境的泛化也是一個未完全解決的問題。元學習方法肯定有助於更好地推廣到新的任務和環境。我們還在考慮構建模塊化的系統，將感知與導航功能分離，因此在新環境中只需要重新學習感知模塊，然後將新的環境（例如更真實的環境）的視覺輸入映射到規劃模塊更為熟悉的特徵空間。

香儂科技

：您有一系列論文研究 VQA 任務中問題的前提（Ray et al. EMNLP 2016, Mahendru et al. 2017），並且您的研究發現，迫使 VQA 模型在訓練期間對問題前提是否成立進行判斷，可以提升模型在組合性（compositionality）問題上的泛化能力。目前 NLP 領域似乎有一個普遍的趨勢，就是用輔助任務來提高模型在主要任務上的性能。但並非每項輔助任務都一定會有幫助，您能說說我們要如何找到有用的輔助任務嗎？

圖 6. VQA 問題中常常包含一些隱藏前提，會提示一部分圖像信息。因此 Mahendru et al. 構造了「問題相關性預測與解釋」數據集（Question Relevance Prediction and Explanation, QRPE）。圖中例子展示了 Mahendru et al. EMNLP 2017 一文中「錯誤前提偵測」模型偵測到的一些前提不成立的問題。

Devi and Viraj

：在我們實驗室 Mahendru 等人 2017 年發表的論文中，作者的目標是通過推理問題的前提是否成立，來使 VQA 模型能夠更智能地回答不相關或以前從未遇到的問題。我們當時有一個想法，認為用這樣的方式來擴充數據集可能幫助模型將物體及其屬性分離開，這正是組合性問題的實質，而後來經過實驗發現確實如此。更廣義地來說，我們現在已經看到了很多這種跨任務遷移學習的例子。例如，圍繞問題回答，機器翻譯，目標導向的對話等多任務展開的 decaNLP 挑戰。或者，將用於 RGB 三維重建，語義分割和深度估計（depth estimation）的模型一起訓練，構建一個強大的視覺系統，用於完成需要具身認知的任務（Embodied Agents, Das et al. 2018）。當然也包括那些首先在 ImageNet 上預訓練，然後在特定任務上微調這樣的被廣泛使用的方法。所有這些都表明，即使對於多個跨度很大的任務，多任務下學習的表徵也可以非常有效地遷移。但不得不承認，發現有意義的輔助任務更像是一門藝術，而不是科學。

香儂科技

：近年來，深度學習模型的可解釋性受到了很多關注。您也有幾篇關於解釋視覺問答模型的論文，比如理解模型在回答問題時會關注輸入的哪個部分，或是將模型注意力與人類注意力進行比較（Das et al. EMNLP 2016, Goyal et al. ICML 2016 Workshop on Visualization for Deep Learning, Best Student Paper）。您認為增強深度神經網路的可解釋性可以幫助我們開發更好的深度學習模型嗎？如果是這樣，是以什麼方式呢？

圖 7. 通過尋找模型在回答問題時關注了輸入問題中哪部分欄位（高亮部分顯示了問題中的辭彙重要性的熱圖）來解釋模型預測的機制。比如上面問題中「whole」是對模型給出回答「no」最關鍵的詞語。圖片來源於論文 Goyal et al. ICML 2016 Workshop on Visualization for Deep Learning。

Devi and Abhishek

：我們的 Grad-CAM 論文（Selvarajuet et al., ICCV 2017）中的一段話對這個問題給出了答案:

從廣義上講，透明度/可解釋性在人工智慧（AI）演化的三個不同階段都是有用的。首先，當 AI 明顯弱於人類並且尚不能可靠地大規模應用時（例如視覺問題回答），透明度和可解釋性的目的是識別出模型為什麼失敗，從而幫助研究人員將精力集中在最有前景的研究方向上; 其次，當人工智慧與人類相當並且可以大規模使用時（例如，在足夠數據上訓練過的對特定類別進行圖像分類的模型），研究可解釋性的目的是在用戶群體中建立對模型的信心。第三，當人工智慧顯著強於人類（例如國際象棋或圍棋）時，使模型可解釋的目的是機器教學，即讓機器來教人如何做出更好的決策。

可解釋性確實可以幫助我們改進深度神經網路模型。對此我們發現的一些初步證據如下：如果 VQA 模型被限制在人們認為與問題相關的圖像區域內尋找答案，模型在測試時可以更好的落地並且更好地推廣到有不同「答案先驗概率分布」的情況中（即 VQA-CP 數據集這樣的情況）。

可解釋性也常常可以揭示模型所學到的偏見。這樣做可以使系統設計人員使用更好的訓練數據或採取必要的措施來糾正這種偏見。我們的 Grad-CAM 論文（Selvaraju et al.，ICCV 2017）的第 6.3 節就報告了這樣一個實驗。這表明，可解釋性可以幫助檢測和消除數據集中的偏見，這不僅對於泛化很重要，而且隨著越來越多的演算法被應用在實際社會問題上，可解釋性對於產生公平和符合道德規範的結果也很重要。

香儂科技

：在過去，您做了很多有影響力的工作，並發表了許多被廣泛引用的論文。您可以和剛剛進入 NLP 領域的學生分享一些建議，告訴大家該如何培養關於研究課題的良好品味嗎？

Devi

：我會引用我從 Jitendra Malik（加州大學伯克利分校電子工程與計算機科學教授）那裡聽到的建議。我們可以從兩個維度去考慮研究課題：重要性和可解決性。有些問題是可以解決的，但並不重要；有些問題很重要，但基於整個領域目前所處的位置，幾乎不可能取得任何進展。努力找出那些重要、而且你可以（部分）解決的問題。當然，說起來容易做起來難，除了這兩個因素之外也還有其他方面需要考慮。例如，我總是被好奇心驅使，研究自己覺得有趣的問題。但這可能是對於前面兩個因素很有用的一個一階近似。

參考文獻：

Antol S, Agrawal A, Lu J, et al. VQA: Visual question answering[C]. Proceedings of the IEEE International Conference on Computer Vision. 2015: 2425-2433.

Yang Z, He X, Gao J, et al. Stacked attention networks for image question answering[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 21-29.

Lu J,Yang J, Batra D, et al. Hierarchical question-image co-attention for visual question answering[C]. Proceedings of the Advances In Neural Information Processing Systems. 2016: 289-297.

Andreas J, Rohrbach M, Darrell T, et al. Neural module networks[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 39-48.

Fukui A, Park D H, Yang D, et al. Multimodal compact bilinear pooling for visual question answering and visual grounding[J]. arXiv preprint arXiv:1606.01847,2016.

Johnson J, Hariharan B, van der Maaten L, et al. CLEVR: A diagnostic dataset for compositional language and elementary visual reasoning[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017: 1988-1997.

Vo M, Yumer E, Sunkavalli K, et al. Automatic Adaptation of Person Association for Multiview Tracking in Group Activities[J]. arXiv preprint arXiv:1805.08717, 2018.

Agrawal A, Kembhavi A, Batra D, et al. C-vqa: A compositional split of the visual question answering (vqa) v1.0 dataset. arXiv preprint arXiv: 1704.08243, 2017.

Agrawal A, Batra D, Parikh D, et al. Don』t just assume; look and answer: Overcoming priors for visual question answering[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 4971-4980.

Das A, Kottur S, Gupta K, et al. Visual dialog[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 1080--1089.

Das A, Datta S, Gkioxari G, et al. Embodied question answering[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2018.

Goyal Y, Khot T, Summers-Stay D, et al. Making the V in VQA matter: Elevating the role of image understanding in Visual Question Answering[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017, 1(2):3.

MahendruA, Prabhu V, Mohapatra A, et al. The Promise of Premise: Harnessing Question Premises in Visual Question Answering[C]. Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017: 926-935.

Ren M, Kiros R, Zemel R. Image question answering: A visual semantic embedding model and a new dataset[J]. Proceedings of the Advances in Neural Information Processing Systems, 2015,1(2): 5.

Fang H S, Lu G, Fang X, et al. Weakly and Semi Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 70-78.

Ray A, Christie G, Bansal M, et al. Question relevance in VQA: identifying non-visual and false-premise questions[J]. arXiv preprint arXiv: 1606.06622,2016.

Das A, Agrawal H, Zitnick L, et al. Human attention in visual question answering: Do humans and deep networks look at the same regions?[J]. Computer Vision and Image Understanding, 2017, 163: 90-100.

Goyal Y, Mohapatra A, Parikh D, et al. Towards transparent AI systems: Interpreting visual question answering models[J]. arXiv preprint arXiv:1608.08974, 2016.

Selvaraju R R, Cogswell M, Das A, et al. Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization[C]. Proceedings of the International Conference on Computer Vision (ICCV). 2017: 618-626.

本文為機器之心經授權轉載，

轉載請聯繫原作者獲得授權

。

?------------------------------------------------

加入機器之心（全職記者 / 實習生）：hr@jiqizhixin.com

投稿或尋求報道：

content

@jiqizhixin.com

廣告 & 商務合作：bd@jiqizhixin.com

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！