視覺問答領域又一力作！斯坦福大學教授發布圖像場景圖問答數據集 GQA

新聞 02-01

雷鋒網 AI 科技評論：GQA 是斯坦福大學教授 Christopher Manning 及其學生 Drew Hudson 一同打造的全新圖像場景圖問答數據集，旨在推動場景理解與視覺問答研究領域的進步。

據 Christopher Manning 教授及其學生 Drew Hudson 調查後發現，現有的視覺問答數據集主要存在兩種缺陷：一個是基準失誤，當中包括了基於語言先驗的偏見、視覺偏見、過分關注顯著對象、來源有誤、對象缺位、答案不合邏輯、模型反應不一致等；一個是推理數據集的數量很有限。

為此，他們開發了一個用於對現實世界的圖像進行視覺推理與綜合回答的全新數據集 GQA，該數據集包含高達 20M 的各種日常生活圖像，主要源自於 COCO 和 Flickr。每張圖像都與圖中的物體、屬性與關係的場景圖（scene graph）相關，創建上基於最新清潔版本的 Visual Genome。此外，每個問題都與其語義的結構化表示相關聯，功能程序上指定必須採取一定的推理步驟才能進行回答。

GQA 數據集的許多問題涉及多種推理技巧、空間理解以及多步推理，比起人們先前常用的視覺回答數據集，更具有挑戰性。他們保證了數據集的平衡性，嚴格控制不同問題組的答案分布，以防止人們通過語言和世界先驗知識進行有據猜測。

視覺問答領域又一力作！斯坦福大學教授發布圖像場景圖問答數據集 GQA

最後，他們通過一套全新的指標來完善數據集，該指標不僅能測試模型的精確度，還可預測模型響應的一致性、有效性於合理性，從而幫助我們更了解模型背後的運作原理。雖說問題是自動生成的，但由於生成主要基於自然語言眾包場景圖，因此在語法性、多樣性和慣用性上將有所保障。

為了鼓勵更多人嘗試使用 GQA 數據集，他們將從 2019 年 2 月開始舉辦相關比賽。他們希望 GQA 成為開發更強大和更有說服力的推理模型的關鍵助力，進而推動場景理解與視覺問答研究領域的進步。

via https://cs.stanford.edu/people/dorarad/gqa/download.html

雷鋒網 AI 科技評論雷鋒網

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※5 秒實現自動摳圖？見過 remove.bg 這款神器
※室內沒有GPS信號，要怎麼精確導航？

TAG:雷鋒網 |