李飛飛：為後目標識別時代的 CV 研究，我們搭建了 Visual Genome 數據集（上） | IROS 2017

新聞 09-27

雷鋒網按：9 月 26 日，機器人領域的頂級學術會議 IROS 2017 進入第二日。上午，著名華人計算機視覺專家、斯坦福助理教授李飛飛，在溫哥華會議中心面向全體與會專家學者作了長達一小時的專題報告，分享在她眼中視覺對智能意味著什麼，並介紹她與其斯坦福研究團隊正在從事的 Visual Genome Dataset 數據集項目。

由於篇幅限制，報告分為上下兩篇。上半部分如下。雷鋒網作了不改變願意的刪減。

李飛飛在 IROS 2017

李飛飛：我會與大家分享最近在做的視覺工作，聊一聊計算機視覺與視覺智能領域的歷史背景。這些都是仍在進行中的研究，歡迎自由討論。

視覺究竟有多重要？

朋友建議我，在機器人大會演講至少要放一張機器人的圖片。我挑了一張最喜歡的：

李飛飛：為後目標識別時代的 CV 研究，我們搭建了 Visual Genome 數據集（上） | IROS 2017

問題來了：為什麼在這幅兒童畫里，機器人是有眼睛的？

我認為這與進化演進有關。不管是智慧動物還是智能體，眼睛/視覺/視力都是最基本的東西（兒童在潛意識裡也這麼認為）。讓我們回到 5.4 億年前的寒武紀——在寒武紀生物大爆發之前，地球上的生物種類算不上多，全都生活在水裡，被動獲取食物。但在距今約 5.4 億年的時候，非常奇怪的事情發生了（如下圖）：短短一千萬年的時間內，各種各樣的新物種紛紛湧現，這便是「寒武紀大爆發」。

李飛飛：為後目標識別時代的 CV 研究，我們搭建了 Visual Genome 數據集（上） | IROS 2017

這背後的原因是什麼？

最近，一名澳大利亞學者提出了一套非常有影響力的理論，把寒武紀大爆發歸功於——視覺。在寒武紀，最早的三葉蟲進化出了一套非常原始的視力系統，就像最原始的德科相機，能捕捉到一丁點光。但這改變了一切：能「看」之後，動物開始主動捕食。獵手和獵物之間從此開始了持續數億年的「追蹤—躲藏」遊戲，行為越來越複雜。從這個節點往後，幾乎地球上所有動物都進化出了某種形式上的視覺系統。5.4 億年之後的今天，對於人類，眼睛已成為我們最重要的感測器，超過一半的大腦都會參與視覺功能。

在地球生物向更高智慧水平進化的過程中，視覺真的是非常重要的推動力量。

這套如此神奇的感知系統，便是我今天想要講的主題。這也是我們對機器的追求——讓機器擁有人類這樣的視覺智能。

從人類到機器視覺

下面，我講一個小故事，關於人類視覺系統的令人驚嘆之處。

在 1960 年代的好萊塢，誕生了一個非常有里程碑意義的歷史電影《The Pawnbroker》（首部以倖存者角度表現二戰中猶太人大屠殺的美國電影）。隨著這部電影誕生了一種全新的為電影插入視頻剪輯的技術，導演 Sidney Lumet 對此做了個很有意思的實驗——插入的畫面需要顯示多久才能讓觀眾抓住內容。

李飛飛：為後目標識別時代的 CV 研究，我們搭建了 Visual Genome 數據集（上） | IROS 2017

他不斷縮短畫面播放的時間，從十幾秒到幾秒，最後到三分之一秒——他發現這是一個相當好的時長，足夠觀眾看清楚並且充分理解畫面。

心理學家和認識科學家們受此啟發，開展了更進一步的實驗：向參與者播放連續多幀畫面，每幀的顯示時間僅有 100 微秒。其中，僅有一幅畫面里有一個人，要求參與者找出這個人。

而大家確實都能夠找出來。這非常令人驚嘆，只需 100 微秒，我們的視覺系統就能檢測到從來沒見過的人。

1996 年，神經心理學家 Simon J. Thorpe 在《自然》發表了一項研究，通過腦電波觀察人腦對複雜圖像進行分類的速度。他發現，僅需 150 微秒，大腦就會發出一道區分信號，對畫面中的物體是否為動物做出判斷。

李飛飛：為後目標識別時代的 CV 研究，我們搭建了 Visual Genome 數據集（上） | IROS 2017

後來，哈佛人體視覺學者 Jeremy Wolfe 在論文中寫道，雖然很難去衡量一個人究竟看到了什麼、對某個畫面達到了什麼程度的理解，但直覺告訴我們，畫面中的物體應當是我們觀察的對象之一。

看起來很顯而易見，但這提醒我們，對物體的識別是視覺最基礎的部分之一，計算機視覺也在這個領域攻關了許多年。從 2010 到 2017，ImageNet 挑戰賽的目標識別（object recognition）錯誤率一直在下降。到 2015 年，錯誤率已經達到甚至低於人類水平。

李飛飛：為後目標識別時代的 CV 研究，我們搭建了 Visual Genome 數據集（上） | IROS 2017

我不會說目標識別是個已經攻克的領域。許多關鍵問題尚待研究，其中不少和機器人息息相關。比如 3D 輪廓理解，目標局部理解，對材料、紋理的理解等等。這些方面的研究非常活躍，我也感覺到做這些比組織 ImageNet 分類任務挑戰賽更有意思。

後目標識別時代的計算機視覺

接下來，我想分享一些新的、探索性的工作，而不是列出識別對象清單（inventory list of objects）這樣的基礎研究。讓我們回到 Jeremy Wolfe 的論文，他繼續寫道：「物體之間的關係，必須寫進 gist。」

假設有兩張圖片：把一盒牛奶倒進玻璃杯；把一盒牛奶倒出來（倒在空中），旁邊放著一隻玻璃杯。兩者不是一回事。兩張圖片中的物體都一樣，但它們之間的關係不同。

僅憑圖片的對象清單，無法完整傳遞其內容。下面是另一個例子：

李飛飛：為後目標識別時代的 CV 研究，我們搭建了 Visual Genome 數據集（上） | IROS 2017

兩張照片都是人和羊駝，但是發生的事情完全不同。當然，過去在這方面也有不少研究，包括空間關係，行為關係，概率關係等等，就不一一闡述了。這些工作基本都在小型封閉環境中開發測試，探索的也不過十幾、二十幾種關係。而我們希望把視覺關係的研究推向更大的尺度。

我們的工作基於視覺表達和 leverage model 的結合，通過把圖像空間的 embedding 以及關於對象關係的自然語言描述以巧妙的方式結合起來，避免了在對象和對象之間的關係做乘法帶來的計算負擔。

李飛飛：為後目標識別時代的 CV 研究，我們搭建了 Visual Genome 數據集（上） | IROS 2017

上圖展示的便是可視化結果的質量。給定該照片，我們的演算法能找出空間關係、比較關係、不對稱空間關係、動詞關係、行為關係以及介詞關係。

更有意思的是，我們的演算法能實現 zero-shot （零樣本學習）對象關係識別。舉個例子，用一張某人坐在椅子上、消防栓在旁邊的圖片訓練演算法。然後再拿出另一張圖片，一個人坐在消防栓上。雖然演算法沒見過這張圖片，但能夠表達出這是「一個人坐在消防栓上」。

李飛飛：為後目標識別時代的 CV 研究，我們搭建了 Visual Genome 數據集（上） | IROS 2017

類似的，演算法能識別出「一匹馬戴著帽子」，雖然訓練集里只有「人騎馬」以及「人戴著帽子」的圖片。當然，這個演算法還很不完美。飛飛老師接下來舉了幾個錯誤識別對象關係的例子。雷鋒網小編注意到，當兩個類似的對象（如兩個人）部分重疊在一起，演算法就容易判斷失誤。如下圖，演算法錯誤得認為是左邊的人在扔飛碟：

李飛飛：為後目標識別時代的 CV 研究，我們搭建了 Visual Genome 數據集（上） | IROS 2017

這是一個計算機視覺下面飛速發展的領域。在我們團隊的 ECCV 2016 論文之後，今年有一大堆相關論文發表了出來，一些甚至已經接近了我們的模型效果。我非常欣喜能看到該領域繁榮起來。為了該領域能夠出產更多研究，我真心得呼籲至少部分計算機視覺社區把研究轉到關係理解、交互理解方向。我其實一直在著手建立一套這方面的數據集，為更多研究鋪路。

Visual Genome Dataset

相比之下，ImageNet 的數據集其實很貧乏。每張圖片其實只有一條信息：對象的身份。這方面一直有更好的數據集，比如微軟的 COCO，它給不同場景下八十個不同的對象打上標籤，還提供一個描述圖片內容的短句子。

但對於理解場景，可做的遠遠不止於此。相對於用一句話，可以用多句話描述圖片的不同部分，從不同角度來解讀，也可以有問有答。更重要的是表達清楚對象之間的關係。事實上，我們採用了圖表的形式（graph approach）來解決這個問題。用一組場景圖呈現對象、關係、屬性以及像素特徵，一次描述整幅場景（如下圖）。

李飛飛：為後目標識別時代的 CV 研究，我們搭建了 Visual Genome 數據集（上） | IROS 2017