當前位置:
首頁 > 知識 > 關係推理超越人類:DeepMind全新神經網路推理預測技術

關係推理超越人類:DeepMind全新神經網路推理預測技術

選自DeepMind

作者:Adam Santoro等

機器之心編譯

參與:機器之心編輯部

想像一下在阿加莎·克里斯蒂(《東方快車謀殺案》作者)的偵探小說里收集所有證據找出犯人的讀者,在足球滾到河邊時上前停球的小孩,甚至一個購物者在購買水果時比較獼猴桃和芒果的優點。

人類將這個世界理解為事物之間的關係。我們了解世界運行的方式,因為我們能對不同事物之間的聯繫做出邏輯推理——物理對象、語句,甚至抽象的想法。這種能力被稱為關係推理,它是人類智能的核心。

我們以每天所有感官接收到的非結構化信息為基礎構建這種關係。我們的眼睛會接收到大量光線,而我們的大腦會將這些「巨量嘈雜的混亂」組織到我們需要關聯的特定實體之中。

這兩篇論文都展示了有望理解關係推理這一挑戰的新方法。

開發具有人類級別靈活性和效率的人工智慧系統需要實現人類級別的認知能力,這意味著它們必須能從非結構化數據中推理實體並認識其中的關係。解決這個問題意味著系統可以將有限技能推廣到無限的新任務中,從而展示出強大的能力。

現代深度學習方法在解決非結構性數據問題的過程中已經有了很大進展,但此前的諸多方法忽略了考慮事物之間的聯繫。

在 DeepMind 最近發表的兩篇論文中,研究人員探索了深度神經網路對非結構化數據執行複雜關係推理的能力。第一篇論文《A simple neural network module for relational reasoning》中,DeepMind 描述了 Relation Network(RN),並表明它在一種高難度任務中具有超越人類的表現;而在第二篇論文《Visual Interaction Networks》中,研究者們描述了一種通用模型,它可以純粹基於視覺觀察結果來預測物理對象的未來狀態。

一種用於關係推理的簡單神經網路模塊

為了更深入地探索關係推理的思想,並測試這種能力能否輕鬆加入目前已有的系統,DeepMind 的研究者們開發了一種簡單、即插即用的 RN 模塊,它可以載入到目前已有的神經網路架構中。具備 RN 模塊的神經網路具有處理非結構化輸入的能力(如一張圖片或一組語句),同時推理出事物其後隱藏的關係。

使用 RN 的網路可以處理桌子上的各種形狀(球體、立方體等)物體組成的場景。為了理解這些物體之間的關係(如球體的體積大於立方體),神經網路必須從圖像中解析非結構化的像素流,找出哪些數據代表物體。在訓練時,沒有人明確告訴網路哪些是真正的物體,它必須自己試圖理解,並將這些物體識別為不同類別(如球體和立方體),隨後通過 RN 模塊對它們進行比較並建立「關係」(如球體大於立方體)。這些關係不是硬編碼的,而是必須由 RN 學習——這一模塊會比較所有可能性。最後,系統將所有這些關係相加,以產生場景中對所有形狀對的輸出。

研究人員讓這一新模型處理了各種任務,其中包括 CLEVR——一個視覺問答任務集,旨在探索神經網路模型執行不同類型推理的能力,如計數、比較和查詢。CLEVR 由以下這樣的圖片組成:

對於每個圖片,都有與圖中物體相關的問題。例如,對於上圖的問題可能是:「在圖中有一個小的橡膠物體和大個的圓筒形有相同的顏色,那麼它是什麼形狀的?」

目前的機器學習系統在 CLEVR 上標準問題架構上的回答成功率為 68.5%,而人類的準確率為 92.5%。但是使用了 RN 增強的神經網路,DeepMind 展示了超越人類表現的 95.5% 的準確率。

為了測試 RN 的多任務適用性,研究人員還在另一個大不相同的語言任務中測試了 RN 的能力。DeepMind 使用 bAbI——Facebook 推出的基於文本的問答任務集。bAbI 由一些故事組成,這些故事由數量不一的句子組成,最終引向一個問題。如:「Sandra 撿起了足球」、「Sandra 進了辦公室」可能會帶來問題「足球在哪裡?」(答案是:辦公室)。

RN 增強網路在 20 個 bAbI 任務中的 18 個上得分超過 95%,與現有的最先進的模型相當。值得注意的是,具有 RN 模塊的模型在某些任務上的得分具有優勢(如歸納類問題),而已有模型則表現不佳。

詳細的測試結果請參閱論文《A simple neural network module for relational reasoning》。

視覺交互網路(VIN)

這是在物理場景中進行預測的另一個關鍵的關係推理。人類在看過一眼之後就能推斷一個物體是什麼,接下來數秒會發生什麼。例如,如果你向牆上踢足球,大腦就會預測撞擊之後球會發生什麼,而後球的運動軌跡是什麼(球會以一定的速度比例撞向牆面,而牆紋絲不動)。

這些預測都受到複雜的推理認知系統的影響,從而對物體以及相關的物理作用進行預測。

在 DeepMind 開發「視覺交互網路(VIN,一種模擬這種能力的模型)」的相關工作中,VIN 能夠只從幾個視頻畫面中推理多個物體的狀態,然後使用狀態關係預測未來物體的位置。它不同於生成式模型。生成式模型可能視覺地「想像」接下來的視頻畫面,但 VIN 是預測關聯物體間的潛在關係狀態。

GIF/1.9M

VIN 動態預測(右)與真值模擬(左)的對比。VIN 接受 6 幀畫面的輸入之後,能夠預測 200 幀。大約 150 幀內,VIN 的預測近似於真值模擬。之後雖然有所不同,但依然能產生看上去合理的動態預測。

VIN 包括兩種機制:視覺模塊和物理推理模塊。二者結合能夠將視覺場景處理成一系列有區別的物體,並學習物理規則的一套隱式系統,從而預測未來物體會發生什麼。

研究人員在多種系統中測試了 VIN 的能力,包括撞球撞擊、行星系統的引力關係等。結果顯示 VIN 能夠準確預測物體在未來數百步發生的事。

在與之前公開的 VIN 模型、 變體(其中關係推理的機制被移除了)的實驗對比中,完整 VIN 的表現要好很多。

詳細的細節可查看下面的第二篇論文。

總結

DeepMind 的兩篇論文都展現出了理解關係推理難題的有潛力的方法。通過將世界萬物分解成物體以及之間的關係,它們展現了神經網路可具備的強大的推理能力,讓神經網路能夠對物體進行新的場景結合。表面上看起來不同但本質上有共同的關係。

研究人員認為,這些方法有足夠的延展性,可被用於許多任務,幫助人們建立更複雜的推理模型,讓我們更好地理解人類強大的、靈活的通用智能中的關鍵成分。

論文一:一種用於關係推理的簡單神經網路模塊(A simple neural network module for relational reasoning)

論文地址:https://arxiv.org/abs/1706.01427

關係推理(relational reasoning)是通用智能行為的核心組成部分,但神經網路卻難以學習到這種能力。在這篇論文中,我們描述了可以如何使用關係網路(RN/Relation Networks)作為簡單的即插即用模塊來解決那些從根本上取決於關係推理的問題。我們在三種任務對使用 RN 增強的網路進行了測試,分別是視覺問答(使用了一個難度很大的數據集 CLEVR,我們實現了當前最佳且超過人類水平的表現)、基於文本的問答(使用了 bAbI 任務套件)和關於動態物理系統的複雜推理。然後,使用一個被精心調節過的數據集 Sort-of-CLEVR,我們表明強大的卷積網路不具備解決關係問題的通用能力,但可以通過使用 RN 增強而獲得這種能力。我們的研究表明了裝備了 RN 模塊的深度學習架構可以如何隱含地發現和學習推理實體以及它們的關係。

圖 2:視覺問答架構。問題在經過 LSTM 處理後產生一個問題嵌入(question embedding),而圖像被一個 CNN 處理後產生一組可用於 RN 的物體。物體(圖中用黃色、紅色和藍色表示)是在卷積處理後的圖像上使用特徵圖向量構建的。該 RN 網路會根據問題嵌入來考慮所有物體對之間的關係,然後會整合所有這些關係來回答問題。

論文二:視覺交互網路(Visual Interaction Networks)

論文地址:https://arxiv.org/abs/1706.01433

人類只需簡單一瞥就能給出許多類型物理系統的未來狀態的豐富預測。另一方面,來自工程學、機器人學和圖形學的現代方法則往往受限於狹窄的領域,且需要對當前狀態的直接觀測。我們引入了視覺交互網路(Visual Interaction Network),這是一種用於從原始視覺觀察中學習物理系統的動態的通用模型。我們的模型由一個基於卷積神經網路的感知前端(perceptual front-end)和一個基於交互網路的動態預測器(dynamics predictor)組成。通過聯合訓練,這個感知前端可以學會將一個動態視覺場景解析成一組有係數的隱含物體表徵(factored latent object representations)。而其動態預測器則可以通過計算它們的交互和動態來表示這些狀態的未來情況,從而預測出一個任意長度的物理軌跡。我們發現,僅需要 6 個輸入視頻幀,該視覺交互網路就可以生成精準的未來軌跡,且這些軌跡的時間步數都是數以百計的,可涵蓋大量的物理系統。我們的模型也可以被應用於帶有不可見物體的場景,基於它們對可見物體的影響效果來推理它們的未來狀態,而且還可以隱含地推斷出物體的未知質量。我們的結果表明這種感知模塊和基於物體的動態預測器模塊可以歸納有係數的隱含表示(factored latent representations),其可以支持準確的動態預測。這項成果為根據複雜物理環境中的原始感官觀察而進行的基於模型的決策和規劃(model-based decision-making and planning)開啟了新的機會。

圖 1:視覺交互網路:這裡描述了一般架構(說明見右下角)。其中視覺編碼器以連續幀的三元組為輸入,並為每個三元組中的三幀輸出一個狀態碼。該視覺編碼器在輸入序列上以一種滑動窗口的形式工作,然後得出一個狀態碼序列。應用於該編碼器的解碼後的輸出上的輔助損失(auxiliary losses)有助於訓練。然後該狀態碼序列被饋送入動態預測器,其包含多個交互網路內核(本例子中是 2 個),這些內核工作在不同的時間偏移(temporal offsets)上。然後這些交互網路的輸出被送入一個聚合器(aggregator),以得到下一個時間步的預測。這個內核以一種滑動窗口的形式工作,如圖所示。其預測的狀態碼是線性編碼的,然後在訓練時被用在預測損失中。

圖 2:幀配對編碼器(Frame Pair Encoder)和交互網路(Interaction Net)。(a)Frame Pair Encoder 是一個 CNN 網路,可將兩個連續輸入幀轉換為一個狀態碼。在池化(pooling)處理成單位寬度和單位長度之前,重要特徵要與 x,y 坐標軸相關聯。池化後的輸出被重塑成一個狀態碼。(b) 通過動態預測器的處理,交互網路(IN)可以被應用到每一個時間偏移當中。每一個 slot 都有相應的關係網路,這可以使每個 slot 都和其他 slot 相互關聯。而且每一個 slot 本身又都應用了一個自動態網路(self-dynamics net)。這兩種輸出結果通過變換器(affector)被累加求和,並且進行後期處理(post-processed),從而預測出新的 slot。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

基於Metal的框架Bender:可在iOS上運行TF模型
深度學習C語言修改器DeepFix:用人工智慧加「符號」
蘋果開發者大會WWDC 2017:全面展示蘋果的人工智慧實力
大漠孤煙,長河落日:面向景深結構的風景照生成技術
實驗研究工作流程詳解:如何把你的機器學習想法變成現實

TAG:機器之心 |

您可能感興趣

DeepMind等機構提出「圖網路」:面向關係推理
斯坦福大學教授Christopher Manning提出全可微神經網路架構MAC:可用於機器推理
DeepMind提出關係RNN:構建關係推理模塊,強化學習利器
CMU&谷歌Spotlight論文:超越卷積的視覺推理框架
ICLR 2018 | 斯坦福大學教授Christopher Manning提出全可微神經網路架構MAC:可用於機器推理
DeepMind提出關係RNN:記憶模塊RMC解決關係推理難題
Intel 10nm十代酷睿改造轉戰M.2:神經網路推理
CMU&谷歌Spotlight論文:超越卷積的視覺推理框架
微軟發布AI推理工具Windows ML
報名:NVIDIA教你用TensorRT加速深度學習推理計算
Chunsoft全新推理ADV《AI:夢境檔案》新角色公布
DeepMind用深度學習模仿大腦推理,預測編碼智能推進一大步!
Chunsoft全新推理ADV《AI:夢境檔案》最新角色公布
Unlock the Mystery 推理遊戲
Spike Chunsoft推理新作《AI:夢境檔案》角色預告片發布
IBM Watson提出人機推理網路HuMaINs,結合人機兩者優勢
微軟、英特爾發布 AI 邊際推理工具 Windows ML 及 VPU
TensorFlow 概率推理工具集——probability
既要深度學習又要符號化推理,DeepMind 新 JAIR 論文小試牛刀
既要深度學習又要符號化推理,DeepMind新JAIR 論文小試牛刀