MIT人工智慧實驗室：讓機器預測下一秒的世界

科技 06-26

MIT 的計算機科學及人工智慧實驗室通過訓練機器看 YouTube 視頻和電視劇學會了預測人在接下來幾秒鐘內的動作，並且準確率達到了30％，而人類的準確率是70％。

兩個人碰面時，我們總能預測接下來會發生的事：握手，擁抱，甚至一個吻。我們預測行為的能力來自於過往經驗中的習得的直覺。

然而機器卻對此感到困難。行為預測型計算機系統將開闢新的可能性，從能探索人居環境的機器人，到預測跌落的應急反應系統，再到為你在不同情況下提供建議的谷歌眼鏡式的頭戴式設備。

這周 MIT 的計算機科學及人工智慧實驗室（Computer Science and Artificial Intelligence Laboratory/CSAIL）的研究者們在視覺預測領域取得了一項突破性進展，使得預測交互行為演算法的精確性得到了前所未有的提高。

在 YouTube 視頻和《辦公室》以及《絕望的主婦》等電視劇的情景訓練中，系統能夠預測兩個人是否會擁抱，接吻，握手或者擊掌。下一階段，它還能預測視頻中5秒鐘後會出現的對象。

MIT人工智慧實驗室：讓機器預測下一秒的世界

打招呼可能更像隨機行為，而此項任務是作為一個更易於控制的測試事件來供給研究者學習。

「人類能夠通過自身經驗去自動學習行為預測，這也使我們對能否讓計算機獲得這種常識產生興趣，」CSAIL的博士生 Carl Vondrick 說，他是這周即將發表在國際計算機視覺與模式識別會議（the International Conference on Computer Vision and Pattern Recognition /CVPR）中的一篇相關論文的第一作者。「我們想要展示的是，僅僅通過觀看大量視頻，計算機就能獲得足夠的知識來連續預測其周圍的環境。」

Vondrick 的聯合作者是 MIT 教授 Antonio Torralba 及前 MIT 博士後、現任馬里蘭大學教授 Hamed Pirsiavash。

它是如何工作的？

在預測型計算機視覺方面的過往嘗試普遍採用以下兩種方式中的一種。

第一種方式是觀察圖像的每一個像素，運用它們來創造一個逼真的「未來」圖片，一個像素接一個像素地——Vondrick稱之為「難住專業畫手，演算法輕鬆秒殺」的任務。第二種方式即提前為計算機人工標記事件，這種方法並不適合大規模的預測任務。

然而CSAIL團隊開發了一種能夠預測「視覺表徵」的演算法，本質上就是一組展現不同版本的可能場景的凍結幀。

「不是說一個像素值為藍色，下個為紅色，等等這樣，視覺表徵揭示了更大規模的圖片的信息，比如某個人臉像素的採集，」Vondrick 說。

這個團隊運用的演算法利用了深度學習技術，它是人工智慧的一個分支，即運用「神經網路」系統來教計算機觀察大量數據從而自動找出模型。

每一個預測表徵的這種演算法網路，都會被自動歸類為四種行為之一——在這個例子中是指擁抱，握手，擊掌或者接吻，然後系統會融合所有行為於一體給出最終預測結果。例如，三個網路預測接吻，另一個可能是擁抱。

「一段視頻並不是一本能夠提供所有可能路徑的《驚險岔路口》（兒童書籍，每個故事都以第二人稱視角來寫成，來使讀者能體驗主要角色，被稱為「遊戲書」），」Vondrick 說，「未來有著天然的不確定性，所以去開發一個運用這些表徵來預測所有可能性的系統帶來的自我挑戰非常令人興奮。」

它是怎麼做到的？

在訓練了這個演算法 600 個小時無標籤視頻之後，研究團隊用它測試了表達不同行為和對象的新視頻。

在一個視頻中，當距離人們做出四種動作之一還有一秒鐘時，這個演算法的預測準確度到達43%以上，而之前只能做到36%。

在第二項研究中，這個演算法展示了來自某個視頻的框架，並預測5秒後會出現的物體。例如某人打開微波爐可能預示著一個咖啡杯的出現。此演算法在這個框架中的預測結果的準確性是測試基準的30%，儘管研究者們提醒說平均精確度只有11%。

這根本不算什麼，即使人類也會在這些任務中犯錯：例如人類受試者的預測準確性也只能達到71%。

「在理解和預測人類交互行為上存在許多微妙之處，」Vondrick 說道。「我們希望能完成這個案例，不久之後便可進行更複雜的任務。」

展望

儘管演算法在實際應用中還不夠精確，Vondrick 認為未來的版本將能夠用於所有事情，從制定更優行動計劃的機器人，到發生人員跌落或傷亡時能夠通知急救人員的安全相機。

「如果能夠給演算法提供終身有價值的視頻，讓它們變得更優秀，我會很開心，」 Vondrick說。「可能會出現一些重大進展，使我們離視覺預測在現實世界中的利用更近一些。」

此項工作由美國國家科學基金會（National Science Foundation）撥款贊助，另外還有來自谷歌托拉爾瓦教學研究獎和 Vondrick 獲得的谷歌博士學術獎學金的支持。

請您繼續閱讀更多來自 機器之心 的精彩文章:

這部機器比史蒂芬.庫里更懂得投籃

《經濟學人》：五大維度剖析人工智慧革命

谷歌讓程序員接受忍者訓練

安卓之父AndyRubin：AI和量子計算是未來

TAG:機器之心 |

您可能感興趣

※機器人學大師：人工智慧預測的「七宗罪」
※將「另一個你」扼殺在搖籃中 IBM 人工智慧預測診斷精神分裂
※好奇心驅動人工智慧：UC Berkeley提出自監督預測演算法
※切To B企業的營銷市場，「探跡」用人工智慧提供銷售預測分析
※基於蛋白結構的ADMET預測
※10個特徵，預測你的飯碗是否會被機器人和人工智慧搶走
※探討SEO技術，如何用機器學習預測谷歌搜索排名？
※【遊戲預測】占星預測LPL夏季賽EDGvsIM誰能贏
※人工智慧可以精準預測地震？
※摸准對手套路？日本乒乓球機器人應用AI精準預測
※NBA官方預測新賽季DPOY，為何球迷都在爭論下賽季勇士無敵
※MIT：提前預測化療效果，實現精準用藥
※比賽預測：RNG和LCK的二號種子三星誰將更勝一籌？
※以色列工業物聯網安全公司Cyberx推出ICS攻擊途徑預測技術
※總決賽S7揭幕戰RNG和FB不能預測的結局？
※利用TCGA資料庫挖掘MicroRNA預測多形性膠質母細胞瘤的預後
※翻譯：人工智慧將預測環法比賽的關鍵時刻
※為更好實現銷售預測和減少客戶流失，客戶語音管理公司 TalkIQ 推出「預測性見解」功能
※機器人技術將如何發展？IDC發布十條經典預測！