MIT和Google讓AI獲得多種感官協調能力
根據MIT和Google研究人員近期發表的論文,他們正在訓練AI將圖像、聲音和文字等多方面信息匹配起來。在語音識別、圖像識別以及下圍棋等單項能力方面,AI已經足夠出色,甚至超越了人類。但是如果AI一次只能使用一種感知能力,無法將看到和聽到的內容進行匹配的話,就無法徹底理解周圍的世界。這正是MIT和Google的研究人員進行這項研究原因。
研究人員並沒有教給演算法任何新東西,只是建立了一種方式讓演算法能夠將多種感官獲得的知識進行連接和協調。這一點至關重要。
論文的聯合作者之一——MIT的AI博士後Yusuf Aytar以無人車為例:比如無人車的聲音感測器先聽到了救護車的聲音,然後激光雷達才看到救護車的樣子。有關救護車的鳴叫聲、樣子以及職能的知識可以讓無人車放慢速度,切換車道,為救護車讓路。
他說道:「你是先看到汽車還是先聽見引擎聲並沒有關係,你馬上能識別出這是同一個概念。因為你大腦中的信息已經自然地把它們協調統一起來了。」
為了訓練這套系統,MIT的研究小組首先向神經網路展示了與音頻相關的視頻幀。在神經網路發現視頻中的對象並且識別出特別的音頻之後,AI就會嘗試預測哪一個對象跟聲音關聯。比方說,招手會不會發出聲音呢?
接下來,研究人員又以相同的形式為演算法提供了帶標題的圖片,讓它將文字和圖片進行匹配。網路首先需要單獨識別出圖中所有的對象以及相關問題,然後才能進行匹配。
由於AI獨立識別聲音、圖像、文字的能力已經十分出色,這種網路乍看之下並沒有什麼了不起。但研究人員表示,當他們對AI進行聲音/圖像、圖像/文字的配對訓練時,系統就能在未經訓練指導哪個單詞與不同聲音匹配的情況下將聲音與文字關聯起來。這表明神經網路對於所看到的、聽到的或者讀到的東西已經形成了更加客觀的看法,而且這種看法的形成並不完全依賴於它用來了解這一信息的媒介。
統籌對象的觀感、聽覺以及文字後,演算法就能自動將聽到的東西轉化為視覺圖像,從而強化對於世界的理解。
據悉,Google也進行了類似的研究,不過Google更加強調一點:新演算法還能將文字轉化成其他的媒體形式,雖然從準確率上來說,它暫時還比不上單用途的演算法。


※民宿在日本合法化後 這個生意在日本變得熱門起來
※[視頻]能預知未來? 「基因檢測」真有這麼神奇嗎?
※董明珠:我們完全可以做出媲美德日的指甲刀
※支持LGBTQ:蘋果員工北美參加驕傲遊行
※黑客用「野蠻袋鼠」USB存儲攻擊工具感染CIA計算機
TAG:cnbeta |
※TARS為Spring Cloud 提供高性能的 RPC 能力
※Intel Hades Canyon NUC評測:令人讚不絕口的性能與拓展能力
※微軟收購Semantic Machines,Cortana對話式AI能力將進一步提升
※兩大理由暗示Spotify盈利能力或超Apple Music
※DeepMind 讓AI機器人具備自學能力
※華為MateBook X Pro散熱能力再升級
※Google收購Cask Data,進一步強化大數據分析能力
※Adobe 近年最大併購併入 Magento Commerce,強化數字銷售能力
※Juniper Network 並了Cyphort 之後,機器學習偵測惡意連線的能力變得更強大了
※召喚和超能力:Leap Motion演示VR遠距離交互設計
※Forrester大數據能力報告:阿里雲僅次於AWS
※BLACKPINK強勢回歸?全能甜豆Lisa和Jennie業務能力超能打,穿搭功力也時尚滿分!
※okia與Streamr合作開發HEP:用區塊鏈技術來增強消費能力
※DeepMind提出心智神經網路ToMnet,訓練機器的理解能力
※DeepMind AI能讓自己擁有像哺乳動物那樣的導航能力
※防彈少年團收入一千億!吸金能力堪稱泡菜TFboys,比Big Bang更強
※Armani Junior|不同未來,童樣的「超能力"!
※IBM Watson不久將飛上國際空間站,太空 AI 助理的能力如何?
※Liang Talk Two:談談這個青年學人最需培養的能力
※SBI Holdings終止火幣商業合作關係 或因安全和處理能力不達標