當前位置:
首頁 > 新聞 > 百度IDL最新成果:從自然語言入手,教AI智能體像人類一樣學習

百度IDL最新成果:從自然語言入手,教AI智能體像人類一樣學習

儘管人工智慧取得了巨大的進步,但在許多方面仍然存在局限。例如,在電腦遊戲中,如果AI智能體未預先編程遊戲規則,則必須嘗試數百萬次才能確定正確的選擇。人類可以在更短的時間內完成相同的壯舉,因為我們擅長通過使用語言將過去的知識轉移到新的任務中。

在一個屠龍遊戲中,AI智能體需要嘗試許多其他的動作(對著牆或是花叢噴火),才能理解它必須殺死龍。然而,如果AI智能體理解語言,人類可以簡單地使用語言來指示它:「殺死龍才能使遊戲獲勝」。

在人類如何概括技能並將其應用於新任務方面上,基於視覺的語言發揮著重要作用,這對於機器仍然是一個重大挑戰。開發複雜的語言系統對於機器變得真正智能,並獲得像人類一樣學習的能力至關重要。

作為實現這一目標的第一步,百度IDL實驗室開發了一個使用監督學習和強化學習的組合系統,允許虛擬教師向虛擬AI智能體教授語言,通過將語言與感知和動作連接起來,就像父母教他們的寶寶一樣。

IDL實驗室的結果表明,在訓練結束後,AI智能體能夠以自然的語言正確地解讀老師的指令,並採取相應的行動。更重要的是,AI智能體開發了「zero-shot學習能力」,這意味著智能體能夠理解潛在的語句,研究院發現,「這項研究使我們向教機器像人類一樣學習邁進一步。」

論文鏈接:http://arxiv.org/abs/1703.09831

學習概況

雷鋒網了解到,該研究在稱為XWORLD的2D迷宮般的環境中進行,百度的虛擬智能體需要根據虛擬教師發出的自然語言命令進行導航。一開始,智能體對這種語言一無所知,每一個字都同等的沒有任何意義。 然而,當它探索環境時,如果執行命令成功(或失敗),老師會給出積極的(或消極的)回應。

為了幫助智能體學習得更快,老師還會在智能體導航時詢問有關環境的簡單問題。智能體需要正確的回答問題。通過鼓勵正確的行動/答案,懲罰不正確的行動/回答,經過多次試驗和錯誤,老師得以訓練智能體去了解自然語言。

一些示例命令包括:


  • 請移動到蘋果處。

  • 你可以移動到蘋果和香蕉之間的網格嗎?

  • 你能移動到紅蘋果處嗎?

一些Q&A的例子:


  • 問:北方的物體是什麼?答:一根香蕉。

  • 問:香蕉在哪裡?答:北邊。

  • 問:蘋果西邊物體的顏色是多少? 答:黃色

結果

最後,智能體能夠正確地解釋教師的命令並導航到正確的地方。更重要的是,智能體開發了研究團隊的所謂的「zero-shot learning ability」,這意味著即使是以前沒有看到的全新命令,如果有足夠的以前看過的相似形式的句子,仍然能夠正確的執行任務。換句話說,智能體能夠以已知的方式(語法)理解用已知單片語合的新句子。

例如,一個學習如何用刀切一個蘋果的人將會知道如何用刀切火龍果。將過去的知識應用於新任務對於人來說非常容易,但是對於目前的端到端學習機器來說仍然是困難的。

雖然機器可能知道「火龍果」的樣子,但是除非它已經使用包含該命令的數據集進行了明確的訓練,否則它無法執行「用刀切割火龍果」的任務。相比之下,我們的智能體表現出能夠轉移它所知道的關於火龍果的視覺外觀,以及「用刀切」的任務,即使沒有經過確切的的訓練,仍然可以成功進行用「用刀切割龍果」的任務 。

下圖展現了我們的智能體成功執行導航任務測試。

百度IDL最新成果:從自然語言入手,教AI智能體像人類一樣學習

導航語句

請移動到捲心菜的西邊。

請移動到無花果的東邊。

識別語句

Q:東南邊是什麼?

A:西瓜。

導航測試

請移動到無花果的西邊。

百度IDL最新成果:從自然語言入手,教AI智能體像人類一樣學習

導航語句

你可以移動到椰子處嗎?

你可以移動到蘋果處嗎?

導航測試

你可以移動到西瓜處嗎?

雷鋒網了解到,百度研究院的後續研究有兩個方向:

  • 一個是在當前2D環境中用自然語言命令教授智能體更多的能力,

  • 另一個是將其遷移到虛擬3D環境。虛擬3D環境帶來更多的挑戰,而且更像是我們現實生活的環境。

而百度的最終目標,是讓人類在現實環境中,採用自然語言來訓練一個真正意義上的機器人。

via research.baidu,雷鋒網編譯

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

自稱中國的Zano,安果無人機在美國遭遇集體訴訟
轉型短視頻平台 土豆網在阿里生態加持下宣布重生
Uber撞車最近進展:事故發生時,無人車闖了一個黃燈
多次高管裁撤多次官方否認之後 百度遊戲終於被賣了
模擬人類視網膜 人臉識別技術研究的重大進步

TAG:雷鋒網 |

您可能感興趣

它是最好的音樂手機,也是最智能的HIFI播放器
這是傳統與科技的融合,PRINCO免充電智能手錶體驗
人類已無法阻擋智能手錶大潮,連LOUIS VUITTON也忍不住出手了
揭秘BLINBLIN智能手錶的功能都有哪些
智能語音助手成BAT的新賽道,百度如何靠DuerOS卡位?
「AI學會「以牙還牙」」OpenAI發布多智能體深度強化學習新演算法LOLA
OpenAI發布多智能體深度強化學習新演算法LOLA
OpenAI新研究成果:如何讓AI智能體學會合作、競爭與交流?
國產輕智能,不一樣的MAS CARNEY運動智能手錶
時尚與輕奢齊名 BLINBLIN智能手錶深度試用
TFBOYS科幻新劇大戰智能機器人,謎一樣的大反派竟然是他?
DIY的奢侈品,會體感的智能螺絲刀
戴在手腕上的輕薄,LANZOOM智能腕錶體驗
從AWE看智能家居:語音技術商或成未來最大贏家
樂心ZIVA Plus,可能是目前最好用的智能手環
玩出一種不同的時尚,體驗FAMAR華嘜智能手錶
自然語言處理頂會EMNLP最佳論文3項出爐:Facebook智能體創造「語言」獲獎
從AWE看智能家居:語音技術公司或成未來最大贏家
IBM正推進新AI 智能化堪比人腦?