當前位置:
首頁 > 科技 > 英偉達的「千人摩擦計劃」:幾千個智能體互相玩耍,學習跑酷更輕鬆

英偉達的「千人摩擦計劃」:幾千個智能體互相玩耍,學習跑酷更輕鬆

摩擦栗 發自 凹非寺

量子位 出品 | 公眾號 QbitAI

聽說,互相摩擦,有助於快速學習。

如果,模擬器里只有一個強化學習智能體,它可能活得很自在。

天大地大,虛擬機器人做個空翻、迴旋踢之類,都不是稀有的技能,只是需要艱苦訓練罷了。

那麼,要是讓幾千個人形智能體,一起在模擬器里跑呢?

它們就會相互摩擦,親昵地扭打在一起,形成一幅不可開交的美妙圖景。

這不是重點,關鍵是智能體在摩擦的過程中,學起技能來,會比孤獨的時候快很多

英偉達就想用這種方法來加速學習,於是開發了自己的物理模擬器。

在那裡,人類跑步的姿勢,智能體不用20分鐘便可解鎖。且只要一個CPU核心,不要成百上千。

相互摩擦,是最美的

英偉達開發的是一個GPU加速模擬器,支持千百隻人形智能體,在同一個世界愉快地互動。

並且,只要一個Tesla V100 GPU,加上一個CPU核,就夠了。

為了智能體更好地學習人類技能,團隊為四種技能設定了Benchmark,由易而難:

一是,只用兩條腿、但是像螞蟻那樣跑步 (不是說好的人類技能啊) :

二是,依然用兩條腿、但像人類那樣跑步:

三是障礙跑,遇到球球會站不穩,重點是重新找到平衡,不要摔倒:

四也是障礙跑,不過地形複雜,還是要在站不穩的時候努力保持平衡:

在複雜地形下訓練過的智能體,會擁有隨機應變的能力。

即便是在從未見過的環境里,從超過一人高的平台跳下也能迅速站穩,繼續奔跑。

放進現實里,大概就是這個樣子:

一個頂一千個?

現在,來和前輩們對比一下時間硬體成本:

一個CPU核心,抵得上一千個?

是有了GPU加持之後,模擬器每秒可以生成6萬幀,幀時間 (Frame Time) 能降到0.02毫秒以下。也就是說,幀延遲小到幾乎可以忽略。

那麼,就算智能體的數量從5個增加到5,000個,也不會有什麼壓力。

由此,即便只用一個CPU核心,學習效率也可以得到保障。

這項研究,是在英偉達的物理引擎FleX裡面完成的。

很快,團隊就要在CoRL 2018大會上,介紹研究成果了。

在那之前,大家可以欣賞一下論文:

GPU-Accelerated Robotic Simulation for Distributed Reinforcement Learning

https://arxiv.org/pdf/1810.05762.pdf

加入社群

量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)

活動策劃招聘

量子位正在招聘活動策劃,將負責不同領域維度的線上線下相關活動策劃、執行。歡迎聰明靠譜的小夥伴加入,並希望你能有一些活動策劃或運營的相關經驗。相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

華為AI戰略完整披露!2款AI晶元首次曝光,拳打TPU,爭鋒英偉達
Waymo無人車設立中國全資子公司,取名慧摩,與谷歌上海同樓辦公

TAG:量子位 |