英偉達的「千人摩擦計劃」:幾千個智能體互相玩耍,學習跑酷更輕鬆
摩擦栗 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
聽說,互相摩擦,有助於快速學習。
如果,模擬器里只有一個強化學習智能體,它可能活得很自在。
天大地大,虛擬機器人做個空翻、迴旋踢之類,都不是稀有的技能,只是需要艱苦訓練罷了。
那麼,要是讓幾千個人形智能體,一起在模擬器里跑呢?
它們就會相互摩擦,親昵地扭打在一起,形成一幅不可開交的美妙圖景。
這不是重點,關鍵是智能體在摩擦的過程中,學起技能來,會比孤獨的時候快很多。
英偉達就想用這種方法來加速學習,於是開發了自己的物理模擬器。
在那裡,人類跑步的姿勢,智能體不用20分鐘便可解鎖。且只要一個CPU核心,不要成百上千。
相互摩擦,是最美的
英偉達開發的是一個GPU加速模擬器,支持千百隻人形智能體,在同一個世界愉快地互動。
並且,只要一個Tesla V100 GPU,加上一個CPU核,就夠了。
為了智能體更好地學習人類技能,團隊為四種技能設定了Benchmark,由易而難:
一是,只用兩條腿、但是像螞蟻那樣跑步 (不是說好的人類技能啊) :
二是,依然用兩條腿、但像人類那樣跑步:
三是障礙跑,遇到球球會站不穩,重點是重新找到平衡,不要摔倒:
四也是障礙跑,不過地形複雜,還是要在站不穩的時候努力保持平衡:
在複雜地形下訓練過的智能體,會擁有隨機應變的能力。
即便是在從未見過的環境里,從超過一人高的平台跳下也能迅速站穩,繼續奔跑。
放進現實里,大概就是這個樣子:
一個頂一千個?
現在,來和前輩們對比一下時間和硬體成本:
一個CPU核心,抵得上一千個?
是有了GPU加持之後,模擬器每秒可以生成6萬幀,幀時間 (Frame Time) 能降到0.02毫秒以下。也就是說,幀延遲小到幾乎可以忽略。
那麼,就算智能體的數量從5個增加到5,000個,也不會有什麼壓力。
由此,即便只用一個CPU核心,學習效率也可以得到保障。
這項研究,是在英偉達的物理引擎FleX裡面完成的。
很快,團隊就要在CoRL 2018大會上,介紹研究成果了。
在那之前,大家可以欣賞一下論文:
GPU-Accelerated Robotic Simulation for Distributed Reinforcement Learning
https://arxiv.org/pdf/1810.05762.pdf
—完—
加入社群
量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)
活動策劃招聘
量子位正在招聘活動策劃,將負責不同領域維度的線上線下相關活動策劃、執行。歡迎聰明靠譜的小夥伴加入,並希望你能有一些活動策劃或運營的相關經驗。相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。


※華為AI戰略完整披露!2款AI晶元首次曝光,拳打TPU,爭鋒英偉達
※Waymo無人車設立中國全資子公司,取名慧摩,與谷歌上海同樓辦公
TAG:量子位 |