當前位置:
首頁 > 科技 > 好奇心,對於人工智慧來說也很重要!

好奇心,對於人工智慧來說也很重要!

導讀


以往人工智慧的學習過程中,獎勵一直是最大的驅動力。然而,加州大學伯克利分校提出了一種創新方法,通過好奇心驅動人工智慧,在無需獎勵機制的情況下進行學習,並且通過《超級馬里奧兄弟》和《VizDoom》這兩款電子遊戲進行了實驗。

關鍵字


人工智慧、增強學習、好奇心、電子遊戲

背景

最近,筆者一直在給大家介紹量子計算、柔性電子、自供電等前沿創新技術,好長時間沒有關注人工智慧了。

然而,人工智慧領域最近又爆出了大新聞,AlphaGo(阿爾法狗) 繼去年戰勝世界冠軍、韓國圍棋棋手李世石後,昨天又以3:0的戰績戰勝了現世界排名第一的中國圍棋棋手柯潔。

在驚嘆之餘,大家更需冷靜思考一下,為什麼AlphaGo如此強大?其中有一點值得我們注意:最新版本的AlphaGo採用了增強學習策略。


那麼,什麼是增強學習呢?

我們可以通過以下這幅圖簡單認識一下,其中有幾個要素:環境(Environment)、動作(Action)、學習體(Agent)、獎勵(Reward)、解釋者(Interpreter),狀態(State)。

那麼,背後的機制其實很簡單,就是「學習體」(Agent)在環境中採取動作,然後動作結果被解釋為和一種新的狀態,反饋給學習體。然後,學習體進行學習後,採取新動作,如此往複,不斷強化學習的過程。

好奇心,對於人工智慧來說也很重要!

(圖片來源於:維基百科)

進一步說,也就是學習體採取動作後,會得到不同反饋。所以,學習體就會根據強化信號和環境狀態,選擇性地產生下一個動作,而下一個動作的主要目標就是使得獲取獎勵的概率增大。

簡單的一句話總結:

強化學習就是根據獎勵或者懲罰的反饋來採取相應動作的過程。

我們再看看對於圍棋,簡單地說,增強學習就是根據當前棋局,通過贏棋為獎勵,讓人工智慧棋手(學習體)不斷尋找最優化的落子動作,不斷進行學習的過程。其實,該人工智慧棋手(學習體),可以通過反覆和過去的「自己」下棋,不斷獲取反饋數據,再以輸贏結果作為獎勵和懲罰,不斷地反覆學習,最終形成最優的下棋策略。


所以,在這種增強學習的機制中,獎勵成為了關鍵因素和學習驅動力。

創新

然而,現實世界的許多情況卻不是如此。人工智慧學習體完成任務時得到的獎勵是很少的,有時候甚至完全沒有獎勵,也就是說這種獎勵人工智慧的機制可能不起作用。


這種情況下,如何才能繼續驅動人工智慧學習體進行學習呢?

讓我們對照一下人類智能,如果讓一個人在沒有任何回報的情況下,繼續進行學習。那麼,可想而知,最主要驅動因素莫過於「好奇心」了。

偉大的科學家愛因斯坦曾說過:


好奇心是科學工作者產生無窮的毅力和耐心的源泉。

換句話說,好奇心本身就是一種回報,驅動我們不斷探索環境,努力學習那些讓我們可以終身受用的技能。

最近,美國加州大學伯克利分校研究人員Deepak Pathak、Pulkit Agrawal、Alexei A.Efros 、Trevor Darrell 發表了一篇學術論文:


《通過自監督預測進行好奇心驅動的探索》

"Curiosity Driven Exploration by Self-Supervised Prediction"

其中,研究人員提出一種創新型的方法,也就是以好奇心為驅動力的新型人工智慧演算法,無需獎勵機制就可以讓人工智慧進行學習。而且,研究人員在《超級馬里奧兄弟》和《VizDoom》這兩款遊戲中,使用了具有這種好奇心驅動演算法的人工智慧進行了評估。

技術

如何對於這種好奇心驅動的人工智慧演算法模型進行評估?

研究人員主要利用以上兩款遊戲作為環境,對於其中人工智慧「學習體」(遊戲角色)的表現進行評估。這種評估主要集中在以下三方面:

  • 較少外部獎勵情況下進行探索,那麼好奇心將在達到目標的過程中,佔據重要位置;

  • 沒有外部獎勵的情況下進行探索,依靠好奇心推動學習體(這裡應該使遊戲玩家角色)進行更有效的探索;

  • 全新的環境(如遊戲的新關卡),在這種情況下此前獲得的經驗可以幫助人工智慧玩家快速通關。

接下來,我們首先來看看《超級馬里奧兄弟》這款遊戲。也許,大家對於這款遊戲都很熟悉,這款遊戲之前也有用於人工智慧方面的研究,例如:筆者曾經在《"社交人工智慧"讓馬里奧和路易基學會如何自己拯救公主》一文中有過介紹:


德國蒂賓根大學科研人員開發出一種演算法,讓電子遊戲的角色像人類一樣,通過觀察和想像進行相互學習,一起合作來達成目標。

好奇心,對於人工智慧來說也很重要!

(圖片來源於: 馬里奧人工智慧項目/蒂賓根大學)

在《超級馬里奧兄弟》遊戲中,一般傳統的人工智慧演算法,都使用的是增強學習機制,訓練人工智慧學習體,即通過正反饋:獎勵,訓練人工智慧學習體(遊戲玩家角色)進行探索、避免落入坑中、躲避和消滅敵人。這樣的獎勵,往往是遊戲分數的增加,例如在遊戲中,學習體通過踩敵人的動作,讓遊戲分數增加。然而,另外一些動作例如落入坑中,就會讓學習體得到一個負反饋。


這種增強學習機制的主要是為了贏得最終獎勵:一場勝利。

可是,在好奇心驅動的人工智慧演算法中,情況並不是如此。


學習體並不是為了在遊戲中獲取獎勵,而是為了探索和掌握技能,從而更好地了解關卡。所以,這種策略能夠縮短學習時間,提高學習效率

平均來說,在《超級馬里奧兄弟》第一關中,學習體在無獎勵的情況下,只完成了超過30%
的進度。主要原因是前面有一個坑,這個坑需要15到20個特定順序的按鍵操作才能通過。但是,人工智慧學習體目前還未學會這個操作,為了避免落入坑中,這個學習體會在那個坑的地方,向後退或者停滯不前。

好奇心,對於人工智慧來說也很重要!

(圖片來源於:加州大學伯克利分校)

然後,在其他關卡,人工智慧會採用之前學習到的策略,繼續進行探索。

好奇心,對於人工智慧來說也很重要!

(圖片來源於:加州大學伯克利分校)

另外,在《VizDoom》遊戲中,人工智慧學習體也能夠在沒有任何外部獎勵的環境中,也會學著沿著走廊和房間移動,進行探索。

好奇心,對於人工智慧來說也很重要!

(圖片來源於:加州大學伯克利分校)

所以,從上述兩款遊戲的實踐中,可以看出好奇心可以幫助人工智慧學習體在缺乏的情況下探索環境。

在論文中,研究人員還提出了「內在的好奇心模型」(ICM),利用內在的好奇心規劃,幫助學習體進行探索。好奇心可以幫助學習體在外在獎勵很少,或者沒有獎勵的情況下,繼續進行探索。該模型結構如下圖所示:

好奇心,對於人工智慧來說也很重要!

(圖片來源於:加州大學伯克利分校)

另外,研究人員相關研究的代碼發布在GitHub上,這些代碼是基於TensorFlow 和 OpenAI Gym開發的。

價值

這種好奇心驅動的人工智慧演算法模型,未來將顯現出很大的科研和應用價值。研究團隊希望能將這一技術應用到機器人領域,例如讓機器人學會如何抓握新物體。以前,機器人學習的許多時間,都浪費在大量無意義的隨機動作上。如果他們可以具備了這種好奇心驅動的演算法,將能夠更快地了解周圍環境,與周圍物體進行互動。

人類在嬰兒時期,天生就會具有好奇心,好奇心讓我們學會了很多東西。所以,當人工智慧受好奇心驅動,進行學習訓練好,它的思考和學習能力也都會取得很大的進步。

參考資料

【1】https://pathak22.github.io/noreward-rl/

【2】https://arxiv.org/abs/1705.05363

需要進一步探討交流的朋友,請直接聯繫作者微信:JohnZh1984,或者微信關注公眾號:IntelligentThings。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 環球創新智慧 的精彩文章:

新型量子計算技術:基於鑽石中的硅空位中心!
新型柔性電池:低成本、可印刷、有望應用於可穿戴設備!
世界最薄全息設備問世:未來手機將實現全息顯示!
深度觀察:IBM正努力打造商用化通用量子計算機
新型柔性納米發電機:有望讓麥克風和揚聲器合二為一!

TAG:環球創新智慧 |

您可能感興趣

人工智慧的發展帶來的是便捷還是災難?關鍵還得看用它的人
到處都在說人工智慧,可什麼是人工智慧,你卻不能不知道!
應對「人工智慧」帶來的失業潮,最好的辦法竟然是它!
對於未來,人工智慧是炒作還是希望?
人工智慧,是我們最後也是最好的歸宿?
我們是否應該對人工智慧心懷敬畏?
李彥宏:不用擔心人工智慧威脅人類,現在很多都是假智能
人工智慧真的來臨,我們是否還有機會?
面對人工智慧的未來,你為孩子的選擇至關重要!
人工智慧的時代正在來臨!你知道人工智慧對我們的生活有什麼影響嗎?
人工智慧帶來的不只是智能,還有複雜的倫理問題
面對人工智慧的發展,我們最該擔憂的是什麼?
如果擁有人工智慧 你會想要用來做什麼?
你知道要去學人工智慧,但你卻無從入手,對嗎?
我們需要什麼樣的人工智慧?
人工智慧飛速發展,快速的發展是好是壞?說說你對人工智慧的看法
別有病網原創:人工智慧會讓我們活的更久嗎?
霍金是怎樣看待人工智慧的?他對人工智慧的真實態度是什麼
你對人工智慧有多少了解?什麼是人工智慧,人工智慧的未來會怎樣
別擔心 人工智慧遠沒有想像中的那麼可怕