UCL 教授汪軍:多智能體強化學習的兩大挑戰
導語:多智能體強化學習會不會締造下一個 AlphaGo 奇蹟?
本文作者:三川
2017 年 7 月 7 日,為期三天的「CCF - GAIR」大會,在深圳大中華喜來登酒店開幕。在 AI 學術前沿專場的第三場, 倫敦大學學院 UCL 的汪軍教授帶來了以《群體智能的社會》為主題的報告。報告內容請看本篇雷鋒網的現場速記。
汪軍, 倫敦大學學院(UCL)計算機系副教授、互聯網科學與大數據分析專業主任。主要研究智能信息系統,主要包括數據挖掘,計算廣告學,推薦系統,機器學習,強化學習,生成模型等等。他發表了100多篇學術論文,多次獲得最佳論文獎。是國際公認的計算廣告學和智能推薦系統傑出華人專家。
汪軍:潘院士今天早上講了人工智慧 2.0。其中的一個方向,是多個智能體之間的協作與競爭。我們還可以從社會學角度,把多智能體看作是一個群體;研究整個群體、動態系統的特性是什麼。對於該話題,我希望給大家做一個介紹。
大家都了解 AlphaoGo,它的一項核心技術就是強化學習。相比模式識別和監督學習,它在缺乏訓練數據集的情況下仍然可以工作。強化學習系統能夠直接和環境交互,得到反饋信息,在此過程中不斷學習,因此更加自然、靈活。強化學習的一項主要特性,是以收益(reward)定義目標方程,生成優化策略。
多智能體的強化學習
今天重點講的,是多智能體的強化學習。它們單獨的和環境進行交互。在一種情況下它們各自優化自己的目標,但這些目標之間有約束;另一種情況下,它們聯合起來優化一個主要的目標方程。根據具體的情況會有不同的變化。
案例 1:互聯網廣告
過去,我們再互聯網廣告領域做了很多工作,比較早得應用了強化學習方法:在環境交互的情況下,根據投放廣告以後用戶的反饋,系統不斷地進行學習。
目前我們可以在 10 毫秒之內做好決策,在每天 100億流量的情況下進行分析,幫助廣告主精準投放。
案例 2:星際爭霸
我們通過對星際爭霸單位的控制,找到多智體的規律。研究它們在遊戲里怎麼合作、競爭與通訊。近幾個月,我們和阿里巴巴合作開發了一套玩星際爭霸的 AI 系統。該項目中,我們最想解決的是 AI 智體之間的通訊問題——當它們想合作起來攻打對方的時候,必須要有效地合作。我們希望在計算的時候,計算量相對較小,同時又達到智體的協同目的;於是採用了一種雙向連通方式,效果非常明星。
目前,多智體強化學習的研究仍處於非常初步的階段。這裡,有兩個方面的關鍵問題:
問題 1:多智體協同研究中,智體數量少
目前的研究,主要集中於少量多智體之間的協同。在有上萬個智體的情況下,(應用研究成果的)效果就不是很明顯。而許多現實場景中的多智體數量,可以達到百萬、甚至千萬級。
案例 3:智能打車 APP
一個很明顯的例子是Uber、滴滴等智能打車應用。
這類例子中,每個用戶手上的終端、每個司機手上的終端,你都可以把它們想像成智能體。它們可以做出決定:到底什麼樣的價錢我可以接受。系統層面甚至可以有一套機制合理分配資源。比如,出行高峰計程車比較少,但是需求量又比較大。而在其它的一些時候,可能計程車很多,但是需求量不大。系統怎麼調配,這其實需要一個非常大的人工智慧協作系統來分析。
案例 4:共享單車
共享單車的情況更加明顯。你可以想像,如果給每個自行車裝了晶元或者計算機,它就是一個很智能的東西,可以根據目前的情況,優化車輛的地理位置分布。
問題 2:智能體是否符合自然界規律?
今天,如果要做一個強化學習的模型,這個模型必須要可以處理百萬級的智體。
應該怎麼去做?我們可以從自然界裡面獲得一些啟發。比如生態學的 self-organisation (「自組織」)理論:一些個體行為的簡單規則,能造成種群層面的宏觀規律。但這類模型有一個很顯著的問題:它可以從宏觀的角度解決宏觀的現象,但缺少一種微觀的方法來觀察世界。每個個體有它自己的興趣,有它自己的優化的方程,這個微觀的東西和宏觀的現象之間有什麼關係?目前為止相關研究還是比較少的。
案例 5: Lotka-Volterra 模型
這裡,有一個動物界的著名模型名為 Lotka-Volterra (LV)模型。該模型描述的是:相互競爭的兩個種群,它們種群數量之間的動態關係。我們根據該模型的理論,用深度學習和強化學習做了一個老虎和羊的多智體生態模型。我們發現,如果關掉智體的學習能力(比如老虎),它們無法適應新環境,生態系統很快崩潰。
而給智體學習能力之後,模型出現的現象,與 LV 模型中猞猁抓兔子的動態現象十分相似。模擬出來的多智體生態,和自然世界的生態圈都遵循一種動態的平衡,就好比多個 AI 智體形成了一個動物種群。
這個研究很有意思的一點是,我們發現有這樣的場景:智體之間可以聯合在一起優化某一個目標,或者單獨優化它們自己的目標。當出現這兩種情況的時候,作為一個群體,他們就有了內在的規律。如果把這些規律找到,對於我們去開發一些新的模型、新的計算機人工智慧的方法,是非常有幫助的。
案例 6:宜家
強化學習里有一個環境,要麼假設這個環境是不變的,要麼假設這個環境有一定的概率在不斷變化。這個概率是不變的(not designable),意味著無法設計這個環境,而是更加適應這個環境。但是實際情況下發現,很多場景下,環境本身也需要一個適應的過程。在宜家的熱力圖上,我們可以看出谷歌在商場里的活動是非常平均的,這是一個非常好的現象。我們可以開發一個強化學習演算法,讓環境(商品擺放)根據顧客的變化而變化。
這是一個建築系教授進行的研究,他做了一個地圖模擬人在店鋪裡面走的情況,根據熱力圖反饋到鋪面設計,來優化用戶在這裡面待的時間,或者說最大化用戶可能消費的情況。
案例 7:分揀機器人
單個智體(機器人)要進行優化,以最快的路徑分揀快遞包裹。這個環境未必是最優的,我們根據貨物的統計特性,設計我把發往南京的包裹通道放在北京旁邊還是放在上海旁邊。所以環境也需要很好的考量和設計。
案例 8:迷宮
一個人工智體,需要以最快的效率找到出口。而環境知道其智能水平,根據情況來設計迷宮,使得智體有最困難或者最小的概率可以出去。這是一個競爭的關係。
怎麼優化呢?你會發現,該系統在兩個不同的維度進行。在人工智體的情況下,它會說給定一個環境,我想以最快的效率、最優的策略走出來。當你把這個人工智體學到的東西定住以後,就可以在另外一個維度優化環境:現在這個智體是這樣的屬性,能不能據此使得環境更困難?這兩個維度互相競爭、互相迭代,就可以達到優化的情況。
雷鋒網原創文章,網站轉載請至雷鋒網官網申請授權。歡迎熱情討論,轉發分享~


※解決了Model 3的量產問題,銷量又成為特斯拉更大的問題
※賽門鐵克將收購以色列安全公司Fireglass
※驚呆!人類藥丸?今天一大波機器人佔領了深圳喜來登六樓
※這個惡性病毒Pengex有點拽,正兇悍地攻擊各路殺軟
※中國工程院潘雲鶴教授演講:全面解析中國新一代AI研究方向
TAG:雷鋒網 |
※重新定義精「智」生活 三星QLED TV強化智能體驗
※DeepMind最新研究動向,幫助實現單智能體多任務強化學習
※ASSIA|中國自動化學會「深度與寬度強化學習」智能自動化學科前沿講習班(二)
※學界|北京大學提出注意力通信模型ATOC,助力多智能體協作
※同仁堂國際推出TRTPRE健康筆,中醫智能硬體全面助力國人健康
※人工智慧大戰 李彥宏在AI智能領域自信爆棚
※DeepMind強化學習進展:可執行多個任務的高度可擴展智能體——IMPALA
※大族激光:智能製造業的中國勢力
※Yoshua Bengio團隊發布最新強化學習智能體研究
※學界 | 北京大學研究者提出注意力通信模型ATOC,助力多智能體協作
※MIT人工智慧實驗室教授:深度學習是錯的!智能突破口在人腦研究
※本體「物」戰略啟航,COT成為首個智能硬體和物聯網技術戰略夥伴
※DeepMind 提出全新強化學習演算法,教智能體從零開始學會控制
※北京大學研究者提出注意力通信模型ATOC,助力多智能體協作
※VClub活動 | 36氪【精品投薦會】智能硬體與新科技專場圓滿結束,最新VR技術首發體驗
※DeepMind利用強化學習,訓練智能體編寫圖像生成程序
※卡內基·梅隆大學教授:「智能輔導系統」如何使用AI,提高學生智力?
※北大研究院攜「黑科技」Wifi 識別人體行為亮相世界智能大會
※PI新型LED驅動IC解決智能照明的供電挑戰
※中國強勢打造世界新智極AI、量子計算、25位AI領袖預測智能大躍遷