專訪騰訊「絕藝」團隊負責人:用全新強化學習造就更強模型
機器之心原創
作者:李澤南、吳攀
3 月 19 日,在全部由人工智慧參加的 UEC 杯世界圍棋大賽中,絕藝戰勝了所有對手。據介紹,在本次比賽結束後,騰訊 AI Lab 將公開「絕藝」技術細節,助推圍棋 AI 發展。機器之心第一時間專訪了騰訊 AI Lab 高級總監、「絕藝」團隊負責人劉永升,他向我們揭示了「絕藝」背後的秘密。
3 月 19 日下午,第 10 屆 UEC 杯計算機圍棋大賽在東京落幕,騰訊 AI Lab(騰訊人工智慧實驗室)研發的圍棋人工智慧程序「絕藝」(Fine Art)首次參加比賽便一路過關斬將,繼 18 日的積分賽七連勝進入 16 強後,在 19 日的淘汰賽中又以四連勝的戰績奪得了本屆 UEC 杯冠軍。在決賽中,絕藝執白面對來自日本的人工智慧「DeepZenGo」,用時 29 分鐘,196 手中盤戰勝對手。據騰訊介紹,今年 3 月 26 日,「絕藝」還將在東京與日本先鋒棋手一力遼在「電聖戰」中進行人機對弈。
「絕藝」在第十屆 UEC 杯決賽中對陣 DeepZenGo 的棋譜
UEC 杯計算機圍棋錦標賽 2007 年始於日本,由日本電氣通信大學舉辦,是最具傳統和權威的計算機圍棋大賽,每年邀請各國高水平 AI 齊聚東京比賽,促進相關學術及科技的交流。日本的 DeepZenGo(3 次)、法國的 Crazy Stone(4 次)等世界著名人工智慧圍棋程序曾先後在 UEC 杯折桂。此外,Facebook 的 Dark Forest 曾於 2016 年的第九屆闖入了決賽。今年的比賽吸引了 30 支隊伍參賽,由於騰訊絕藝的參賽而格外引人注目。本次大賽還請到曾獲日本圍棋四大家之首「本因坊」頭銜的王銘琬九段進行現場解說,也體現了日本棋院方面對於此次賽事的重視。
據稱,本次 UEC 也邀請了 DeepMind 的 AlphaGo,但後者選擇不參賽。不過這並不意味著谷歌旗下的團隊停止了 AlphaGo 的開發,它將於 4 月與中國頂尖棋手柯傑進行人機對戰。
決賽階段十六個人工智慧的勝負記錄
「很高興『絕藝』能夠在 UEC 杯奪冠,這是非常難得的寶貴經驗。『絕藝』不同於其他實驗室 AI,它得益於世界超一流棋手的指導,通過不斷與高手交流及學習,一步步成長起來。我們希望,通過『絕藝』能夠讓更多人關注、喜愛進而傳承圍棋這一傳統文化。」騰訊公司副總裁、騰訊 AI Lab 負責人姚星在賽後表示,「『絕藝』在研究價值上也不止於圍棋 AI 本身,我們在深度學習和強化學習上進行了非常有價值的探索與創新,之後將通過論文公開這些技術創新和資料庫的細節,為推動圍棋 AI 的技術進步出一份力。騰訊 AI Lab 的發展願景是,讓 AI 未來無處不在,因此我們將以開放合作的態度,與業界一起共同推進全球 AI 技術的發展。」
「絕藝」曾先後使用多個 ID,在騰訊圍棋(野狐圍棋)平台與業餘和職業高手切磋,多次戰勝中日韓三國一眾頂尖棋手,成為騰訊圍棋首個晉級「十段」的棋手。截至 3 月 9 日,「絕藝」對局數量達 534 盤,戰績是 406 勝 128 負,勝率 76%,與柯潔、古力、常昊、范蘊若、范廷鈺、朴廷桓等超過 100 位知名人類棋手有過交鋒。
與此前多次擊敗人類世界冠軍的 AlphaGo 類似,「絕藝」的訓練主要包括人類棋譜資料庫和機器自對弈,它的演算法基於策略網路與價值網路兩大核心,並創新性地大幅提升了價值網路的精度,使其大局觀表現更好。通俗的說,「策略」指每一步博弈時,各種選擇的取捨,選好棋棄差棋,這是偏微觀評估;而「價值」則指能看懂棋局,判斷目前棋局的勝率,這是偏宏觀的評估。
一年前,絕藝還只是一個存在於團隊頭腦中的想法。2016 年 1 月 28 日,騰訊 AI Lab 高級總監、專家工程師劉永升在內部 IM 上收到一條來自騰訊副總裁姚星的消息:有沒有信心做圍棋 AI,如果圍棋不行,先做象棋 AI 也行。彼時劉永升對圍棋人工智慧還沒有太清晰的概念,於是答覆姚星好好調研。在當年春節假期,劉永升找了一些圍棋的書籍、論文閱讀,對圍棋 AI 有了基本了解。春節回來後,2 月 17 日,姚星問圍棋 AI 有沒有在做,劉回答:還在調研,並承諾一個月後出 DEMO。
2016 年 3 月 4 日,第一個 DEMO 完成,棋力在業餘 5 級左右,到 3 月下旬,圍棋 AI 正式立項,項目名稱 weigo,團隊也隨之搭建起來。到 2016 年 6 月下旬,絕藝棋力突破業務 6 段,意即突破業餘高手水平,這是絕藝的一個重要發展節點。
2016 年 8 月,絕藝以「虎虎有生氣」的 ID 首次在野狐圍棋(騰訊旗下圍棋對弈平台)下棋,8 月 23 日首次戰勝職業棋手,9 月 4 日,絕藝以「野狐掃地僧」ID 連贏 ID 為 tby 的網友 8 局,tby 是聶衛平長子孔令文的賬號。在不斷的學習中,絕藝的能力不斷增強。
2016 年 11 月 1 日,絕藝正式以「絕藝」ID 亮相野狐,11 月 2 日第一次戰勝世界冠軍江維傑(ID 若水雲寒)。11 月 19 日晚,「絕藝」首次和柯潔交手,一勝一負;11 月 28 日,「絕藝」對韓國第一人朴廷桓 5 勝 1 負。2017 年 2 月 14 日以後,絕藝對野狐帽子棋手(世界冠軍和全國冠軍)的勝率,已經能夠穩定在 90% 以上。
自 2016 年 8 月起,絕藝一直在騰訊野狐圍棋上與人類棋手進行比賽,隨著系統的不斷改進,它的成績也越來越好。在今年初,「絕藝」接連戰勝幾名中日韓九段職業棋手,終於在今年 3 月 3 日晉級成為「10 段選手」,這是野狐圍棋平台上第一位達成「10 段」稱號的「棋手」。
騰訊的人工智慧為何能夠這麼快戰勝世界冠軍級棋手,獲得世界比賽冠軍?作為「絕藝」的開發者,騰訊 AI Lab 的研究方向都有哪些?在 UEC 杯奪冠後,機器之心採訪了騰訊 AI Lab 高級總監,「絕藝」團隊負責人劉永升,讓我們看看「絕藝」背後的秘密。
有關本次比賽
機器之心:時間撥回到比賽之前,你們有討論過可能出現的賽事結果嗎?或者說當時有奪冠的信心么?
劉永升:UEC 杯本來就是個學術和技術交流的平台,有世界各國一流圍棋 AI 強手,我們是抱著和優秀同行進行學術切磋交流的心態來的,獲勝了一方面很激動,一方面覺得也是很幸運。
機器之心:回憶起比賽的情形,有哪些印象深刻的片段?技術難點主要有哪些?
劉永升:(決賽)下到中盤一度非常緊張,能明顯感覺到 DeepZenGo 的棋力和循環賽相比又有提升,是一位非常值得尊敬的對手,絕藝表現很出色。
機器之心:能否評價一下本次比賽的對手(特別是 DeepZenGo 與 CrazyStone)?
劉永升:過去幾年,它們一直是圍棋 AI 的王者,為圍棋 AI 的發展做出了很大的貢獻。過去一年,它們都成功把神經網路新技術應用到原來的系統中,大幅度提高了棋力,特別是 DeepZenGo,對職業棋手已經有非常高的勝率。職業棋手對其評價是非常不錯的。
兩天的比賽中我們絕藝和 DeepZenGo 交手兩次,每次都非常膠著,前面 100 手都是難分難解。絕藝的中後盤相對而言會有一定優勢,所以兩次都笑到了最後。
機器之心:據了解,騰訊 AI Lab 的 13 人團隊花近一年時間研發打造了絕藝,開發團隊成員的背景是怎樣的?有圍棋高手嗎?
劉永升:絕藝團隊有 13 人,一半人做演算法研究,一半人做演算法實現。所有成員全部隸屬騰訊 AI Lab,Lab 於 2016 年成立,專註與 AI 領域的基礎科學研究和應用探索,目前有 50 余位世界知名學院的 AI 科學家(90% 為博士)、及 200 多位經驗豐富的工程師。
負責「絕藝」的團隊里,有喜歡圍棋的,也有一開始對圍棋一無所知。但指導團隊的人里有一些高手,AI Lab 負責人姚星先生是業餘 2-3 段,AI Lab 所屬的 TEG 事業群總裁盧山先生是業餘 5 段,我們還特別邀請了職業九段的羅冼河先生作為「絕藝」的專業陪練。更不用說,騰訊圍棋上眾多高手,可以毫不誇張,「絕藝」就是一個跟著棋手一起成長的圍棋 AI。
「絕藝」背後的技術
機器之心:我們知道,在強化學習中,最優策略和最優價值函數都是全局最優解,而不是局部最優解。最優策略是在決定下一步應該下什麼棋,後面會保證贏面最大。騰訊報道絕藝的新聞中出現的「微觀」和「宏觀」怎麼解讀?
劉永升:通俗的說,「策略」指每一步博弈時,各種選擇的取捨,選好棋棄差棋,這是偏微觀評估,也就是每一步的判斷;而「價值」則指能看懂棋局,判斷給定棋局是不是能贏,這是偏宏觀的評估,也就是圍棋里的大局觀。
機器之心:Monte Carlo 搜索樹是 AlphaGo 中的一項關鍵技術。絕藝中用到了嗎?
劉永升:用到了。
機器之心:騰訊的另一篇報導中也提到「在絕藝的成長過程中,與人類棋手對弈是絕藝強大起來的重要原因,絕藝的突破性進展總是伴隨其戰勝某一實力水平的棋手出現。」我們知道,在 AlphaGo 中,人類棋手的棋譜幫助學習了快速走子策略(Rollout policy)和監督學習策略(SL policy);後者做為學習強化學習策略(RL policy)這個非凸優化問題的初始值。初始值的設定可以幫助更快地學習到更好的策略;但是初始值並不決定最終學習到的策略的質量。絕藝的進步「得益於世界超一流棋手的指導」,這樣的說法,請解釋一下。
劉永升:絕藝研發過程中,如何評估棋力以及存在哪些問題是非常困難的。並且隨著絕藝棋力提升,普通的棋手基本無法戰勝的時候更難暴露其不足。所以,絕藝的研發過程中得益於世界超一流棋手的指導,非常難能可貴,對研發進度有非常大的幫助。
機器之心:AlphaGo 訓練過程基本可以看成在解一個優化問題,自動完成,沒有人工干預。騰訊關於絕藝的新聞,在強調世界超一流棋手的重要性;超一流棋手如何與優化問題結合?還是絕藝中有人工設計的規則?
劉永升:手工干預是過去式,絕藝是完全端到端的決策過程。世界超一流的棋手,主要是分析 AI 的棋局,得出當前存在的問題,從而分析系統深層的原因,最終確定修復點。
機器之心:絕藝這套系統設計思路是怎樣的?相比去年 3 月戰勝圍棋大師李世石的 AlphaGo(AlphaGo 也是用的策略網路與價值網路),絕藝實現了哪些突破?
劉永升:「絕藝」的學習主要包括人類棋譜資料庫和機器自對弈,它的演算法基於策略網路與價值網路兩大核心,並創新性地大幅提升了價值網路的精度,使其大局觀表現更好。
關於絕藝的技術和資料庫細節,我們將通過論文進一步公布,希望通過開放合作的研究,希望幫助和啟發更多研究者,推動圍棋 AI 發展。敬請期待。
「絕藝」背後,是深度學習和強化學習這兩個機器學習十分熱門的研究領域,它的總體框架遵循 AlphaGo 去年 1 月在《Nature》上發表的文章,是一個純機器學習系統,但在實踐中做了超出論文的創新。
舉例來說,現代強化學習的核心,是用先進的機器學習演算法作模擬器,生成高質量、實際有效的數據(experience replay)- 這個過程在圍棋 AI 中被稱為自對弈。通過這個方法,可以讓得學習到的模型不斷通過強化生成的數據來自我提高。
在訓練「絕藝」的機器學習模型過程中,我們探索了一些全新、而且非常有效的強化學習方法,能創造出更優質的自我模擬數據,從而導致了更強的模型。比如,和很多其他圍棋 AI 相比,絕藝的對殺能力會更強。AI Lab 構造「絕藝」的經驗,積累了一系列有效的方法,可以通過自我學習產生高質量的強化學習數據。這些方法可以應用在很多別的場景之中。
至於大家很關心的硬體系統,「絕藝」的線上系統有單機版和多機版:單機版測試過,差距和多機版沒有大家想的那樣大。而多機版所用的機器資源比 DeepMind 公開數據所透露的要少,所以絕藝不用靠資源取勝。
此外,在訓練中絕藝利用了騰訊的雲計算資源生成高質量數據,這些計算資源在行業內都可以通過騰訊雲對外服務直接獲取。
未來的研究方向
機器之心:騰訊在圍棋人工智慧技術上的研究(或者說強化學習技術)可以被借鑒到哪些實際生活的應用中?可以舉例說明一下嗎?
劉永升:從應用價值上,短期看,騰訊圍棋是本身國內最大、最活躍的的圍棋平台之一,做得好,可能馬上就會有很多人能用上。中期看,AI Lab 關注四大應用方向:內容 AI、遊戲 AI、社交 AI 和平台工具型 AI。圍棋 AI 就和其中的遊戲 AI 密不可分,是騰訊獨有且頗有創新潛能的應用場景。長期來看,「絕藝」背後「精準決策」的 AI 能力,也能在無人駕駛、量化金融、輔助醫療等地方應用。如果從圍棋 AI 的完美對稱博弈系統,進化到不完美對稱博弈系統,也就是能處理現實中更常見的不確定性問題時,這裡的想像空間非常巨大,當然也是比較長遠的應用了。
在我暢想一下未來的時候,我覺得 AI 未來不僅僅是一款成熟的產品,而是真正的深入到所有的大眾的心裏面去,就是每個人都會讓有 AI 在幫助到他。
機器之心:一直以來圍棋都被認為完美信息博弈領域的聖杯,在去年的人機大戰之後,人們的關注重點也漸漸轉移到了不完美信息博弈上。德州撲克方面的博弈已經取得了很大的進展——AI 在一對一無限制比賽上已經戰勝了人類,DeepMind 則又開始了《星際爭霸 2》的研究。騰訊 AI Lab 目前有在不完美信息博弈方面的研究工作嗎?請給我們介紹一下目前的進展。
劉永升:遊戲 AI 領域,我們確實在從事一些很有意思的相關研究,但具體細節要之後才能公布。
機器之心:除此之外,AI Lab 還在進行哪些方面的研究?
劉永升:AI Lab 的研究主要基於四個垂直領域,計算機視覺(Computer Vision)、語音識別(Speech Recognition)、自然語言處理(Natural Language Processing)和機器學習(Machine Learning),基本上涵蓋了當今 AI 最前沿的方方面面。每個領域代表一個基礎研究方向,又都能進行深層次的研究拓展。
比如在計算機視覺領域,除了傳統的圖像處理,還有增強現實(AR)的研究拓展,也會引入空間定位(Simultaneous Localization and Mapping)技術;在語音識別領域,除了傳統語音識別、語音合成以外,還會引入自動翻譯(Translation);在自然語言處理,除了傳統的對人認知行為的研究,還會研究聊天機器;在機器學習領域,從監督類到無監督的機器學習,再到強化學習的機器學習都有。
從騰訊業務出發,AI Lab 還提出四大專屬研究方向:內容 AI(Content AI)、社交 AI(Social AI)、遊戲 AI(Game AI)和平台工具 AI(Cloud AI)。
內容 AI,是基於內容類的推薦和搜索類的應用;社交 AI,作為一個社交基因很強的公司,QQ 、QQ 空間和微信都是社交平台,所以會基於社交研發相關 AI,如社交中的對話、聊天機器人、智能助手等。和全世界其他公司不太一樣的方向是遊戲 AI。遊戲是騰訊一塊很大的業務,在遊戲里引入 AI 能力的想像空間非常大,未來是不是能看到 AI 參加 LOL 世界電競大賽,提升整個遊戲可玩性和趣味性呢?最後是平台工具類 AI,未來希望能開放這些能力,如基於圖像的人臉識別、語音識別、自然語言處理中的輿情分析處理,及深度學習平台等能力。
機器之心:有人說人工智慧將圍棋提升到了一個新的境界或者說開啟了全新的思路,騰訊的野狐平台甚至也可能為此增設了「十段」的水平,實際上絕藝也是第一個獲此段位的棋手。您認為人工智慧的發展是否將給人類的傳統帶來新的啟迪?
劉永升:只從圍棋看,絕藝的大局觀以及對一些定式的變換,可能會給人類棋手不少啟發。
我們希望絕藝能代表一種科技的責任感——圍棋 AI 能積極與人類棋手互動,激發更多人關注並傳承圍棋文化。騰訊 AI Lab 的願景是「Make AI everywhere」,就是說「讓 AI 未來無處不在」。讓科技能夠「賦能於人」,讓我們的生活更美好。
機器之心:絕藝即將在 3 月 26 日舉行的「電聖戰」人機大戰(對陣日本棋手一力遼七段)出場,您認為這次絕藝的勝算有多少?
劉永升:我們有一定信心,但還是以交流和切磋為主要目的。
但是圍棋的價值取向很多元。除了勝負,還有文化、藝術、娛樂。絕藝贏得比賽,不是 AI 擊敗人類,也不是科學擊敗圍棋,這裡沒有贏家或輸家,是多贏的。


※新論文提出通用目標分割框架Mask R-CNN:更簡單更靈活
※演講|Yann LeCun清華演講:深度學習與人工智慧的未來
※RBR:2017年全球最有影響力的50家機器人公司
TAG:機器之心 |
※戰騰訊AI「絕藝」自戰解說
※人機對決!騰訊圍棋AI「絕藝」電聖戰奪冠(附獲勝棋譜)
※激動人心!騰訊絕藝執白中盤取勝,首奪取圍棋AI世界冠軍
※台灣圍棋AI黑馬擊敗騰訊絕藝,獨家揭秘四大關鍵
※60秒慢棋賽制「電聖戰」,騰訊「絕藝」戰勝日本新銳棋手一力遼
※60秒慢棋賽制:騰訊「絕藝」戰勝日本新銳棋手
※揚名UEC杯,騰訊圍棋AI「絕藝」奪冠之路全回顧!
※2017電聖人機大戰:騰訊「絕藝」再添勝利獎盃
※貴州銅仁民間絕藝亮相「四月八」 絕技大師表演鋼針穿吼
※葛慶忠:篆刻書法雙絕藝術家
※中國圍棋AI 「絕藝」 11連勝奪冠 UEC杯圍棋大賽
※中國圍棋 AI 「絕藝」 11 連勝奪冠 UEC 杯圍棋大賽
※金馬獎導演周浩新片《7%》亮相世界人文大會活動揭秘絕藝奪冠始末
※「少林七十二絕藝」首日比賽:鐵砂掌冠軍徒手開磚8塊傲視群雄
※紀錄片《7%》解密,AI能夠擊敗人類圍棋高手的「絕藝」是什麼
※「嶺南九遺」之遺珍、絕藝的廣州象牙雕!
※1副對聯9處勝景奇觀9位名人絕藝,令人驚嘆
※520就該送這樣一個風騷到死的情物——金工絕藝 花絲鑲嵌
※李世石現在完全變了一個人,滿盤被柁嘉熹吊打,絕藝不願繼續講解