冷撲大師背後的AI演算法和博弈論:CFR演算法是核心
昨天下午,量子位在中關村舉辦了一個技術沙龍,邀請創新工場AI工程院技術VP李天放、聯想智慧醫療CEO林林等,從技術和實戰的角度,對德州撲克人機大戰進行解讀。? AI的戰略和學習方式和職業牌手相似,但是更準確。
(原標題:解讀冷撲大師背後的AI演算法和博弈論:CFR演算法是核心)
昨天下午,量子位在中關村舉辦了一個技術沙龍,邀請創新工場AI工程院技術VP李天放、聯想智慧醫療CEO林林等,從技術和實戰的角度,對德州撲克人機大戰進行解讀。
以下是李天放對德州撲克AI的技術解讀:
文字版本整理如下:
AI演算法和博弈論,這兩個交叉點還是有一點難度的。
先從博弈論開始。
大家需要對GTO/納什平衡有一個初期的理解。在德州撲克,翻硬幣,剪刀石頭布這類遊戲裡面,納什平衡點的定義是:如果雙方都在用一個比較好的戰略,任何一方做出調整結果都會更糟糕,也就是存在一個平衡點,使得兩個人都不能再進步。
我們用一個簡單的遊戲解釋。
如果我們玩一手剪刀石頭布,可能靠運氣;玩二十萬手,就要看戰略是什麼。如果我們想解這個問題,也是很簡單,下面這個就是所謂的完美戰略:
? 33%剪刀33%石頭33%布
? 無論對手用什麼戰略,都不可能戰勝我們
? 但我們也贏不了…
然而想要接近一個真正的完美戰略是非常難的,大部分人有些偏好,更接近的可能是這樣一個情況,對手比較笨不知道能出剪刀:
? 假設對手#1:從來不出剪刀,50%布,50%石頭
? 我們的老戰略有問題么?(各33%)
老戰略可能還是不輸的,但也不是最佳戰略(GTO)。納什平衡的意思是雙方都不能改進,如果知道對手從來不出剪刀,我們的戰略是能改進的。針對上面的對手#1,我們的戰略可以改成:50%剪刀,50%布。
為什麼不用100%布的戰略?因為對方可能也調整成100%布。使用50%剪刀,50%布的戰略至少可以比打平做的更好。
從博弈論來說,我們找到了對手的弱點,但沒有暴露自己的弱點。也就是說,我們找到了一個新的平衡點。
這就是Libratus在做的事情。
相比於石頭剪刀布,一對一的德州撲克,是一個複雜度非常高的博弈。如何找到德州撲克的GTO和納什平衡點?這是此類AI演算法的核心。
CounterFactual Regret Minimization(CFR,反事實遺憾最小化),這是一個類似強化學習的演算法,但是更高效。讓AI之間對戰德撲,採用隨機的策略,然後每局過後看看在什麼地方後悔了,然後嘗試不同的戰略,再在決策點上復盤。
這個演算法與人類學習德州類似:累積經驗、評判自己的選擇,但需要注意的是,這裡正確的「後悔點」非常重要。德州撲克有很強的隨機性,所以很容易陷入錯誤的學習方式。
演算法很簡單,問題是無限德州的空間太大了,複雜度是10的160次方。有幾種解決方案:合并簡化+CFR(Claudico),CFR+「直覺」(DeepStack),CFR+End Game Solver+RL(Libratus)。
總結一下:
? CFR類似於強化學習。權重調整基於概率。
? AI的戰略和學習方式和職業牌手相似,但是更準確。
※別小看橡皮泥!以後鋰電池安全可能靠它
※iOS 11首曝光:蘋果重點升級這個功能
※究竟是誰設計了紫禁城
※中國古代最狠刺客:為行刺成功不惜讓妻兒都送死
※從哪個朝代開始「黃袍」正式成為皇權的象徵?
TAG:未來網 |
※AI 寫詩的演算法實現
※決策樹-CART演算法
※從理論到實踐,一文詳解 AI 推薦系統的三大演算法
※基於FANSe演算法的大規模測序產品服務
※BAIR論文:通過「元學習」和「一次性學習」演算法,讓機器人快速掌握新技能
※亞馬遜A9演算法新調整?Review仍是其核心關鍵!
※GPA的5種演算法大PK 究竟哪個演算法分最高?
※現在的AI演算法真的模擬了人腦嗎?
※中國的AI:演算法王國
※時間譜方法中的高效GMRES演算法研究
※機器學習演算法實踐:Logistic 回歸與梯度上升演算法
※Versa:革新演算法,做AI時代最好的視覺App
※好奇心驅動人工智慧:UC Berkeley提出自監督預測演算法
※最小生成樹之Prim演算法和Kruskal演算法
※玩轉面試演算法,帶你佔領BAT!
※Bandit演算法與推薦系統
※比 PS 大法好:谷歌發明批量自動去水印演算法
※比 PS 大法好:谷歌發明批量自動去水印演算法
※演算法-快速排序演算法