當前位置:
首頁 > 科技 > 冷撲大師背後的AI演算法和博弈論:CFR演算法是核心

冷撲大師背後的AI演算法和博弈論:CFR演算法是核心

昨天下午,量子位在中關村舉辦了一個技術沙龍,邀請創新工場AI工程院技術VP李天放、聯想智慧醫療CEO林林等,從技術和實戰的角度,對德州撲克人機大戰進行解讀。? AI的戰略和學習方式和職業牌手相似,但是更準確。


(原標題:解讀冷撲大師背後的AI演算法和博弈論:CFR演算法是核心)


昨天下午,量子位在中關村舉辦了一個技術沙龍,邀請創新工場AI工程院技術VP李天放、聯想智慧醫療CEO林林等,從技術和實戰的角度,對德州撲克人機大戰進行解讀。

以下是李天放對德州撲克AI的技術解讀:


文字版本整理如下:


AI演算法和博弈論,這兩個交叉點還是有一點難度的。


先從博弈論開始。

大家需要對GTO/納什平衡有一個初期的理解。在德州撲克,翻硬幣,剪刀石頭布這類遊戲裡面,納什平衡點的定義是:如果雙方都在用一個比較好的戰略,任何一方做出調整結果都會更糟糕,也就是存在一個平衡點,使得兩個人都不能再進步。


我們用一個簡單的遊戲解釋。


如果我們玩一手剪刀石頭布,可能靠運氣;玩二十萬手,就要看戰略是什麼。如果我們想解這個問題,也是很簡單,下面這個就是所謂的完美戰略:


? 33%剪刀33%石頭33%布


? 無論對手用什麼戰略,都不可能戰勝我們

? 但我們也贏不了…


然而想要接近一個真正的完美戰略是非常難的,大部分人有些偏好,更接近的可能是這樣一個情況,對手比較笨不知道能出剪刀:


? 假設對手#1:從來不出剪刀,50%布,50%石頭


? 我們的老戰略有問題么?(各33%)


老戰略可能還是不輸的,但也不是最佳戰略(GTO)。納什平衡的意思是雙方都不能改進,如果知道對手從來不出剪刀,我們的戰略是能改進的。針對上面的對手#1,我們的戰略可以改成:50%剪刀,50%布。

為什麼不用100%布的戰略?因為對方可能也調整成100%布。使用50%剪刀,50%布的戰略至少可以比打平做的更好。


從博弈論來說,我們找到了對手的弱點,但沒有暴露自己的弱點。也就是說,我們找到了一個新的平衡點。


這就是Libratus在做的事情。

冷撲大師背後的AI演算法和博弈論:CFR演算法是核心


相比於石頭剪刀布,一對一的德州撲克,是一個複雜度非常高的博弈。如何找到德州撲克的GTO和納什平衡點?這是此類AI演算法的核心。


CounterFactual Regret Minimization(CFR,反事實遺憾最小化),這是一個類似強化學習的演算法,但是更高效。讓AI之間對戰德撲,採用隨機的策略,然後每局過後看看在什麼地方後悔了,然後嘗試不同的戰略,再在決策點上復盤。


這個演算法與人類學習德州類似:累積經驗、評判自己的選擇,但需要注意的是,這裡正確的「後悔點」非常重要。德州撲克有很強的隨機性,所以很容易陷入錯誤的學習方式。


演算法很簡單,問題是無限德州的空間太大了,複雜度是10的160次方。有幾種解決方案:合并簡化+CFR(Claudico),CFR+「直覺」(DeepStack),CFR+End Game Solver+RL(Libratus)。

冷撲大師背後的AI演算法和博弈論:CFR演算法是核心



總結一下:


? CFR類似於強化學習。權重調整基於概率。


? AI的戰略和學習方式和職業牌手相似,但是更準確。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 未來網 的精彩文章:

別小看橡皮泥!以後鋰電池安全可能靠它
iOS 11首曝光:蘋果重點升級這個功能
究竟是誰設計了紫禁城
中國古代最狠刺客:為行刺成功不惜讓妻兒都送死
從哪個朝代開始「黃袍」正式成為皇權的象徵?

TAG:未來網 |

您可能感興趣

AI 寫詩的演算法實現
決策樹-CART演算法
從理論到實踐,一文詳解 AI 推薦系統的三大演算法
基於FANSe演算法的大規模測序產品服務
BAIR論文:通過「元學習」和「一次性學習」演算法,讓機器人快速掌握新技能
亞馬遜A9演算法新調整?Review仍是其核心關鍵!
GPA的5種演算法大PK 究竟哪個演算法分最高?
現在的AI演算法真的模擬了人腦嗎?
中國的AI:演算法王國
時間譜方法中的高效GMRES演算法研究
機器學習演算法實踐:Logistic 回歸與梯度上升演算法
Versa:革新演算法,做AI時代最好的視覺App
好奇心驅動人工智慧:UC Berkeley提出自監督預測演算法
最小生成樹之Prim演算法和Kruskal演算法
玩轉面試演算法,帶你佔領BAT!
Bandit演算法與推薦系統
比 PS 大法好:谷歌發明批量自動去水印演算法
比 PS 大法好:谷歌發明批量自動去水印演算法
演算法-快速排序演算法