冷撲大師背後的AI演算法和博弈論：CFR演算法是核心

科技 04-09

昨天下午，量子位在中關村舉辦了一個技術沙龍，邀請創新工場AI工程院技術VP李天放、聯想智慧醫療CEO林林等，從技術和實戰的角度，對德州撲克人機大戰進行解讀。? AI的戰略和學習方式和職業牌手相似，但是更準確。

（原標題：解讀冷撲大師背後的AI演算法和博弈論：CFR演算法是核心）

昨天下午，量子位在中關村舉辦了一個技術沙龍，邀請創新工場AI工程院技術VP李天放、聯想智慧醫療CEO林林等，從技術和實戰的角度，對德州撲克人機大戰進行解讀。

以下是李天放對德州撲克AI的技術解讀：

文字版本整理如下：

AI演算法和博弈論，這兩個交叉點還是有一點難度的。

先從博弈論開始。

大家需要對GTO/納什平衡有一個初期的理解。在德州撲克，翻硬幣，剪刀石頭布這類遊戲裡面，納什平衡點的定義是：如果雙方都在用一個比較好的戰略，任何一方做出調整結果都會更糟糕，也就是存在一個平衡點，使得兩個人都不能再進步。

我們用一個簡單的遊戲解釋。

如果我們玩一手剪刀石頭布，可能靠運氣；玩二十萬手，就要看戰略是什麼。如果我們想解這個問題，也是很簡單，下面這個就是所謂的完美戰略：

? 33%剪刀33%石頭33%布

? 無論對手用什麼戰略，都不可能戰勝我們

? 但我們也贏不了…

然而想要接近一個真正的完美戰略是非常難的，大部分人有些偏好，更接近的可能是這樣一個情況，對手比較笨不知道能出剪刀：

? 假設對手#1：從來不出剪刀，50%布，50%石頭

? 我們的老戰略有問題么？（各33%）

老戰略可能還是不輸的，但也不是最佳戰略(GTO)。納什平衡的意思是雙方都不能改進，如果知道對手從來不出剪刀，我們的戰略是能改進的。針對上面的對手#1，我們的戰略可以改成：50%剪刀，50%布。

為什麼不用100%布的戰略？因為對方可能也調整成100%布。使用50%剪刀，50%布的戰略至少可以比打平做的更好。

從博弈論來說，我們找到了對手的弱點，但沒有暴露自己的弱點。也就是說，我們找到了一個新的平衡點。

這就是Libratus在做的事情。

冷撲大師背後的AI演算法和博弈論：CFR演算法是核心

相比於石頭剪刀布，一對一的德州撲克，是一個複雜度非常高的博弈。如何找到德州撲克的GTO和納什平衡點？這是此類AI演算法的核心。

CounterFactual Regret Minimization(CFR，反事實遺憾最小化)，這是一個類似強化學習的演算法，但是更高效。讓AI之間對戰德撲，採用隨機的策略，然後每局過後看看在什麼地方後悔了，然後嘗試不同的戰略，再在決策點上復盤。

這個演算法與人類學習德州類似：累積經驗、評判自己的選擇，但需要注意的是，這裡正確的「後悔點」非常重要。德州撲克有很強的隨機性，所以很容易陷入錯誤的學習方式。

演算法很簡單，問題是無限德州的空間太大了，複雜度是10的160次方。有幾種解決方案：合并簡化+CFR(Claudico)，CFR+「直覺」(DeepStack)，CFR+End Game Solver+RL(Libratus)。

冷撲大師背後的AI演算法和博弈論：CFR演算法是核心

總結一下：

? CFR類似於強化學習。權重調整基於概率。

? AI的戰略和學習方式和職業牌手相似，但是更準確。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 未來網 的精彩文章:

您可能感興趣