當前位置:
首頁 > 科技 > 德撲AI原理解讀

德撲AI原理解讀

解讀嘉賓:田淵棟,Facebook 人工智慧研究院研究員,Facebook 圍棋 AI 程序 DarkForest 首席工程師及第一作者,卡耐基梅隆大學機器人研究所博士,曾擔任 Google 無人駕駛團隊軟體工程師,並獲得國際計算機視覺大會(ICCV)馬爾獎榮譽提名。

德撲AI原理解讀


首先要確認,這是「一對一無限注德州撲克」遊戲(Heads-up no-limit Texas Hold『em)。「一對一」意思就是我和你兩個人的零和遊戲,我輸錢你贏錢、我贏錢你輸錢,並不是很多人在一張牌桌上有人當莊家的那種。「無限注」就是你每次下注的時候不一定是之前的整數倍,可以是任意數。


有兩個很牛的撲克AI,一個是CMU的Libratus,另外一個AI叫DeepStack,這兩個都是用的同樣的框架,一個叫作Counterfactual Regret Minimization(CFR)的框架,簡言之是把遊戲中遇到的可觀測狀態(叫作信息集Information Set)都羅列出來,然後對於每個可觀測狀態,通過最小化最大悔恨值的辦法,找到對應的策略。然後反覆迭代。

德撲AI原理解讀


CMU


Libratus


它打了20天的比賽,贏了4個最牛的撲克玩家。(2017年01月31日,人工智慧系統Libratus戰勝Jason Les、Dong Kim、DanielMcAulay 和Jimmy Chou四位德州撲克頂級選手,Libratus玩了12萬手一對一不限注的德州撲克。到比賽結束時,人工智慧領先人類選手共約177萬美元的籌碼。)


Libratus沒有用深度學習。他們用到了End-gamesolver,因為德撲一局時間比較短,可能就幾個回合就結束了,所以你可以從下往上構建遊戲樹。這樣的好處是,最下面節點遊戲樹的狀態是比較容易算出來的,用這個反過來指導設計上面的遊戲樹。另外也用了蒙特卡羅方法,標準的CFR在每次迭代的時候,要把整個遊戲樹都搜一遍,這個對於稍微複雜一點的遊戲來說是不可接受的,因為是指數級的複雜度,所以用蒙特卡羅方法,每次選一些節點去更新它上面的策略。還有一點就是,一般來說我們在做遊戲的時候往往會想到怎麼去利用對方的弱點,但其實不是這樣的。更好的方法是,我盡量讓別人發現我的弱點,然後據此我可以去改進它,變得越來越強。用術語來講,就是去算一下對手的最優應對(Best response),讓對手來利用你的弱點,然後用這個反過來提高自己的水平。


DeepStack

加拿大阿爾伯塔大學、捷克布拉格查理大學和捷克理工大學訓練的AI系統與11位職業撲克手進行了3000場無限注德州撲克比賽,勝率高達10/11,他們在網上也打過一些大型職業比賽。


我們看到DeepStack的基本流程是AlphaGo和國象的某種混合版本,即有限深度的搜索,加上用值網路估值。具體來說,從當前狀態出發向前看三四層的子樹,在最底一層用值網路估算一下值(誰好誰壞),然後用通常的CFR去求解這棵子樹的的最優策略。對於值網路來說,每個人有兩張手牌,52選2,就有1326種情況,但每種情況都有概率,以這個作為輸入。輸入同時也包括當時的籌碼數和公共牌。輸出的是在每種手牌情況下,估計的值函數(counterfactual value)會是多少。


本文轉自新浪科技,是田淵棟演講關於德州撲克部分的節選。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 科學24小時 的精彩文章:

有情商的聊天機器人
改變未來生活的五大技術
彈射逃生,真能萬無一失嗎?
2025年的智能家居
NASA給新類地行星征名:「遠離特朗普」獲高票

TAG:科學24小時 |

您可能感興趣

使用認知心理學解釋深度神經網路:DeepMind新研究破解AI黑箱問題
IBM首次揭秘:沃森醫生AI輔助決策癌症治療
死灰復燃:受海外歡迎的原宿KAWAII文化
認知心理學解釋DNN:DeepMind新研究破解AI黑箱問題
對AI"出錯"零容忍?美國加強AI推理解釋能力研究
讀取DNA中的遺傳密碼 AI將從基因層面解決癌症
AI能閱讀人類情緒它能理解人類的想法嗎?
理解圍棋變化AI要一萬年!馬云:柯潔與阿爾法狗比賽沒意義
AI PS製作正義聯盟隊徽
Google AI奇葩學習:看黃色小說理解人類語言
平安產險開啟 「AI 車險」理賠;歐洲醫院嘗試用 AI 檢測工作人員是否洗手
AIM:糞菌移植研究方法及報告分析
專訪DeepMind CEO:阿法狗讓我震驚,要用AI理解宇宙
平安產險開啟 「AI+車險」理賠;歐洲醫院嘗試用 AI 檢測工作人員是否洗手 | AI 掘金晚報
工匠精神的全新解讀!創維AIR系列Q7開箱體驗
承認阿爾法狗更懂圍棋?解讀戰敗後柯潔對AI評價的巨大變化
「AI發展出人類無法理解的語言」Facebook關閉「失控」 AI 項目
呆萌似「烏龜」 斯柯達PAII裝甲車
INFINITE是否全員回歸? 先看看他們的日文專輯AIR