世界上最會打牌的 15 個人,輸給了這個「賭神演算法」
上次 AI 戰勝人類玩家,還是 AlphaGo?機器人和韓國圍棋冠軍交鋒。
現在一個名為 Pluribus 的 AI,和世界撲克冠軍 PK,再次完勝人類。
但具有突破性的是,這次不再是一對一,對手是 15 名人類頂尖撲克玩家。這也是 AI 首次在超過兩個人的遊戲中擊敗人類玩家。
這次的德州撲克比賽為期 12 天,超過 10,000 手牌,形式是最受歡迎的六人無限制玩法,Pluribus 和 15 名頂尖玩家以兩種模式開展比賽。
遊戲示例,人工智慧系統(Pluribus)和五名職業撲克玩家對抗. 圖片來自:Facebook
第一種是 1 個 Pluribus 和 5 個人類玩家組賽,第二種是 1 個人類玩家和 5 個 Pluribus 組賽(其中各個 Pluribus 並未相互配合),第二種形式參賽的是 2 名撲克傳奇人物——Darren Elia 和 Chris Ferguson,後者曾 6 次獲得世界冠軍。
結果是,Pluribus 全部勝利了。
如果它是人類玩家,一個籌碼值 1 美元的話,Pluribus 將能以每小時 1,000 美元的驚人速度不斷贏錢。
圖片來自:Getty Images
這項成就今天也發表在《科學》雜誌上,文中詳細介紹了人工智慧 Pluribus 如何被創造出來。
Pluribus?由 Facebook 的人工智慧團隊和卡內基梅隆大學計算機科學系人員一起開發,兩年前他們就已經研發出了名為?Libratus 的撲克遊戲系統,它在德州撲克的單挑賽中一直是世界贏家。
在和單個人類比賽中,博弈論能為 AI 提供最佳策略,?因此 AI 可以完全掌控遊戲中的「特定路線」,預測每次遊戲結束的結果後,反過來決定下一步的行為。
但這對於涉及多方利益且沒有明確條件的多人遊戲場景並不適用。
圖片來自:Alexandre Rotenberg / Alamy
簡單來說,?Libratus 不能確定所有玩家手裡有什麼牌,不能了解對手的內心想法,無法琢磨對手的試探或虛張聲勢,以及他們的每一個投注決定,遊戲可以說是呈指數級地複雜化。
因此研究人員在 Libratus 的基礎上構建了 Pluribus,它的不同之處在於新使用了一種稱為搜索功能的機制,能夠對接下來的未知行為進行展望,而不是在預測最終結果後反推。
在同時應對其餘幾名玩家的複雜性之下,這種短期的敏銳性恰恰是最大的優勢。
另外, Pluribus 演算法的戰略核心就是,它並不是從人類玩家或先前 AI 數據中的經驗來訓練演算法,而是通過對抗自己來不斷改進。
在進行數萬億次撲克遊戲後,它創造出了一個基本策略模式,能夠在不受人類干擾的情況下對抗自身的副本,然後在比賽中屢次借鑒它,並視現場情況自由發揮。
因為它在沒有人類信息輸入的情況下訓練而成,所以它可以想到很多人類玩家不會使用的策略。
這些進步也表示,AI 能夠使用更少的資源和更低的成本製造。
比起動輒十萬美元的先進系統,Pluribus 短短 8 天內創建,在雲伺服器上培訓也只用了不到 150 美元的費用。
這次的成果也是衡量 AI 進展的一種很好的方法。
與國際象棋、跳棋、圍棋不同,撲克遊戲隱藏了信息和運氣元素,這意味著它不能只是計算人類行為,而是必須超越它們。因為 Pluribus 已經可以對抗多個該領域內的頂尖人類,研究人員表示,客觀上來說,AI 已經被證明可以稱為「超人」了。
圖片來自:Gizmodo
對於後續的發展,聯合開發者 Noam Brown 認為 Pluribus 已經到達了撲克遊戲的極限,完成了最後一個挑戰。接下來,這個技術將在更多場景被用到。
畢竟 AI 能在多人場景中使用,還能處理隱藏信息的能力,才更符合現實生活中的挑戰。撲克遊戲只是提供了一個現實世界的模型。
這項研究將可以應用於各種各樣的環境,例如網路安全、欺詐檢測、金融談判等等,甚至還可以幫自動駕駛汽車導航交通。
不過 Pluribus 的演算法代碼就不會像早期的系統迭代一樣公開了,畢竟它可能會毀掉在線撲克世界。


※地圖,旅行,時間機器
※120W 超級快充,AR 眼鏡,vivo 在創新日上發布了這些
TAG:愛范兒 |