當前位置:
首頁 > 科技 > 又一個 AI 預測世界盃冠軍是「德國」

又一個 AI 預測世界盃冠軍是「德國」

研究人員在模擬整個比賽10萬次後預測了結果。

2018年世界盃明天就要在俄羅斯拉開帷幕了,這可能是有史以來觀看人數最多的體育賽事之一,比奧運會還要受歡迎。所以,可能獲勝的球隊自然萬眾矚目。

想評估可能的結果,一個辦法就是看博彩公司的賠率。這些公司利用專業的統計人員來分析龐大的結果資料庫,對任何可能出現的比賽的不同結果的概率進行了量化。這樣一來,博彩公司可以對未來幾周內開打的所有比賽給出賠率,並對可能獲勝的球隊給出賠率。

一種更準確的估計方法是梳理許多不同博彩公司給出的賠率。這種方法表明,巴西隊顯然是奪得2018年世界盃的熱門球隊,概率為16.6%,其次是德國隊(12.8%)和西班牙隊(12.5%)。

但近些年來,研究人員開發出了機器學習技術,有望比傳統的統計方法更勝一籌。這些新技術預測2018年世界盃可能會花落誰家?

一個答案來自德國多特蒙德工業大學的安德烈亞斯?格羅爾(Andreas Groll)及其幾位同事開展的工作。這些研究人員結合使用機器學習、常規統計學以及隨機森林方法,以識別最有可能獲勝的球隊。

先介紹一下背景知識。隨機森林技術近年來才出現,這種強大的方法可以分析龐大數據集,同時避免其他數據挖掘方法的一些缺陷。它基於這個想法:某個未來事件可以由決策樹(decision tree)來確定,在決策樹的每個分支上通過參考一組訓練數據來計算結果。

然而,決策樹存在一個眾所周知的問題。在分支過程的後期階段,決策可能因非常稀疏、在這種解析度下容易出現巨大差異的訓練數據而嚴重扭曲,這個問題就叫過擬合(overfitting)。

隨機森林方法不一樣。其過程不是在每個分支計算結果,而是計算隨機分支的結果。而且它多次這麼做,每次用一組不同的隨機選擇的分支。最終結果是所有這些隨機構建的決策樹的平均值。

這個方法具有顯著的優點。首先,它不存在困擾普通決策樹的同樣的過擬合問題。它還揭示了哪些因素對於確定結果很重要。

所以,如果某個特定的決策樹含有許多參數,很容易看出哪些參數對結果有最大的影響、哪些不是。這些不太重要的因素將來就可以忽略。

格羅爾及其同事正是使用這種方法來模擬預測2018年世界盃。他們對球隊可能參加的每場比賽的結果進行建模,利用結果來編製最有可能的賽程。

格羅爾及其同事先確定可能決定結果的眾多潛在因素。這些因素包括經濟因素(比如某國的國內生產總值和總人口)、國際足球聯合會的國家隊排名,以及各支球隊本身的屬性(比如它們的平均年齡、多少球員在歐冠聯賽踢球、是否擁有主場優勢等)。

值得關注的是,隨機森林方法讓格羅爾及其同事得以加入其他排名信息,比如博彩公司使用的排名。

將所有這些信息添加到模型後得出了一些有意思的結果。比如說,結果發現最有影響力的因素是其他方法得到的球隊排名,包括博彩公司、國際足聯聯合會及其他機構的排名。

其他的重要因素包括國內生產總值和球隊中在歐冠聯賽踢球的人數。不太重要的因素包括國家總人口和教練國籍等。

通過這個過程得出的預測在幾個方面與其他預測大不一樣。首先,隨機森林方法將西班牙隊選為最有可能獲勝的球隊,概率為17.8%。

然而,這種預測的一大因素是世界盃比賽的結構本身。如果德國隊闖過比賽的小組階段,更有可能在16強淘汰賽階段面臨強敵。正因為如此,隨機森林方法計算德國隊闖入四分之一決賽的概率為58%。相比之下,西班牙隊在最終的16強中不太可能遇到強敵,因而進入四分之一決賽的概率為73%。

如果這兩支球隊都進入了四分之一決賽,它們獲勝的機率大致相等。格羅爾及其同事說:「西班牙隊的贏面比德國隊略大一點,這主要是由於德國隊在16強中淘汰出局的概率比較高。」

不過有另外一個變數。隨機樹過程讓他們得以模擬整個比賽,這得出了不同的結果。

格羅爾及其同事模擬了整個比賽10萬次。他們說:「按照可能性最大的賽程來看,奪得世界盃冠軍的將是德國隊,而不是西班牙隊。」

當然,由於比賽的對陣排列非常多,上圖這個賽程出現的可能性仍然極小。格羅爾及其同事認為概率是1/100000。

現在你大概有數了。據格羅爾及其同事聲稱,比賽一開始,西班牙隊贏球的機會最大。但是如果德國隊進入四分之一決賽,那麼它將成為冠軍最大熱門。

比賽周四開打,到時東道主俄羅斯隊對陣沙烏地阿拉伯隊。令人遺憾的是,這兩支球隊似乎連四分之一決賽可能都進不了。

《預測2018年世界盃足球賽:注重球隊能力估計參數的隨機森林方法》論文:

論文全文:arxiv.org/abs/1806.03208


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雲頭條 的精彩文章:

碼農們的福音:一個專門開發高性能大數據代碼的系統「開源了」
IBM、BMC、HPE集體缺席的雲管理服務,是數字化轉型新思維

TAG:雲頭條 |