數據依賴症：當今AI領域的核心風險

DeepMind與星際爭霸2

此前，DeepMind和星際爭霸系列製作公司暴雪聯合推出了星際爭霸2的機器學習平台sc2le，DeepMind藉此希望在繼AlphaGo後在星際爭霸2上繼續挑戰人類，但令人失望的是，目前DeepMind在星際爭霸2上進展緩慢。在今年7月底，DeepMind發表了一篇論文《StarCraft II: A New Challenge for Reinforcement Learning》系統闡述了他們在星際爭霸2中的進展，在論文中DeepMind承認了目前的深度學習與增強學習框架在星際爭霸2中並無任何理想的結果（...However, when trained on the main game, these agents are unable to make significant progress），AI甚至還遠遠比不上遊戲自帶的簡單電腦（很弱的腳本機器人）。既然在全局遊戲中表現非常差，DeepMind不得不退而求其次，設計了7個星際爭霸2的迷你遊戲，包括：

1. 尋路（「MoveToBeacon」）；

2. 收集散落水晶（「CollectMineralShards」）；

3. 尋找並消滅小狗（「FindAndDefeatZerglings」）；

4. 消滅蟑螂（「DefeatRoaches」）；

5. 消滅小狗和毒爆蟲（「DefeatZerglingsAndBanelings」）；

6. 收集水晶和氣（「CollectMineralsAndGas」）；

7. 訓練機槍兵（「BuildMarines」）；

在上面難度相當於Atari小遊戲的迷你任務中，DeepMind的人工智慧的表現才勉強達到合格線。下圖是DeepMind在論文中總結的任務得分數據，在尋找並消滅小狗和消滅蟑螂遊戲中AI接近、超越了普通人類玩家（DeepMind 自家工作人員），在尋路上接近了人類高手。

（DeepMind在7個迷你遊戲的表現得分）

然而，上述7個迷你遊戲相對於星際爭霸2的全局遊戲相差懸殊，DeepMind通過迷你遊戲的設計將星際爭霸2人工智慧試驗降低到Atari小遊戲級別的難度，並不意味著人工智慧在星際爭霸2這款類似人類現實世界對抗/戰爭簡化模擬的遊戲上有太多顯著的突破。而究其原因，在於星際爭霸2的決策空間巨大，涉及了在收集資源、建設建築、訓練部隊、局部戰術等方面的海量決策，其決策空間遠高於只有落子一個動作的圍棋。另外更要命的是，RTS遊戲由於進程較長，其策略的回報（reward）趨向長期，即意味著難以定義類似於Atari遊戲中Agent非常明確的回報，這使得DeepMind在Atari遊戲中屢試不爽的Reinforcement Learning變得難以湊效。

於是DeepMind似乎希望後續把研究回歸到傳統的監督學習方向，藉助海量的星際爭霸2人類玩家對局replay數據去優化學習的效果。在論文中通過replay增強學習後，Agent在採礦和造兵上等任務上相比此前自學有了顯著的提升。

之所以說了這麼多AI與星際爭霸2的事情，是因為從中我們可以看到一個關鍵性的現象：在類似於星際爭霸2這種複雜任務（決策空間巨大）之中，在計算機視覺、機器翻譯、語音識別等領域取得了巨大成功的主流深度學習方法，事實上難以取得太多的成果，甚至連DeepMind也承認，在星際爭霸2的嘗試中他們遇到的困難遠遠高於此前的估計。而這是因為，當前的主流深度學習方法並不完美，其一切都是建立在海量的訓練數據基礎上。

演算法不夠，數據來湊

眾所周知，目前深度學習在人工智慧中所取得的成功，實際上建立在三大驅動因素上：演算法、數據和算力。首先主流的深度學習演算法近年來變化越來越少，同時深度網路的架構本身似乎對於效果的產出正在減弱，而真正讓主流深度學習方法在計算機視覺、機器翻譯、語音識別等領域取得了巨大成功的關鍵驅動力是數據。深度學習區別於傳統機器學習方法的最大特徵，是深度學習可以使用海量的數據去提升自身的表現（Performance），這可以用一幅經典的圖表去展示。下圖中橫坐標是使用的訓練數據量，縱坐標是演算法表現，傳統的機器學習演算法往往在數據量超過一定的閾值後，其表現就難以繼續隨著訓練數據量而提升，更多的數據輸入僅僅是浪費；而大型的深度神經網路模型猶如一隻大水桶，在裝入了更多的數據後其表現能夠繼續攀升，數據成為了深度學習的核心驅動力，缺乏了海量的標註數據，深度學習的效果並不會比傳統機器學習方法有太大的改善。而最後算力是保障如此巨大的海量數據能跑在深度學習框架上的基礎能力，從某種角度理解NVIDIA的股價，是建立在數據科學界需要將海量數據注入深度神經網路並進行大量前向/方向傳播的基礎上。

（來源於Andrew Ng神經網路和深度學習課程）

甚至，我們能以以下公式描述當今的人工智慧業態：

當今人工智慧 = 海量的標註數據 + 簡單粗暴的前向/後向傳播計算

於是AI界開始了標註數據收集的軍備競賽，類似Amazon Mechanical Turk的數據標註眾包平台不斷湧現，而自身具備了海量數據資源的BAT或者搜狗，一夜之間在語音識別準確率上紛紛接近甚至超越了在語音識別深耕了超過十年的科大訊飛。標註數據的價值，讓大數據時代一句經典的話——「數據即將成為新時代的電力」變得前所未有的真實。一個個如ImageNet等人工智慧競賽中不斷被打破的準確率記錄，其背後是無數的人力物力被投入到高質量的標註數據之中，人工智慧一定程度上，甚至可以理解為有多少人工，被投入到數據標註之中，就能有多少智能。

然而，過分依賴海量標註數據的主流深度學習方法目前面臨了越來越多的挑戰，首先在某些標註數據難以收集或者收集代價很大的領域，讓AI應用的建立變得舉步維艱，比如在智慧醫療中，高質量的醫學影像標註數據收集門檻非常高。另外更為重要的是，海量標註數據+深度學習框架+GPU並行計算的簡單粗暴模式，在越來越多領域被證明或許沒有大家想像的那麼管用，上一節DeepMind在星際爭霸2中的努力是其中一個案例。

究其原因，當下主流的深度學習方法或許並不是最優的範式。目前有越來越多的人在反思深度學習的局限和缺陷，甚至包括了深度學習之父Geoffrey Hinton本人。大多數學習過深度學習的人基本都練習過經典的cats vs dogs（貓狗大戰）數據集，即從數萬張已標註的貓咪和狗狗照片，訓練神經網路判斷一張圖片的類別。但對於人類而言，我們並不需要如此大量的標註去讓我們學習一種動物是貓咪，即使對於一個從來不知道貓的幼兒，在見過幾次貓之後就能認知到這種實際上是一種區別於其他動物的物種，哪怕不知道它的語言名稱，當某一天有人告訴她這種生物叫「貓咪」後，只需要這一次「標註」（One-shot learning），她以後就能準確分辨出每一隻貓。然而對於當前深度學習來說，依賴的是大量的數據標註，這種One-shot learning是極其艱難的挑戰。

在這裡，我們能總結性地說一句，大數據讓深度學習插上了騰飛的翅膀，但同樣也成為了深度學習飛翔到更多領域的障礙。畢竟在很多領域海量的標註數據不是那麼容易獲取，甚至「標註」本身也是一項極其難定義的事情，比如在星際爭霸2中，我們應該如何更好地標註replay數據，讓AI能更好地進行監督學習？甚至進一步說，這種標註行為也許並不是一個明智的選擇，正如人類並不需要在學會玩星際爭霸之前，首先得看成千上萬場別人的replay去學習各種玩法。

人工智慧的下半場

在計算機視覺、機器翻譯、語音識別等標註數據獲取相對代價低廉的領域，誠然我們看到了主流深度學習方法所取得的巨大成功，這不僅是孜孜不倦積累30多年的深度神經網路技術的集中爆發，也使得深度學習引領人工智慧進入了目前的熾熱狀態。但必須實事求是地說，越來越多的證據表明，當前主流深度學習方法也許並不是一項普適性技術，在更多類似星際爭霸2等任務極其複雜、數據難以標註的領域，也許我們需要的是新的方法。

深度學習之父Geoffrey Hinton最近公開號召摒棄現有深度學習（主要是反向傳播、CNN）範式，重新奮力向前尋找全新的道路。Hinton認為，要想讓神經網路能夠自己變得智能，即實現不依賴海量標註數據的「無監督學習」，意味著需要放棄反向傳播等目前主流深度學習理念。對於在深度學習領域中，地位猶如愛因斯坦於物理學界的Hinton，要質疑甚至推翻自身花費了十幾年心血所建立的主流深度學習方法，必然是需要具備極其巨大勇氣的，我們甚至可以合理推測，Hinton老爺子心中必定是對人工智慧未來有了新的vision，才能驅使他堅定地做出如此艱難的選擇。

當然，也許只有類似Hinton等極少數人才能擁有對於未來技術演進的vision，但立足於對當前業態的觀察，我們也能發現目前主流深度學習的勢能似乎已經在逐漸減弱，也許這就是當前人工智慧業界最大的風險所在。

海量的標註數據，加上簡單粗暴的前向/後向傳播計算，也許並不是人工智慧未來的全部，從今天開始，我們最好把這點記在心中。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※俄羅斯將發布法定數字貨幣CryptoRuble，但並不等於虛擬貨幣合法化
※對話上海財經大學ITCS主任陸品燕教授：如何用一年時間，建設國際一流理論計算機研究中心？
※馬雲自嘲唱歌后網友評論讓其「絕望」；開房要謹慎：中國18家酒店數據遭泄露；一加承認收集用戶隱私數據 | 雷鋒早報
※PyTorch vs. TensorFlow月度使用體驗總結
※如何理解Nvidia英偉達的Multi-GPU多卡通信框架NCCL？

TAG:雷鋒網 |