AI熱詞你居然只知道「深度學習」？

最新 03-07

全文共3793字，預計閱讀時長4分鐘

最近深度學習的風頭正盛，尤其是在語音、圖像識別這些領域不斷刷新戰績，好像把AI領域其他的寶寶們的風頭奪走了，讓人一度以為人工智慧=深度學習。

但其實深度學習只是AI的一方面，還有其他一些領域也正在取得進展，並且這些技術分支在很多領域都有極大的應用潛力。

我們都愛把自己的固有印象貼在某件事物上，形成標籤化，就像一些人把AI貼上「認知計算」或者「機器智能」的標籤，而有的則不恰當地將AI和「機器學習」混為一談。

實際上AI是包含了從機器人到機器學習等許多學科的一個廣泛領域。我們大多數人斷言，AI的終極目標是開發出能執行以往屬於人類智能範疇的任務以及認知功能的機器。為了實現這一點，自動學習的能力是機器不可或缺的。

那麼除了深度學習，你還應該關注哪些AI方向呢？

阿爾法狗的秘密——強化學習

什麼是強化學習？

還記得GoogleDeepMind在玩Atari和圍棋（Alphago）遊戲中技驚四座的表現嗎？這就是採用了強化學習的方法，它是一種通過試錯法學習的範式，其靈感源自人類學習新任務的方式。

強化學習（Re-inforcement Learning），一種基於與環境互動的目標導向的學習。有業界觀點認為，強化學習是真正的人工智慧的希望。（事實上強化學習在五六十年代就已經提出，阿爾伯特大學的Sutton的RLAI是最經典的教科書，而控制論領域更早的「近似動態規劃」就是強化學習。）

解釋什麼是強化學習，我們可以舉個簡單的例子：

一個孩子在學習走路時有哪些步驟？

首先孩子將觀察你是如何行走的。你用兩條腿，一步一步走。得到這個概念後，孩子試圖模仿你走路的樣子。

但孩子很快發現，走路之前必須站起來！這是一個試圖走路必經的挑戰。所以孩子需要嘗試先站起來，雖然過程會經歷許多掙扎和滑倒，但仍然決心站起來。

然後還有另一個挑戰要應付：站起來很容易，但要保持站立又是另一項挑戰！孩子揮舞著雙手，似乎是想找到能支撐平衡的地方，設法保持著站立。

現在孩子開始他／她真正的任務––走路。這是件說比做容易的事。要記住很多要點，比如平衡體重，決定先邁哪個腳，把腳放在哪裡。

這聽起來像一個困難的任務嗎？

實際上站起來和開始走路確實有點挑戰性，但當你走熟練了就不會再覺得走路難。不過通過我們的分析，現在的您大概明白了一個孩子學走路的困難點。

讓我們把上面的例子描述成一個強化學習的問題。這個例子的「問題」是走路，這個過程中孩子是一個試圖通過採取行動（行走）來操縱環境（孩子行走的表面）的智能體。他/她試圖從一個狀態（即他/她採取的每個步驟）到另一個狀態。

當他/她完成任務的子模塊（即採取幾個步驟）時，孩子將得到獎勵（比如巧克力）。但當他/她不能完成走幾步時，他/她就不會收到任何巧克力（亦稱負獎勵）。這就是對一個強化學習問題的簡單描述。

強化學習結構：

在每個時間步t、agent：

–接受狀態St

–接受標量回報rt

–執行行動at

強化學習的環境：

–接受行動at

–產生狀態St

–產生標量回報rt

強化學習（RL）其實是最接近於自然界動物學習的本質的一種學習範式，在一些小問題上的表現近乎完美。

在典型的強化學習設定裡面，一個代理會承擔在數字化環境中觀察其當前狀態的任務，並採取能讓自己被設定的累計長期獎勵最大化的動作。作為每次動作的結果，代理從環境接收反饋，這樣它就可以知道動作是促進還是妨礙了自己的進展。

然而傳統的RL應用場景很有限，規模大一點的問題就會出現維數爆炸，function approximation可以解決一定問題，然而複雜的學習問題存在大量的不確定性，模型調參猶如盲人摸象。深度學習的爆發給RL帶來了新希望，大家都在等著deepmind憋下一個大招。

AI星際2？AI德州撲克？AI參加標準化考試？

也許有一天AI會參加美國總統競選，畢竟機器沒有醜聞，一旦老子value function收斂，爾等人類都是渣渣。

帶記憶的神經網路

神經網路是什麼？簡單來說，就是用來模仿人腦思維過程的人工智慧。

人的大腦之所以強大，正是依靠大量的「神經元」組成的一個極其龐大的網路，通過「輸入特徵信息」，「加工處理」產生「輸出結果」。

我們來設想下面的場景：

在擁擠的街道，對面走來一個長腿大波浪的性感美女。

瞬間，你就GET到了她的大量信息（火辣的身材、白凈的皮膚、迷人的眼睛、性感的服裝等），並把信息傳入了大腦——在神經網路中這即是指「輸入特徵信息」，意味著你看到什麼，聽到什麼，摸到什麼等。

而「輸出結果」就是大腦指揮機體做出對應反應。例如腎上腺素分泌增多，局部充血變大——我是主動跟美女搭訕呢，還是故意不小心擦胸而過揩油呢，還是只遠觀而不褻玩呢？

事實上，信號在大腦中實際傳輸是一個相當複雜的過程，但就我們而言，重要的是把它看成和現代的計算機一樣，利用一系列的0和1來進行操作。這體現在神經網路中，最重要的用途是分類和識別。

我們再看幾個例子：

垃圾郵件識別：

現在有一封電子郵件，把出現在裡面的所有辭彙提取出來，送進一個機器里，機器需要判斷這封郵件是否是垃圾郵件。

疾病判斷：

病人到醫院去做了一大堆肝功、尿檢測驗，把測驗結果送進一個機器里，機器需要判斷這個病人是否得病，得的什麼病。

貓狗分類：

有一大堆貓、狗照片，把每一張照片送進一個機器里，機器需要判斷這幅照片里的東西是貓還是狗。

如上述最後一條例舉，把一張貓的照片交給計算機讓其識別，計算機通過這張照片的像素信息逐層分析，每一層都會有若干個神經元負責分解畫面上的信息。

比如第一層負責分析照片上的輪廓信息，這個時候可能有一半的神經元判斷這個照片上是狗另一半覺得這個照片上是貓，沒關係再交給下一層分析，下一層的神經元負責分析照片上的顏色信息，再下一層負責分析照片上的紋理信息，以此類推。

到了最後一層計算機得出的結果是照片上的動物是狗。但如果計算得出了錯誤的信息，神經網路就得重新再來一遍，這時候每層的神經網路就會反省上一次的錯誤，分析得出正確的結果。

那麼，如何讓神經網路擁有記憶？

遞歸神經網路加入了另一組神經元之間的連接。這些連接允許把同一個隱藏層的神經元的激活值在下一個序列步驟反饋回自身。簡單的說，在序列的每一個步驟中，隱藏層除了從下層接受信號外，還從自身接受信號。此機制給了遞歸神經網路一個重要的性質：記憶。

圖片來源: IEEE Spectrum

遞歸網路的一個殺手級應用是語言翻譯。

訓練數據是成對的句子，一句在源語言里，另一句在目標語言里。並且，句子並不需要具有相同的長度或共享相同的語法結構。儘管沒有預先學習任何一種語言的知識，諸如語法，此類神經網路依然可以和許多最先進的機器翻譯程序抗衡。

遞歸神經網路也可以解決許多醫療問題。南加州大學與洛杉磯兒童醫院合作設計了一個神經網路，可以基於從兒科重症監護病房測得的觀測序列來作出診斷。

序列有13個頻繁但是不規則採樣的臨床指標，包括心臟速率、血壓、血糖水平和呼吸功能的測量。目標是，針對每個患者，在128種常規診斷中選取一個最適合的。網路訓練完成之後，再通過一組新的患者數據來評估模型的有效性。評估證明，網路可以以相當高的精度識別出不同的病症，比如腦癌，持續哮喘和糖尿病酮症酸中毒（糖尿病的嚴重併發症，由體內產生過量血液氨基酸引發）。

模擬環境

目前來說，計算機模擬行業主要的分支有虛擬現實（VR）、現實增強（AR）、3D列印、生態系統模擬、模擬模擬訓練、計算機模擬測試以及軍事信息通信的模擬技術等方面。

眾所周知，AI系統訓練數據的生成往往是很有挑戰性的。此外，AI如果想在現實世界中發揮作用，必須推廣到許多情況下也適用。而開發可模擬真實世界的物理結構和行為的數字化環境，可以為我們衡量和訓練AI一般智能提供試驗場。這些環境以裸像素的形式呈現給AI，後者然後採取行動以便解決被設定的目標。在這些模擬環境下訓練可以幫助我們理解AI系統是如何學習的以及如何對它們加以改進，也能為我們提供有可能轉移到現實世界應用的模型。

OpenAI 近期介紹了該實驗室在 2017 年打造的 8 種模擬機器人環境和一種新的強化學習技術，這些技術被用來訓練最終用於真實機器人的人工智慧模型。同時，該實驗室還提出了機器人研究領域的一系列待解答新問題。

8 種模擬機器人環境採用 MuJoCo 物理模擬平台構建。這 8 種模擬環境是：