「谷歌草繪RNN瞄準超級AI」源自壁畫的飛躍，AI 學會歸納抽象概念

新聞 06-12

新智元編譯

「谷歌草繪RNN瞄準超級AI」源自壁畫的飛躍，AI 學會歸納抽象概念

AI 畫草圖—— 「以和人類相似的方式歸納抽象的概念"

人類自從開始在岩石上作畫，認知能力就產生了一個飛躍——現在，計算機也在學著做同樣的事情。

想像一下，有個人讓你畫一隻豬，再畫一輛卡車。也許你會這麼畫：

「谷歌草繪RNN瞄準超級AI」源自壁畫的飛躍，AI 學會歸納抽象概念

挺簡單。但接著，想像你被要求畫一個「豬卡車」。作為一個人類，你會憑直覺去理解如何混合這兩種事物的顯著特徵，最後你可能會畫出這麼個東西：

「谷歌草繪RNN瞄準超級AI」源自壁畫的飛躍，AI 學會歸納抽象概念

瞧它那個小卷豬尾巴，還有眼睛似的圓車窗、分不清是車輪還是蹄子的兩個圈。如果這幅畫是你畫的，我，你的人類同胞，會主觀地把它當成是「豬卡車」的絕妙寫照。

直到不久前，還只有人類能做出這種概念整合的把戲，但現在不同了。上面那張豬卡車的作者實際上是一個稱為SketchRNN的 AI 系統，它是谷歌 AI 是否能創造藝術作品的研究項目的一部分。項目被稱為「Project Magenta」，由 Doug Eck 牽頭。

上周，我在位於山景城的谷歌大腦團隊的辦公室里拜訪了 Eck。Magenta 項目正在那裡展開。Eck 智慧、隨性、謙和。他 2000 年從印第安那大學拿到了計算機科學的博士學位，此後則從事音樂及機器學習相關的工作。他先是在 AI 的溫床——蒙特利爾大學——做教授，之後去了谷歌。一開始在谷歌音樂工作，後來調到了谷歌大腦參與 Magenta 項目的研究。

Eck 一開始開發能夠進行藝術創作的 AI 工具還只是一時興起。「但一番思索之後，」他說：「就變成了『我們當然該做這個，這真的很重要！』」

如他和谷歌同事 David Ha 所寫到的那樣， SketchRNN 的意義不僅在於學習如何作畫，更在於學習「以和人類相似的方式歸納抽象的概念。」他們不是想創造一台能夠畫豬的機器。他們想創造的是能夠識別和輸出「豬的概念」的機器，即使它同時被輸入了一些和家畜無關的提示詞，比如卡車。

這裡有個隱含論據：當人類畫畫時，他們會對世界進行抽象的概括。他們勾勒出了「豬」的總體概念，而不是任何特定的一隻。也就是說，我們的大腦如何存儲「豬的概念」和我們如何畫豬之間有一個聯繫。學習如何畫豬，也許會學到一些人類抽象綜合的能力。

以下是軟體的工作原理。谷歌開發了一個名為「快，畫！」的遊戲，當人們玩的時候，就生成了大量的人造圖像資料庫，包括豬、雨、消防車、瑜伽體式、花園和貓頭鷹。

當我們繪圖時，我們會將豐富、多彩、紛繁的世界濃縮成（數字）畫筆的幾個動作。這些簡單的線條是 SketchRNN 的基礎數據集。每一類繪畫——貓、瑜伽體式、雨，都可使用谷歌開源的 TensorFlow 軟體庫來訓練特定類型的神經網路。這與那些常見於新聞報道的基於圖片的工作不同。那些教會機器繪製梵高或者 DeepDream 風格的畫作，或畫出任意形狀並添加貓的特徵等的項目，在人類看來，都較為怪誕。他們繪製的作品近似人類的畫作，但又不完全符合人類對現實世界的感知。

SketchRNN 輸出的作品則完全沒有怪誕感。「他們看上去都很像回事」，Eric 跟我講，「不能說『非常像人畫的』，但是比那些像素生成的圖片看起來像回事多了」。

Magenta 是谷歌收集並嘗試理解人類特性的廣泛嘗試中的一環

這是Magenta 團隊的核心理念。「人類認知世界的方式是將人類所見提煉為抽象的概念，而非像素網路「，Eric 和 Ha 在論文中描述道，」小時候起我們就發展出了通過用鉛筆或蠟筆在紙上畫圖來交流的能力「。

如果人類有這樣的能力，谷歌希望機器也能具備這樣的能力。去年穀歌CEO Sundar Pichai 提出了「AI First「的目標。AI是谷歌」集成全球範圍內的信息並使人人皆可訪問並從中受益「這一公司使命的自然延伸。如今的變化是谷歌所集成的信息均圍繞著AI，並使人人皆可訪問並從中受益。Magenta 就是谷歌收集並嘗試理解人類特性的廣泛嘗試中的一環。

機器學習是谷歌採用的各類工具的概括性的術語。機器學習，常縮寫為ML，指的是通過給計算機輸入標記過的數據「訓練「其學會完成各種任務的計算機編程方式。一種特定的機器學習方式就是使用大致基於人類大腦連接系統建模的神經網路。各種節點（人造神經元）以不同的權重彼此連接。

近年來，多層次的神經網路已經被證明在解決複雜問題方面成效卓著，特別是在翻譯和圖像識別/處理領域。谷歌已經在這些新架構上重建了許多它的核心服務。通過模擬人類大腦的已知功能，這些神經網路具有識別輸入（例如圖像）中的不同模式的連接層。低級別層可能包含識別簡單特性如明暗的神經元，高級別層則可能夠識別如狗臉、汽車或蝴蝶。

使用上述結構和機器構建神經網路極為高效。極其複雜的計算問題簡化成為一種模型的調校及訓練以及一些圖像處理單元的短期計算。如同 Gideon Lewis-Kraus 在紐約時報文章中描述的，谷歌翻譯是一個耗時十年構建的複雜系統，然而使用深度學習系統僅用九個月就完成了重建。「 AI 系統一夜之間就取得了原有系統終其使用壽命一生能取得的改善」。

正因如此，神經網路的用法和類型已經爆炸式增長。對於 SketchRNN ，他們使用的是循環神經網路，用於處理輸入序列。他們使用一系列人類繪製不同事物時使用的線條來訓練神經網路。

描述訓練的最簡單方法是將其作為一種編碼方式。輸入數據（草圖）後，神經網路嘗試在所處理的數據中總結出一些概括性的規則。這些概括性的規則就是數據的模型，被存儲在描述網路中神經元特性的數學中。

這種配置被生動地稱為潛在空間或 Z 區，豬、卡車或者瑜伽體式的特性都被存儲其中。取樣則是要求系統繪製出它被訓練的內容，SketchRNN 就會繪製出一幅豬、卡車或瑜伽體式的草圖。它所畫的就是它所學的。

SketchRNN 創作出了接近人類的畫作

SketchRNN 可以學習什麼？以下是訓練生成消防車的神經網路。在模型中，有一個名為「溫度」的變數，由研究人員將輸出的隨機性上調或下調。在以下圖像中，較藍的圖像溫度被調低，較紅的圖像「更熱」。

「谷歌草繪RNN瞄準超級AI」源自壁畫的飛躍，AI 學會歸納抽象概念

或者也許你想看貓頭鷹：

「谷歌草繪RNN瞄準超級AI」源自壁畫的飛躍，AI 學會歸納抽象概念

而最好的例子就是瑜伽體式：

「谷歌草繪RNN瞄準超級AI」源自壁畫的飛躍，AI 學會歸納抽象概念

現在這些看起來都像人類的畫作了，但它們並非人類所畫。它們是人類作畫這種行為的重建。有些畫得不錯，有些則不怎麼好，但是如果來和 AI 玩看圖猜詞應該是足夠管用了。

SketchRNN也可以接收人類繪圖形式的輸入。你輸入一些數據，它試圖提煉規則。在一個接受貓數據訓練的模型工作中，如果輸入三隻眼睛的貓圖片會發生什麼呢？

「谷歌草繪RNN瞄準超級AI」源自壁畫的飛躍，AI 學會歸納抽象概念

看到了嗎？在從模型到右邊的各種輸出（再次顯示不同的「溫度」），它去掉第三隻眼睛！原因何在？因為模型已經學到，貓有三角形的耳朵，兩綹鬍鬚，一個圓形的臉，而且只有兩隻眼睛。

當然，這個模型並不知道究竟耳朵是什麼，貓鬍子是否會動，甚至臉是什麼，對於人眼會通過光子改變人視網膜特定細胞中的視紫質形狀來傳輸圖像至人腦也一無所知。它對所繪製的一切所指為何全無概念。

但它確實對於人們如何認知貓、豬、瑜伽或帆船有所了解。

「當我們開始生成或繪製一幅帆船的圖畫時，該模型可能會用數百個來自該圖的其他帆船的模型進行填充。」谷歌的 Eck 告訴我。「它們對我們來說都有意義，因為這個模型已經從所有這些訓練數據中提取出了柏拉圖式的帆船——我這麼說你可能不太高興，但這就是『你的帆船』。這不是一個特定的帆船，而是帆船的概念。」

話一出口，他似乎就後悔他出言自大。「我估計我會招來不少攻擊」，他說，「但作為一副草圖，已經很像樣了」。（大西洋月刊的 Ian Bogost 跟我講，「從哲學的角度看，這是純粹的唯物論。」）

作為人工智慧運動的一部分，這是迄今為止最令人興奮的技術項目，至少對身在其中的人來說是這樣，其他許多人也有這種感覺。

我的意思是，根據雨的畫訓練一個網路。然後輸入一個蓬鬆的雲的草圖，於是，它畫出了這個：

「谷歌草繪RNN瞄準超級AI」源自壁畫的飛躍，AI 學會歸納抽象概念

雨落到了你輸入模型中的雲的外面。那是因為很多人畫雨時會先畫雲，然後畫從雲中落下的場面。所以如果神經網路看到一朵雲，它就會讓雨從該形狀的底部落下。（有趣的是，雖然數據是一系列的線條，但如果你從雨開始，模型就不會產生雲）

Eck 認為這些畫最有意思的一點是它們只有如此少的信息，卻包含了那麼多東西。「你畫一個笑臉，只用寥寥幾筆。」他說。這幾筆勾勒和高解析度的照片表示的臉完全不同，然而3 歲的孩子都可以告訴你它是一張臉，還能看出是幸福還是悲傷。Eck 認為它是某種壓縮，一種編碼，由 SketchRNN 解碼，然後可以隨意重新編碼。

寥寥數筆的草圖中，智能在聚集

OpenAI 的研究員 Andrej Karpathy 表示：「我非常支持 SketchRNN 的工作，這真的很酷，它已經成為 AI 研究的關鍵節點。但他也指出，他們對模型中線條的重要性做了一些非常強烈的假設，這意味著它們對於開發 AI 的全局不太有用。

「我們開發的生成模型通常會儘可能地與數據集的細節無關，而且無論你放入什麼數據，都應該可以工作，無論是圖像，音頻，文本或其他任何內容。」他說，「除了圖像，這些都不是由線條組成的。」

他補充說：「他們做出了強烈的假設，把它們編入模型，並在特定領域獲得了令人印象深刻的成果，這一點我完全理解。」

Eck 和 Ha 正在建立一個更類似玩國際象棋的 AI，而不是可以弄清和玩任何遊戲的 AI。這在Karpathy 看來，這一研究的適用範圍似乎有限。

但有理由認為線條繪畫是人類思考方式的基礎。谷歌員工並不是唯一被草圖的力量所吸引的研究人員。2012年，喬治亞理工學院的James Hays 與柏林Technische Universit?t 的Mathias Eitz 和Marc Alexa 合作，創建了一個草圖數據集，以及一個用於識別它們的機器學習系統。

對於他們來說，草圖是一種「普遍交流」的形式，所有具有標準認知功能的人都可以做到這一點。他們寫道：「自史前時代以來，人們已經以素描般的岩畫或洞穴繪畫呈現了視覺世界。這樣的象形文字比語言出現早了數十萬年，今天繪製和識別草圖的能力是普遍存在的。」

他們提及了多倫多大學神經科學家Dirk Walther 在「美國科學院論文集」上發表的一篇論文。論文指出，簡單抽象的草圖會以類似真實刺激的方式激活我們的大腦。Walther 和他的合著者假設這些線條的繪畫「捕捉到了我們自然世界的本質」，即使從像素層面看，一條貓的草圖看起來也完全不像一隻貓的照片。

如果我們大腦中的神經元是以神經網路模仿的分層的方式工作，草圖可能是一種方法，可以在特定存儲層上提取剝離出的對象概念，也就是Walther 所說的「本質」。也就是說，它們傳遞了我們的祖先在過去10 萬年間的某個時間點上，在演化為現代形式時所產生的新的思考方式。草圖，無論是在洞穴牆壁上還是在餐巾紙的背面，可能是從馬到馬的概念的飛躍，從日常的經歷到抽象，符號性的思想，以及在此之上的現代的人。

大多數現代生活源於這一轉化：語言，金錢，數學，甚至是計算本身。因此，如果草圖最終在創造強人工智慧方面發揮重要作用，也毫不奇怪。

「谷歌草繪RNN瞄準超級AI」源自壁畫的飛躍，AI 學會歸納抽象概念

不過，當然，對於人類來說，草圖是對真實事物的描繪。我們可以很容易地理解那抽象的四條線和事物本身之間的關係。這個概念對我們來說是有意義的。對於SketchRNN，草圖是線條的序列，是通過時間形成的形狀。機器的任務是提取圖紙中描繪的東西的精華，並嘗試用它們來了解世界。

SketchRNN團隊正在許多方面進行探索。他們可能會建立一個系統，試圖通過人類反饋來實現更好的繪畫。他們可以用多種草圖來訓練模型。也許他們會找到一種方式，看他們訓練的用於認識豬的概念的模型，能否泛化到逼真的圖像上。我很想看到他們的模型中插入其他一些模塊，比如已經接受了貓的照片訓練的組件。比如使用加州大學伯克利分校創建的神經網路「knows about the textureof cats 」在草圖上著色，將讓他們在貓的繪畫上更加細化。

「谷歌草繪RNN瞄準超級AI」源自壁畫的飛躍，AI 學會歸納抽象概念

他們承認，SketchRNN只是「第一步」，還有很多要學習的東西。這些素描解碼器發現自己面對的是人類漫長的歷史，藝術中反饋的人類歷史與技術時代步調並不一致。

紐約客的 Judith Thurman 寫道，在歐洲洞穴繪畫中，舊石器時代的藝術大多沒有變化，「25000 年來幾乎沒有創新或革新」，她指出：「這已經是有記錄的人類歷史的四倍」。

一個學者告訴 Thurman，藝術深入人心，文化則更穩定。

計算機，特別是新的 AI 技術，正在破壞人類長久以來擅長的東西。九十年代人類輸給了跳棋機，然後是國際象棋，最近則是圍棋。

但是，最近的一些 AI 的進展並不是由於最先進技術的進展（儘管其進步速度也非常快）。對於Eck 來說，他們正在努力追尋的是人類如何思考的基石，並延伸到「我們是誰」這一問題。「藝術真正核心的部分是它基本的人性，這也是人類賴以相互溝通的基礎。」Eck 對我說。

從深度學習的全局來看，所有人都在致力於研究人類生活的基本機制——我們是如何看的，是如何運動，是如何交談的，我們如何認識面孔，我們如何將單詞構成故事，我們如何玩音樂——這看起來不像在勾勒一個特定的人，而是在描繪人性的輪廓。

現在，這是一個低解析度的、寥寥數筆的草圖，但從草圖中，不難看到聚集的智能。

原文地址：https://www.theatlantic.com/technology/archive/2017/06/google-drawing/529473/

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※「Goldberg回應LeCun」DL社群缺乏學習，誇大研究成果
※「新智元專訪」神經元本身也能編程，神經網路學習能力遠超預期
※「評論」賣掉波士頓動力，谷歌 AI 帝國不需要一個機器人軍隊
※機器的意識可以量化嗎？馮諾依曼體系無法誕生超級智能
※「首創」新加坡國立大學LV實驗室發布多人圖像解析數據集與模型

TAG:新智元 |

您可能感興趣

※COMPUTEX 2018：NVIDIA全方位推進視覺體驗飛躍
※卡地亞CARTIER 小豹驚動蜂鳥飛躍
※BLACKPINK即將結束活動期此次專輯帶來了新的飛躍
※GAINAX宣布製作：蒼之烏爾、飛躍巔峰3、救援學院等動畫
※玩家用《GTA5》還原《GTA3》畫質飛躍，卻不失懷舊感
※從EasyOP到先進計算服務平台，曙光HPC價值使命全新飛躍
※性能質飛躍：解讀PCIe 4.0 SSD技術
※《GTA5》光追MOD讓畫質再次飛躍，遊戲畫面的極限到底在哪
※內外雙向提升 OPPO Find X拍照新飛躍
※全球首發7nm工藝！中國AI第一芯史詩級飛躍：如此算力太恐怖
※又創奇蹟！三連跳實現AI演算法飛躍
※Nokia 9 PureVieW評測 5攝能否帶來拍照飛躍？
※AI無人駕駛到來前，VR/AR或將先成為智能汽車的第一次飛躍？
※委內瑞拉小伙用紙板瓶蓋自製超級馬里奧遊戲，Magic Leap One啟售「魔法飛躍」神話破滅？
※IEEE協會首次在京舉辦研討會王飛躍稱不存在AI晶元
※《這就是灌籃》飛躍6人！看NBA扣籃大賽飛躍障礙物的發展史
※Arm全新GPU深度解讀：一次重大的飛躍｜半導體行業觀察
※CCF-GAIR 2018本月召開，與30位頂尖學術大牛一同展望AI與機器人的飛躍創新
※號稱12年來最大飛躍：NVIDIA RTX 20系顯卡全新發布支持光線追蹤
※最懂遊戲用戶：ColorOS多項功能，體驗飛躍！