深度 | 讓AI學會思考,可能要先教會它畫畫
今年4月,Google推出 AutoDraw 繪圖功能,讓AI幫助人類畫畫,只需幾筆就能創作出藝術家等級的線條畫。這個有趣的AI應用一下讓業界隨之興奮。雖然從目前流出的成果來看,AI的筆畫還有些稚嫩,但這壓根不妨礙Google對其背後的AI系統向大眾進行高調科普,比如發布了一些科普傾向的Paper等。背後的AI系統名為 SketchRNN,是Google新設的 Magenta 項目的一部分,以測試 AI 能否用來做藝術。
為更好地了解這一項目及其背後的故事,theatlantic大西洋雜誌採訪了 Magenta 項目的負責人Doug Eck。雷鋒網對採訪內容做了編譯。
Eck 是蒙特利爾大學(被視為人工智慧的溫床)的一名教授,同時也供職於Google。他此前曾負責Google Music,現轉自Google Brian里工作。2000年在印第安納大學取得計算機科學學士學位後,Eck在音樂和機器學習方面都有著非常豐富的從業經驗。
關於SketchRNN這一AI系統,如果大家想更加形象地理解它,可從以下三幅畫來看:
當人類被要求畫一隻小豬和一輛卡車時,可能會是這樣的畫風:
但是,當被要求畫一隻「豬車」時,你可能會直觀混合二者的顯著特徵而畫成這樣↓
雖然畫筆看起來仍然很稚嫩,但是這一混合後的產物其實就跟利用人工智慧系統SketchRNN輸出後的成果有點相似。正如Eck和他在Google的合作者David Ha的介紹,SketchRNN的工作原理可以理解為「以類似於人類的方式概括抽象概念」。
以前文的例子來說明,即Google並不想創建畫「豬」的機器,而是由此創建的機器能識別和勾勒出「豬」的概念或特徵。一言以蔽之,即人類在畫一個物體時,會在腦中存儲關於這一物體的概念和顯著特徵,並讓「如何畫」和「存儲特徵」之間產生聯繫。而SketchRNN的意義就在於讓機器學習到人類的這種「綜合能力」。
為此,Google建立了一個名為「Quick, Draw!」的遊戲,像人類玩的方式一樣,Google為該遊戲製作了大量人造圖形資料庫。訓練資料則包括 75 種物品,像是貓頭鷹、蚊子、花園或是斧頭,每種資料含有至少 7 萬筆個別範例。依靠「Quick, Draw!」獲得的繪畫數據,Google研發了 SketchRNN 的AI系統。
當人類在草繪時,豐富多彩的嘈雜世界只能壓縮在鉛筆的幾個線條里。這些簡單的筆畫就是SketchRNN的數據集。每一類物體的繪畫,如貓、瑜伽姿勢、雨等,都可以使用Google的TensorFlow開源平台軟體庫來訓練某個特定類型的神經網路。當機器以梵高或原始DeepDream的風格呈現一張照片時,人類總感覺有點兒怪異,因為機器對物體的概念或顯著特徵並不能融合的那麼靈活或了無痕迹。
這些項目能以神秘而又主觀的方式來感受人類,但是有趣的在於,它們對真實世界的感知與人類相似但又不完全相同。
不過,SketchRNN 的輸出結果卻毫無怪異感。Eck說:
「我不想說它的方式「非常人類」,但是它的感知比那些像素生成的圖片看起來像那麼回事多了。」
這也是Eck領導的 Magenta 團隊的核心洞察力。「人類了解世界的方式並不同於像素,而是以開發抽象概念來代替我們所看到的事物」,Eck和Ha在他們的論文中作如是表述,「從小時候起,我們就開發了通過繪畫來向他人溝通我們所看到的東西的能力。」
所以,如果人類能做到這一點,Google相信機器同樣可以做到。去年,Google的CEO Sundar Pichai就宣布了"AI First」的未來發展戰略。對於該公司而言,AI是其原始使命的自然延伸,「組織世界的信息,讓其變得通用和有用」。所以,Google正嘗試使用AI的方式組織信息,讓人們可以訪問並和使用這些信息。而 Magenta 項目正是Google在該願景下的一次嘗試。
機器學習是Google近年來常用的方式,其中,一種特定的機器學習方式就是使用大致基於人類大腦連接系統建模的神經網路。而多層次的神經網路在解決棘手問題時特別有效,尤其是在翻譯和圖像識別方面。Google已經在這些新架構上重建了很多核心服務。
拿Google翻譯舉例,它雖然已經是一個建造了10年以上的複雜系統,但是Google最終通過深度學習花了9個月的時間對該系統完成了重建。所以在這種情況下,神經網路的使用和類型在近幾年實現了爆炸式增長。
基於神經網路的基礎,SketchRNN使用了一種生成遞歸神經網路。根據Google在論文中介紹,該種類型的神經網路可生成簡單物體的草圖,目的是訓練一個能繪畫和概括抽象概念的機器,並且它的思維方式與人類類似。
描述訓練的最簡單的方式,就是將其作為一種編碼方式。在輸入數據(草圖)後,該神經網路嘗試在所處理的數據中總結出一些概括性的規則。這些概括性的規則就是數據的模型,會被存儲在描述網路中神經元特性的數學中。
這種過程被稱為潛在空間或「Z」(zed)。它能吸取在整個訓練過程中學到的東西,如一隻豬、一輛卡車或一個瑜伽姿勢的特性等都會存儲其中,「Z」再對它們進行抽樣。
那麼,SketchRNN 能學到什麼?以下就是一個接受消防車訓練的網路神經生成新的消防車的例子。在該模型中,有一個「溫度」的變數,研究人員可以上調或下調輸出的隨機性。在下列圖像中,偏藍色的表示「溫度」較低,偏紅色的則表示「溫度」較高。
或者你會更想看到貓頭鷹:
或者最好的例子——瑜伽姿勢:
從以上這些案例來看,SketchRNN輸出的成果已經和人類的風格非常相似,但是它們本身並非人類所畫。或者說,它們正對人類可能會繪畫某種事物的方式進行重建。當然,其中有些重建的非常好,有些則不盡然。
同時,SketchRNN也能以人造圖像的形式接受輸入。當人類輸送一些內容進去,SketchRNN會嘗試弄明白它。以下就是一個正在接受貓的數據訓練的模型,在這隻三眼貓的圖像中你會發現哪些變化?
從上圖可以看出,從左往右的各種輸出中,第三隻眼睛被去除了。因為模型知道,貓有三角形的耳朵,鬍鬚,圓形的臉,且只有兩隻眼睛。
當然,模型並不知道耳朵到底是什麼,或者臉是什麼樣的。它對這些草圖所示的世界一無所知。但它確實知道人類是如何描繪貓、豬或帆船的。
Eck說到,「當開始生成帆船圖時,模型會輸入進數百個其他型號的帆船,這些帆船可能來自該圖。這對我們來說是有意義的,因為模型已經從所有這些訓練數據中生成了理想的帆船。「
訓練一個可以畫雨點的網路,然後輸入一個雲的草圖,它會這樣做:
雨滴會從輸入模型中的雲那落下來。那是因為很多人畫雨滴時,會先畫雲,然後畫落下來的雨。所以如果神經網路看到一個雲,它會讓雨落在該形狀的底部。 (有趣的是,如果先畫雨,模型不會產生雲。)
這是一項有意思的工作,但是在對人類思維進行反向工程中,這種項目有什麼意義呢?
Eck對述描感興趣,是因為它們內涵豐富但包含的信息很少。畫一個笑臉只有幾個筆畫,甚至就是一些像素集合,但任何3歲以上的人都可以辨認出是一張臉,甚至區分是幸福或悲傷的臉。Eck認為這是一種壓縮,是SketchRNN可以解碼的編碼,甚至可以重新編碼。
OpenAI的研究員Andrej Karpathy也對SketchRNN的工作很感興趣。OpenAI也是人工智慧研究的一個中心。但他也指出,這個項目要滿足很多前提條件,這意味著它對企業開發人工智慧不會有太大的幫助。
「我們開發的生成模式通常會儘可能地與數據集的細節無關,無論你輸入什麼數據,都應該能用,包括圖像、音頻、文本或其他任何東西。除了圖像,其它都不是由筆畫組成的。」
Eck和Ha正在開發的,更接近於能玩國際象棋的AI,而不是一個可以玩任何遊戲的AI。所以對Karpathy來說,他們目前工作的範圍似乎有限。
但有一些理由認為,線條圖是人類思考方式的基礎。Google員工並不是唯一被草圖的力量所吸引的研究者。早在2012年,喬治亞理工學院的James Hays與慕尼黑理工大學Mathias Eitz以及Marc Alexa,就合作創建了一個草圖數據集,以及一個用於識別它們的機器學習系統。
對於他們來說,草圖是一種「通用交流」形式,所有具有標準認知功能的人都可以做到這一點。他們認為,自史前時代以來,人類已經以素描岩畫或洞穴繪畫的方式來描述世界了,這種象形文字比語言的出現早了幾十萬年,如今繪製和識別草圖的能力已經是基本了。
多倫多大學神經科學家Dirk Walther在一篇論文中指出,簡單抽象的草圖會以與真實刺激類似的方式,激活我們的大腦。Walther的假設是,線條圖代表了我們自然世界的本質,因為在像素的基礎上,一些貓的線條怎麼看都不會像是一隻貓。
草圖可能是一種幫助我們掌握存儲對象概念層次的方式,即我們說的「本質」。也就是說,他們可能會告訴我們,在過去10萬年的時間裡,當我們的祖先逐漸現代化時,人類如何開始思考的。草圖、洞穴壁畫,可能描繪出我們怎麼從日常經驗走向抽象的。
大多數現代生活都有這種轉變:語言,金錢,數學,以及計算本身。因此,如果草圖確定能在創造重要的人工智慧方面發揮重要作用,也是合情合理的。
當然,對於人類來說,草圖是對真實事物的描繪。我們可以很容易地理解抽象線條與實際事物之間的關係。這個概念對我們來說意義重大。
對於SketchRNN,草圖就是筆畫序列,形狀是通過時間形成的。機器的任務是提取出圖紙中描繪的東西的本質,並嘗試用它們來了解世界。
SketchRNN團隊正在許多方面進行探索。他們可能會建立一個系統,試圖通過人類反饋來得到更好的結果。他們可以用多種草圖來訓練模型。也許,他們會找到一種方式,來看看他們的模型是否可以推廣到逼真的圖像。但他們自己承認SketchRNN是第一步,有很多要學習的東西。
人類藝術的歷史不是技術時代能相比的。
而對Eck來說,他們更多的是想了解人類如何思考的基礎,在他看來,藝術的一個核心部分是,它代表了基本人性。要理解深度學習,也需要理解人類生活的基本機制,即我們如何看見世界,如何交談,如何認識面孔,如何將單詞構成故事,如何編曲。它看起來沒有與任何一個特定人類有關,但卻代表了抽象的人類。
最後,如果你想更好地了解SketchRNN這一AI系統,雷鋒網特獻上小福利→_→可戳此鏈接獲Google官方Paper。
Via theatlantic,雷鋒網編譯


※特斯拉首張Model Y海報 沒有後視鏡,並單獨修建車廠?
※機器人做高考數學卷得 105 分;蘋果自動換屏維修機器曝光;特斯拉公布 Model Y 預告圖
TAG:雷鋒網 |
※深度思考:我們要怎樣才能活得好?
※心理學:為什麼我們要學會換位思考
※《學會提問》,你也能像偵探一樣思考
※我會思考,我會等待,我會齋戒
※想要成功,就要學會像達芬奇那樣思考
※思考:為什麼你一定要學會寫作?
※人生要會兩件事:學會掙錢,學會思考
※所謂的高情商,就是要學會換位思考
※幫孩子在閱讀中建立深度思考模型,家長首先要學會如何正確提問!
※人為什麼要思考,改變社會嗎,不,不讓社會改變你
※心理學:為什麼你要學會換位思考
※每個人都應該學習編程,因為它會教你如何思考
※每一個人都應該學習電腦編程,因為它會教你如何思考
※我們的哲學思考能力,能否跟上科技發展的節奏?
※蝦皮 | 做人還是得要學會換位思考啊
※一些調查研究表明積極的思考往往會提高你情緒改善的機會
※乾貨 | 深度學習應用中需要思考的問題
※預售┃每個人都應該學習編程,因為它會教你如何思考
※人都是相互的,我們應該學會換位思考,與人為善
※讀心術:學會這三種換位思考,戀愛中就會少一些分手的可能