當前位置:
首頁 > 知識 > 人工智慧開竅了,學會了塗鴉,它就能像人一樣思考

人工智慧開竅了,學會了塗鴉,它就能像人一樣思考

第一次往岩石上草繪物象的時候,人類實現了認知上的重大飛躍。如今,計算機也在效仿這一過程。

如果讓你畫一頭豬和一輛卡車,你可能會畫成這樣:

簡單。不過,如果讓你畫一輛「豬卡車」,你作為人類,自然知道要混合兩種事物的顯著特徵,你可能會畫成這樣:

注意圖中捲曲的小豬尾巴;駕駛室的窗有點圓,像一隻眼睛;車輪變得像豬蹄,或者反過來說,豬蹄變得像車輪了。如果你畫成這樣,那麼同為人類的我就會作出主觀評價:這是提示詞「豬卡車」的一種創造性闡釋。

一直以來,只有人類才做得了這樣的概念急轉彎。但現在不同了。上圖其實出自谷歌SketchRNN之手,這是一個激動人心的人工智慧(AI)系統,是谷歌Magenta項目的一部分。該項目旨在探索AI能否從事藝術創作,由道格·埃克(Doug Eck)領導。

道格·埃克(Doug Eck)

上周,我去山景城的Google Brain團隊辦公室(Magenta項目團隊也在這裡)拜訪了埃克。埃克聰明隨和,為人謙遜。2000年,他從印第安納大學獲得計算機科學博士學位,後投身音樂和機器學習,曾供職於蒙特利爾大學(人工智慧的孵化地之一),後進入谷歌,致力於開發Google Music,現在領導Google Brain的Magenta項目。

埃克是怎麼想到要構建藝術創作型AI的?其實,這個主意源於一場漫不經心的談話,「但經過幾輪思索,」他說,「大家就開始覺得,『當然要做了,這很重要。』」

他與同在谷歌的協作者大衛·哈(David Ha,音)寫道:SketchRNN的意義不是簡單的學畫畫,而是「以類似於人類的方式,概括抽象概念。」他們想要創造的,不是一台能畫豬的機器,而是一台能夠識別並輸出「象豬一樣的特徵」的機器,哪怕饋入的關鍵詞並不是豬,就比如上面的卡車。

其中隱含的邏輯是:畫畫是對世界的抽象。你所畫的是泛泛的「豬」,是一個概念,而不是某一頭豬。也就是說,大腦存儲「」的方式和我們畫豬的方式不無關聯。在學習畫豬的過程中,我們也許能了解人類是如何概括出「像豬一樣的特徵」的。

這款軟體是這樣運作的:谷歌構建了一款遊戲,名為「Quick, Draw!」讓玩家畫各種事物:豬、雨、消防車、瑜伽體式、花園和貓頭鷹,從而生成一個大型資料庫。

通過畫畫,我們將豐富多彩、紛繁嘈雜的世界壓縮成了寥寥數筆。這些簡單的筆畫構成了SketchRNN的基本數據集。藉助谷歌的TensorFlow開源軟體庫,每個類別的繪畫——貓咪、瑜伽、雨——都能拿來訓練一種特定類型的神經網路。

與之涇渭分明的,是基於照片的AI作品,近期,這類作品屢見於媒體,比如機器創作的梵高風格的照片,或是具有獨創性的DeepDream,抑或是給任意形狀填充細節,讓人一眼就認出那是貓咪等。

用人類的主觀感覺來判斷,那些作品讓人覺得不可思議。其有趣之處就在於,它們類似於人類對現實世界的認知,但從本質上講,兩者並不能划上等號。

相比之下,SketchRNN輸出的作品沒有什麼不可思議之處。但「感覺就是對勁,」埃克告訴我說。「不敢說『跟人畫的一樣』,它們給人的感覺就是對勁,不同於那些逐個像素生成的圖像。」

這就是Magenta團隊的核心見解。「人類眼中的世界並非一格一格的像素。實際上,人們形成抽象概念,並用這些概念代表實際所見。」在描述該研究的論文中,埃克和大衛·哈稱如是寫道。「很小的時候,我們就會用鉛筆或蠟筆在紙上畫畫,用來表達我們看到的事物。」

凡是人類能做到的,谷歌都想用機器來實現。去年,谷歌CEO桑德爾·皮蔡(Sundar Pichai)宣布了「人工智慧為先」的理念。

谷歌所採用的各項工具,可以用「機器學習」一詞來概括。機器學習即給計算機編程,饋入帶標籤的數據,作為訓練素材,使機器自學各項任務。一種廣為流行的機器學習方法是通過粗略模仿人類大腦神經系統的神經網路來學習。各種節點(人造神經元)相互連接,權重各不相同,對各種輸入作出有選擇的響應。

近些年,多層級神經網路大展身手,解決了一些棘手難題,尤其是翻譯和圖像識別/處理領域。谷歌用這些全新的架構,重建了旗下很多核心服務。這些網路模仿已知的人腦運作方式,擁有相互聯絡的層級,可以識別輸入(比如圖像)中的不同形態。在低層級網路內,神經元也許只是對像素級別的明暗模式作出響應。高層級網路也許能對狗臉、汽車或蝴蝶等事物做出響應。

採用這類架構與機制構建網路效果驚人。曾經極其艱深的計算難題,現在只要調整訓練模型,讓圖形處理單元跑上一會兒,就能迎刃而解了。

谷歌翻譯(Google Translate)是用10年時間建立起來的複雜系統,然而谷歌使用深度學習系統,在短短九個月里就徹底改造了它。「AI系統一夜之間的改進幅度,相當於老系統誕生以來所有改進的總和,」劉易斯·克勞斯寫道。

正是因此,神經網路的用途與類型出現爆髮式增長。比如SketchRNN就用到了遞歸神經網路——這種網路專門對付輸入序列,而訓練素材就是人們描畫不同事物時的筆畫序列。

簡單地說,這種訓練就相當於編碼:向網路饋入數據(即草繪),網路就會處理內容,並歸納出通用規則。由此形成所有數據的一個模型,描述了網路中各個神經元的傾向,並以數學形式加以存儲。

這種配置被形象地稱為潛伏空間,又稱Z(Zed),其中所存儲的,就是豬、卡車或是瑜伽等事物的特徵。正如AI研究者們所說,讓SketchRNN系統畫出它所訓練的內容,它就會吐出一頭豬、一輛卡車或一種瑜伽體式。所畫即所學。

那麼,SketchRNN能學到些什麼呢?研究人員用人們畫的消防車訓練網路,使之生成新的消防車,所得結果如下。該模型中有個名為「溫度」的變數,可用來調高或調低隨機性。在下方的圖像中,偏藍的隨機性較低,偏紅的隨機性較高。

再換成貓頭鷹:

最好的例子是瑜伽體式:

它們看上去很像人類的手筆,但絕非出自人類之手,而是按人類草繪的套路重構出來的。這些畫的水平有好有壞,但假如你和AI玩《猜猜畫畫》(Pictionary)遊戲,你應該都能猜個八九不離十。

SketchRNN還有一個功能,就是接收人類草繪形式的輸入。你饋入一個東西,它就會試圖加以理解。比如用貓咪數據訓練好一個模型,然後扔進一隻三眼貓的繪畫,結果會怎樣呢?

看到了嗎?右邊的各個輸出(溫度變數依然適用)都去掉了第三隻眼!為什麼?因為通過學習,模型已經知道,貓是三角耳、圓臉,兩邊各一把鬍鬚,只有兩隻眼睛。

當然,模型並不懂什麼是耳朵,不知道貓的鬍鬚會不會動,甚至不清楚什麼是臉,更不知道眼睛能將圖像傳入大腦,因為光子能改變視網膜特化細胞中視紫紅質蛋白的形狀。對於畫中指向的現實世界,它概不了解。

但它卻知道人類是如何表現貓、豬、瑜伽或帆船的。

「我們開始生成帆船畫時,模型就會用其他數百個帆船模型進行填充。」谷歌的埃克告訴我說。「我們基本都能看懂,因為模型從所有訓練數據中提煉出了柏拉圖式的帆船『理念』,也就是——你聽了可能要打我——『原初』帆船。它不是某艘特定的帆船,但具備了帆船的特徵。」

話一出口,他似乎也有點後悔一時口快把話說大了。「哲學家們肯定饒不了我。」他說。「不過儘管過於抽象,但還是能讓人看明白。」

能夠成為人工智慧運動的一分子,參與有史以來最激動人心的技術項目,至少對局內人而言——也包括其他不少人——是一樁熱血沸騰的事。然而就連道格·埃克這樣的人,也有措手不及的時候。

我是說,比如用「下雨草繪」訓練一個網路,然後輸入一片雲朵,結果就會變成這樣:

你給模型饋入雲朵,這個雲朵就會「下起雨來」。這是因為,很多人畫雨都是先畫雲,再畫雨點。所以,神經網路看到雲朵之後,就會在下方補上雨點(有意思的是,訓練數據是一組存在先後順序的筆畫,所以,若你先畫雨點,模型就不會再生成雲朵圖案。)

有趣是有趣,但在人類思維的逆向工程這一長期項目之中,這只是附帶項目,還是解開謎團的關鍵之一?

讓埃克感興趣的是,草繪竟能以如此有限的信息,包含如此豐富的意義。「一個笑臉只要寥寥數筆,」他說,跟精確到像素的臉部照片差遠了。但就連三歲小孩兒都能認出那是一張臉,並判斷它是高興,還是悲傷。埃克認為,這是一種壓縮,一種編碼,SketchRNN先行解碼,然後就可以任意地重新編碼。

這有點類似於斯科特·麥克勞德(Scott McCloud)對漫畫力量的闡釋。

「我很支持SketchRNN的工作,非常不錯。」OpenAI研究員安德烈·卡爾皮斯(Andrej Karpathy)說,該機構已經成為AI研究的中心傳播節點。但卡爾皮斯也指出,他們的模型之中對於筆畫的重要性做了很強的假定,這樣做的結果是,在開發人工智慧這項整體事業之中,其作用就比較小了。

「通常,我們在開發通用模型時,會盡量讓模型對數據集的細節一無所知。無論你饋入什麼數據:圖像、音頻、文本或其他,都要能運作才行。」他說。「除了圖像以外,其他任何東西都不是由筆畫構成的。」

在卡爾皮斯看來,埃克和大衛·哈的系統格局還不夠大,更類似於會下國際象棋的AI,而不是面對任何遊戲都能找到規則和取勝之道的AI。

但我們有理由相信,線條畫中包含著人類思維的根本。被圖畫的這種力量所吸引的,並不只有谷歌研究人員。2012年,喬治亞理工大學的詹姆斯·海斯(James Hays)與柏林工業大學的馬蒂亞斯·艾斯(Mathias Eitz)和馬克·阿萊克薩(Marc Alexa)共同創建了一個簡筆畫數據集,以及用於鑒定它們的機器學習系統。

他們認為,簡筆畫是一種全人類通用的溝通形式。具備正常認知功能的人都能如此溝通,也都進行過這樣的溝通。「自史前時代起,人們就用類似於簡筆畫的岩畫或洞穴壁畫描繪可觀世界,」他們寫道。「這種岩畫的出現比語言早了幾萬年,如今,所有人都具備畫畫以及識別畫中物體的能力。」

他們提到了《美國國家科學院院刊》的一篇論文,作者是多倫多大學神經科學家德克·沃爾瑟(Dirk Walther)。該論文顯示,「簡單、抽象的草繪對大腦的刺激效果,與實物對大腦的刺激效果類似。」作者們認為,線條畫「捕捉到了自然世界的本質,」雖然從像素層面看,貓咪漫畫和貓咪照片完全是兩回事。

如果人腦神經元也呈層級化運作,就像神經網路所大致模仿的那樣,那麼,我們也許能順著這些畫,找到精簡後的物體概念——用沃爾瑟的話來說,就是「精髓」——所儲存的地方。也就是說,這些畫也許能告訴我們,大約10萬年前,我們的祖先演變為現代人類的過程中,是如何開始這種全新的思維方式的。

不論是在洞穴牆壁上,還是在紙巾的背面,圖畫所描繪的,也許是從馬到「馬的特徵」的飛躍,從日常經驗到符號化的抽象思維的飛躍,現代人類就是在這個過程中誕生的。

從語言、金錢、數學一直到計算本身,當代生活大都源於這一過渡。因此,若草繪能在重要人工智慧的創造中發揮重要作用,這也在情理之中。

當然,對人類而言,草繪是對實物的描繪。我們能輕易理解四條線組成的抽象表徵和實物本身的關係。概念是有意義的。對SketchRNN而言,草繪是一串存在先後順序的筆畫,是一個逐漸成形的形象。機器的任務是讀取圖中所繪事物的精髓,試圖以此理解世界的原貌。

SketchRNN團隊正在往多個方向探索。他們也許會構建一個系統,通過人類反饋提升其繪畫技能;也可以用多種事物的草繪來訓練單一模型。又或許,他們會訓練出一個專門模型,比如讓它識別豬的特徵,然後嘗試通用化,看它能否生成照片級圖像。這樣,他們就能使用加州大學伯克利分校創建的神經網路,給貓咪畫像填色。

但他們自己也承認,SketchRNN只是「第一步」,很多東西仍有待學習。這些解碼草繪的機器所代表的是人類歷史弧線的一部分,而這條弧線很長。人類藝術史的發生髮展幾乎是技術史的倒置。

在歐洲為《紐約客》雜誌采寫洞穴壁畫時,朱迪思·瑟曼(Judith Thurman)寫道,舊石器時代的藝術保持了「2500年基本不變,幾乎沒有創新或反叛。」她指出,「有文字可考的歷史長度只有它的四分之一。」

一位學者告訴瑟爾曼,這種藝術想必能帶來深深的滿足感,其所處的整體文化環境應該也十分穩定。

計算機,尤其是最新的人工智慧技術,正在動搖長期以來有關「人類擅長哪些事」的觀念。90年代,人類在西洋跳棋中敗給機器,繼而是國際象棋。最近則是圍棋。

然而,最近AI領域重要研究迭出,這不是因為它突破未知領域的速度之快(雖然確實很快)。對埃克而言,這更多的是因為他們探究的是人類思維的基石,以及更進一步,「我們是誰」這個難題。「藝術的真正核心是基本人性,是人類的相互溝通。」埃克告訴我說。

綜觀深度學習這項事業,那麼多人都在探索人類生活背後的機制——我們如何視物,如何移動,如何談話,如何識別面孔,如何出口成章,如何演奏音樂——一個輪廓逐漸顯現,它不是任何具體的人,而是人類的共有特徵。

眼下,它還只能以低解析度的形式來表現真正的思維,比如漫畫或火柴人。但從草繪之中,我們不難看出智能的匯聚過程。

翻譯:雁行

來源:The Atlantic

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 造就 的精彩文章:

為了讓人類走上星際文明之路,有這樣一群人默默耕耘了50年
為什麼中國率先搞定了量子通訊衛星,而外國科學家只能羨慕嫉妒恨
被吃掉的少女:證據表明,17世紀英國殖民者曾被迫同類相食
科學家找到更多智商相關基因,這意味我們可以操縱智力了?
尤瓦爾·赫拉利:人類並不是個需要真相的物種

TAG:造就 |

您可能感興趣

學會了這些小技能,你就是插花達人了
女人不能說的秘密,學會這些就會撩妹了
「別人家的客廳」讓人羨慕,學會這些技巧你也能擁有!
你學會這樣拍照,就可以讓別人嫉妒了
學會道歉,你的好人緣也就來了
女人學會了這4種「本事」,能讓男人心動不已,你會哪一種?
學會這樣貼瓷磚,能讓你省一半人工費,後悔知道晚了
學會了馬雲的用人知道,很有可能,你會是下一個馬雲?
修身造型?怎麼能少得了它,學會這麼凹,咱也可以特女神
鬼谷子識人術:學會這五招,一眼就看出他是什麼樣的人!
要不是學會了這一招,我可能早就分手了!
減脂不是口號,更要科學合理!學會這些你就成功了一半
情人節到了,這些撩妹技巧,你學會了么?
每人必須要學會的幾道家常菜,不管是什麼場合都能應付,你是否學會了呢
人工智慧系統學會了像狗一樣進行活動和思考
學會這一個飲食原則,人人都能吃出漂亮
想讓男人寵你一輩子,學會這兩招就夠用了
男人想要女人聽話,學會這3個技巧就夠了
女人學會這樣「畫眼線」,能讓眼睛更迷人!手殘黨也能輕鬆學會
女人學會這樣「創造吵架」你才能成為讓男人離不開的女人