微軟的AI技術可將你描述的內容繪製成圖像 小白也能畫出蒙娜麗莎
AiTechYun
編輯:nanan
谷歌可能教會了人工智慧如何塗鴉,但對計算機來說,繪製更複雜的東西是很困難的。想像一下,讓電腦畫一隻「黑翅膀和短喙的黃鳥」;這聽起來有點棘手。不過,微軟的研究人員一直在開發一種基於人工智慧的技術來實現這一目標。根據該團隊最近發布的一篇論文,它生成的圖像來自文本描述,其準確程度令人吃驚。與之前最先進的文本轉換成圖像的技術相比,圖像質量上產生了近三倍的提升。
論文地址:https://arxiv.org/abs/1711.10485
研究人員簡單地將這種技術稱為「繪圖機器人」,它可以生成各種圖像,從普通的田園場景,如放牧,到荒謬的,如漂浮的雙層巴士。每個圖像都包含了文本描述中沒有的細節,這表明人工智慧包含了人工想像。系統並沒有根據你的輸入找到一個已有的圖像,而是創建了真正的繪圖。「如果你去百度里搜索「鳥」的關鍵字,你就會得到一幅鳥的照片。」但在這項技術中,這些照片是由電腦創建的,從頭開始, 一個像素接著一個像素。」何曉東說道,他是微軟實驗室的深度學習技術中心的首席研究員和研究經理。「這些鳥可能不存在於現實世界中——它們只是我們電腦想像中的鳥類的一個樣子。」
繪圖機器人解決了計算機視覺和自然語言處理的交叉點難題,這是何曉東和他的同事在過去的5年里主要探索的。他們開始使用自動寫入圖片說明的技術——CaptionBot,隨後他們開始研究一種可以回答人們詢問關於圖像的問題的技術,比如物體的位置或屬性,這對盲人特別有幫助。
這些研究工作需要訓練機器學習模型來識別物體、解釋動作和用自然語言進行交談。「現在我們想用文本來生成圖像。」,微軟的研究員黃秋元說道。「所以,這是一個循環。」
張鵬川是團隊的一名助理研究員,他認為圖像生成是一項更具挑戰性的任務,因為這一過程需要繪圖機器人來想像在圖片說明中沒有包含的細節。他說:「這意味著你需要你的機器學習演算法來運行你的人工智慧來想像圖像中缺失的部分。」
圖像生成
微軟繪圖機器人的核心是一種被稱為「生成對抗網路(GAN)」的技術。該網路由兩個機器學習模型組成,一個從文本描述生成圖像,另一個被稱為鑒別器,它使用文本描述來判斷生成圖像的真實性。生成器試圖通過鑒別器來獲取假圖片;鑒別器從不希望被愚弄,所以在一起工作時,鑒別器將生成器推向完美。
微軟的繪圖機器人被訓練在包含配對圖像和說明的數據集上,這使得模型能夠學習如何將單詞與這些單詞的視覺表現相匹配。例如,當說明描繪「鳥」的時候,它學會了生成鳥的圖像,同樣地,它也學會了鳥的圖片應該是什麼樣子。
當從簡單的文本描述中生成圖像時,比如藍色的鳥或常青樹,生成對抗網路的工作表現很好,但質量卻在那些具有複雜描述的文本上停滯不前,例如「一隻綠冠帶有黃色翅膀和紅腹的鳥」。這是因為整句話都是對生成器的一個輸入。描述的詳細信息丟失了。其結果是,生成的圖像是一種模糊的綠色-黃紅色的鳥,而無法與描述的內容緊密匹配。
當我們畫圖的時候,我們會反覆地參考文本,並密切注意描述我們所畫圖像區域的文字。為了捕捉人類的這一特質,研究人員創造了一種他們稱之為「 attentional GAN或AttnGAN」的東西,即「注意力生成對抗網路」。注意力生成對抗網路在數學上代表人類注意力的概念。它通過將輸入文本分解為單個單詞,並將這些單詞與圖像的特定區域相匹配來完成這一工作。
「注意力是一個人的概念;我們用數學來計算,」何曉東解釋道。
該模型還能從訓練數據中了解到人們所說的常識,並將這個學術上的概念引入到想像的細節中去。
「從數據中,機器學習演算法學習了關於這種鳥的常識,」張鵬川說道。作為一項測試,研究小組對用繪畫機器人饋送了一些荒謬的圖片的說明,比如「一輛紅色的雙層巴士漂浮在湖面上。」它產生了一種模糊的的形象:一艘有兩層甲板的船和一輛雙層巴士, 漂浮在一個被群山環繞的湖上。
張鵬川解釋說:「我們可以控制我們所描述的東西,看看機器是如何反應的。我們可以對機器學習的東西進行測試。這台機器有一些背景知識,但它仍然可以按照你的要求去做,也許有時候,它看起來有點可笑。」
實際應用
從文本到圖像的生成技術可以轉移到實際應用中,充當畫家和室內設計師的草圖助手,或者作為語音激活照片優化的工具。當有了更多的計算能力之後,張鵬川認為這項技術可以基於電影劇本來製作動畫電影,從而減少一部分人力。
但目前,這項技術還不完善。仔細檢查圖像幾乎總是會發現一些瑕疵,這些缺陷清楚地表明,這只是台計算機在創造圖像,而不是人類。
然而,據何曉東所說,注意力生成對抗網路的圖像質量比一流的「生成對抗網路」高了近三倍。「人工智慧和人類生活在同一個世界裡,他們必須有一種相互交流的方式,」他解釋說。「語言和視覺是人類和機器相互交流的兩種最重要的方式。」


TAG:ATYUN訂閱號 |