當前位置:
首頁 > 最新 > 微軟的新AI軟體可根據文字生成圖片了!

微軟的新AI軟體可根據文字生成圖片了!

這兩張圖片上的鳥怎麼看都真實得不得了。一隻鳥肚子上有黃色的茸毛,煞是可愛。另外一隻尾巴是深綠色的,有長長的喙,估計是個啄蟲子的鳥。

然而,現在告訴你,這幾張圖片都是假的!完全是虛構的!

What!

它們出自微軟最新人工智慧軟體AttnGAN的想像。

你只需要向系統輸入一句話,比如「一隻嘴非常短的紅白色鳥」,隨後,AttnGAN將會根據你的描述生成及其逼真的虛構照片。

Emmm,以前是小學生看圖說話,現在人工智慧都能聽話畫圖了,社會社會。

「四年前,甚至沒人相信人工智慧可以做到這一點,」該項目的主管研究員何曉東(Xiaodong He)說。過去四年來,何曉東一直在研究圖像與文字之間的關係,訓練人工智慧去執行各種各樣的任務。

一開始,他創建了名為CaptionBot的人工智慧,該系統可以用文字對照片進行描述,也就是讓人工智慧具備看圖說話的能力。現在,這項人工智慧「看圖說話」的研究已經成為幫助視覺障礙者使用微軟產品的輔助功能。

緊接著,何曉東進一步推動研究,創建出另一個人工智慧系統,可以對用戶提出的關於圖片的具體問題進行回答。

現在,AttnGAN是一個「集大成者」的存在,換句話說,微軟的人工智慧系統可以從文字中創建圖像,同時為圖像加上標題。

「AttnGAN」是怎麼來的呢?

它的名字是源自於這個系統的創建方式。微軟研究人員讓兩個人工智慧系統互相競爭(「GAN」由此而來,即「生成式對抗網路」的縮寫),兩個系統都被編入語言和大量的圖片集,一個系統嘗試著創建圖像,而另外一個系統則嘗試著對圖像進行批評,批評會發生在從模糊草圖到逼真終稿過程中的三個階段。

就是兩個系統之間的對抗,使得AttnGAN生成現在我們所看到的高度真實圖片。

雖然生成的圖片解析度相對較低,但是都十分逼真,細節更是非常具體,人工智慧會根據口頭敘述調整每張圖像的微小細節,這體現了AttnGAN中的「attention」(注意力),也意味著通過「AttnGAN」生成的鳥兒可以有非常具體的特徵,比如藍色的嘴、黃色的嘴,長嘴或者短嘴。

從解析度到即興創作再到細節的調整,這個過程比谷歌的畫圖人工智慧系統負責多了(谷歌躺槍),別說谷歌了,就連Adobe這樣專業的圖像創造、處理工具,也必須以真實圖片為基礎,難以實現憑空創作。

要說AttnGAN有什麼用途,那絕對是觀鳥者的一個夢想工具了,它可以以逼真的方式生成各種各樣的鳥兒,也就是說,僅依靠觀鳥者的記憶和口頭敘述,AttnGAN分分鐘就做好一個《鳥類圖鑑》。

但是,人工智慧系統終究是要依靠資料庫裡面大量的素材進行學習才能做出預判中的行為,一旦脫離了其原有系統的素材,人工智慧就靠不住了。

「若物品的屬性或關係比較複雜,系統就會感到困惑,畫出來的圖與文字就不大對得上,」何曉東說。

比如上面說到的「畫鳥」,鳥的形狀都是比較容易想像的,或者說,都是比較固定的,再加上資料庫中的大多數照片都拍攝於鳥兒棲息在樹上的時候,所以,當我們讓AttnGAN畫一隻鳥的時候,它可以很快的根據語境進行創作。

但是,當我們給出一些物品是脫離了語境並與其他物品混合的時候,AttnGAN就難以進行創作了。

除此之外,AttnGAN對於複雜無題的把握也是不準確的。

再舉個例子:研究人員讓系統畫出「一個女孩吃一大片披薩的圖片」。女孩的形狀非常逼真,但除此之外,其他方面都不怎麼樣。整體圖像非常奇怪,看上去就像立體派畫作。

「要準確地畫出複雜物體,系統還需要學習很多常識,」何曉東總結道。

確實如此,在這兩個失敗的栗子中,AttnGAN似乎能弄清楚要求,問題在於缺乏對世界與物體之間關係的基本理解。這個邏輯必須成為AttnGAN想像力的基礎才能有自由創作的可能性存在。

但上面提到的缺陷並不能讓何曉東停下腳步。他堅決認為,在未來幾年內,這些人工智慧模型將得到極大的改善,而且,隨著計算機變得更快、內存更大,研究人員將使人工智慧生成更大、更精細的圖像。

我們看到了他在過去五年來取得的進展,不得不同意他的觀點。

何曉東認為,AttnGAN類型的技術將完全改變創造性工具。

他設想必應(Bing)的圖像搜索可以根據需要來生成照片——比如,在圖像搜索中輸入「停車標誌飛過天空」,而iStockPhoto裡面又沒有這樣一張圖片,系統將自動為你創作這樣的一張圖片。

更進一步思考,何曉東眼前就出現了為藝術家生成圖片、為設計師生成房間布局場景的系統,而且,只需稍微做些調整,圖片就十分逼真而且可信。他甚至認為,在可預見的未來里,這類人工智慧系統可以將圖稿變成動畫。

但目前,這項研究意在模糊人類思考與機器思考的界線。

「這非常有趣,這直指一個基本的人工智慧問題,那就是『什麼是智能?是什麼將我們與動物區分開來?』」何曉東沉思道,「我們知道如何表達自己,如何閱讀圖片。對我來說,複製這個過程就是再造人類基本智力的一個途徑。」

文 | Mark Wilson

圖片 | fastcompany.cn

編輯 | 李習雙

實習生 | Joe 謝佳榆


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 快公司 的精彩文章:

創意枯竭時,桌上的筆、回形針、訂書機就成了繆斯
這8款黑科技是今年CES最值得關注的項目

TAG:快公司 |