微軟人工智慧新技術可以根據文本內容憑空繪製圖像

科技 01-20

騰訊數碼訊（Bear）微軟今天推出一款全新的人工智慧技術，它是一種「自動繪圖機器人」。這款機器人可以通過文本的文字來描述創建圖像，同時也可以自動為那些不包含文本的圖像添加細節。這表明人工智慧技術本身也能擁有一定的想像力。

「如果你去必應搜索，你會看到鳥類的圖片。但是在這裡，所有圖片都是通過電腦創建，是一個一個像素組成的。」微軟在華盛頓雷德蒙德實驗室深度學習技術首席研究員、研究經歷Xiaodong He表示。「這些鳥兒可能並不存在於現實世界，它們只是電腦通過鳥類的特質，想像出來的畫面。」

研究人員表示，這種繪圖機器人能夠產生各種各樣的圖像，包括普通的田園場景，從牲畜放牧到荒唐的「海面漂浮巴士」。

微軟表示，這種機器人能夠通過大量的圖片和文字說明的數據基礎上進行訓練，它能夠理解如何將文字與圖像匹配起來。當它學會了畫一隻鳥，例如當標題是一隻鳥的時候，就會自動學會如何繪製一張鳥的圖片。

「這是我們相信機器學習具有真正學習能力的根本原因。」他說。

繪圖機器人的技術通過兩個機器學習模型組成，一個是通過文本描述生成圖像，另外一個就是使用文本描述來判斷所生成圖像的真實性。前者試圖從後者中獲得虛假的圖片，但後者負責確定真實性。兩者結合在一起，創造出更高質量的圖像。

特別，它還善於從更複雜的語句中提取圖像。比如當其他技術可以從標題中畫出「鳥」的標題時，例如如果你告訴它要畫一隻綠冠、黃翅膀和紅腹的鳥，它的質量就會下降。在此之前，微軟解釋說，這種技術會生成一種模糊的「綠黃紅鳥」。

特別有趣的是，當沒有提到具體細節時，機器人如何能填補空白就非常有趣了。基本上，由於它的訓練數據，它具有一些自己的常識和想像力。在鳥的例子中，機器人通常會在樹枝上畫一隻鳥，即使它沒有在文本中說明，因為最初餵食的圖像通常也會顯示出類似的畫面。

微軟還指出，與之前的技術相比，這款新機器人的圖像質量提升了近三倍。當然，這並不是第一個將人工智慧與藝術結合起來的例子。

兩者的交集有時會帶來驚人的結果，比如谷歌的人工智慧畫出了那些有自己藝術表現的機器生成的圖像。谷歌也有一個神經網路，可以猜測你正在畫的是什麼，以及一個自動繪圖機器人，並定期詳細地描述機器學習在幫助繪畫方面所做的研究。

其實Facebook一直也致力於研發神經網路，製作一些像飛機、汽車和動物這樣的小圖片，甚至在照片中創建你自己的圖像化身。

英偉達的研究人員用人工智慧創造了電腦生成的名人。從其他方面來說，這一領域最近也取得了一系列巨大的進步。

對於微軟來說，教一個機器人從文本中提取圖像，完成了它在計算機視覺和自然語言處理領域所做的其他工作的循環。

這包括CaptionBot公司的開發成果，它可以自動為照片標註說明，還有一種技術，可以回答人們關於圖像的問題，比如物體的位置或屬性，這對盲人來說有很大的幫助。

對於人工智慧技術在現實世界中所能提供的服務，微軟有獨特一些想法。它表明，這款機器人可以充當畫家或室內設計師的草圖繪製助手，也可以作為語音激活照片優化的工具。

在未來的發展趨勢上，隨著計算能力的提高，這項技術可能會從電影劇本中生成動畫電影，以減少動畫師今天需要的體力勞動。

但這項技術暫時還尚未實現。

如果你仔細觀察這些圖像，它們幾乎總會有一些瑕疵，表明它們是由機器創造的，而不是人類。比如帶有藍色喙的鳥，或者是帶有奇怪形狀的香蕉的水果。

不過微軟表示，憑藉其3倍的改進，這款機器人代表了某種程度上的人工智慧技術發展里程碑。

來源：techcrunch

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 騰訊數碼 的精彩文章:

微軟人工智慧新技術 可以根據文本內容憑空繪製圖像