除了下圍棋、寫稿子，人工智慧又來搶畫家的飯碗了

創意 02-08

如果有人讓你畫一隻小鳥，你大概得先線條起稿、補充細節，然後著色，整個過程也得個把小時。微軟最近發布了一項新的人工智慧項目，名為繪畫機器人（drawing bot），可以將文字轉換成圖畫（text-to-image）。

對抗生成網路

何曉東是微軟深度學習技術中心的負責人，也是 text-to-image 項目的核心人員之一。他說，跟網路搜索得到的圖片不同，繪畫機器人給你的圖案都是按照一定的指令一點一點畫出來的，也有可能它畫出來的東西這個世界上並不存在。

繪畫機器人的核心技術是對抗生成網路（Generative Adversarial Network，即 GAN），聽這個是不是感覺很難懂想溜，別急，微軟亞洲研究院在知乎專欄里舉了個很好的例子。

女生拉男票給自己拍照，拍完第一張，女生說：你要學一下誰誰誰的構圖；

拍完第二張，女生又說，你要學一下誰誰誰的調色；

拍完第三張，女生再說，你要學一下誰誰誰的感覺；

……反覆幾次，女生才終於認可了男票拍出來的照片。

這個男友拍照血淚史就是生成對抗網路。生成對抗網路它有兩個工作模型，一個負責根據文字生成圖片（generator），另一個根據文字評判生成的圖片（discriminator），這兩個模型不斷相互博弈、又相互學習，直到 discriminator 再也沒有能力判斷這個圖形，「生成模型」就可以出師了。

研究歷程

這個項目並不是最近新出的，何曉東與他的團隊已經研究了 5 年了。

他們最早推出過一個 Captionbot，只要你上傳一張圖，這個人工智慧就會自動為圖片配一段文字；接著，他們又將這個技術進一步發展，你可以根據圖片上的事物進行提問，人工智慧會回答你提出的問題。這個時期的技術，有點像小學生的看圖作文、看圖回答問題。

早在 2017 年 1 月份，在 arXiv.org 上就何曉東團隊登載了一篇介紹 text-to-image 的論文，這項技術名為生成對抗網路（Attentional ，簡稱 AttnGAN）。而最近微軟正在進行的 text-to-image 項目，生成的圖畫質量將是以前的 3 倍。

與根據圖片進行文字描述技術相比，text-to-image 的難點在於，繪畫機器人要描繪出更多細節，而這些細節是文字敘述中所沒有的，這就要求你的人工智慧自動「腦補」。

研究繪畫機器人有極大的科研意義，這是計算機視覺研究（computer vision）和自然語言處理（natural language）這兩個研究領域的一次融合。怎麼理解呢？計算機視覺研究的是機器如何去看，也就是說讓機器像人眼一樣去看待這個世界、並且進行圖像處理；而自然語言處理，研究的就是人與人工智慧之間如何用我們日常的語言進行交流。