AI 也能藝術創作了？Facebook說I CAN

知識 07-02

AI 研習社按：能夠迭代進化、模仿指定數據特徵的 GAN（生成式對抗性網路）已經是公認的處理圖像生成問題的好方法，自從提出以來相關的研究成果不少，在圖像增強、超解析度、風格轉換任務中的效果可謂是驚人的。

利用GAN達到圖像超解析度和風格轉換示例

今年也有利用 GAN 做的簡筆畫到圖像轉換模型 pix2pix，相關代碼地址：

https://github.com/phillipi/pix2pix

樣例地址：

https://affinelayer.com/pixsrv/

除了下圖轉換貓的，還有建築物的、鞋子的、包包的，模型非常有想像力，隨便畫也沒關係，感興趣的讀者可以自己到 demo 地址里畫畫看。

demo中用把線條轉換成貓的示例

GAN 能生成藝術作品嗎？

GAN 既然已經有如此的圖像生成能力了，我們能不能用 GAN 生成藝術作品呢，畢竟許多現代藝術作品看照片好像也並不怎麼複雜，比如下面這幅；超寫實主義的就更不用說了。

蒙德里安《紅黃藍的構成》

然而，要創造出一副人類覺得有藝術價值的作品並沒有那麼簡單。人類喜歡創新性的作品，人類不喜歡完全模仿的作品；《蒙娜麗莎》和《蘭亭集序》只有原作者的原版才被認可是世界藝術瑰寶，後世的人就算基於它們創作，也要有自己的創新，才能帶來新的藝術價值，才能被觀賞者認可。

根據 GAN 的基本結構，鑒別器 D 要判斷生成器 G 生成的圖像是否和其它已經提供給鑒別器D的圖像是同一個類別（特徵相符），這就決定了最好的情況下輸出的圖像也只能是對現有作品的模仿，如果有創新，就會被鑒別器 D 識別出來，就達不成目標了。上面幾個 GAN 的例子就能體現出鑒別器 D 帶來的這個特點，用 GAN 生成的藝術作品也就註定缺乏實質性的創新，藝術價值有限。

那麼，能不能讓 GAN 具有一些創新的能力，讓這些創新有藝術價值、帶有這些創新的作品還能夠被人類認可呢？羅格斯大學藝術與人工智慧實驗室、Facebook人工智慧研究院（FAIR）、查爾斯頓學院藝術史系三方合作的這篇論文就通過CAN（Creative Adversarial Network，創造性對抗網路）給出了一種答案。神經網路庫Keras的作者Fran?ois Chollet也在Twitter上推薦了這篇文章。

先看看作品如何CAN模型生成的一些藝術作品

可以看到，生成的藝術作品風格非常多樣，從簡單的抽象畫到複雜的線條組合都有，內容層次也有區分。論文中也有對比測試結果，CAN生成的作品不僅比GAN生成的更討人喜歡，甚至來自巴塞爾藝術展的人類藝術作品都比不上CAN。（具體數據看後文）

如何認識藝術創新

剛才說到，藝術作品需要有創新性，CAN中的C就是Creative，創新性的意思。那麼創新性要如何衡量呢、如何達到呢？

以往基於GAN的圖像生成方法研究中，人類可以把訓練好的網路生成的圖像和客觀事實相對比（超解析度、圖像補全問題中）或者根據經驗判斷（風格轉換問題中），用來衡量網路的效果；也有過一些更早期的演算法，讓人類作為訓練反饋的一環，引導網路的訓練過程。但是對於這次的課題需要設計一個能自動訓練和生成、還要衡量作品的創新性的系統而言，以往的方法就起不到什麼幫助。

同時，在作者們看來，為了能模仿人類藝術創作的過程，演算法中很重要的一部分就是要把演算法的創意過程和人類藝術家以往的藝術作品聯繫起來，像人類一樣把對以往藝術的理解和創造新藝術形態的能力整合在一起。為了能夠想辦法找到一個能夠衡量創新性、參與迭代訓練的創新性指標，作者們找來了一組藝術理論。

D.E.Berlyne認為，從生理心理學的角度講，人類的狀態中有一種叫做「喚醒水平」的指標，它可以衡量一個人有多警醒、多興奮；喚醒水平可以從最低的睡覺、休息，一直到暴怒、激動。而一副作品具有「喚醒潛力」的總體特質，它可以提升或者降低觀者的喚醒水平；它是作品新穎性、意外性、複雜性、多義性和疑惑性高低的綜合體現，這幾個屬性越高，作品的喚醒潛力就越高。

Colin Martindale（1943-2008）提出過一個假說，他認為在任一時刻，創意藝術家們都會嘗試增加他們作品的「喚醒潛力」，這就是一種拓寬創作習慣邊界的方法。但是，這種增加動作必須使得觀察者的負面反應儘可能小（盡量使觀察者不付出額外的努力），否則過於激進的產品就會受到負面的評價。

Colin Martindale還提出過一個假說，他認為當藝術家探索藝術風格的更多作用的時候，轉換藝術風格就會有提高「喚醒潛力」的作用。

這組理論只是解釋藝術創新的理論中的寥寥幾個，但是它們綜合起來給出了兩個具有計算性的、可以用於迭代訓練的指標：

創新作品的創新程度不能過高，觀者不認為作品是藝術作品的可能性應當儘可能小；

新的藝術風格就是創新的體現。

CAN網路的構建

根據提煉出的這兩個指標，論文中基於GAN的原型構建了這樣一種新型的對抗性網路CAN。

CAN模型的系統框圖

首先，對於「指標1：創新作品的創新程度不能過高，觀者不認為作品是藝術作品的可能性應當儘可能小」，就可以轉換為經典的對抗性網路，G生成圖像，經過藝術作品訓練過的D判斷G生成圖像的是不是藝術作品。這樣的對抗性網路生成的圖像就已經可以被人類看作是藝術作品。

然後，論文中的模型還根據「指標2：新的藝術風格就是創新的體現」增加了一部分新結構用來處理藝術風格。

論文中使用了25類不同的帶標籤藝術作品用於D的訓練，包含了抽象印象派、立體派、現代派、巴洛克、文藝復興早期等等風格的共7萬5千多幅。然後經過訓練的D除了要反饋一幅圖像「是否是藝術作品」外，還要反饋「能否分辨圖像是哪種藝術風格」。G然後就會利用D的反饋生成盡量難以分辨藝術風格的圖像——難以歸類到現有分類中的，就是創新了。

「是否是藝術作品」、「是否難以分辨藝術風格」是兩種對立的信號，前一種信號會迫使生成器G生成能夠被看作的藝術的圖像，但是假如它在現有的藝術風格範疇中就達到了這個目標，鑒別器D就能夠分辨出圖像的藝術風格了，然後生成器就會受到懲罰。這樣後一種信號就會讓生成器生成難以分辨風格的作品。所以兩種信號就可以共同作用，讓生成器能夠儘可能探索整個創意空間中藝術作品的範圍邊界，同時最大化生成的作品儘可能游離於現有的標準藝術風格之外。

這也就是論文標題「CAN: Creative Adversarial NetworksGenerating 「Art」 by Learning About Styles andDeviating from Style Norms」的含義，創造性對抗網路可以學習藝術風格，然後背離這些現有的風格進行藝術創作。

還說藝術風格，現在是「不好分辨」，「好分辨」不行嗎？

相比GAN，CAN增加的反饋是「是否難以分辨藝術風格」，追求的是生成的圖像藝術風格難以分辨。雖然根據藝術理論的推導，新的藝術風格是一種創新，但既然是多加了一個反饋，追求「生成的圖像藝術風格容易分辨」可以嗎？會不會也能生成不錯的作品呢？

從另一個角度看，假如追求「難以分辨」的CAN確實比追求「容易分辨」的CAN生成的圖像更好，那這就是模型選取了合理的反饋的最佳體現。

說做就做。除了CAN之外，論文中還建立了三種模型用來對比。

DCGAN 64x64：經過藝術作品訓練的DCGAN（深度卷積生成式對抗網路），輸出解析度為64x64

DCGAN 256x256：相比DCGAN 64x64，生成器多加了兩層網路，輸出解析度為256x256

scCAN：style-classification-CAN，追求「生成的圖像藝術風格容易分辨」的CAN

這三種模型生成的畫面像下面這樣

兩種DCGAN和scCAN生成的畫面

scCAN生成的畫面中確實有了可辨認的風格，比如人物特寫、風景或者群像。但是直觀看上去並不怎麼討人喜歡。

讓我們再來看一組CAN生成的圖像，上方是人類評價最高的、下方是人類評價最低的。應該說都比scCAN生成的圖像精彩得多。

人類評價最高和最低的CAN生成的圖像

人類能給CAN的圖像打幾分？

根據剛才的圖像可以看到，CAN的效果當然不錯，DCGAN 256x256的圖像其實也挺好。那麼CAN的圖像對觀畫的人來說是不是真的已經難以分辨創作者了呢？跟真的藝術家創作的作品相比高下又如何呢？

為了具體比較，論文中做了幾個實驗，讓人類給不同組的作品打分。

實驗1、2：來自抽象印象派藝術家的作品、選自巴塞爾藝術展的作品、CAN生成的圖像、DCGAN生成的圖像，一共4組作品，由普通人判斷這些作品來自人還是電腦，並給作品打分。

結果：實驗1里有53%的人認為CAN的圖像是來自人類的，認為DCGAN 64x64的圖像來自人的有35%；實驗2里認為CAN的圖像來自人類的比例是75%，DCGAN 256x256則是65%。來自抽象印象派藝術家的作品無疑是比例最高的，但有意思的是，兩個實驗里認為巴塞爾藝術展的作品來自人的比例都還不如CAN高（實驗1中41%，實驗2中48%）。

實驗2的結果數據，先讓人類評價者從幾個角度評價作品，再判斷是否是人類創作的。認為圖像是人類創作的評價者比例為Q6。

實驗3：讓人類評價者從用心程度、視覺結構、互動性、啟發性幾個角度給作品評分，結果CAN全部得分最高。這個結果可謂出人意料。

實驗3結果數據

實驗4：為了確認CAN和scCAN之間新穎性和美學表現的高低，請了一群藝術史學生對隨機選出的CAN和scCAN圖像進行評價。認為CAN的圖像更新穎的比例為59.47%，認為CAN的圖像更加有美學吸引力的比例為60%，確實有顯著區別。

結論

論文中表示，雖然這樣的模型還是不能對藝術風格概念有任何語義方面的理解，不過它確實展現出了從以往的藝術作品中學習的能力。至於為什麼人類會在多個方面給CAN打出高分，作者們也希望和大家進行開放性的探討。

論文原文地址：

https://arxiv.org/abs/1706.07068

研習社特供福利ID：OKweiwu

英偉達現場授課

聽說英偉達開發者票已經快賣光了，今天開始......社長已經沒有優惠碼可送了。

3000+ 人 AI 盛宴現場，CCF-GAIR 還專門開設開發者專場培訓，由 NVIDIA 深度學習學院現場教授深度學習，可遠程接入 NVIDIA 官方伺服器進行項目實操，高級工程師現場指導。培訓結束後，學員可獲得 NVIDIA 認證證書。