當前位置:
首頁 > 知識 > 當AI 開始學習藝術創作,我們應該覺得擔心嗎?

當AI 開始學習藝術創作,我們應該覺得擔心嗎?

這裡是 AI 研習社,我們的博客版塊已經正式推出了!歡迎大家來多多交流~

https://club.leiphone.com/page/blog


社長為你推薦來自 AI 研習社精華博客,如果你也有隨手寫技術文章的習慣,歡迎在AI 研習社社區寫博文。

以下為今天的精華博客

作者:雪莉?休斯敦

隨著深度學習爆髮式的成功,演算法漸漸的被引入了一個人類認為相對安全的領域 —— 創造引人注目的藝術。

在過去的幾年中,AI 產生的藝術得到了蓬勃的發展,這些示例也同時出現在了 RobotArt 和 NVIDIA"s DeepArt 論壇上:

儘管這些演算法模型是令人拍案叫絕的技術成就,但是人們就 AI 或機器學習是否能真正地像人類一樣進行藝術創作還存有疑惑。一些人認為通過數學建模進行像素的堆積或識別樂章中相互連接的片段並不是真正的創造力。他們眼中,AI 缺少了點人味。但是,誰又能說的清楚,人類的大腦到底是如何實現這些創造的,真的比機器更出色嗎?我們怎麼能確信一個畫家或者一個音樂家不是使用數學的方式或模型——類似於演算法中的神經網路那樣,通過多次的練習、訓練實現作品的呢?

雖然這個問題在短期內看起來無法解決,但是通過對這個問題的研究和模型實現過程的學習,我們可以探究到更多有趣的東西。在這篇來自 The Gradient 博客的文章中,作者討論了幾個近期的深度學習模型成果,包括一些視覺作品和音樂作品。著重討論風格遷移和音樂模型,最後還會介紹下發展前景。雷鋒網 AI 科技評論對文章編譯如下。


風格遷移

這個詞看起來也許已經非常眼熟了,公認的最著名的 AI 藝術應用成果。下面是一個很常見的例子:

這張圖片是什麼意思?我們可以認為圖片由兩個部分組成:內容和風格。內容可以理解為左邊小圖所描述的:斯坦福大學的主樓;風格則可以參照中間小圖中的:梵高的代表作,漩渦狀、彩色夜晚的星空。風格遷移就是將一幅圖片中的風格轉移並生成到另外一張圖片中。

假設,有圖片 c 和 s,從 c 中我們提取新圖片的內容,從 s 中提取風格。假設 y 是生成的圖片。那麼 y 具有 c 的內容,同時具有 s 的風格。從機器學習的視角來考慮這個問題的話,抽象兩個函數,我們希望最小化 y 和 c 的內容誤差,同時最小化 y 和 s 的風格誤差。

那麼,如何推導和生成內容誤差和風格誤差(Content loss&Style loss)這兩個函數呢?要解決這個問題,首先需要使用數學的方式對內容和風格(Content&Style)進行定義。Gatys、Ecker、Bethge在他們的標誌性的風格遷移論文對這個問題進行了解答,並使用卷積神經網路(CNNs)定義了這些函數。

以 VGG19 模型為例,將圖像輸入一個已經訓練好的分類CNN網路。由於網路已經經過了初始化訓練,網路中越高的層就可以提取出越複雜的圖像特徵。作者在文中指出,可以通過網路中的特徵拓撲來表示一張圖片的內容。同時,風格可以通過特徵拓撲的關聯來描述。這些關聯性被存儲在一個稱為格拉姆矩陣(Gram Matrix)的矩陣中。

基於這種表示方法,作者將生成圖像的特徵映射與內容圖像之間的 Euclidean 距離求和,以表現內容誤差。然後,計算每層特徵映射的格拉姆矩陣的 Euclidean 距離的總和,以計算風格誤差。通過確定配置內容誤差和風格誤差不同的權重,以獲得更好的圖片視覺效果。

設定為生成的圖片,是輸入的第j層的特徵映射,那麼內容誤差可以表現為:

假設是的格拉姆矩陣,那麼風格誤差可以表現為(其中為 Frobenius 常數):

最後,將所有 L 層總誤差和使用不同的權重計算求和,得到函數:

由此可見,全局的網路誤差函數是帶有權重的風格誤差和內容誤差的總和。在這裡,是超參數,用於表達每個網路層的情況,並通過修改超參數的值重新生成具有目標內容或目標風格的圖片。在訓練的每一步,根據誤差函數調整輸入像素,如此往複,直到機器生成了與目標風格圖片相近的圖片。


前饋式風格遷移

每一幅圖像的風格遷移任務都是一個不同的優化過程,而且會需要不少的時間,因為要從隨機雜訊出發,逐步逼近最終想要的完美的圖像。事實上,該論文的原始演算法生成一幅圖像就花費了大約兩個小時,人們開始對演算法的運行速度提出要求。幸運的是,Johnson, Alahi, 和 Li 在2016發表了一篇後續論文,描述了一種實時執行風格轉換的方法。

不同於從 0 生成一副圖像並最小化誤差函數,Johnson 等人使用了一種前饋式的方法,通過訓練一個神經網路來直接的將特定的風格轉移到一張圖像上。他們的模型具有兩個組成部分——一個圖像變換網路和一個誤差網路。圖像變換網路使用一張正常的圖片,並輸出相同的圖片風格。不同的是,這種新的模型使用了一個預訓練的誤差網路。這種網路計算了特徵重鑄誤差,即在內容上計算特徵誤差,同時在風格上計算分割重鑄誤差(使用格拉姆矩陣)。

Johnson等人使用微軟的 COCO 數據集對圖像變換網路進行訓練,輸出不同的圖片風格(比如梵高的《星空》)。由這個網路產生的圖片與之前的論文的結果幾乎一致,但是在生成 500 張 256*256 像素的圖片的任務中竟有 1060 倍的速度的提升。每張照片的生成只需要50ms:

在未來,風格轉換可以推廣到其他媒介,如音樂或詩歌。例如,音樂家可以重新想像一首流行歌曲,如艾德·希蘭的《你的形狀》,聽起來像爵士樂。或者可以將現代的斯拉姆詩歌轉換成莎士比亞抑揚五音格風格。目前,我們在這些領域沒有足夠的數據來訓練好的模型,但這只是時間問題。


音樂建模

生成音樂建模是一個困難的問題,但我們已經探索了很久。

當谷歌的開源 AI 音樂項目 Magenta 剛剛啟動時,它只能產生簡單的旋律。然而,到了2017年的夏天,Performance RNN,這個基於LSTM的遞歸神經網路(RNN)出世了,它可以模仿復調音樂,同時完成定時和動態。

因為歌曲可以被看作是音符序列,所以音樂是被設計成學習序列模式的 RNN 的理想用例。我們可以通過一系列的音樂來訓練一個 RNN 網路(即,一系列向量表示音符),然後從訓練過 RNN 的進行旋律採樣。你可以在 Magenta 的GITHUB 頁面上查看一些演示和預先訓練的模型。

早期通過 Magenta 和其他音樂產生的作品可以產生單聲道旋律,或者表達不同時間長度的單音,至少在一個維度上是可調的。這些模型與用於生成文本的語言模型相似:在文本生成中,模型產生代表單詞的矢量,而在音樂 成中,模型產生相應的代表音符的矢量。

一個矢量可以對應很多的音符信息,那麼如何通過一個個的矢量構建出一段旋律呢?假設我們想要構建一段由個音符組成的音樂——意味著個音符和個可能的時間段,這樣就有組可能的音樂序列。

這樣的搭配和可能性是非常多的,因此在這邊還是考慮單音的音樂,即在同一時間只有一種音階。大多數我們現在聽的音樂都是復調的。復調的音樂是指在同一時間段內由多個音階組成,對應著我們所熟知的和弦,或者多個樂器在同一時間同時演奏。這樣的話,可行的音樂序列的數量可使用進行計算。這就意味著在計算時需使用比文本合成更為複雜的RNN網路:與文本不同的是,多個音階可能在同一時間奏響。

除此之外,還有一個問題。如果你曾經注意過電腦播放的音樂——甚至是人類編排的——聽起來還是很機械(robotic)。而當人類真實的演奏時,根據不同的感情,演奏者會適當的加長或剪短每個音符的演奏時長(即速度或聲音強度)。為了實現這一點,研發人員還需要教會機器如何進行速率和音量的調整。Performance RNN 網路於是可以仿照人類的方式調整它們的速度、播放的音量。

那麼,如何通過訓練讓機器學會帶有「情緒」地播放音樂呢?事實上,目前有個專門的數據集用作這方面的訓練。雅馬哈 Yamaha 電子鋼琴競賽的資料庫就包含了現場表演的 MIDI 數據:每首曲子都以音階的方式進行錄製,同時包含了速率信息和時長信息。因此,除了學習在什麼時間點上播放什麼音階,Performance RNN 還可以學習人類的演奏方式進行合理的播放。在鏈接中可以找到一些真實的案例。

現有的研究成果相較於真實人類的水平可以類比作一個六歲的孩子用一個手指進行彈奏和一個鋼琴家帶有情感的演奏複雜樂章之間的區別。還需要進行更多的研究:目前,很多由 Performance RNN 生成的音樂還是很機械的,因為它們還沒有像人類那樣使用重複的樂章或和弦進行表達。未來的研究可能可以探索鼓樣本或其他樂器。

但是,僅僅是現有的成就,這些已經訓練成功的模型已經足以幫助人們進行音樂創作了。


AI 藝術創作的未來

機器學習和藝術的跨界研究在過去的幾年中迅速發展,這甚至是紐約大學(NYU)的一門課程的主題。深度學習的興起對很多領域產生了極大的影響,包括:圖像、音樂和文本。雷鋒網 AI 科技評論去年的一篇文章中也介紹了用 AI 創作抽象藝術作品(並在讀者中引發了一定爭議)的研究。

這裡我們只討 AI 藝術創作的藍圖。在未來,我們可以期待機器學習成為藝術家的創作工具,如在草圖中進行填色、「自動完成」圖像、生成詩歌或小說的提綱或框架等。

隨著日益強大的機器計算能力,我們可以訓練來自不同媒體越來越多的數據,包括音頻、視頻或很多其他的形式等。我們現在已經有一些模型生成的案例,文本與音頻和視頻同步。Mor 等人的「音樂翻譯網」可以在樂器和風格流派之間進行一種聲學風格的轉換(鏈接)。並且 Luan 等人還實現了適用於高解析度照片的真實感風格轉換。可以通過這種方式實現的機器媒體的潛在應用是巨大的。

儘管,就 AI 創作的藝術是否是真實的藝術這個話題是永無止境的。但是,也許我們可以從另外一個角度看待這個問題。通過將人類創作過程進行的數學化,我們也許更近一步的了解到人類的創作如此深遠悠長的真正原因了。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI研習社 的精彩文章:

攻擊 AI 模型之 FGSM 演算法
由文本生成人臉圖像——T2F

TAG:AI研習社 |