當前位置:
首頁 > 最新 > 明星臉、花鳥都不是問題,微軟中科大聯合推出細粒度圖像合成模型

明星臉、花鳥都不是問題,微軟中科大聯合推出細粒度圖像合成模型

雷鋒網 AI 科技評論按:最近推出的幾個計算機視覺領域中的突破性論文在圖像合成領域展示了新的可能,他們能夠創造非常自然的圖像,並且合成無比真實甚至同時保持面部信息的人臉圖像。論文《CVAE-GAN:一種通過非對稱訓練的細粒圖像生成模型》就是其中之一,它是由微軟和中國科學技術大學的研究團隊在威尼斯舉辦的 ICCV 2017 上展示的一種方法,它是一種基於變分自動編碼器生成對抗網路的圖像生成模型,能夠在特定細粒類別中合成自然圖像。特定細粒度的類別包括特定的人臉,如名人或者真實世界的物體,如特定類型的花或者鳥。雷鋒網 AI 科技評論根據微軟研究院博客簡單介紹如下。

圖中都是生成的圖像。不僅逼真,而且每類圖像中也有一定的差異。

微軟研究院的 Dong Chen、Fang Wen 和 Gang Hua,微軟研究院實習生 Jianmin Bao 以及中國科學技術大學的李厚強教授一直在研究如何構建更好有效的自然圖像生成模型。在計算機視覺領域存在一個關鍵問題:如何通過改變與世界上任何圖片自然分布相關的有限數量的隱變數,來生成多樣化且逼真的圖像。該問題的挑戰主要在於找到一個生成模型能夠捕捉到這些數據的分布。他們選擇使用生成對抗網路與變分自動編碼器相結合的方法作為學習框架。該方法將任何圖像建模為概率模型中標籤和隱屬性的組合。通過改變輸入生成模型細粒類別的標籤(比如,特定的鳥的類別,如金鶯或者八哥,或者特定人的人臉),該團隊能夠使用根據隨機抽取的隱變數的值合成屬於該類別的圖像。微軟雷蒙德研究院首席研究員Gang Hua解釋說:「直到最近,才有深度學習模型能夠從真實世界的圖像中對某類物體的圖像分布建模,使得我們能夠從模型中得到基本的圖像合成方式。」

首席研究員 Gang Hua 表示,該方法有兩個新穎的方面:首先,對於判別網路即分類器,使用了交叉熵損失函數進行訓練,但是對於生成網路,使用了平均差值目標函數(mean discrepancy objective)。由此產生的非對稱損失函數及其對機器學習方面的影響很激動人心。非對稱損失實際上使得 GAN 的訓練變得更加穩定,這種非對稱損失函數能夠解決訓練原始 GAN 中的不穩定的問題,尤其是能夠解決匹配兩個不重疊分布時遇到的數值難題。

另一個創新在於採用了一種新穎的編碼器結構,它能夠學習到隱空間之間的關係,並使用成對的特徵匹配了保留合成圖像的結構信息。

在自然圖像的實驗中,在自然界中的真實圖片,如人臉,花朵和鳥類等,研究人員展示了他們的機器學習模型在某個特定的類別中,能夠合成非常真實且多樣性的圖像。該模型的潛在應用方向覆蓋了包括圖像修復,數據增強,和更好的人臉識別模型等所有方面。

該技術解決了圖像生成中的基本挑戰,即個體因素的可控制性問題。這使得該模型能夠生成我們想要的樣子的圖片。


如何利用這個能力將合成花或者鳥的的圖片變得更加真實?以人臉為例,在包含個體身份信息的上下文的情況下,人臉是自然中能夠捕捉到的最複雜的圖像。在本月鹽湖城舉辦的 CVPR 2018的「面向開放式身份的保持人臉合成」(Toward Open-Set Identity preserving Face Synthesis)任務中,研究人員開發了一個基於 GAN 的框架,可以解耦人臉的身份信息和屬性信息,其中屬性包含諸如鼻子和嘴的形狀甚至年齡,以及環境因素,比如光線狀況,臉上是否有化妝等等。之前的保持身份人臉合成方法的主要局限在於只能合成包含在訓練集中的已知身份人臉,但是現在研究人員開發了一種在開放集中也能保持身份的人臉合成方法,也就是說,能夠合成訓練集外的人臉。為了能夠做到這一點,他們使用了一種獨特的方法,對於輸入圖片,先生成一個身份向量,將該身份向量與其他人臉圖像(不是同一個人的人臉圖像)結合,提取一個特徵向量,例如姿勢,情緒或者光線狀況等。接下來,將身份向量和特徵向量結合到一起,生成一張新的人臉圖片。值得注意的是,該框架無須以任何方式標註或者分類任何面部屬性。它使用非對稱損失函數以更好的保持身份信息,並能夠穩定機器學習的訓練過程。它還可以有效地利用大量未標記的人臉圖像進行訓練(可以被看作是隨機的面部圖像),以進一步增強合成人臉的真實度和準確性。

人臉生成任務中,保持身份特徵同時的屬性遷移結果


該模型有一個有趣的應用方向,就是攝影師為幾十個人拍一張合照,想要一張照片里幾十個人都是笑著的瞬間是很難捕捉到的。使用該模型就能夠讓每個人都是微笑的,這跟單純的圖像編輯是完全不同的,因為每一個微笑的臉都是合成的,都是並沒有在這個世界上發生過的,但是每個人的臉部真實身份得到了保留,這個面孔就是屬於這個人的,身份信息在改變圖像的過程中被保留了下來。

該模型的許多種可能的應用都會是有益於社會的,並且在圖像識別,視頻理解甚至藝術方向都有著不斷的進步。

論文地址:http://openaccess.thecvf.com/content_ICCV_2017/papers/Bao_CVAE-GAN_Fine-Grained_Image_ICCV_2017_paper.pdf

viaMicrosoft Research Blog,雷鋒網 AI 科技評論編譯

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

美國國際貿易委員會稱蘋果侵犯高通專利:部分iPhone產品進口美國或將受阻
安智汽車董事長郭健:如何打造一款可向車廠交付的駕駛輔助產品?

TAG:雷鋒網 |