阿里提出全新風格化自編碼GAN,圖像生成更逼真!
作者|趙一如/鄧兵/黃建強/盧洪濤/華先生編輯|Debra1引言生成自然圖像建模是計算機視覺和機器學習領域的基礎研究課題。早期研究更多地關注生成網路建模的統計原理,但由於缺乏有效的特徵表示方法,相應的結果僅限於某些模式。
圖1:我們的模型的示意圖,它從內容圖像和樣式圖像中提取特徵,然後融合它們以獲得目標圖像。多級鑒別器迫使得到的圖像更加真實。這項工作的主要貢獻可歸納如下:我們提出了一種新的深度自編碼器網路,可以分別對兩個樣本圖像中的內容特徵和樣式特徵進行編碼,並基於這兩個特徵對新圖像進行解碼。
表1:MNIST數據集上測試數據的對數似然性。值越高越好。最後兩行結果來自我們的方法,使用二進位鑒別器和多類鑒別器。此處報告的值是測試集上樣本的平均對數似然和在多個實驗結果上計算的平均值的標準誤差。按照前面的方法,我們展示了圖3中訓練有素的SAAE發生器的一些樣本。
圖3:我們的SAAE模型生成的樣本示例4.2基於屬性條件的人臉生成我們在LabeledFacesintheWild(LFW)數據集上評估了我們的模型在人臉圖像生成任務上的表現。如圖4所示,生成的樣本在視覺上與屬性遷移一致。比如,如果改變「眼鏡」這樣的屬性,整體外觀仍然能保存完好,但眼部區域會出現差異。
圖4:基於屬性條件的圖像生成,分為六組(性別,年齡,膚色,表情,眼鏡和眼睛大小)。4.3模型樣本我們在IIIT5k字(IIIT5K)數據集和中國車牌(PLATE)數據集上評估了SAAE模型。圖5顯示了從我們的模型中隨機抽取的樣本和DCGAN模型生成的圖像,並且還給出了訓練數據用於比較。SAAE生成的樣本看起來更像字元,邊緣和背景更清晰。
圖5:SAAE和DCGAN的訓練數據和模型樣本。上游:IIIT5K數據集,下游:PLATE數據集為了可視化我們的風格化對抗自編碼器的程式化屬性,我們在IIIT5K和PLATE數據集上顯示了圖6中的幾組生成樣本。在每個數據集中,我們選擇了樣本樣式圖像並遍歷了所有內容圖像和標籤。結果表明,SAAE模型可以將樣本樣式圖像的字元樣式遷移到內容圖像。
圖6:為給定樣式圖像生成的樣本。上游:IIIT5K數據集。下游:PLATE數據集。對於每組生成的樣本,樣式圖像在左上角給出,並用紅色方塊標記。對於PLATE數據集,出於隱私原因,我們隱藏了車牌的第一個中文字元。4.4監督學習的數據生成深度神經網路(DNN)在監督學習中顯示出顯著的優勢,但依賴於大規模標記的訓練數據。在小規模訓練數據上,深度模型很容易過度擬合。
圖7:不同訓練集上相應迭代的識別準確度5結論未來研究的重點是優化網路結構以實現更高的生成質量。將此框架擴展到其他應用領域(例如半監督特徵學習)也將是一個有趣的研究方向。在ACMMM2017大會上,阿里巴巴有三篇論文,論文中技術研究的起點來自「城市大腦」項目。


※國際米蘭被截胡純屬自作孽,皇馬為國米第二選擇標7.5億天價!
TAG:玉薇體育說 |