當前位置:
首頁 > 科技 > 學術報告 阿里巴巴張剛:生成式對抗網路與人臉屬性編輯

學術報告 阿里巴巴張剛:生成式對抗網路與人臉屬性編輯

不到現場,照樣看最乾貨的學術報告!

嗨,大家好。這裡是學術報告專欄,讀芯術小編不定期挑選並親自跑會,為大家奉獻科技領域最優秀的學術報告,為同學們記錄報告乾貨,並想方設法搞到一手的PPT和現場視頻——足夠乾貨,足夠新鮮!話不多說,快快看過來,希望這些優秀的青年學者、專家傑青的學術報告 ,能讓您在業餘時間的知識閱讀更有價值。

2018年8月4月,由北京理工大學大數據創新學習中心與中國科學院人工智慧聯盟標準組聯合主辦的「2018深度強化學習:理論與應用」學術研討會,學界與業界頂級專家濟濟一堂,共同分享深度強化學習領域的研究成果。

阿里巴巴達摩院-AI Lab的張剛以生成式對抗網路與人臉屬性編輯為主題進行報告,以下分享內容根據嘉賓口頭分享整理。

生成式對抗網路與人臉屬性編輯

張剛 阿里巴巴達摩院-AI Lab

我是2018年7月畢業以後在阿里巴巴工作,主要方向是無人駕駛,接下來從四個方面介紹我在人臉屬性編輯這塊做的工作。

首先介紹研究的背景及意義。人臉屬性編輯是要修改人臉圖片的屬性,與此同時要保證人臉身份信息和屬性無關區域的不變性。比如圖中展示的我們要給人物去掉眼鏡,其它地方要保留下來,那麼我們只關注和眼睛相關的區域,其它區域包括背景、額頭、嘴巴等應該是完整保留下來。這個研究的應用首先是在娛樂、社交領域,比如對人像的美白、減齡、微笑等,另一個就是在人臉識別領域關於人臉資料庫的增廣,我做了部分工作是通過GAN對人臉資料庫做增廣,最後達到一個人臉識別準確率的提高。

很多人認為這項工作很簡單,就是人臉屬性的編輯,為什麼不用FCN網路訓練?現實中的問題是缺乏成對標註的圖片,因此是不能直接採用監督學習的方法。生成對抗網路是在2014年提出的,其實質就是一個由判別器和生成器組成的框架,判別器是要把生成圖片和真實圖片區分出來,生成器是要盡量生成以假亂真的圖片騙過判別器,最後達到生成器生成的圖片判別器已經不能區分是真的還是生成的,這就達到了最終的平衡點。

接下來介紹相關領域的研究進展,其中一個和我們相關的工作是AcGAN,因為GAN的目標是生成很真實的圖片,但不知道到底生成了什麼樣的圖片,AcGAN就是要用一個Label控制它到底生成了什麼樣的圖片。生成器的輸入還有Label C,判別器D上面同時做兩個任務:一個是真假分類,一個是標籤C的分類,最終達到的平衡結果就是生成器能夠生成被C所控制的很真實的圖片。用GAN做人臉屬性編輯,最早的方法是2016年提出的IcGAN,主要分兩個階段來做訓練: 一個階段是通過屬性C和雜訊Z,訓練一個cGAN,但這個時候只是雜訊Z;我們的目標是輸入圖片和控制向量,然後輸出控制向量控制的人臉圖片。

另一個階段就是把圖片通過編碼器編碼成Z,因為第一個階段就是通過Z到圖片,第二個階段就把它反過來,通過人臉圖片回歸Z。看起來這項工作很Work,實際上這項工作最大的缺點就是無法保持人臉的身份信息。CycleGAN是另外一項很知名的工作,他做了一個通用的Unpaired Image-to-Image Translation工作,關鍵點就是引入重構損失函數保證圖片內容的一致性,圖片內容信息是不丟失的。

另一方面還有對抗的損失函數,保證把不戴眼鏡的人臉圖片變成戴眼鏡的人臉圖片,然後用對抗損失函數保證翻譯到另外一個域。CycleGAN的一個缺點就是無法保證屬性無關區域的不變性。即使是有重構損失函數,實驗結果會發現很難保證除了眼鏡以外的地方是不被修改的。

StarGAN是比CycleGAN前進了一點,CycleGAN是做了兩個域之間的轉換,意思就是對多屬性編輯的話每個屬性都要訓練一個GAN,StarGAN更有效是因為他把所有的屬性編輯都壓縮到一個網路裡面,輸入和CycleGAN是不一樣的,不僅僅是一張人臉圖片還有屬性控制C,判別器D同時做了兩個任務:一個是真假分類,一個是屬性C的分類,通過這種對抗的方式,最後生成器就可以生成一張被人臉屬性C控制的圖片。

再就是ResGAN,原來的生成器是直接生成人臉圖片,疊加到原來的圖上面,其實這個圖是我們自己的結果,但這個方法的效果是比較差的,當時也提出了一個比較好的方向,就是在做圖像編輯或者人臉屬性編輯的時候一定要保證屬性無關的區域是不被修改的。我們後面提出的方法也是基於前面的研究,同時要保證屬性無關區域是不被修改的。

為解決前面所說的問題,我們引入空間注意力機制,這個大多應用在圖片分類、分割等。我們把注意力網路加到GAN里提出了SaGAN,如圖中,我們的Generator就是G網路,主要由兩部分組成:空間注意力網路(SAN)和屬性編輯網路(AMN)。AMN只負責編輯屬性,類似於前面的CycleGAN和StarGAN網路。空間注意力網路主要關注哪些區域是應該被修改的,哪些區域應該被忽略掉。公式中的mask就是生成了注意力網路,可以只關注到眼鏡這塊,然後就把這一塊拿出來和上面的這個做點乘,其餘不被修改的部分直接從原圖中取出,拼接到一起就是最終生成的圖片。

我們這個SaGAN網路主要做兩個任務:一個是真假分類,一個是屬性分類;考慮到有效性,因為去眼鏡和戴眼鏡當中Attention Region是一樣的,我們也是建立了兩個互逆的屬性,一個是戴眼鏡的網路,一個是去眼鏡的網路,一個是微笑的網路,一個是不讓微笑的網路,可以在同一個區域當中體現出來。

這裡定位了屬性相關的區域,屬性編輯網路只是負責編輯屬性,最終就得到我們的生成器的公式。整個實驗也和比較知名的CycleGAN、StarGAN和ResGAN做了對比,主要選擇了眼睛、嘴巴、鼻子和鬍鬚,這是對人臉識別當中影響比較大的,我們的工作也是面向人臉識別來做。結果的評價是從視覺效果和屬性分類準確率來看,其中兩個是我們自己提出的,一個是MAE,一個是人臉識別率,後面也會詳細介紹這兩個指標。

為了測試我們的方法的有效性,我們在CelebA以及LFW數據集上測試看空間注意力網路到底能學了什麼東西以及最終效果。第一行是眼鏡的編輯,一個是去眼鏡,一個是戴眼鏡,mask就是空間注意力網路輸出的權重圖,相關區域響應特別高,閉嘴張嘴也是Attention嘴巴相關的區域,加鬍子去鬍子也是,最後的微笑可以達到整張臉,因為微笑的機制比較複雜,整張臉都可以運動。

有人懷疑我們是不是標註了額外的數據,就是訓練mask網路,我們的方法在沒有標註數據集,類似於弱監督的方式下也很有效。每張人臉旁邊黑色的圖片是編輯好的圖片和輸入的圖片的絕對差顯示,視覺效果上可以看出無關的區域有沒修改。我們的方法不僅在視覺上效果好,而且只修改了眼鏡相關的Part。

再就是張嘴和閉嘴,視覺效果也是做得比較好的。鬍鬚其實是比較難做的,因為這是和性別關聯在一起的,數據集當中沒有女生的圖片長鬍須的,所以很容易把女的貼鬍子變成男的,然後把男的去鬍子變成女的。不管是給女的加鬍子還是給男的去鬍子都是不應該改變性別的,這種情況下注意力網路比較Work,就是只關注鬍子相關的區域,其它的區域都不去修改。微笑的屬性就是人臉參與的很多,我們的結果看起來也是比其它方法更好。這些只是視覺效果,後面會有實際的量化指標。

怎麼定義屬性無關區域呢?這也是我們自己定義出來的,就是定義眼鏡和光頭屬性,我們把無關的區域定義為下半臉,因為戴眼鏡或者去眼鏡、光頭只是在上半臉。張嘴、鬍鬚、微笑的話更多的是關注在下半臉,我們的無關區域在上半臉,然後對無關區域做MAE,對比了四個方法。這個指標是越小越好,結果如下表,完全優於其它三個方法。

屬性分類存在兩個點:目標屬性一定要被修改,剩餘屬性不能被修改。我們對比了五個方法,最後一個方法是真實圖片,必須要用真實圖片來比。目標屬性我們只是選擇了眼睛、微笑和年齡,就是從分類損失來看我們的效果是最好的,也是最接近於真實圖片的。其實真實圖片我們做的不好就是因為有些屬性分類的準確率也不是特別高,只有百分之九十幾。

最後就是對人臉識別率的提升,我們是和其它幾個方法做對比,訓練器是八千多人的訓練集,這也是我們自己劃分的,測試集是剩餘的人,圖中紅色實線代表的是我們提出的方法,虛線是Baseline,其它幾個顏色就是StarGAN和ResGAN,我們的方法也是比之前的好很多,證明我們的方法可以提高人臉識別率。我們是第一個提出了通過SaGAN做人臉資料庫增廣的方法,這也是一個很好的應用點。

最後展望一下,我們這項工作主要做的貢獻是通過Attention機制保證人臉屬性無關的區域,這種方法不僅可以應用在人臉屬性,更多的可以應用於通用的屬性編輯。目前我們拓展的工作就是把Attention用在圖片補全上面,現在主要是用GAN去做,如果是用注意力網路的話是不是可以直接應用到被遮擋的區域, 然後直接對被遮擋的區域進行補全。

另外就是,我們的方法很有效地提高了人臉識別率,在一些百萬千萬級的數據集上只針對眼鏡這個的屬性做增廣,結果顯示可以提高一兩個點。我們的方法也存在一些缺點,一是我們的方法不能挖掘多樣性,多樣性體現在比如給同一個人戴不同類別眼鏡,我們這個只能給一個人隨機戴眼鏡。

再一個多屬性是做不到的,之前試過把多屬性人臉編輯整合到我們的方法中,但最後實驗效果比較差,因為多個屬性放進去需要多屬性的Attention。我們可遵循人的編輯過程,人在編輯圖片時是用一個推敲的機制,改一次看看效果怎樣,效果不好就再改,通過序列方式修改,未來我們的工作擴展可以朝這個方向靠攏。

獲取完整PPT,請後台回復:學術報告供稿人:張繼

精彩的學術報告背後,是一群優秀的學術人才。都說搞學術的人需要「超凡脫俗」,需要耐得住清貧寂寞,其實……芯君想說:完全不需要這樣啊!比如,馬上申請2018百度獎學金——是的,百度為每位具有AI才能的「潛力股」學術精英們提供了廣闊的平台資源和發展空間,為其提供20萬研究資金支持,幫助優秀學子全身心投入科研工作,心無旁騖地進行科學探索。

還等什麼,你——未來的學術之星,趕快申請報名吧!

留言 點贊 發個朋友圈我們一起探討AI落地的最後一公里

如需轉載,請後台留言,遵守轉載規範


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 讀芯術 的精彩文章:

2018 BDIC分賽區特等獎團隊報道 大數據與人工智慧創意賽風采展示
清華大學:基於實體的神經信息檢索模型-理解實體在神經信息檢索模型中的作用

TAG:讀芯術 |