當前位置:
首頁 > 新聞 > 中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

雷鋒網AI 科技評論按:2018 年 4 月 14 日-15 日,中國圖象圖形學學會圍繞「生物特徵識別」這一主題,在中科院自動化所舉辦第四期「CSIG 圖像圖形學科前沿講習班」。

生物特徵識別(BIOMETRICS)技術,是指通過計算機利用人體所固有的生理特徵(指紋、虹膜、面相、DNA等)或行為特徵(步態、擊鍵習慣等)來進行個人身份鑒定的技術。

本期講習班邀請曠視科技首席科學家孫劍,中科院自動化所研究員孫哲南、王亮、赫然,中科院計算所研究員山世光、清華大學副教授馮建江、徐明星,中山大學教授鄭偉詩等八位學者分別就人臉、虹膜、指紋、步態、音紋等人體特徵的研究現狀做了詳細報告。雷鋒網 AI 科技評論作為合作媒體針對會議進行報道。會議整體內容請參考雷鋒網報道:

CSIG 圖像圖形學科前沿講習班,曠視和中科院帶來生物特徵識別精彩報告(一)

CSIG 圖像圖形學科前沿講習班,山世光等四位學者帶來生物特徵識別精彩報告(二)

本篇文章為講習班報告第三篇,由中科院自動化所研究員赫然講解,報告題目為:大規模人臉圖像編輯理論、方法及應用。

赫然:2009年畢業於中科院自動化所,獲博士學位。中國科學院自動化研究所模式識別國家重點實驗室研究員,中國科學院腦科學與模式技術卓越創新中心年輕骨幹。2017年至今,擔任中國科學院大學人工智慧技術學院模式識別教研室副主任。從事模式識別應用基礎理論研究,並應用到生物特徵識別和智能視頻監控,在智慧城市監管需求的平台上取得成功應用,取得一定經濟效益。近期主要聚焦在生成式深度學習及大規模圖像編輯中遇到的瓶頸問題,展開圖像模式分析基礎理論研究。出版信息理論學習專著1部,在IEEE TPAMI、TIP、TIFS、TNNLS、TKDE等權威國際期刊以及NIPS、ICCV、CVPR、IJCAI、AAAI、SIGIR、ACM MM等權威會議發表論文120篇,研究工作獲得國家自然科學基金優秀青年科學基金資助。

赫然:

大家下午好,我叫赫然。今天的主題是「大規模人臉圖像編輯」。這裡有兩個要點,一是大規模,二是對人臉圖像進行編輯。所謂人臉圖像編輯,即對輸入的人臉圖像進行一系列操作處理,在內容和表觀上對圖像進行重組和編輯,進而創造出完全不同的人臉圖像。我們希望機器能夠對現有的圖像進行自動處理,並且得到一些新的圖像,而這些新圖像則需要同時符合人的認知和特定的需求。該問題是當前機器學習、計算機視覺重要的研究內容之一,並且在交互娛樂、衛生醫療、公共安全等領域有著廣泛的應用場景。今天介紹的內容分為兩個部分:第一部分介紹圖像編輯涉及的理論基礎,第二部分介紹它的方法和應用。

一、基礎理論1、全光人臉分析

在計算機處理圖像的過程中,涉及一個基本的概念就是全光函數。它是決定空間中光線呈現形式的因素組成的一個函數,包括光譜信息、時間信息、空間信息、深度信息、亮度信息和方向信息等。如果波長固定,那就是灰度圖像,如果有多個波長,那就是彩色圖像;如果是時間有變化那麼就是視頻;空間信息自然不用說了;如果考慮深度信息就是深度成像,在成像時會測量圖像的深度信息;如果考慮亮度信息就是高動態圖像;如果考慮光線方向,就是光場相機。所有這些組成了全光函數,在人臉識別中我們需要對這個函數有所了解,從而得到比較符合真實世界的圖像。目前,我們智能感知與計算研究中心依託國家自然科學基金委重大儀器專項[1]和華為公司合作項目[4][5],已設計和搭建全光人臉採集系統和深度數碼變焦圖像分析設備。這部分工作主要由中心的張堃博和胡坦浩完成。

中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

2、視覺拓撲優先

圖像編輯的基本研究目標是希望生成/合成的圖像是符合人的視覺認知的,通俗而言就是讓觀察者判斷不出這個圖像是真實的還是計算機生成的。基於這些考慮,中科院的陳霖院士提出了視覺拓撲優先的概念,他認為人在識別人臉時對拓撲信息的變化的感知優先於其它信息。實際上,對於拓撲結構變化的敏感性是生物感知系統中的基本特性,例如蜜蜂對空心圓和實心圓的拓撲結構變化非常敏感。相關成果發表在《科學》雜誌上。視覺拓撲優先機制的數學建模問題一直是一個困難問題,我們中心在國家自然基金委重點基金項目[3]的支持下,深入研究了視覺拓撲優先的多種數學表達形式,例如全局和局部結構、小波分解、heatmap和人臉解析圖等。根據拓撲變換的性質,相關的人臉圖像編輯任務可以分為拓撲不變任務和拓撲變換任務。

中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

3、生成對抗結構

這裡涉及到最常用的模型是生成模型,即學習聯合概率密度分布,它可以從統計的角度表示數據的分布情況,能夠反映同類數據本身的相似度。生成模型的主要功能有兩個:一是進行密度估計,二是生成樣本。生成/合成人臉時,所要的就是生成/合成的人臉和真實人臉相似。生成模型中大家比較熟悉的就是GAN,即生成對抗網路。大家都比較熟悉,我在這裡就不再詳細介紹了。此外,我們也結合變分自編碼機和膠囊模型來研究新的生成式模型。

4、身份保持結構

每個人都有自己的身份信息。人臉生成/合成任務自然希望能夠保持這個身份信息。在身份保持方面,我們的研究借鑒視覺認知中最基本的概念,即,定序測量(Ordinal Measures,OM)。這是一個基本的度量方式。人類所採用的度量方式主要包含以下四種。

中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

生活中,定序測量的思想隨處可見。比如我們只需要知道籃球比足球重,至於重多少克則大多數情況下是沒有必要知道的。根據 OM 概念,中科院的譚鐵牛院士提出一個既簡單又好用的方法,即,通過簡單的比較大小,實現計算機視覺的複雜特徵提取。最初這個研究工作應用到虹膜識別,判斷虹膜是否屬於同一個人。基本思路就是通過比較大小得到一個特徵編碼,通過這個特徵編碼便可以進行分類。目前這種思想已經被廣泛應用於計算機視覺中。

我們把這種定序測量的方式引入到卷積神經網路的激活函數中。常用的激活函數有兩種:ReLU 和Maxout。通常認為,由於 Maxout 需要使用兩條直線才能近似 ReLU,因此,Maxout 網路通常是 ReLU 網路大小的兩倍以上。而我們這個方法採用的定序測量非常簡單,就是比數值大小,誰的值小誰就被抑制掉,因此可以得到一個比較小的卷積神經網路。

中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

不同於以前的方法,我們借鑒神經學中一個基本的概念:側向抑制。這是神經元的激活機制,即通過對比機制來減少臨近神經元的激活,同時神經元能夠抑制一些神經信號傳播,這種方式能夠增加神經信號的清晰度。借用這種概念,我們在網路中添加了側向抑制的機制,以眉毛區域為例,其相鄰水平位置激活,相鄰豎直位置就會被抑制。引入上述概念後,依託於國家自然科學基金委重點項目[2],我們中心的吳翔等設計了一個輕量級的神經網路 Light CNN [6],該網路具有提鍊度高,空間佔用小的特點。它在人臉識別以及車輛識別問題上都已經取得了較好的效果。這個網路所具有的結構小而解析度高的特點能夠輔助我們在人臉圖像編輯過程中進行身份判別。該工作發表在 IEEE TIFS, 2018 上。目前,該研究工作受到國內外研究者的較大關注,相關代碼已經在 github 上公布,依據網路層數不同,分為 LightCNN9 和 LightCNN29 兩個版本。

以上四個部分就是我們在研究人臉圖像的過程中遇到的基礎問題。首先,需要對光的結構比較了解,只有了解了光的信息才有比較好的成像效果;其次,因為圖像是給人看的,因此生成的圖像要符合人的認知;另外,介紹了一種基本的網路結構,即生成對抗網路,來指導人臉圖像的編輯;最後是身份保持損失,目的是希望合成後的人臉圖像保持原有的身份信息。這四個部分構成了圖像編輯的主要基礎部分,當然還有一些其它部分。

二、方法應用

接下來介紹一下我們中心近期做的一些相關研究內容,由於時間關係,主要包括七個主要部分。每個部分在計算機視覺中都是獨立的分支,在金融民生或公共安全領域也都有很重要的應用。

1、超解析度

第一個是圖像超解析度,即在給定低解析度(LR)輸入的情況下估計出高解析度(HR)圖像的問題。例如攝像頭採集的圖像一般解析度比較低,如何對它進行超分,得到一張清晰的圖像並保持其身份信息,就是我們所研究的內容。

中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

超分演算法一般可以分為兩大類,一類屬於通用的超分演算法,例如基於插值的方法、基於圖像統計的方法或者基於字典學習等的方法,這類演算法適用於所有的圖像超分問題。另一類屬於特定領域的超分演算法,例如基於先驗統計的方法,現在也有基於生成模型的方法以及感知損失函數的方法。

中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

我們中心的黃懷波等提出在超分的過程中使用小波分解技術[13]。假設超分圖像的每個位置在超分時都依賴於原始的圖像對應的地方,這樣我們的超分演算法不會破壞全局信息。通常,超分問題被建模為一個概率問題。在這種模型中,給定輸入的圖像,直接預測完整的圖像,這個預測過程不能保證是不變的。不同於此,我們在訓練時輸入一張高清的圖像,然後進行小波分解,對分解後的圖像分別預測,之後再合成完整高清圖像,這樣得到的結果就可以盡量避免出現偏差。

2、視角旋轉

另外一個比較重要、也是現在各大公司比較關注的人臉視角旋轉應用,即將歸一化的人臉旋轉到任意姿態。例如從一張正臉圖像生成側臉圖像;或反之,從採集到的一張側臉恢復其正臉圖像,公安領域常有此需求。

中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

視角旋轉有 x、y、z 三個方向,我們目前只考慮左右偏轉。如果從單張圖像進行旋轉的話,這需要「無中生有」,因為有些信息是沒有的,所以旋轉時結果存在偏差。人臉旋轉有兩部分研究內容,一部分是 2D 模型,一部分是 3D 模型。

中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

既然圖像合成比較難,又不能直接預測,因此,我們引入幾個局部通路專門負責人臉局部信息的合成,該工作發表在 ICCV 2017 [15]。根據人臉五官,我們引入四個局部通路,再加上一個全局的通路,同時保持全局和局部的拓撲保持不變。局部四個部分進行分別合成,最後再與全局進行融合,得到一個正臉。我們中心在該問題上的後續工作成果[9]發表在 CVPR2018 上。

中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

3、上妝去妝

另外一個做的比較多的就是上妝去妝。「上妝」自然是希望在拍攝後把人臉進行妝顏美化,去妝則是去除掉圖像中的妝容從而變為素顏。作為一個單獨的研究問題,上妝去妝從 2009 年開始陸續得到研究者的關注。2018 年,我們中心的李禕等提出利用生成網路來完成去妝[11],並在 AAAI2018 上發表。我們主要希望針對手機用戶,使得去妝之後能夠得到比較好的視覺結果。跟前面的方法類似,這裡仍需要保持拓撲結構,同時我們提出兩層對抗網路,採用兩個判別器,一個是進行身份信息判別,另外一個對是否為真實圖像進行判別。

中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

最新的自動上妝工作是2018年美國 Adobe 公司提出的模型。該方法以 cycleGAN 模型為基礎,對眼部、唇部和其他面部皮膚分別上妝,之後再把分塊上妝結果反貼回原臉。由於該方法在合成全臉化妝效果時使用的是 image warping 方法,因此該方法實際上採用的是一種半生成模型。

中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

4、表情編輯

表情編輯涉及到兩個問題,一個是表情合成,一個是表情去除。2018 年,我們中心的宋凌霄等提出一個新的表情合成/去除的演算法[14],包括一下幾個基本部分:一、拓撲結構變化,因為眨眼的時候拓撲結構發生變化,因此希望用這個信息指導表情的變化;二、身份保持,我們不希望添加了表情後變成了另外一個人。我們的工作有兩個特點,一個特點是能夠得到一個真實圖像,另外一個是能夠識別身份信息。

中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

下面是我們方法得到的合成效果。

中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

5、年齡變換

從娛樂領域而言,預測臉部年齡的變化是一個重要的應用,其基本任務就是如何使人臉圖像老化/年輕化。

中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

年齡變換在電影中應用比較廣泛,例如年輕的演員在電影中變老,或年老的演員需要扮演年輕人等。在公安領域也有應用,比如尋找丟失多年的兒童;當然在隱私防範或生活娛樂中也有很多應用。

中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

年齡合成作為計算機視覺的一個分支問題,其研究始於 1994 年。我們中心的李佩佩等在 2018 年提出了一種基於全局和局部的生成方法[12]。做年齡合成時,我們知道一般額頭、眼睛以及嘴角變化比較大。因此除了做一個全局通道外,我們還在模型匯總另外添加了三個局部通道,隨後將這三個局部通道合起來後再與全局通道融合在一起。同時,我們也使用多個判別器來保證合成結果的視覺效果。這是我們得到的實驗結果:

中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

6、像素補充

接下來的工作是人臉補充,即把遮擋了的人臉補全,這在圖像編輯中也有很重要作用。現有方法可以歸納為三類:早期是使用基於補丁的方法,即通過觀察缺失內容的上下文信息,從相同圖像或外部圖像資料庫中搜索相似的補丁;其次是基於擴散方程的方法,即利用擴散方程迭代地沿著邊界將低級特徵從上下文區域傳播到缺失區域;第三種則是基於稀疏表示的方法,即如果缺了某塊兒區域,便通過編碼或者解碼,把原始的圖像補充上去[8]。2017 年,國外學者進一步研究了基於生成模型的人臉補充,其目的是希望生成的拓撲結構和真實的拓撲結構保持一致。

中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

在圖像感知的時候,拓撲結構先於其它結構,所以我們考慮把拓撲結構作為先驗條件。基於這種考慮,我們中心的宋林森等提出一種新的方法(Geometry-Aware Face Completion and Editing),先預測缺失的地方,隨後再把這個拓撲結構跟原圖一起輸入,來生成真實的圖像。

中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

7、跨光譜合成

所謂跨光譜合成,指根據某種光譜/模態下的人臉圖像,直接合成其他光譜/模態人臉 圖像的技術。這個技術廣泛應用於異質人臉識別,例如下圖的可見光圖像和近紅外圖像間的人臉識別。這個問題的挑戰和光線有關,一方面不同的圖像之間光線差別比較大,而另一方面可用於跨光譜訓練的圖像數據集也比較小。不過這個領域的研究也比較多,包括基於字典學習的方法、基於補丁映射的方法和基於生成模型的方法等。

中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

我們的工作[10]是基於生成模型的方法,發表在 AAAI 2018 上,這應該是第一篇使用GAN模型的跨光譜合成方法。我們構建了生成對抗異質人臉識別模型(AD-HFR),並使用了全局和局部的結構,除了對整個臉部進行生成外,還對眼睛部分進行了專門處理,並且包含了身份保持函數。

中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

三、總結

本次報告主要介紹了人臉圖像編輯涉及的基礎理論和應用方法。由於時間關係,基礎理論部分還有部分內容沒有深入介紹;而在應用部分,今天主要講了超解析度等,但還有人臉生成等許多應用沒有涉及。

事實上人臉圖像編輯,是計算機視覺中一個長期的研究目標,當前仍有很多問題沒有解決。例如,當前研究的人臉圖像解析度大多是 128×128,隨著手機的發展,其解析度將會越來越高,那麼如何編輯更高解析度的圖像?同時,很多場景對精確度的需求也變得越來越高,比如在 3D 重建中,醫療領域希望人臉的深度信息精度能夠從 0.1 厘米提升到 0.05 毫米,這樣便可以精準估計面部運動和身份信息。另外,一些特殊應用場景會要求生成十幾萬人乃至幾億人的人臉數據。另一方面,人臉圖像編輯也是機器學習的重要研究內容,它的理論學習方法、硬體和軟體都需要更大的突破,才能得到符合人類視覺感知的結果。

中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

感謝中心成員張堃博、宋凌霄、吳翔、李禕、胡坦浩、黃懷波、李志航、李佩佩、胡一博和宋林森等人對於本次報告給予的協助和支持。謝謝大家。

參考文獻

[1] 複雜場景中多模態生物特徵獲取設備. 國家自然科學基金委重大儀器專項.

[2] 基於定序測量的物體識別理論和方法. 國家自然科學基金委重點項目.

[3] 基於非歐空間的視覺計算理論與方法. 國家自然科學基金委重點項目.

[4] 基於深度學習的人臉超解析度技術合作項目, 華為公司.

[5] 多視角人臉圖像合成技術合作項目, 華為公司.

[6] Xiang Wu, Ran He, Zhenan Sun, Tieniu Tan. A Light CNN for Deep Face Representation with Noisy Labels. IEEE Trans. Information Forensics and Security (2018).

[7] Shu Zhang, Ran He, Zhenan Sun, Tieniu Tan. DeMeshNet: Blind Face Inpainting for Deep MeshFace Verification. IEEE Trans. Information Forensics and Security 13(3): 637-647 (2018).

[8] Ran He, Wei-Shi Zheng, Tieniu Tan, Zhenan Sun. Half-Quadratic-Based Iterative Minimization for Robust Sparse Representation. IEEE Trans. Pattern Anal. Mach. Intell. 36(2): 261-275 (2014).

[9] Yibo Hu, Xiang Wu, Bing Yu, Ran He and Zhenan Sun. Pose-Guided Photorealistic Face Rotation. CVPR 2018.

[10] Lingxiao Song, Man Zhang, Xiang Wu, Ran He. Adversarial Discriminative Heterogeneous Face Recognition, AAAI 2018.

[11] Yi Li, Lingxiao Song, Xiang Wu, Ran He, Tieniu Tan. Anti-Makeup: Learning A Bi-Level Adversarial Network for Makeup-Invariant Face Verification, AAAI 2018.

[12] Peipei Li, Yibo Hu, Qi Li, Ran He, Zhenan Sun. Global and Local Consistent Age Generative Adversarial Networks. ICPR 2018.

[13] Huaibo Huang, Ran He, Zhenan Sun, Tieniu Tan. Wavelet-SRNet: A Wavelet-Based CNN for Multi-scale Face Super Resolution. ICCV 2017: 1698-1706.

[14] Lingxiao Song, Zhihe Lu, Ran He, Zhenan Sun, Tieniu Tan. Geometry Guided Adversarial Facial Expression Synthesis. CoRR abs/1712.03474 (2018).

[15] Rui Huang, Shu Zhang, Tianyu Li, Ran He. Beyond face rotation: Global and local perception gan for photorealistic and identity preserving frontal view synthesis. ICCV 2017.

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

馬雲發文,點評中美貿易戰;扎克伯格出席第二天聽證會;特斯拉明年11月將推Model Y | 雷鋒早報
理財科技蓬勃發展,瑞士全球領跑,7年後總值將達16萬億美元

TAG:雷鋒網 |