「世界最大人臉對齊數據集」ICCV 2017：距離解決人臉對齊已不遠

新聞 09-23

1新智元編譯

「世界最大人臉對齊數據集」ICCV 2017：距離解決人臉對齊已不遠

ImageNet百萬級精準標記數據集開啟了圖像識別新時代，人們也由此意識到，數據跟演算法同樣重要。為了構建更好的模型和演算法，越來越多的研究人員開始在數據集方面展開探索，而且，標記數據的方法也不僅僅限於耗時耗力的人工。

這方面最新的一項成果，是諾丁漢大學計算機視覺實驗室的研究人員即將在ICCV 2017發表的論文，研究人員在論文中描述了他們創建的迄今最大的3D人臉對齊數據集（約230,000幅精準標記圖像），以及他們使用2D到3D轉換生成標記的方法。

論文標題名為《我們距離解決2D&3D人臉對齊還有多遠？》（How far are we from solving the 2D & 3D Face Alignment problem? And a dataset of 230,000 3D facial landmarks）。研究人員希望，在此數據集的基礎上，人臉對齊問題將迎來更大更快的發展。

「世界最大人臉對齊數據集」ICCV 2017：距離解決人臉對齊已不遠

效果展示：使用論文提出的網路（被作者稱為「世界上最準確的人臉對齊網路」）檢測面部特徵點，2D和3D坐標都適用。來源：項目的Github

人臉對齊，計算機視覺過去幾十年研究最多的一個議題

隨著深度學習的出現和大規模注釋數據集的發展，近來的工作已經顯示出即使在最具挑戰性的計算機視覺任務上也達到前所未有的準確性。在這項工作中，作者專註於特徵點定位（landmark localization），尤其是人臉特徵點定位，也被稱為人臉對齊（face alignment），「人臉對齊」也可以說是過去幾十年來計算機視覺中研究最多的主題之一。

近來關於使用卷積神經網路（CNN）的特徵點定位的工作已經推動了其他領域的界限，例如如人體姿態估計，但目前尚不清楚在人臉對齊方面取得怎樣的成果。

歷史上，根據任務的不同，有不同的技術已被用於特徵點定位。例如，在神經網路出現之前，人體姿態估計的工作主要是基於圖結構（pictorial structure）和各種複雜的擴展（extension），因為它們能夠模擬大的外觀變化，適應廣泛的人類姿勢。這些方法雖然沒有被證明能夠實現用於人臉對齊任務的級聯回歸方法（cascaded regression method）表現出的高精確度，但另一方面，級聯回歸方法的性能在初始化不準確的情況下，或有大量的自我封閉的特徵點或大的平面內旋轉時會變差。

最近，基於熱圖回歸（heatmap regression）的完全卷積神經網路架構徹底改變了人體姿態估計，即使對於最具挑戰性的數據集也得到非常高的準確度。由於它們對端到端訓練和人工工程的需求很少，這種方法可以很容易地應用於人臉對齊問題。

5大貢獻，包括首次構建強大基準，使用2D-3D方法構建迄今最大數據集

作者表示，按照這個路徑，「我們的主要貢獻是構建和訓練這樣一個強大的人臉對齊網路，並首次調查在所有現有的2D人臉對齊數據集和新引入的大型3D數據集上距離達到接近飽和性能（saturating performance）有多遠」。

更具體地說，他們的貢獻是：

1. 首次構建了一個非常強大的基準（baseline），結合state-of-the-art的特徵點定位架構和state-of-the-art的 residual block，並在非常大的綜合擴展的2D人臉特徵點數據集訓練。然後，我們對所有其他2D數據集（約230000張圖像）進行評估，調查我們距離解決2D人臉對齊問題還有多遠。

2. 為了解決3D人臉對齊數據集少的問題，我們進一步提出了一種將2D注釋轉換為3D注釋的2D特徵點CNN方法，並使用它創建LS3D-W數據集，這是迄今最大、最具挑戰性的3D人臉特徵點數據集（約230000張圖像），這是將現有的幾乎所有數據集統一起來得到的。

3. 然後，我們訓練了一個3D人臉對齊網路，並在新的大型3D人臉特徵點數據集進行評估，調查我們距離解決3D人臉對齊問題尚有多遠。

4. 我們進一步研究影響人臉對齊性能的所有「傳統」因素，例如大姿態，初始化和解析度，並引入「新的」因素，即網路的大小。

5. 我們的研究結果顯示，2D和3D人臉對齊網路都實現了非常高準確度的性能，這可能是接近了所使用的數據集的飽和性能。

「世界最大人臉對齊數據集」ICCV 2017：距離解決人臉對齊已不遠

2D-FAN結構：通過堆疊四個HG構建的人臉對齊網路（Face Alignment Network ，FAN），其中所有的 bottleneck blocks（圖中矩形塊）被替換為新的分層、並行和多尺度block。

方法及數據：2D、3D標註及2D-3D轉換都接近飽和性能

作者首先構建了一個人臉對齊網路「FAN」（Facee Alignment Network），然後基於FAN，構建了2D-to-3D-FAN，也即將給定圖像2D面部地標轉換為3D的網路。作者表示，據他們所知，在大規模2D/3D人臉對齊實驗中訓練且評估FAN這樣強大的網路，還尚屬首次。

他們基於人體姿態估計最先進的架構之一HourGlass（HG）來構建FAN，並且將HG原有的模塊bottleneck block替換為一種新的、分層並行多尺度結構（由其他研究人員提出）。

「世界最大人臉對齊數據集」ICCV 2017：距離解決人臉對齊已不遠

2D-to-3D-FAN網路架構：基於人體姿態估計架構HourGlass，輸入是RGB圖像和2D面部地標，輸出是對應的3D面部地標。

「世界最大人臉對齊數據集」ICCV 2017：距離解決人臉對齊已不遠

2D-FAN標記結果

「世界最大人臉對齊數據集」ICCV 2017：距離解決人臉對齊已不遠

3D-FAN標記結果

下面是跟現有方法（紅色）的對比，這樣看更能明顯地看出新方法的精度：

「世界最大人臉對齊數據集」ICCV 2017：距離解決人臉對齊已不遠

除了構建FAN，作者的目標還包括創建首個超大規模的3D面部地標數據集。目前3D面部地標的數據還十分稀少，因此也讓這項工作貢獻頗大。鑒於2D-FAN卓越的效果，作者決定使用2D-to-3D-FAN來生成3D面部地標數據集。

但是，這也帶來了一個問題，那就是評估2D轉3D數據很難。現有的最大同類數據集是AFLW2000-3D。於是，作者先使用2D-FAN，生成2D面部地標標註，再使用2D-to-3D-FAN，將2D數據轉換為3D面部地標，最後將生成的3D數據與AFLW2000-3D進行比較。

結果發現，兩者確實有差異，下圖展示了差異最大的8幅圖像標記結果（白色是論文結果）：

「世界最大人臉對齊數據集」ICCV 2017：距離解決人臉對齊已不遠

作者表示，造成差異的最大原因是，以前的方法半自動標記管道對一些複雜姿態沒有生成準確的結果。於是，在改進數據後，他們將AFLW2000-3D納入現有數據集，創建了LS3D-W（Large Scale 3D Faces in-the-Wild dataset），一共包含了大約230,000幅標記圖像，也是迄今最大的3D人臉對齊數據集。

作者之後從各個方面評估了LS3D-W數據集的性能。研究結果表明，他們的網路已經達到了數據集的「飽和性能」，在構圖、解析度，初始化以及網路參數數量方面表現出了超高的彈性（resilience）。更多信息參見論文。

作者表示，雖然他們還沒有在這些數據集中去探索一些罕見姿態的效果，但只要有足夠多的數據，他們確信網路也能夠表現得一樣好。

論文：我們距離解決2D&3D人臉對齊還有多遠？

「世界最大人臉對齊數據集」ICCV 2017：距離解決人臉對齊已不遠

摘要

本文研究了一個非常深的神經網路在現有的2D和3D人臉對齊數據集上達到接近飽和性能的程度。為這個目的，我們提出做了5個貢獻：（a）結合最先進的人臉特徵點定位（landmark localization）架構和最先進的殘差模塊（residual block），我們首次構建了一個非常強大的基準，在一個非常大的2D人臉特徵點數據集（facial landmark dataset）上訓練，並在所有其他人臉特徵點數據集上進行評估。（b）我們創建了一個將2D特徵點標註轉換為3D，並統一所有現有的數據集，從而創建了迄今最大、最具有挑戰性的3D人臉特徵點數據集LS3D-W（約230000張圖像）。（c）然後，我們訓練一個神經網路來進行3D人臉對齊（face alignment），並在新的LS3D-W數據集上進行評估。（d）我們進一步研究影響人臉對齊性能的所有「傳統」因素，例如大姿態( large pose)，初始化和解析度，並引入一個「新的」因素，即網路的大小。（e）我們的研究顯示2D和3D人臉對齊網路都實現了非常高的性能，這很可能接近所使用的數據集的飽和性能。訓練和測試代碼以及數據集可以從 https://www.adrianbulat.com/face-alignment/ 下載。

論文：https://arxiv.org/pdf/1703.07332.pdf
Github：https://github.com/1adrianb/face-alignment

以及模型下載

2D-FAN：https://www.adrianbulat.com/downloads/FaceAlignment/2D-FAN-300W.t7
3D-FAN：https://www.adrianbulat.com/downloads/FaceAlignment/3D-FAN.t7
2D-to-3D FAN：https://www.adrianbulat.com/downloads/FaceAlignment/2D-to-3D-FAN.tar.gz
3D-FAN-depth：https://www.adrianbulat.com/downloads/FaceAlignment/3D-FAN-depth

點擊閱讀原文可查看職位詳情，期待你的加入~

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※「微軟AI已達8000人」加大AI賭注，聯手亞馬遜，與谷歌蘋果抗衡
※全球肝臟腫瘤病灶區CT圖像分割挑戰大賽，聯想E-Health奪得冠軍
※Tesla與AMD合作自駕車AI晶元，是深度合作還是炒作？
※用深度學習解決自然語言處理中的7大問題，文本分類、語言建模、機器翻譯等

TAG:新智元 |