從事人臉識別研究必讀的N篇文章

知識 11-18

本文作者風雨兼程，本文首發於作者的知乎專欄《機器之眼》， AI研習社獲其授權發布。

該文內容較老，但對入門者還是有很強的學習意義，可以了解人臉識別的歷程與技術發展。

人臉檢測/跟蹤

人臉檢測/跟蹤的目的是在圖像/視頻中找到各個人臉所在的位置和大小；對於跟蹤而言，還需要確定幀間不同人臉間的對應關係。

1.Robust Real-time Object Detection. Paul Viola, Michael Jones. IJCV 2004.

入選理由：

Viola的人臉檢測工作使得人臉檢測真正變得實時可用。他們發表了一系列文章，這篇是引用率最高的一篇。

2.Fast rotation invariant multi-view face detection based on real Adaboost. Bo Wu, Haizhou Ai, Chang Huang, Shihong Lao. AFGR 2004.

入選理由:

自viola之後，有很多改進文章，這篇文章只是其中之一。之所以選擇這篇，是因為其貢獻點相對比較多：一是因為這篇文章第一次將real adaboost應用於物體檢測，二是其提出了一個比較成熟實用的多姿態人臉檢測框架，三是其提出的nest結構對cascade結構的改進確實有不錯的效果。

3.Tracking in Low Frame Rate Video: A Cascade Particle Filter with Discriminative Observers of Different Life Spans. Yuan Li, Haizhou Ai, Yamashita T., Shihong Lao. CVPR 2007.

入選理由：

人臉跟蹤是人臉識別中非常重要的模塊。這篇文章是比較好的將人臉檢測模型與跟蹤進行結合，將離線模型和在線模型結合的工作，而且獲得了CVPR 2007 Best Student Paper，是中國大陸學生第一次獲此殊榮。

人臉特徵點定位

人臉特徵點定位的目的是在人臉檢測/跟蹤獲取的人臉區域的基礎上，進一步，確定臉部特徵點（眼睛、嘴巴中心點、眼睛、嘴巴輪廓特徵點、器官輪廓特徵點等）的位置。人臉特徵點定位的基本思路，主要是將人臉局部器官的紋理特徵和器官特徵點之間的位置約束進行結合來進行處理。

4.Active Shape Models-Their Training and Application. T. F. COOTES, C. J. TAYLOR, D. H. COOPER, AND J. GRAHA. COMPUTER VISION AND IMAGE UNDERSTANDING. 1995.

入選理由：

早期的人臉特徵點定位，很多工作主要集中在定位眼球中心點和嘴巴中心點等兩三個關鍵點上，但是，後來慢慢大家認為，引入更多的點，並加入相互約束會提高定位精度和穩定性。ASM是後來被大家所follow最多的將數十個臉部特徵點的紋理和位置關係約束一起考慮來進行計算的模型，COOTES的這篇文章發表於1995年，絕對是開先河之作，絕對經典。

5.Boosted Regression Active Shape Models. David Cristinacce and Tim Cootes. BMVC, 2007.

入選理由：

ASM相關改進的文章非常多，最值得一提的當然是AAM（也是cootes最早提出）模型，除此之外還有一個非常重要的思路，就是改進原文章基於邊緣的紋理模型。個人認為，這篇文章中所給出的基於回歸方式表示紋理模型的方式比基於分類表觀模型的方法更有前途，因為是cootes的文章，自然就更應該被推薦。

6.Face Alignment by Explicit Shape Regression. Xudong Cao, Yichen Wei, Fang Wen, Jian Sun. CVPR 2012.

入選理由：

這篇文章是上述提到的ASM相關改進的另外一個方向，就是對形狀模型本身的改進。這篇文章沒有用PCA去約束形狀模型，而是基於訓練樣本的線性組合來約束形狀。而且，其在alignment的效果(LFPW測試集)上是目前看到最好的，此外，這個方法的速度非常快。由於是MSRA孫劍組的文章，確實應該被關注更多。

人臉表示

人臉表示是指根據人臉特徵點的位置，對人臉進行幾何校正並割取人臉區域（歸一化到固定大小）之後，得到最具有鑒別（區分）能力的特徵的過程。

7.Eigenfaces for recognition. M. Turk and A. Pentland. Journal of Cognitive Neuroscience. 1991.

入選理由：

這需要理由嗎？基於PCA的特徵臉是人臉識別最經典的演算法之一，雖然今天PCA在實際系統中更多的是用來降維，而不是用來分類，但是這麼經典的方法還是要關注的。其實，基於LDA的方法也非常經典，不過，考慮到篇幅有限，就不再列舉了。

8.Local Gabor Binary Pattern Histogram Sequence (LGBPHS):A Novel Non-Statistical Model for Face Representation and Recognition

入選理由：

個人認為這可能是最接近於很多成熟商用系統思路的文章。在很多實際系統中，一個提取鑒別信息的框架就是PCA+LDA,用PDA進行降維避免LDA求解的矩陣奇異問題，用LDA提；同時，將各種原始特徵進行鑒別特徵提取後進行決策級融合，目前最常用的特徵包括Gabor，LBP等。此外，對人臉進行分塊然後ensemble融合也是非常重要的提高系統效果的思路。

9.Blessing of Dimensionality: High-dimensional Feature and Its Efficient Compression for Face Verification. Dong Chen. Xudong Cao. Fang Wen. Jian Sun. CVPR 2013.

入選理由：

LFW是目前最接近實際數據的人臉識別庫，雖然其測試協議有一些不盡合理的地方，但是如果能在LFW上面取得非常好的效果，說明方法還是比較好的。而這篇MSRA 孫劍組發表在CVPR2013的文章，在LFW上面取得了93%的準確率（未引入外部數據的情況下）。文章中的一個是採用精確定位點作為參考對人臉進行多尺度、多局部區域的表示思路很值得借鑒，可以和各種表示方法結合。

10.？

其實可以列在此處的論文非常多，有各種子空間方法的改進，有各種特徵提取方法，有各種基於metric learning的方法，bunch graph（將gabor應用於人臉識別的經典工作），稀疏表示的方法，feature learning 的方法等等。但是，我都感覺不是特別滿意。我總覺得，人臉表示方面的工作還做得遠遠不夠，應該會有框架清晰簡潔、易於實現、但效果絕佳的文章出現。現在的我會傾向於認為也許deep learning是一個方向。

其實嘗試將deep learning用在人臉識別上面的工作已經有一些，但是結果都不是很驚艷（百度的工作沒有公開結果），我列上一篇不夠好但是效果勉強接近非deep learning方法的一篇：

Deep nonlinear metric learning with independent subspace analysis for face verification. X Cai, C Wang, B Xiao, X Chen, J Zhou. MM 2012.

供參考。

人臉識別在未來的一些可能方向

1.深度學習在人臉方面的應用，目前已經看到deep learning在人臉表示和人臉特徵點定位方面的工作，相信後續會有更多更好的工作出現；

2.大規模人臉搜索相關的應用近來開始被大家關注（比如最近百度上線的人臉搜索），這些應用中除了需要傳統的人臉表示，還需要關注如何能夠快速準確地在大規模人臉資料庫中搜索到相似人臉，當然這部分工作可以借鑒其他視覺搜索中的方法，但人臉可能也會有自己的特殊性；

3.基於3D模型和具有深度信息的人臉識別的方法，在允許使用特殊設備的實際應用中，可以考慮用3D模型和深度信息來提高系統的穩定性；

4.在做人臉識別實際系統時，可以更關注姿態、遮擋、表情變化對於識別效果的影響，對於人臉光照問題，雖然之前學術界關注很多，但是對於實際數據（非實驗室採集的光照模擬數據），可能基於大規模訓練數據和feature learning就可以比較好的解決，反而是由於目前的人臉表示框架，對於大的姿態變化，遮擋以及表情變化引起的表觀改變，很多情況下表現並不好，可能需要重新改變目前的人臉表示方式，比如採用類似推薦論文9中的方式，採用多個局部模型而不是一個整體模型來進行表示，還可以考慮一些人臉姿態/表情矯正方法；

5.學術界的朋友，鑒於目前LFW上面已經做到準確率95%（引入外部訓練數據且無約束訓練協議），可以考慮創建一個更大的人臉庫（如果能達到真正意義上的大規模數據就更贊了），設計一個更加合理全面的評測協議，這必將成為一個非常有影響力的工作。

不要等到演算法出現accuracy不好、

loss很高、模型overfitting時，

才後悔沒有好好掌握基礎數學理論。

走穩機器學習第一步，夯實數學基礎！

「線性代數及矩陣論、概率論與統計、凸優化」

3大數學基礎課程，火熱團購中！

掃碼參團

人臉檢測與識別的趨勢和分析

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！