當前位置:
首頁 > 知識 > 為什麼只多看你一眼,就再也沒能忘掉你容顏?

為什麼只多看你一眼,就再也沒能忘掉你容顏?

圖片來源:www.pcquest.com

編者按:

為什麼你見過一個人便會記得他的容顏?你的大腦在那一刻發生了什麼?人工智慧面部識別技術的日漸成熟,開啟了「刷臉時代」。那麼人類又是如何識別面孔的呢?和機器面部識別原理一樣嗎?

加州理工學院的幾位博士生創辦的微信公眾號《科考夫瞭望》(ID:BioBurst),立足加州理工,介紹了許多有趣的研究,比如水母會不會睡覺、為什麼鹼蠅在水裡身子不濕、小鼠怎麼學會分辨雌雄等等。而本篇文章則詳細介紹了加州理工學院Doris Y. Tsao教授實驗室的一項工作,闡明了我們大腦的最高級視覺區域究竟是用何種方式奇蹟般地記錄下成千上萬張人臉的。

撰文 | 石悅琳

責編 | 程 莉 蔣海宇

知識分子為更好的智趣生活 ID:The-Intellectual

1963年的某一天,Woody Bledsoe先生坐在一台古怪的儀器前,測試著他新發明的人臉識別系統。他拿著觸控筆在一張照片上點點畫畫,記錄到的電信號被傳入了電腦,幾分鐘後,電腦顯示出一行小字:照片中的人是懷特先生。

WoodyBledsoe測試人臉識別系統時使用的RAND 數位板。來源:https://medium.com

這是人臉識別任務第一次在計算機上實現,雖然整個過程既不迅速也不自動,但卻無疑是人工智慧歷史上重要的一筆。歷經短短數十年的發展,人臉已經代替指紋、虹膜等傳統的生物識別體征廣泛應用在了商界乃至政府部門。從引領革命的iPhoneX刷臉解鎖到逐漸興起的刷臉簽到、直播特效,人臉識別儼然已經成為了新的大眾日常。

來源:https://nai500.com

但是,人類自身是如何識別人臉的?儘管人臉識別技術日新月異,科學家們對這一問題的研究卻進展緩慢。機器面部識別的巨大成功,為神經科學家們帶來了新的思路——人腦的面部識別機制或許會與機器面部識別原理殊途同歸。

畢竟,我們的大腦和「硅基生物」計算機還是有幾分相似之處的:計算機眼中的人臉是由0和1組成的矩陣,我們使用的編碼符簡單來說也只有神經元放電或不放電兩種。和計算機一樣,我們進行人像識別也必然需要從圖像中進行特徵提取、將提取到的特徵放到一個名叫「記憶」的資料庫中進行比對、最終調取身份信息、輸出判斷結果等。

人臉識別簡要流程。來源:http://www.transpeedtraffic.com

也正是順著這樣的思路,加州理工學院Doris Y. Tsao教授實驗室的一項工作踏出了探尋人臉識別生物學原理的第一步。他們想搞清我們大腦的最高級視覺區域究竟是用何種方式奇蹟般地記錄下成千上萬張人臉的。

Doris Y.Tsao, 加州理工學院生物學教授。來源:http://www.bbe.caltech.edu/content/doris-y-tsao


難辨真偽的「祖母細胞」理論

這世上的臉龐千千萬,腦子裡的細胞也有千千萬。長期以來科學家們提出過的可能的人臉神經編碼模型更是不勝枚舉。在這些模型的兩極,屹立著兩派截然相反的經典編碼理論:「稀疏編碼」和「密集編碼」。

我們可以用顏色的編碼來類比理解:假設現在我們需要用神經信號來表徵世界上所有的顏色,一種方法是我用一兩個細胞表示紅色,用另一兩個細胞表示藍色,等等,這樣哪個細胞響應就意味著看到了哪種顏色,由於這種情況下活躍的細胞總是非常稀少,因此被稱為「稀疏編碼」(下圖左);而生活中大多數電子設備使用的RGB系統則是「密集編碼」,因為不管看到什麼顏色,這群(當然這裡只需要三個,分別負責R、G、B頻道)細胞都需要同時被點亮,我們總是需要通過這一群細胞的激活強度,綜合推斷出看到的是什麼顏色(下圖右)。

顏色的稀疏編碼和密集編碼示意圖。來源:http://gnuplot.sourceforge.net

稀疏編碼中最極端的情形,叫做「祖母細胞」模型。根據這種假說,人腦中存在一個神經細胞,當一個特定的概念如你的祖母頭像出現時,這個細胞就會激活。在2005年,這種祖母細胞竟然當真在一個與記憶相關的腦區被發現(註:是加州理工的研究者發現的,見注1,不過這個實驗還存在很多爭議),引起了不小轟動。

祖母細胞 來源:www.star2.com

目前科學家們已經比較確定,「記人」過程的主要機制的確是稀疏編碼,但是對「看臉」的過程中究竟是稀疏模型還是密集模型還不清楚。雖然此前的若干證據都提示,「看臉」可能使用的也是稀疏編碼,但很多科學家還是將信將疑:「看臉」畢竟和「記臉」不同,我們這一生能看到的臉是沒有上限的,用稀疏編碼把神經元用完了怎麼辦?


在猴腦中找到「看臉區」

要解決這個大問題,無的放矢可不行。為了進一步的研究,首先得找出我們的人臉識別系統潛伏在大腦的什麼地方。

科學家們很早就用fMRI在人腦中找到了一塊喜歡「看臉」的腦區:梭狀回面孔區(Fusiform Face Area,FFA),這塊區域里的細胞在看臉的時候會突然興奮,而看到其他物體的時候則一臉冷漠。可惜由於倫理上能利用人類進行的實驗有限,這項工作也就此停滯。

直到2003年,博士期間的Doris第一次在恆河猴的腦中找到了一些類似的「看臉區」(Face Patches):在猴子們認真觀看小電視上閃過的人臉或猴臉的時候,有若干腦區也會像在人腦中一樣開始活躍。緊接著2006年,他們設計好軌道,將一根電極準確插入猴腦的看臉區,真正聆聽到了單個神經元的聲音,的確,看臉區里97%的細胞都對臉情有獨鍾。雖然它們放電的波形、頻率和強度都各不相同,但對臉的反應強度都顯著高於其他各類物體。

A)fMRI實驗中亮起的「看臉區」

B)觀看不同類別物體時的fMRI信號對比

C)觀看不同類別物體時的單細胞信號對比 來源:[2]

猴腦中6個大大小小的看臉區都坐落在一個叫做下顳葉(Inferior Temporal,IT)的腦區。下顳葉是視覺腹側通路的終點站,也就是負責日常處理「我們看到的是什麼」信息的最高級腦區。在這裡,我們眼中的物體作為一個整體被下顳葉區的神經元識別,而且不因物體的位置、觀察角度、光照條件等而改變。

而了解下顳葉區細胞的工作原理一直困難重重,一個重要的原因,是世界上物體種類太多而模樣繁雜,很難定量研究。這時,一塊專為識別臉而特化的腦區就顯得尤為珍貴。


人臉識別的RGB

找到看臉區後,我們迎來了最重要的問題:人臉是如何在看臉區表徵的呢?

要證明某一個腦區確實編碼了某個事物,至少需要正反兩個方面的驗證:

1. 給定一張人臉,可以預測出看到這張臉時該腦區神經元群體的發放(電脈衝信號)

2. 給定一群神經元產生的發放,可以反推出他看到的臉

來源:[3]

也就是我們要證明人臉圖像和神經元興奮之間存在著一定的映射關係。

此前Doris實驗室在看臉區中發現了一些只稀疏地對某幾張臉興奮的細胞[4],這就是之前提到的使許多科學家相信人臉識別使用的也是稀疏模型的證據之一。但這些個例無法解釋剩下那些對大量臉都興奮的細胞的工作機制。因此更有可能的是,看臉區使用的是密集編碼,而那些稀疏細胞則是特例。

根據前面介紹的稀疏編碼的思想,我們如果能找出每個細胞負責編碼的是面部的哪些特徵,就可以理解看臉系統的運作原理。簡單的理解,就像在遊戲中捏臉一樣:

來源:http://www.newyx.net

如果每個神經元代表上圖中的一個參數條(一個特徵維度),我們就能輕易根據這群神經元的發放「捏」出人臉。

不過,現實與遊戲的不同之處在於,這些參數條並不能構成一個數學上完備的臉空間,如果失去了事先設定的母版,僅靠這些參數其實是無法確定出臉的模樣的。

為了更科學地找出所需要的面部特徵維度,研究人員將人臉信息分為了形狀和外觀兩部分,再分別對200張人臉圖像的形狀和外觀數據通過主成分分析(PCA)降維至25維,並共同拼成了一個50維的臉空間。

形狀示意:

來源:[3]

外觀示意:

來源:[3]

經過這種處理,這50個維度將代表著「用數據說話」的臉部重要特徵,而不是眼睛大小、鼻子高低這種人為預設的特徵。更重要的是,世界上的每一張臉都會成為這個臉空間中一個獨一無二的一點,任意在這個臉空間中取一點就能根據其坐標還原出原始圖像,我們於是有了一個完備的對人臉的數學表述。

現在讓我們來看看,看臉時,每個神經元究竟在幹什麼。

我們沿著臉空間里的任意一個方向(一條從原點延伸出去的軸)等距離的取一些點,把這些點翻譯成人臉圖像播放給猴子,同時記錄一個神經元見到這些臉時的激活強度。我們得到了這樣的一條線段:

神經元放電頻率與臉空間某方向上臉的位置的關係 來源:[3]

幾乎所有被記錄的細胞的激活程度都會隨著臉的排布按這樣一條線段變化,這說明臉區神經元的活躍程度與臉的每個特徵都是線性關係!

用數學語言來說,這說明每個神經元的活動強度等於它看到的臉的50維坐標的某種線性組合。而只要把這個線性關係逆推一下,就可以通過這群細胞的發放強度求得一張臉的坐標。所以,如果我們設法擬合出這個線性關係的係數,就等於找到了從人臉圖像到神經元群體發放的映射關係式,證明看臉區的確在用這種方式編碼人臉。

神經元群體活動與臉的坐標的線性關係 來源:[3]

結果如我們所料,這個線性模型近乎完美地詮釋了神經活動與人臉的映射關係。當我們畫出從神經活動反推出的人臉,已經很難分辨出哪些是預測結果,哪些是原始圖片。

來源:[3]

至此,問題的答案終於水落石出,人臉識別使用的是密集編碼。看臉區每個神經元代表的特徵都是臉空間里沿某個方向的一條軸,它的發放強度取決於空間中一張臉投射在這根軸上的長度。我們可以把這個模型叫做人臉識別的軸模型。


給「祖母細胞」模型的最後一擊

一個好的理論,除了做到自身無懈可擊,還要有「落井下石」的功力——證明其他模型是錯誤的。

沿著「細胞是一條軸」的結論,可以想到一種巧妙的檢測方法:用一個細胞所代表的「軸」的某個垂直面上遠近不同的一些「臉」來測試這個細胞的反應強度。

軸模型和「祖母細胞」模型會對實驗結果給出兩種截然不同的預測。根據軸模型,神經元應當會對這些垂直面上的「臉」都給出相同強度的響應,因為這些垂直面上的臉所對應的向量投射在這根軸上的長度都是相同的;而如果是祖母細胞模型成立,那麼細胞對垂直面上不同的「臉」應當會有不同強度的響應,此時決定細胞響應強度的將是這張「輸入臉」與細胞自身對應的「祖母臉」相似程度有多高,也即「輸入臉」與「祖母臉」在臉空間的距離。

軸模型與稀疏模型在垂直面上的重要區別。來源:[3]

不僅如此,軸模型甚至還可以解釋曾誤導了科學家們的稀疏細胞的存在:它們只是一些特別挑剔的細胞,也就是說只有當一張臉投影在細胞軸上非常短的一段區間里時它才興奮,這使得只有少數正好投影在那個區間的臉可以被感知。實驗結果一一證實了這些猜想。

人臉識別的軸模型。來源:[3]

至此,研究人員終於成功解釋了人臉在靈長類動物中的編碼機制,並至少在人臉識別(「看臉」)領域推翻了科學家們長期以來認為正確的稀疏編碼理論。當然,這還只是萬里長征的第一步,要真正弄懂人臉識別的原理,還有太多問題等待被解答:我們如何將每張臉的編碼存儲下來?當前的人臉如何與記憶中的信息進行比對?如何將臉的信息與一個人的其他身份信息整合在一起?……

相信軸模型的誕生,會是這場漫漫征途的一把利劍。

目前世界上最完美的人像識別系統:

來源:http://www.dailymail.co.uk

感謝陳欣泓、丁霄哲兩位同學對本?修改提供的幫助。

參考資料:

[1] Invariant visual representation by single neurons in the human brain R. Quian Quiroga et al. Nature, 435. 1102 - 1107, 2005.

[2] A dedicated system for processing faces Tsao DY. Science, 314, 72-73, 2006.

[3] The code for facial identity in the primate brain Chang L, Tsao DY. Cell, 169, 1013-1028, 2017.

[4] Functional compartmentalization and viewpoint generalization within the macaque face-processing system Freiwald WA, Tsao DY, Science, 330, 845-851, 2010.

製版編輯 | 黃玉瑩

本頁刊發內容未經書面許可禁止轉載及使用

公眾號、報刊等轉載請聯繫授權

copyright@zhishifenzi.com

商務合作請聯繫

business@zhishifenzi.com

知識分子為更好的智趣生活 ID:The-Intellectual

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 知識分子 的精彩文章:

學人說:學童的體驗式教育:淺談英國的食農教育

TAG:知識分子 |