當前位置:
首頁 > 知識 > 讓計算機「看臉」識別罪犯?論文作者說並非「以貌取人」

讓計算機「看臉」識別罪犯?論文作者說並非「以貌取人」

分享獲25元知識紅包


犯罪分子的長相與普通人不一樣?一項出乎意料的機器學習領域研究結果引發了「以貌取人」是否科學的大討論,論文作者這樣回應>>


文/記者 白竟楠 編輯/劉昭

新媒體編輯/呂冰心


相傳美國前總統林肯親自面試一位應聘者,幕僚覺得那人不錯,但林肯沒錄用他。幕僚問林肯:「您覺得他能力不行嗎?」林肯回答:「我不喜歡他的長相!」


這個經典的橋段在坊間流傳甚廣,被用以輔助眾多勵志文章,教人管理自己的心緒,是所謂「相由心生」。不過,如果用理性的角度來看待這個問題,我們的長相先天上是由遺傳因素決定的,後天因素紛繁複雜,至今為止還沒有一種科學理論來證明長相與行為的關係。所以我們還是更加相信「人不可貌相」,千百年來「以貌取人」這個詞還帶有一定貶義的味道。

讓計算機「看臉」識別罪犯?論文作者說並非「以貌取人」


之所以要探討長相,是因為最近,上海交通大學電子信息與電氣工程學院教授武筱林和他的博士生張熙,發表了一篇題為《基於面部圖像的自動犯罪概率推斷》(Automated Inference on Criminality using Face Images)的研究論文,他們基於計算機視覺與機器學習的分類器模型,得出了一些比較「出人意料」的實驗結果:


犯罪分子與犯罪分子之間在面部的差異要大於普通人與普通人之間的差異,並且,犯罪分子與普通人之間有足夠差異,從數據上來說,罪犯的內眼角間距平均要比普通人短5.6%,上唇曲率大23.4%,鼻唇角角度小19.6%。


武筱林


計算機圖像處理方面頂級專家,2003年至今他一直是加拿大麥克馬斯特大學電子與計算機工程系教授、加拿大NSERC-DALSA數字影院項目首席科學家。武筱林還是國際電氣與電子工程師協會院士(IEEE Fellow),曾任國際圖像處理界頂級學術刊物IEEE Transactions on Image Processing的副主編。

實驗結果是怎樣得到的?


這篇研究論文被報道後引發了學界、公眾對於「以貌取人」這一歷史性話題的熱議,計算機真能通過長相來判斷是否是罪犯?我們先來了解一下整個實驗的過程:


▎數據準備:共收集1600餘張證件照


武筱林等實驗人員首先建立了一個人臉識別資料庫,樣本圖片包括普通公民和罪犯(嫌疑人)兩組,共1600多張黑白證件照,均為中國男性,年齡在18歲至55歲之間。

讓計算機「看臉」識別罪犯?論文作者說並非「以貌取人」


數據集中的樣本證件照,其中Sc 代表犯罪者,Sn 代表非犯罪者


普通公民的圖片從網上收集而來,罪犯(嫌疑人)的照片中,一半來源於公安部和各省公安廳貼在網上通緝罪犯的犯罪嫌疑人標準照片,另一半是與某公安局簽訂保密協議之後獲取的照片。


他們對這些照片進行了歸一化處理,也就是通過計算機圖像處理技術使得所有照片具有相同的解析度,對比度、亮度變化率(動態範圍),並把照片中的人臉進行了五官匹配,這樣做的目的是為了讓所有採集來的證件照在數學上有可比性。並且,罪犯(嫌疑人)的照片都為犯罪被逮捕前的證件照,沒有被警察審訊過後監獄拍攝的照片,所以表情中性比較自然。由於罪犯或嫌疑人的信息保密問題,研究者並不能知道所有罪犯(嫌疑人)的民族信息。

▎研究方法:四個分類器模型


用計算機對人臉進行犯罪與非犯罪傾向性的分類,需要建立計算機學習演算法,編寫程序。武筱林的團隊建立了四個分類器,它們是不同的邏輯判斷軟體,分別為Logistic Regression(邏輯回歸)、KNN(K最鄰近演算法)、SVM(支持向量機)和CNN(卷積神經網路)。這四個分類器是用不同的機器學習演算法生成的,最後通過各自的結論相互印證。為了實驗的嚴謹性,他們還控制了性別、年齡和面部表情等變數。


▎實驗過程:90%的樣本進行訓練,10%用於測試


在這一千多張的樣本圖片中,科研人員會挑出其中的90%讓電腦分析處理,相當於訓練電腦。實驗人員要將照片分為普通人和罪犯兩組,分別標註特徵,就像拍攝CG電影中的動作捕捉技術一樣,在人臉的不同肌肉組織處標記出來,即人臉的特徵點位置,然後讓機器學習這些特徵,當機器「學會」了這些特徵之後,再用剩下的10%的樣本對機器的學習成果進行測試。

讓計算機「看臉」識別罪犯?論文作者說並非「以貌取人」



研究者利用特徵生成機(Feture Generating Machine,FGM)抓取面部的差別性特徵(上圖紅框區域),比較的特徵分別是眼內角間寬 d,鼻唇角角度 θ ,以及嘴角弧度 p


▎實驗結果:


研究採取機器學習的方法驗證面部特徵與犯罪性的關係,利用特徵生成機(Feture Generating Machine,FGM)抓取面部的差別性特徵,分別比較了內眼角間距、鼻唇角角度以及上唇曲率等幾個特徵。


結果顯示,犯罪分子與普通人之間有足夠差異,從數據上來說,罪犯的內眼角間距平均要比普通人短5.6%,上唇曲率大23.4%,鼻唇角角度小19.6%。


並且,犯罪分子與犯罪分子之間在面部的差異是要大於普通人與普通人之間的差異,也就是說,普通人的長相相似度更高,犯罪分子的長相之間的不同更明顯。

讓計算機「看臉」識別罪犯?論文作者說並非「以貌取人」



四個分類器在 13 次交叉驗證中的正確率

讓計算機「看臉」識別罪犯?論文作者說並非「以貌取人」



誤判率

讓計算機「看臉」識別罪犯?論文作者說並非「以貌取人」



四個分類器的總體正確率


(上圖分別顯示了四個分類器的總體正確率和誤判率,可以看到,CNN 在交叉驗證中的分類正確率最高,達到 89.51%)


面對爭議,論文作者表示理解


但不要斷章取義


這篇論文引起的學術內外界的爭論讓武筱林始料未及。有聲音說這是以貌取人涉嫌歧視。對此,北京科技報「科學加」客戶端記者與武筱林教授取得了聯繫,在採訪過程中,他也對一些引起爭議的問題進行了回應。


▎目的只是為了研究計算機視覺和機器學習


「我是從事信息科技研究的,只不過在這其中涉及到了人文的內容,並不是以『相由心生』為目的。」武筱林向北京科技報「科學加」客戶端記者解釋,做這項研究最重要的目的是探索機器學習和人工智慧在社會計算方面的潛力,看電腦能不能通過學習達到人們在對陌生人的社會屬性及行為傾向性常有的第一印象。測試帶監督的機器學習方法是否可以對非犯法人群與犯法人群進行分類,只不過是挑了一個特殊的研究對象而已。

讓計算機「看臉」識別罪犯?論文作者說並非「以貌取人」



▎研究的靈感來源於心理學實驗?


2011年,康奈爾大學的心理學研究團隊做過一項研究,將普通公民的面部照片和犯罪者的面部照片混在一起,然後讓人分辨,實驗的結論是參加實驗者可以辨識到普通人與犯罪者的面部圖像差異特徵,並據此來推斷和區分所給定的面部圖像是普通人還是犯罪者。有人認為,武筱林最初的實驗靈感來源於這項研究。


武筱林否認了這一說法,他說到,自己從事的研究領域是計算機圖像技術,懂機器的人臉識別不一定懂心理學上的人臉判讀。正由於這項實驗涉及信息技術之外的內容,作為一個從事了30多年科學研究的科學家,學術的嚴謹性使得他閱讀了大量的與「罪犯面部識別」相關的其他領域的研究結果,這篇康奈爾大學的論文是他參考的論文之一。


只是沒想到的是,自己用計算機做出的實驗結果與康奈爾大學這項心理學研究的實驗結果有著極高的相似性,人眼可以識別出罪犯(嫌疑人),機器在通過訓練之後也可以。


▎實驗數據樣本還是較少


搜集照片和處理照片的過程經歷了三個月,這項工作由博士生張熙完成,武筱林把關和篩選張熙收集來的照片。


在武筱林看來,這一千多張樣本還是少了,由於技術手段和隱私條件的限制,拿不到更多的樣本,這也是此次研究很大的遺憾。「其實更科學的結論需要更大的數據樣本,由於罪犯(嫌疑人)樣本量的限制,所以此次試驗只以男性公民和男性罪犯(嫌疑人)為對象,女性的樣本量更小。」武筱林說。


▎實驗結果自己也很意外


武筱林介紹到,最核心的實驗過程經歷了一年的時間。「其實第一批實驗結果在論文發表一年前就已經得出了,但是慎重起見,我們對結果進行了反覆驗證,又在數據甄別、演算法完善、分類器參數微調上進行了優化,所以第二年才發表論文。」而最終得出的實驗結果證明,四個分類器結論基本一致,CNN演算法識別罪犯的準確率最高,高達80%以上。


對於自己用計算機做出的實驗結果與康奈爾大學的心理學研究實驗結果有著極高的相似性,武筱林表示自己也沒有意料到。


▎科研有禁區,質疑可以理解


在許多報道中,有許多業內外人士質疑武筱林和張熙的研究成果,認為這為「以貌取人」提供了依據,有悖倫理。武筱林說,面相與社會屬性之間的關聯有很多科研機構在不同的學科領域研究,但是所有的研究人員都小心翼翼,因為這種理論成果可能被濫用。「一個人的犯罪概率不是由面相決定的,更不能忽視犯罪的背景概率,因為犯罪這件事兒本身就是罕見的,中國的犯罪率很低。計算一個具有某種面部特徵的人的犯罪概率時,一定要用貝葉斯定理,一定要乘以人口總體的犯罪率也就是很小的背景概率時,才是有意義的。所以,不能單憑長相說明一個人的犯罪率高還是低。」


張熙表示,在寫作過程中,最難的事情就是謹慎使用辭彙,因為爭議性很強。「我們只希望呈現我們的研究成果,並不希望被誤解成歧視。在這方面遇到的困難甚至要大於程序的設計和編寫。許多科學研究就像武器一樣,關鍵看掌握在誰的手裡。學術是否有禁區,這是可以討論的,質疑可以理解,但是不能斷章取義。」


編後記


如果仔細地了解了實驗的全過程,我們會發現作者只是利用人臉識別的方法,來進行一項計算機視覺和機器學習領域的研究,並不存在證明或者證偽「以貌取人」這樣的目的,也沒有關於應用的討論。對於選取的實驗方法以及實驗條件是否合理,這完全是一個可探討的學術問題。


但要由此而得出「計算機人臉識別成果為『以貌取人』提供依據」這樣的推論,確實有失偏頗。我們不應該人為主觀地去判斷一項科學研究是否有意義或者意義是什麼,如果這項研究沒有人去做,我們又怎麼會關注這個「出人意料」的發現呢?


科學本就是在爭議和反覆驗證中一步步發展過來的,如果我們真的不相信,大可以用科學的方法來「證偽」,如加大樣本數量,利用不同的分類器模型,讓實驗條件更加完善等等。讓我們拭目以待,看看「以貌取人」這個詞究竟能不能用科學來解釋。


(本文由北京科技報全媒體中心采編製作,轉載授權請給「科通社」留言申請同意,違者必究)


你覺得小編記者不容易,就打個賞吧!

讓計算機「看臉」識別罪犯?論文作者說並非「以貌取人」



有疑問或尋求幫助,快加入"科學來幫忙"群!


科學通訊社(科通社scipress)


提供每日新鮮科學與生活資訊


組織各類有趣活動


主辦:北京科技報社 北科傳媒


請您繼續閱讀更多來自 科通社 的精彩文章:

美國《大眾科學》:今年最酷100項科技創新!9家中國企業「黑科技」入選
北京霧霾耐葯基因引恐慌事件的5個關鍵誤讀
手機藍光過濾功能:商業噱頭還是護眼法寶?
美國大叔專賣過期食品成網紅,臨期過期食品並非不能吃
《科學》刊文揭開「隱花色素」作用機制,科學家找到調節植物花期的「開關」

TAG:科通社 |

您可能感興趣

看不清摸不著還能識別出物體,目標演算法讓機器人更聰明
用人臉識別軟體來判斷罪犯,是不是太不靠譜了?
人臉識別+社保,你猜可以做什麼?
看看這款主打人臉識別的手機 如何讓你一見鍾情
如何識別「不懂愛」的人
人臉識別軟體為何不能總是有效?原因在此
啥?手機不能識別指紋也是病?
古人不能識別字跡,也沒有指紋識別器,為何還要簽字畫押?
唐僧明明可以識別六耳獼猴,為何裝作不認識?真相連如來也不敢說
最精確人臉識別模型破解人臉:結果難以想像
取廁紙靠人臉識別,難以促進文明
你知道射水魚嗎?它居然可以識別人類的臉
人臉識別究竟是如何實現的?
如何識別妹紙是不是照騙?
一篇文章告訴你 什麼是虹膜識別 以及它與你何干
計算機能通過圖片有效識別抑鬱症患者嗎
看懂中國書畫也容易識別古陶瓷真偽?這背後的原因是為何?
紋身識別資料庫:看紋身就知道你是不是壞人
視頻識別怎樣理解?其實,我們可以將其可視化!