「看臉判斷性取向」研究者：我們是為了讓同性戀人群感到可能已經面臨的風險

新聞 09-09

1新智元編譯

「看臉判斷性取向」研究者：我們是為了讓同性戀人群感到可能已經面臨的風險

深度學習賦能的面部識別技術，似乎並不滿足於識別你這個人，而是要識別出你的貧富、犯罪傾向……如今，你的性取向甚至也要被「識別」出來。

「看臉判斷性取向」研究者：我們是為了讓同性戀人群感到可能已經面臨的風險

斯坦福大學 Michal Kosinski 和 Yilun Wang 的一項研究（論文地址：https://osf.io/zn79k/）表明，機器視覺技術可以通過分析人臉來推斷性取向。研究人員使軟體通過分析人的面部結構的微妙差異來做到這一點。Kosinski 博士表示，只要有正確的數據集，類似的AI系統可以被訓練來發現其他私人的特徵，例如智商和政治主張。人類可能無法看到臉表現出來的跡象，但機器就不一定做不到。

這一研究已引起了軒然大波，更有外媒直接評論該研究展示出了「數據時代的暗面」。然而，研究者本人在論文中所做的聲明卻並沒有被廣泛注意到，讓我們先看看兩位研究者是如何闡釋自己研究的意義和局限的。

我們希望警告讀者，不要誤讀或者過度解讀研究結果

我們的研究結果表明了我們的面部包含了更多關於我們性取向的信息，而這些信息並未被人類大腦全部理解或解讀。

我們的研究分為下列部分：

研究1a顯示 DNN 提取的面部特徵能夠用來準確識別男人和女人的性取向；

研究 1b顯示出系統的預測是基於面部區域而非背景；

研究 1c揭示出同性戀男性和女性具有非典型性性別特徵，這和 PHT 的預測一樣（prenatal hormone theory，產前激素理論——這是被廣泛接受的解釋面部特徵和性取向聯繫的理論）；

研究 2顯示是同性戀的概率和男性面部的女性特徵成正關聯，和女性面部的女性特徵呈負關聯；

研究3確認了很多關於性取向的信息會體現在固定的面部特徵中，例如面部輪廓和鼻子的形狀；

研究 4顯示使用在研究1a 中的非標準面部圖像對性取向沒有太多揭示意義，至少對人類判斷來說是這樣，其準確率和此前的研究相同，其中一些使用了在嚴格控制的環境中拍攝的比較中性的臉龐；

研究 5顯示，在研究1a 中開發的基於DNN 的分類器，當輸入不同環境下拍攝的同性戀面部照片時，性能相似，由此進一步確認了以上結果；

我們的研究結果為 PHT 理論提供了強有力的證據。PHT 認為同性戀性取向源於男性胎兒對與產前雄性激素的暴露不足和女性胎兒對於產前雄性激素的暴露過度，產前雄性激素決定了面孔、偏好和行為的性特徵。

重要：我們希望警告讀者，不要誤讀或者過度解讀研究結果。

首先，平均上來說，男性同性戀和女性同性戀面孔呈現非典型性性別特徵，這一事實並不意味著所有的男同性戀比男異性戀更女性化，也不意味著沒有男同性戀具有顯著的男性面部特徵，女同性戀的情況也是如此。本研究所觀測到的女性化特徵差異是細微的，覆蓋了許多面部特徵，而且只有在檢視許多面孔的平均圖像時才凸顯出來。

第二，我們的結果決不是要說明人類能夠從面孔判讀出一個人的性取向。事實上，研究 4 確認了，人類在通過面部判斷同性戀和異性戀個體的面部圖像時，是非常不準確的。

最後，對分類準確度的解讀也很重要，甚至經常和直觀感受相反。AUC = .91 並不意味著在給定人口中，男同性戀的 91% 可以被識別，或分類結果在 91% 的時間裡是正確的。分類器的性能依賴於準確率（即分類器認為是同性戀的人群中，真實同性戀的比例）和召回率（即正確識別為同性戀的人群在所有給定人群中真實同性戀的比例）的平衡。

追求更高的準確率會降低召回率，反之亦然。

「圖像是從某約會網站上取得的，它們本身可能就特別展示出了性取向」

本研究存在一些局限性。我們使用的是不同質量、不同頭部方向和面部表情的非標準圖像。這提供了更高的形態有效性和更大、更具有代表性的樣本，但也引入了干擾因子。另外，圖像是從某約會網站上取得的，它們本身可能就特別展示出了性取向。

我們採用了一個專門訓練用來識別面部固定特徵的模型（研究 1a），揭示了使得預測和PHT 理論一致的的面部特徵（研究 1c 和研究 2），確定了研究使用的圖片並不比在受控環境下拍攝的中性面孔照片（研究 4）或從 Facebook 上獲取的照片（研究 5）更具有揭示意義。由此，我們相信自己的研究是充分的。

另一個問題和 ground truth 的質量有關：有可能一些被分類成為異性戀的用戶，實際上是同性戀或雙性戀（反之亦然）。然而，我們相信，在約會網站上資源尋找伴侶的人，錯誤展示其性取向的動機不大。另外，如果有一些用戶確實被錯誤標記了，糾正這些錯誤可能會使分類器的準確度進一步提高。

此外，儘管我們努力去獲取更多樣性的樣本，我們仍然只研究了美國的白人參與者。由於對同性戀人群的偏見，以及不同種族的用戶對約會網站的使用並不平均，我們無法找到足夠數量的非白人同性戀參與者。

然而，我們相信，我們的結果有可能泛化到研究的人群之外。結果和性取向的 PHT 理論一致，這一理論本身被許多關於人類和哺乳動物的研究所支持。因為對非典型性別雄性激素的暴露水平對不同種族的人類面孔的影響程度可能相似，他們的面孔有可能會同樣揭示出性取向。

最後，帶有明顯同性戀面部特徵的個體更有可能公開性取向。如果真是這樣，在公開性取向的同性戀的面部照片上訓練而得的分類器的準確度可能在檢測非公開性取向的同性戀時降低。我們沒有數據測試這一假說，需要注意的是，「公開性取向」取決於許多社會、文化和法律因素。

「我們認為亟需讓政策制定者、大眾和同性戀社群意識到他們可能已經面臨的風險」

我們的樣本中，公開性取向的用戶可能希望或者需要在許多環境下維持隱私。

這使我們遇到了最富有爭議的非理論性的後果：隱私。此前的研究揭示過個體的「數字腳印」（digital footprints）和性取向的關係——如社交網路的構成或者 Facebook 上的「喜歡」情況——但這種「數字腳印」是可以被隱藏、匿名或修飾的。而一個人的面孔，無法被輕易隱藏。面部圖像可以被輕易拍攝和分析（如通過智能手機或監控攝像頭）。

數十億人的面部圖像也被存儲在數字或傳統載體中，包括約會平台、照片共享網站以及政府的資料庫。這些照片可以輕易獲得，比如Facebook、LinkedIn 和 Google Plus 的頭像照片就可以被網上的任何人看到。我們的研究結果顯示出，用這些公開數據和傳統的機器學習工具就可以開發出準確的性取向分類器。這種方法可以在不經人同意甚至知曉的情況下，就可以用來檢測其性取向。更有甚者，研究中報告的準確度可能還沒有達到能實現的上限。採用更清晰、更大量的照片，更大的數據集，更強大的 DNN 演算法，可能會大幅提升準確度。

一些人可能會想，我們的研究結果是否應該公佈於眾，因為這樣的結果可能恰恰會引發我們所警告的應用。我們同意這種擔憂。然而，因為政府和企業似乎已經在部署旨在檢測隱藏特徵的面試識別分類器，我們認為亟需讓政策制定者、大眾和同性戀社群意識到他們可能已經面臨的風險。

延遲或放棄發布這些調查結果可能會剝奪個人採取預防措施的機會，也會讓政策制定者在制定立法來保護人們隱私時產生滯後。此外，除了強調其工作的倫理含義外，這項工作對於那些可能正在開發或部署分類演算法的人來說沒有任何優勢。我們使用的是現成的工具，公開的數據和計算機視覺從業者熟知的方法。我們沒有創建會侵犯隱私的工具，而是表明基本的、廣泛使用的方法也能造成嚴重的隱私威脅。我們希望我們的調查結果能夠向公眾和政策制定者提個醒，並激勵他們設計技術、通過政策，減少世界各地同性戀人群面臨的風險。

我們生活中日益增長的數字化以及AI的快速發展，不斷地侵蝕個人隱私。政策制定者和技術公司似乎認為，為個人提供更多數字足跡控制的立法和新技術可以扭轉這一趨勢。但數字環境很難確保政策法規的執行。無需用戶同意，數據可以輕鬆地跨越邊界移動，被盜或被人記錄。

此外，即使用戶對其數據進行了充分的控制，也難以想像他們不會公開分享任何東西。大多數人希望他們的一些社交媒體文章、博客或個人資料被公開。很少有人願意在公眾場合掩飾自己的臉。正如這個和其他研究表明的，這樣基於共享願望之上的數字足跡可以用來揭示某些個人隱私。因此，我們認為，隱私的進一步削弱是不可避免的，在某些文化中被排斥的同性戀者和其他少數民族的安全也取決於社會和政府的寬容。如果由受過良好教育的寬容人士致力於平等權利的人生活和居住，後隱私權世界也將是個更友好更安全的地方。

模型91%的時候能夠正確分辨性取向

回過頭來，讓我們再來檢視一下這項研究所採用的數據和方法。

研究論文發表在Journal of Personality and Social Psychology（個性與社會心理學雜誌），具體做法是從一個美國流行的約會網站下載了36630個男性的130741張公開照片和38593個女性的170360張公開照片。他們使用基本的人臉檢測技術來選擇出具有足夠大小和清晰度的單人的照片以供分析。經過這一步的選擇，得到共35326張照片，包含14776人，其中同性戀和非同性戀、男性和女性比例一致。

接著他們將這些圖片輸入到被稱為 VGG-Face 的軟體，它會將輸入的圖像轉換成數字來表示每個人，即他們的「faceprint」。下一步是使用一個簡單的預測模型，即邏輯回歸，來找出這些人臉圖像的faceprint與其所有者的性取向之間的關係（性取向在該約會網站上是標明著的）。最後得到的模型在預測以前沒見過的數據時，在分辨同性戀和非同性戀方面準確率遠超人類。

當隨機選擇一張同性戀男性的照片和直男照片顯示給程序時，模型81%的概率能正確區分。每個男性顯示5張照片的情況下，模型91%的時候能夠正確分辨性取向。女性的準確率略低，顯示1張照片的情況下，正確率是71%；顯示5張照片的情況下，正確率是 83%。這兩種情況下，模型的準確率都超過了人類進行這種區分的能力。使用相同的圖像，人類區分同性戀和非同性戀的準確率對於男性是61%，對於女性是54%。這與一些研究的結論一致，認為人們在根據外表分辨一個人是否同性戀方面準確率只略大於瞎猜。

兩位研究者針對他們的模型的表現提出了一個可能的解釋，說胎兒在子宮中發育時暴露於各種水平的激素（hormone），尤其是睾酮（ testosterone）。這些激素已經被證明對人的臉部結構有影響，並且可能對性取向的形成也有影響。兩位研究者認為他們的系統能夠獲取後者的一些細微信號。使用其他技術，他們發現該程序在推斷男性的性取向時最關注鼻子、眼睛、眉毛、臉頰、髮際線和下巴；對於女性則更關注鼻子、嘴角、頭髮和衣領。

在被要求挑選出10個最有可能是同性戀的面孔時，模型挑選出的10個人中有9個確實是同性戀。也就是說，如果目標是從一大群人中挑出一小部分可能是同性戀的人，那麼模型能夠做到。Kosinski 等人做這項研究的目的並不是要創建一個能夠直接確定某人是不是同性戀的軟體，相反，他們的目標是證明這樣的軟體是可能的。

Kosinski 博士的這項研究引起了極大的爭議，不過這不是他第一次引起爭議了。之前他還使用Facebook的數據做心理測驗分析，這些數據來源於用戶在Facebook個人資料頁填寫的信息。

結合他和另一位研究者 Yilun Wang 的自述，希望大家能對這一研究有更全面的判斷。

原文地址：https://osf.io/fk3xr/

https://www.economist.com/news/science-and-technology/21728614-machines-read-faces-are-coming-advances-ai-are-used-spot-signs

點擊閱讀原文可查看職位詳情，期待你的加入~

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※AI將需要超百萬倍計算力，三因素決定深度學習模型計算
※微軟Facebook聯手發布AI生態系統，CNTK Caffe2 PyTorch
※「重磅」微軟Facebook聯手發布AI生態系統，CNTK+Caffe2+PyTorch挑戰TensorFlow
※「Quora精彩問答」機器學習的十條金科玉律
※「AICC」AI將需要超百萬倍計算力，三因素決定深度學習模型計算

TAG:新智元 |