可通過人聲判斷人臉的人工智慧

知識 06-29

不論是電影預告片的配音員，還是地鐵上的播音員，我們的生活中都充滿了「看不到臉」的聲音。我們大多數人在聽到這些聲音的時候，可能會對背後的面容做一些簡單的設想，但麻省理工學院的一組研究人員卻做到了更進一步：他們創造了一個人工智慧系統，僅僅通過聽人的聲音就可以重建人的面孔。

這個名為Speech2Face的應用程序背後的技術原理是利用了一個深層的神經網路，該網路通過觀察YouTube上數百萬人們交談的視頻，訓練並識別聲音和面部特徵之間的相關性。在此過程中，它學會了將音頻波形的不同方面與發聲者的年齡、性別、種族以及某些頭部特徵聯繫起來，比如像頭部的形狀和鼻子的寬度這些。

然後，當研究人員將人們的聲音錄音輸入系統時，系統能夠以合理的準確度生成每個說話者的面部圖像。顯然，髮型、面部毛髮以及其他一些外貌特徵是無法從一個人的聲音中預測出來的，因此開發人員堅持認為，他們的目標不是預測準確面孔的可識別圖像，而是捕捉與輸入語音相關的人的主要面部特徵。

在一篇發表在IEEE Xplore上的論文中，研究人員說這項技術總有一天能帶來較大的實用性，例如，不需要攝像頭就可以生成視頻通話的面孔。

話雖如此，系統也需要一些改進，因為Speech2Face創建的圖像通常與面部類型大體匹配，但有一些細微的差之處還是難以判別。該系統也偶爾容易出錯，比如會將大約6%的聲音生成的人臉弄錯了性別，抑或是弄錯了種族。

本文譯自 iflscience，由譯者 Imagine 基於創作共用協議(BY-NC)發布。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自煎蛋的精彩文章: