僅用語音，AI就能「腦補」你的臉！

科技 04-06

「2019 Python開發者日」，購票請掃碼諮詢

作者 | Wav2pix 研究團隊

譯者 | 劉暢

編輯 | Jane

出品 | AI科技大本營（公眾號id：rgznai100）

【導語】之前我們為大家介紹過一項非常酸爽的研究「Talking Face Generation」：給定音頻或視頻後（輸入），可以讓任意一個人的面部特徵與輸入的音視頻信息保持一致，也就是說出輸入的這段話。當時營長就想到了「楊超越的聲音高曉松的臉」這樣的神仙搭配。不過，近期一項新研究再度抓到了營長的眼睛！在最新的研究中，研究者僅需要音頻信息就生成了人臉... ...如此鬼畜的操作，此乃頭一次見啊！接下來營長就為大家介紹一下這項工作！

音頻和圖像是人類最常用的兩種信號傳輸模式，圖像傳達的信息非常直觀，而語音包含的信息其實比我們想像的要更豐富，包括說話人的身份，性別和情緒狀態等等。從這兩個信號中提取的特徵通常是高度相關的，可以讓人僅聆聽聲音就可以想像他的視覺外觀。WAV2PIX 的工作就是僅利用語音輸入，來生成說話者的人臉圖像。其實這就是一個跨模態的視覺生成任務。

談到這項研究的貢獻，主要有三點：

提出了一個能夠直接從原始的語音信號生成人臉的條件GAN：WAV2PIX；

提供了一個在語音和人臉兩方面綜合質量很高的一個數據集：Youtubers；

實驗證明論文的方法可以生成真實多樣的人臉。

論文收集了大V用戶（Youtubers）上傳到 Youtube 的演講視頻，這些視頻通常具有高質量的說話環境、表達方式、人臉特徵等。Youtubers 數據集主要由兩部分組成：一個是自動生成的數據集和一個手動處理後的高質量的子集。

主要的預處理工作：

音頻最初下載的是高級音頻編碼（AAC）格式，44100 Hz，立體聲。因此轉換為 WAV 格式，並重新採樣到 16 kHz，每個樣例占 16 位並轉換為單聲道。

採用基於 Haar 特徵的人臉檢測器來檢測正臉。僅採納置信度高的幀

保存檢測出來的那幀圖像及前後兩秒的語音幀，以及一個標籤（identity）。

方法介紹

研究主要由三個模塊構成：一個是語音編碼器，一個是圖片生成網路，一個是圖片判別網路。

語音編碼器（Speech Encoder）：已有的方法大多數是手工提取音頻特徵，並不是針對生成網路的任務進行優化的，而 SEGAN 提出了一種在波形上用於語音處理的方法。因此作者在已有的工作 SEGAN 上進行修改。修改為具有 6 層一維網路，並且每層的 kernel 大小是 15x15，步長為 4，然後每層卷積網路後面使用 LeakyReLU 激活函數，網路的輸入通道是 1。輸入 16kHZ 下1 秒的語音片段，上述的卷積網路可以得到一個 4x1024 的張量，然後採用三個全連接網路將特徵數量從 4x1024 降到 128。作為生成器網路的輸入。

圖片生成器（Image Generator Network）：輸入是語音編碼器的 128 向量。採用二維轉置卷積、插值、dropout 等方式將輸入轉為 64x64x3 或者 128x128x3 的張量。在 G 的損失函數中添加了一個輔助損失用於保持說話人的標籤（Identity）。

圖片判別器（Image Discriminator Network）：判別器由幾層步長為 2，kernel 大小是 4x4 的卷積網路組成，並使用譜歸一化和 LeakyReLU 激活函數。當張量為 4x4 時，作者拼接了語音的輸入，並採用最後一層網路來計算 D 網路的分數。

實驗過程

訓練：將手動處理後的數據集作為訓練集，採用數據增強等手動。值得注意的是，在處理時將每張圖像複製了 5 次，並將其與 4 秒音頻裡面隨機採樣的 5 個不同的1秒音頻塊進行匹配。因此總共有 24K 左右的圖像-音頻對用於模型訓練。其它超參數採用參考的文獻設置。

評估：下圖給出了可視化的結果，雖然生成的圖像都比較模糊，但基本可以觀察到人的面部特徵，並且有不同的面部表情。

作者進一步微調了一個預訓練的 VGG-FACE Descriptor 網路，用於量化測試結果，在作者提供的數據集上，可以達到 76.81% 的語音識別準確率和 50.08% 的生成圖像準確率。

為了評估模型生成圖像的真實程度，作者定義了一個 68 個人臉關鍵點的精度檢測分數。如下圖所示，測試結果精度可以達到 90.25%。表明在大多數情況下生成的圖像保留了基本的面部特徵。

感興趣的小夥伴們可以下載閱讀研究一下~

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI科技大本營 的精彩文章:

※愛奇藝ZoomAI視頻增強技術的應用
※香儂科技李紀為：初入NLP領域的一些小建議

TAG:AI科技大本營 |