現實版「柯南變聲領結」！搜狗輸入法「變聲」功能發布，千人千聲一鍵轉換

科技 05-22

允中發自凹非寺

量子位報道 | 公眾號 QbitAI

不再是動畫，也不再是科幻想像，AI再次帶來夢想成真一刻。

在動畫片《名偵探柯南》中，阿笠博士送給柯南的變聲領結是柯南破案的重要道具，得益於它，柯南可以將聲音偽裝成其他人，在不暴露身份的情況下巧妙破案。

但或許你未曾想過，有一天，這個變聲領結會真的出現在現實世界中，並且只需要在手機上輕輕一點就可以實現完美變聲。

沒錯，現在通過搜狗輸入法就OK。

現實版「柯南變聲領結」

今天（5月21日），搜狗輸入法就化身為了現實版的「阿笠博士」，正式推出「變聲」功能。

該功能由搜狗知音團隊支持，可以將任意說話人的聲音實時變換到指定說話人的音色。

簡而言之，只要用戶在語音輸入中輸入想說的話，再選擇一個喜愛的角色，就會瞬間把聲音轉化成該角色的聲音，效果直逼柯南的「變聲領結」。

雖然效果實現起來一步到位，但背後技術實現並不簡單。

搜狗知音的語音技術團隊，克服了諸多難以想像的現實困難。

其中最核心的問題是，每一個人的音調、音色和語言節奏都不盡相同，正如同世上沒有兩片相同的樹葉一樣，世上也沒有兩個完全相同的說話人。

如何將「千人千聲」通過技術處理，變為同一種指定聲音，同時還不丟失原說話人的語言習慣？

這不僅搜狗面臨的挑戰，也是國際上承認的技術難題。

技術剖析

搜狗知音主要從語音表徵學習、語音合成等領域的展開突破。

首先，搜狗知音團隊使用表徵學習技術，先學習到源端說話人語音的音色、內容和韻律三大特徵。

其次，將學習到的源端說話人音色特徵替換成目標說話人。

最後，基於搜狗知音的端到端語音合成技術，使用內容(源端)、韻律(源端)、音色(目標端)三類特徵合成最終變聲音頻，達到各個方位的相似和自然。

在表徵學習上，對目標音色語料進行聲紋特徵編碼，提取說話人的音色embedding，再分別從輸入音頻中學習內容和韻律embedding。

把「說話人歸一化」模塊對內容embedding進行統一規整，去除音色信息。

通過對音頻特徵的壓縮編碼及特徵抽取，學習表徵韻律的風格特徵。

然後基於表徵學習得到的特徵，通過Attention和Decoder模塊進行加權特徵編碼，並利用WaveRNN神經網路聲碼器恢復成波形，最終得到帶有目標音色的音頻。

這樣一來，由源端音色到指定音色的轉化就變得輕易而精密了。

在以上技術原理的支持下，搜狗知音的「變聲」功能擁有三大功能亮點：

首先，還原度極高，變聲到指定角色的音色與該角色的原始音色十分相似，幾乎可以做到以假亂真。

其次，自由空間大，搜狗這一「變聲」功能對用戶本身的音色沒有任何限制，每個人均可變聲到預先指定的音色，真正具有「任意人變聲到同一人」的能力。

最後，搜狗知音打破了音色轉換的局限，將用戶輸入的語音內容、語速、停頓、情感等均轉化為超高逼真度的指定角色聲音，因此可以達到更自然的變聲溝通。

目前，在搜狗知音「變聲」功能中可供選擇的角色橫跨互聯網、明星類、動漫類等多個類別，有近20種聲音，包含周星馳、蠟筆小新、小豬佩奇等多個經典的角色，甚至還收錄了搜狗CEO王小川的聲音。

在聊天過程中，用戶可以使用他們的聲音完成「變裝」，增添聊天過程中的趣味程度。

當然，用戶一鍵使用最新技術的背後，也離不開工程師們的付出。

而且在類似的國際前沿的技術突破領域，中國AI公司正在用研究和論文打響名氣。

在搜狗知音團隊此次最新技術發布前，搜狗還聯合清華天工研究院在5月17日的語音頂級峰會ICASSP 2019上，發布了關於「基於模態注意力的端到端音視覺語音識別」的學術論文。

全球AI華山論劍，中國創新正在 making different~

作者系網易新聞·網易號「各有態度」簽約作者

—完—

小程序|get更多AI學習乾貨

加入社群

量子位AI社群開始招募啦，社群矩陣：AI討論群、AI 行業群、AI技術群；

目前已有4萬AI行業從業者、愛好者加入，AI技術群更有來自海內外各大高校實驗室大牛、各明星AI公司工程師等。互相ta

歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話界面回復關鍵字「微信群」，獲取入群方式。（技術群與AI 行業群需經過審核，審核較嚴，敬請諒解）

喜歡就點「在看」吧 !

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量子位 的精彩文章:

※用Julia學習微積分：這有一份高贊數學教程
※馬斯克SpaceX星鏈計劃終於要發射了，首批60顆衛星本周上天

TAG:量子位 |