當前位置:
首頁 > 科技 > 現實版「柯南變聲領結」!搜狗輸入法「變聲」功能發布,千人千聲一鍵轉換

現實版「柯南變聲領結」!搜狗輸入法「變聲」功能發布,千人千聲一鍵轉換

允中 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

不再是動畫,也不再是科幻想像,AI再次帶來夢想成真一刻。

在動畫片《名偵探柯南》中,阿笠博士送給柯南的變聲領結是柯南破案的重要道具,得益於它,柯南可以將聲音偽裝成其他人,在不暴露身份的情況下巧妙破案。

但或許你未曾想過,有一天,這個變聲領結會真的出現在現實世界中,並且只需要在手機上輕輕一點就可以實現完美變聲。

沒錯,現在通過搜狗輸入法就OK。

現實版「柯南變聲領結」

今天(5月21日),搜狗輸入法就化身為了現實版的「阿笠博士」,正式推出「變聲」功能。

該功能由搜狗知音團隊支持,可以將任意說話人的聲音實時變換到指定說話人的音色。

簡而言之,只要用戶在語音輸入中輸入想說的話,再選擇一個喜愛的角色,就會瞬間把聲音轉化成該角色的聲音,效果直逼柯南的「變聲領結」。

雖然效果實現起來一步到位,但背後技術實現並不簡單。

搜狗知音的語音技術團隊,克服了諸多難以想像的現實困難。

其中最核心的問題是,每一個人的音調、音色和語言節奏都不盡相同,正如同世上沒有兩片相同的樹葉一樣,世上也沒有兩個完全相同的說話人。

如何將「千人千聲」通過技術處理,變為同一種指定聲音,同時還不丟失原說話人的語言習慣?

這不僅搜狗面臨的挑戰,也是國際上承認的技術難題。

技術剖析

搜狗知音主要從語音表徵學習、語音合成等領域的展開突破。

首先,搜狗知音團隊使用表徵學習技術,先學習到源端說話人語音的音色、內容和韻律三大特徵。

其次,將學習到的源端說話人音色特徵替換成目標說話人。

最後,基於搜狗知音的端到端語音合成技術,使用內容(源端)、韻律(源端)、音色(目標端)三類特徵合成最終變聲音頻,達到各個方位的相似和自然。

在表徵學習上,對目標音色語料進行聲紋特徵編碼,提取說話人的音色embedding,再分別從輸入音頻中學習內容和韻律embedding。

把「說話人歸一化」模塊對內容embedding進行統一規整,去除音色信息。

通過對音頻特徵的壓縮編碼及特徵抽取,學習表徵韻律的風格特徵。

然後基於表徵學習得到的特徵,通過Attention和Decoder模塊進行加權特徵編碼,並利用WaveRNN神經網路聲碼器恢復成波形,最終得到帶有目標音色的音頻。

這樣一來,由源端音色到指定音色的轉化就變得輕易而精密了。

在以上技術原理的支持下,搜狗知音的「變聲」功能擁有三大功能亮點:

首先,還原度極高,變聲到指定角色的音色與該角色的原始音色十分相似,幾乎可以做到以假亂真。

其次,自由空間大,搜狗這一「變聲」功能對用戶本身的音色沒有任何限制,每個人均可變聲到預先指定的音色,真正具有「任意人變聲到同一人」的能力。

最後,搜狗知音打破了音色轉換的局限,將用戶輸入的語音內容、語速、停頓、情感等均轉化為超高逼真度的指定角色聲音,因此可以達到更自然的變聲溝通。

目前,在搜狗知音「變聲」功能中可供選擇的角色橫跨互聯網、明星類、動漫類等多個類別,有近20種聲音,包含周星馳、蠟筆小新、小豬佩奇等多個經典的角色,甚至還收錄了搜狗CEO王小川的聲音。

在聊天過程中,用戶可以使用他們的聲音完成「變裝」,增添聊天過程中的趣味程度。

當然,用戶一鍵使用最新技術的背後,也離不開工程師們的付出。

而且在類似的國際前沿的技術突破領域,中國AI公司正在用研究和論文打響名氣。

在搜狗知音團隊此次最新技術發布前,搜狗還聯合清華天工研究院在5月17日的語音頂級峰會ICASSP 2019上,發布了關於「基於模態注意力的端到端音視覺語音識別」的學術論文。

全球AI華山論劍,中國創新正在 making different~

作者系網易新聞·網易號「各有態度」簽約作者

小程序|get更多AI學習乾貨

加入社群

量子位AI社群開始招募啦,社群矩陣:AI討論群AI 行業群AI技術群

目前已有4萬AI行業從業者、愛好者加入,AI技術群更有來自海內外各大高校實驗室大牛各明星AI公司工程師等。互相ta

歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「微信群」,獲取入群方式。(技術群與AI 行業群需經過審核,審核較嚴,敬請諒解)

喜歡就點「在看」吧 !

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

用Julia學習微積分:這有一份高贊數學教程
馬斯克SpaceX星鏈計劃終於要發射了,首批60顆衛星本周上天

TAG:量子位 |