當前位置:
首頁 > 科技 > 用 AI 克隆語音,人和自己「對話」的障礙在哪?

用 AI 克隆語音,人和自己「對話」的障礙在哪?

如果有一天,你可以將你的聲音通過人工智慧技術「克隆」出來,而且你還能和「你」進行各種對話,你是否願意嘗試?

這個場景並不遙遠,不久前,「AI First」的谷歌表示,其最新版本的人工智慧語音合成系統——Tacotron2合成出來的語音幾乎和真人聲音一模一樣。它擁有兩個深度神經網路,第一個能夠將文本轉化為頻譜圖,第二個則負責將頻譜圖生成相應的音頻。

而麻省理工評論則認為百度的技術則更進一步,百度在最近發布的新論文中表示,該技術只要通過一個半小時的語音數據的學習,就能「克隆」出原對象的聲音。

雖然以前百度的「Deep Voice」也能夠生成語音,但讓生成出來的語音附帶不同的語言特色正是語音生成的一大突破,而且它除了能「克隆」之外,還能對該聲音的性別或口音進行更改,甚至還能賦予該克隆聲音一些簡單的情感。

語音克隆技術是什麼?又能做些什麼?


語音合成技術有三種,但只有AI技術才稱為語音克隆

最早的語音合成技術通過預先錄製好的字詞、短句來實現的,把各個部分串成一行,以此產生完整的句子。生活中各種服務熱線的自助語音系統就是用這種方式實現的,所以會經常存在卡頓,音色不一樣等問題,語氣也很冰冷。

第二種手段雖然能夠使語音更加自然,但其中也需要大量的人工處理,首先是製作語音庫,確定音色、風格、特性、角色等要求後,投入音庫生產線,設計錄音腳本、訓練錄音資源、進行效果優化,在輸出的時候還要進行各類語言處理,包括文本規整、詞的切分,然後是韻律處理,為其划出音段特徵,如音高、音長和音強等等,使合成的語音給人的感覺更加自然些。

但這類合成系統因為進行韻律預測處理方面的工作量巨大、所以也存在表現能力不足等問題,如合成語音對不同情感的表達會不夠恰當,使得合成語音聽起來缺乏人情味。而語音合成的技術發展不僅要讓說話的聲音達到真人水準,也應當在情感表達方面有所突破,使語音交互帶有情感,達到更好的交流體驗。

最近爆出的百度Deep Voice技術,則是通過深度學習技術實現「語音克隆」的,通過真實語音的訓練,能在「聽」的過程中學會每個人說話時字詞、音位和句子的發音特點,並通過模仿這個人聲音中的情感和語調,「說」出全新的語句;「一聽一說」之間,整個過程基本不用人工干預,深度學習技術可以自行完成所有工作。

具體來說,百度的研究人員是通過兩種具體的方法來實現的:說話人適應(speaker adaption)和說話人編碼(speaker encoding)。它們可以只用最少的音頻數據來完成任務,並且在深度語音系統中,即使處於一個多揚聲器模型,也不會降低質量。

其中「說話人適應」是使用多個克隆樣本,基於反向傳播的優化方法對多個說話人語音生成模型做精細調節。這個方法可以只作用於低維度的說話人嵌入,或者作用於整個模型;在低緯度的嵌入時,每個說話人所需的參數量比較少,而且需要較長的克隆時間,生成語音的質量也會差一些。

其中「說話人編碼」則需要訓練一個單獨的模型,用它直接從語音樣本中推斷出一個新的嵌入數據,然後再把這個嵌入數據用在多個講話人語音生成的模型中。

而且這個方法還帶有時域和頻域的處理模塊,可以從音頻樣本分析中提取到有關說話人的身份信息,然後用注意力模塊把各種信息以最優的方式結合起來。這個方法的好處是克隆耗時少、標明說話人信息所需要的參數少,使得這種方法在輸入資源有限的場景中也能夠使用。


語音克隆的功與過

在人機交互的個性化場景中,研究人員預期語音克隆可能會有很重要的作用,如可以用來訂製個人AI助手、讀書音頻以及殘疾人語音系統等,且對有語言障礙人來說,這個程序能幫助他們練習發聲,使他們更容易與人交流,這種過程就像是在和一個善解人意的朋友在聊天一樣,可能會成為一個重要的社交工具。

而在心理醫療領域,如果能復原出逝者的聲音,這對於痛失親人後在心理上造成了創傷的人們來說,也無疑是巨大的安慰。

不過語音克隆也會帶來一些麻煩,它可能會被用來對公眾人物進行惡意攻擊;也可能會使聲紋識別形同虛設,因為據《新科學家》報道,使用人工智慧技術做出聲音識別軟體,在測試中,準確率已經超過了95%。

也可能破壞錄音作為法律證據的可信度;還可能會用來假冒他人身份,成為語音詐騙的幫凶。它預示著未來的聲音可能會像照片一樣,可以很容易地進行偽造。

但克隆出的人類聲音,這其中還是會有些細微差別,經不起詳細推敲——取證專家可能會通過分析語音中的數字簽名,從而證明其為合成語音。

而研究人員也開始在研究一種「聲紋」系統,以期其能很容易的分辨出原聲和生成的語音;不過語音克隆還是存在著很多隱患,因為在普通的生活當中,足以造成相當嚴重的誤導性效果。


實現「完美」的語音克隆,最大一道坎在哪?

智能相對論認為,完美的語音克隆,也應該能夠克隆出說話人攜帶的情感,而不僅僅是音色等表象的元素,就像是這個聲音擁有自己的靈魂。而目前語音克隆能夠進行的情感表達,更多的是研究人員修改完成的,而且還需要對各類情感進行標註。

谷歌的Tacotron2系統也還只能進行模式化的情感表達,如根據輸入文本的標點符號的不同而在語氣上有所區分;在讀大寫單詞時加重語氣等。

百度和谷歌的語音合成技術暫時不能達到自行合成情感,這也是語音克隆其技術本身所限,要實現合成出的每一句話有其恰當的情感,這裡面有情感識別、情感自動標註、語氣調整等大量的數據和工程難度,費用和技術也暫時難以逾越。

而更進一步,想要和機器進行有情感語音的交互就更加困難了,因為這並不是單一技術所能完成的,它除了能輸出情感之外,還必須要求自然語言處理技術能夠識別出人類表達中的各種情感,以此作為回應的前提,而這已經超出了語音克隆的技術範圍。

在語音交互中,讓機器能夠自然、順暢的說話是人機交互的一大要求,表現力、音質、複雜度和自然度一直是語音合成所追求的。

而隨著AI技術的發展,語音交互的音質、流暢度、自然度都得到了很大的提高,但在表現力方面依舊是其最大的痛點,不過隨著各大廠商的持續發力,未來使機器也能像朗讀者一樣,抑揚頓挫、情感起伏、拿捏到位也不是夢想。

【鈦媒體作者介紹:作者 |王 志,文章來源 | 智能相對論(aixdlun)】

更多精彩內容,關注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體App


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 鈦媒體APP 的精彩文章:

「撒幣」答題火爆,無心「催熟」短視頻行業?
樂視網再次強調賈躍亭欠款75億;馬化騰身家超500億美元

TAG:鈦媒體APP |