當前位置:
首頁 > 最新 > AI 合成「獨家模擬語音」,機器推銷電話未來能以假亂真了

AI 合成「獨家模擬語音」,機器推銷電話未來能以假亂真了

總部位於舊金山的初創公司Voicery雖然建立不過幾個月,但首席執行官兼聯合創始人Bobby Ullman表示,他已經收到了數百家公司的請求,這些公司都有興趣開發屬於自己的品牌語音。Voicery如此炙手可熱,是因為它能夠提供大多數公司可能在五年前還不知道的東西:定製的數字語音,而且效果聽起來就像是真人而不是電腦發出來的。

Ullman是一名計算機科學家,曾在Palantir工作,他的聯合創始人首席技術官Andrew Gibiansky在機器學習方面頗有經驗,並在中國百度公司進行語音識別工作。這對搭檔是兒時的朋友,他們把類似的想法向Y Combinator提了出來,然後在矽谷加速器項目的幫助之下,Voicery誕生了。

與你現在可能聽到的客戶服務電話中死板的語音不同,Voicery的人工合成語音擬人化十足,能夠傳達精心設計的情感,可以作為公司品牌的延伸。隨著我們與公司之間的互動越來越多地從視覺上向口頭上轉移——多虧了Echo、Google Home以及其他自動客服系統——一個公司的聲音、語調以及節奏都成為了品牌的新代言。


語音可以是一種強大的品牌,比如說Allstate里Dennis Haysbert的低沉語音就很具有標誌性。不過,當Alexa講笑話時,你可能會感覺她的發音古怪至極,畢竟想要合成語音(模仿人類的語言)用它們那死板的、機器式的節奏來傳達人類講話時的真實的情感還是有些強人所難。大多數的電腦語音還是使用被稱為「銜接模型」的舊的語音合成方法,它需要一個配音演員錄製200小時的演講,然後把所有演講獲得的語音碎片化,最後重組成任何你需要說重新複述的語句。

Voicery的產品工作原理與上述不同。它只需要配音演員幾個小時的演講,就可以訓練一個深度的神經網路來模仿這位配音演員的聲音。整個過程,從表演到讓他們閱讀一系列的短語,實際上都是在訓練電腦,這個大約需要花費兩周的時間。而創建一個合成語音的神經網路模型只需要花費四天的時間。目前,Voicery有三種現成的合成語音,它們來自配音演員或公共領域的有聲讀物。

目前看來這一技術是相當了不起的。在Voicery的網站上,你可以做一個測試,在測試中你需要分辨出哪些聲音是人的,哪些聲音是機器的,猜對以後會有禮品相贈。我試了一試,結果表明,我有三分之一的概率無法分辨出那些聲音到底是人工智慧的還是人類的。

對於那些希望確保自己的品牌在何時何地都保持同樣風格的公司來說,這種技術帶來的福音可謂是巨大的。你想想,如果你打電話給保險公司索賠時,電話的另一端的聲音不是單調死板的而是親切可人的,你會是什麼感受?萬一這聲音還有可能是Allstate的Dennis Haysbert的,你會是什麼感受呢?

「豐田在我們這裡定製了自己的品牌語音」,Ullman表示,「以後自動駕駛汽車就會有聲音、情感和性格了。這對你跟車之間的互動有很重要的意義。從現在到將來,我們在做一件里程碑式的事業。」

對於那些想要與用戶建立起親密關係的公司來說,語音的可信度和魅力性比你想像的重要得多。如果一個健康追蹤公司的客戶服務功能所發出的聲音在鼓勵你時聽起來更像是朋友在一旁加油,而非計算機那冷冰冰的聲音,也許你會對這個品牌有格外的好感。

與此同時,計算機化的語音限制了表達個性或多樣性的空間。即使是Google Assistants和蘋果的Siri的女性聲音也缺乏太多的情感節奏,給人以「拒人千里之外」的感受。儘管不乏使聊天機器人和語音界面具有個性的嘗試和努力,但計算機語音的合成質量還是無法使客戶心滿意足。

由於Voicery的技術合成的聲音與真實的聲音相差無幾,除了廣告以外的其他媒體總算可以在音效上有所改善了——比如自動播放的有聲讀物、製造更多的媒體音頻甚至讓電影配音變得更容易。「從書面到語音這個過程中你沒法長時間聽下去最主要的原因就是計算機的聲音不僅死板而且無聊」, Ullman表示,「而我們現在的新技術,使得語音聽起來更加真實,也更加愉悅。這項技術正在創造一個新的市場,它可以改變人們消費媒體的方式。」

就像其他可以製作假視頻的人工智慧一樣,對於初創公司應該合成什麼樣的聲音存在倫理方面的爭議。研究人員已經通過剪輯奧巴馬入主白宮前後共八年時間裡的真視頻和真音頻炮製出了假視頻和假音頻。Ullman打算為Voicery可以合成什麼樣的聲音方面劃一條不可逾越的紅線。Ullman說:「隨著這些技術工具的飛速發展,你必須關注道德問題,人們要保持對自己和語音的所有權,這個非常重要。」

到目前為止,該公司只與配音演員合作,這些演員會被告知他們的聲音將被用來做什麼。Voicery表明自己不會從媒體或電影中截取人們的聲音(就像上述那位研究人員對奧巴馬所做的那樣),一部分原因在於這些聲音的質量不夠好,另一部分原因是該公司認為這種行為是不道德的。Voicery在自己的網站上聲明,如果沒有經過同意,它將永遠不會合成和模仿他人的聲音。

Voicery下一步將擴展業務,以滿足它所面臨的各種需求。最終,Ullman希望Voicery能夠在各種語言中建立成百上千個現成的語音庫——使之成為為任何需要使用合成語音的人服務的平台。除了這個語音庫,他們還將與其他公司合作,創造出專屬於某家公司的yuyin:這個B2B服務將是他們的主營業務。

就像人們在為聊天機器人構建起幽默的性格和獨特的個性一樣,Voicery的技術展示了聲音是如何以全新的方式將自己嵌入到品牌中的。因為畢竟,當計算機從屏幕上走進我們生存的空間之中時,我們會希望有除了感覺或語音以外的其他方式跟它們進行互動。

編譯組出品。編輯:郝鵬程。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 36氪 的精彩文章:

銀行業回暖:工農中建交日賺26億,招行平安中信發力零售金融
彈藥充足的遊俠超級工廠來了,首款量產車遊俠X還會遠嗎?

TAG:36氪 |