分離人聲問題的攻破，將會為語音識別領域帶來哪些可能性？

科技 04-20

圖片來源：視覺中國

試想一下，在一個嘈雜的雞尾酒會上，同時存在著許多不同的聲源：多個人同時說話的聲音、餐具的碰撞聲、音樂聲等等。如何在酒會上分辨出特定人物的聲音，這對於我們人類來說十分簡單。

但對於計算機來說，要把一個音頻信號分割成多個不同的語音來源，依然有許多棘手的問題需要解決。當許多人的語音交疊在一起的時候，AI時常措手不及。1953年Cherry提出「雞尾酒會」問題至今，仍然沒有人能夠解決機器深度學習識別分離人聲的問題。

但是，近日在Google Research軟體工程師Inbar Mosseri和Oran Lang發表的論文《Looking to Listen at the CocktailParty》中，採用了一個全新的視聽模型為「雞尾酒會」問題提供了一個合適的解決之道。

音頻-視覺語音分離模型，解決「雞尾酒會效應」

為了解決「雞尾酒會」問題，谷歌從YouTube上搜尋了10萬個高質量講座和演講視頻生成訓練樣本，通過約2000 個小時的視頻片段分析，訓練出基於多流卷積神經網路（CNN）的模型，將合成雞尾酒會片段分割成視頻中每個說話者的單獨音頻流。

該試驗中，輸入是一名或多名發聲對象，同時被其他對象或嘈雜背景所干擾的視頻。輸出的是將輸入視頻的音軌分解成純凈的音軌，並對應上相應的說話者。

所謂的音頻-視覺語音分離模型，就是加強選中人的語音，同時減弱同一時間其他人的音量。該方法適用於具有單一（主）音軌的常見視頻，用戶也可以自行選擇傾聽對象來生成對其的單一音軌，或者基於語境由演算法進行對特定發聲對象進行選擇。

而在模型訓練過程中，網路系統（分別）學習了視覺和音頻信號的編碼，然後將它們融合在一起形成一個音頻-視覺表現。通過這種表現，網路系統可以學會為每位發聲對象對應輸出時頻掩碼。輸出的時頻掩碼與雜訊輸入頻譜圖相乘，隨後轉換成時域波形，從而形成每一位說話者單獨純凈的音頻信號。

基於神經網路模型架構

此外，在多人發聲的場景下，視覺信號除了有效提升語音分離的質量，還可以把分離之後的音軌和視頻里的人物對應起來。此種方式為其後的語音識別領域提供了許多的可能性。

解決「雞尾酒會效應」這一難題意味著什麼？

「雞尾酒會效應」難題的解決為語音識別領域的許多問題提供了思考路徑，同時視覺-音頻網路識別系統的提出，也為人聲分離提供了視覺+聽覺的解決方式。

隨著技術落地，當人聲分離技術真正應用於市場中會對產品有哪些改變呢？智能相對論分析師柯鳴認為，其在以下四個方面會有較大突破。

一、助力CC（隱藏式字幕）發展

隱藏字幕（Closed Captioning）是電視節目和電影中為有特殊情況或者需要的觀眾準備的字幕，其可以起到用解釋性語言描述畫面的作用。

Caption 這個詞，有輔助聽力障礙的人士用意。Caption一般還包含了效果音的提示，這些聲音正常人可以分辨，而對於障礙人士則必須通過字幕。

比如美國的「流言終結者」節目，除了可以看到「TV PG」分級標籤以外，也顯示了 CC 標誌表明節目提供隱藏式字幕，以此來服務那些需要特殊幫助的群體。

《流言終結者》

同樣，谷歌人聲分離技術對於促進CC發展有較大前景。多通道系統中對於特定人聲的分離能夠簡化節目、電影製作流程，其在語音識別的預處理，以及視頻字幕方面能產生良好效果。

對於視頻自動字幕載入系統而言，多名發生者同時發聲導致的語音重疊現象是一項已知的挑戰，與此同時，將音頻分離至不同的源也有助於呈現更加準確和易讀的字幕。人聲分離技術可以在語音原聲的基礎上直譯出各個對話主題的聲音，並將其分開，利用AI實現字幕自動化，這極大程度上保證了字幕的同步性與準確性。

二、降低AI同傳「烏龍率」

在2018年博鰲論壇上，騰訊AI同傳搞了一個大烏龍。除了翻譯不準確的問題意外，現場還被曝光翻譯系統崩潰「抽風」，出現亂碼的情況，讓現場相當尷尬。

事後，騰訊指出：出現此種烏龍的原因在於中英雙語切換頻率的問題。當聲源在兩種語言之間不斷轉換時，後台中、英文識別引擎就會同時開始工作，這會導致兩種識別引擎互相「掐架」，語音識別混亂。最終翻譯結果只能選擇一種語言進行輸出，導致引發錯誤。

而人聲分離技術的應用，似乎為AI同傳中的人聲識別提供了一個有效的解決途徑。對於多種語言的識別流暢化後，AI同傳的質量也相應會得到一定的提高。

三、或可為智能音響提供「保險箱」

智能音箱的問世，使得普通家庭進入了語音互動的時代，其使用的簡易性甚至超過了智能手機。有業者認為，智能音箱將會取代智能手機，成為家庭自動化或者智能家居生活的入口，自然語言對話將成為主流和高效率的用戶界面。

與此同時，智能音響在應用過程中，也面臨著諸多挑戰，其主要體現在語音識別技術、聲紋識別等諸種技術上。目前，智能音箱的技術難題在於語音識別技術如何在嘈雜的環境中識別語音指令——包括酒吧和體育場等人聲鼎沸的場景。

為此，微軟在Xbox上部署了一款名為Voice Studio的應用，專門收集人們在玩遊戲或看電影時的對話信息。為了吸引用戶貢獻自己在玩遊戲過程中的對話內容，該公司為參與其中的用戶提供了各種各樣的獎勵，包括點卡和遊戲道具。

但是，效果並不盡如人意。如何在嘈雜環境識別人聲、如何分別多人聲音依然是智能音箱的難題。日後，隨著智能家居的普及，智能音響成為了物聯網環境下與其他家居溝通的「鑰匙」，而AI人聲分離技術的應用，攻克技術問題的同時也為智能音響提供了一個安全性較強的「保險箱」。

四、為無人駕駛提供仿生啟示

「雞尾酒會效應」在動物界的應用為無人駕駛提供一定啟示。以蝙蝠躲避障礙和捕食為例，其在飛行過程中會發射一系列超聲波，超聲波遇到障礙後反射回來，蝙蝠通過感知反射信號到達兩耳的時間差來判斷障礙物的方向，通過感知反射信號的強度來判斷障礙物的距離。

蝙蝠發出的超聲信號一般是在110kHz的一個掃頻信號，通過感知不同頻率信號的衰減程度，就可以辨別障礙物的材質，進而可以判斷障礙物是否為捕食對象。

蝙蝠是如何區分自己和他人發出的超聲波信號的呢？科學家通過研究發現，蝙蝠並沒有改變發出的超聲頻率，而是通過叫聲變大，持續時間變長，發射頻率增多等方式來解決的。

動物界的「雞尾酒會效應」啟示無人駕駛：想提高雷達的定位精度，提高信噪比是根本。比如，蝙蝠叫聲變大，相當於提高了信號的能量；而叫聲持續時間變長和叫聲頻率增多，則是增加了信號的樣本點數。在雜訊不相關的情況下，經過簡單的平均就可以降低雜訊的影響。

這一點，將會為機器人和無人駕駛汽車帶來了新的啟發。

無人駕駛的激光雷達探測

此外，視覺-音頻語音識別分離模型應用於無人駕駛領域能大程度提高雷達、激光等距離感測器測量出路面信息的性能，而這正是無人駕駛安全保障的基礎。

隨著日後無人駕駛的普及，人聲分離模式或可衍生出「雷聲分離」，將雷達誤收風險降到最低，從而保證無人駕駛障礙識別方面的安全性。

誠然，新技術的應用需要一段時間。谷歌官方目前也表示：「正在探索使用這個技術到谷歌系列產品中去」。隨著「雞尾酒會」難題的解決，AI語音識別將會有長足進展。具體投入產品後表現怎樣，還需要市場來檢驗。（本文首發鈦媒體）

【鈦媒體作者：智能相對論（微信id:aixdlun），文/柯鳴】

更多精彩內容，關注鈦媒體微信號（ID：taimeiti），或者下載鈦媒體App

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 鈦媒體APP 的精彩文章:

※樂視網回應深交所：現金流極度緊張，存在凈資產為負風險
※所謂烏托邦，是否會因為這場車禍變為無人駕駛的荒漠？

TAG:鈦媒體APP |