如何聽懂你獨特的聲音?蘋果長文揭示Siri個性化識別
GIF
來源:machinelearning.apple.com
Hey Siri喚醒最大的作用是解放了用戶的雙手,可以在不按home鍵的情況下通過語言喚醒手機,這大大方便了用戶在開車或者做飯時使用手機。無論何時何地,Siri都準備好等待用戶的呼喚,及時地幫助用戶解決問題。
在技術上來講,這樣不間斷的檢測用戶發出的喚醒指令Hey Siri可以被視為一個「關鍵幀檢測問題」。具體的技術實現已經在先前的文章中進行了詳細解釋,而本文的內容則是在檢測器的基礎上闡述設備端對於個性化需求的語音識別系統實現。研究人員從深度神經網開始構建並改進成為了更為魯棒的用戶相關的特殊語音表達,並闡述了利用循環神經網路構建、多風格訓練以及遞進學習的過程。
個性化的動機
用戶在使用Hey Siri使會儘可能自然的向手機發出指令,但這一簡短的指令卻同樣帶來了一系列問題,在以下一系列情況下會出現誤激活現象:1.主要使用者如果說出了相似的詞義;2.其他用戶說出了Hey Siri;3.其他用戶說出相似的詞語。最後一條是特別常見的特別惱人的誤激活錯誤。為了降低這樣的誤識別,研究人員利用說話人識別的各項技術來致力於為每個設備訓練個性化的模型,使其只能通過主要用戶的Hey Siri指令激活。
說話人識別技術
與語音識別的主要目的不同,說話人識別技術關心的是誰在說話,而不是說了什麼。說話人識別技術利用了說話內容作為先驗來進行基於內容(Hey Siri)的說話人識別,同樣也有獨立於內容的說話人識別技術。
為了度量說話人識別系統的表現,主要結合了錯誤接收率和錯誤拒絕率兩個指標。但我們需要區分說話人識別和關鍵幀識別系統中這些指標的異同。他們的錯誤拒絕率都是指在目標用戶在對設備說Hey Siri的時候,設備沒有正常喚醒,原因主要來自於嘈雜的周圍環境。而對於語音是被系統來說,錯誤接受率是指在沒有說Hey Siri的情況下設備卻被喚醒的概率。
在說話人識別的場景中,我們假設所有的輸入中均含有Hey Siri,特別的說話人識別器是在在Hey Siri檢測器輸出正確結果後才激活記性檢測的個性化識別功能。為了實現這一目標,盡量是關鍵幀監測的過程減低錯誤接收率和誤識別率,並在說話人識別階段繼續降低錯誤識別率,隨後便通過一系列閾值來對指標進行優化。
在實際應用說話人識別系統時需要兩個步驟:登記和識別。在登記階段需要用戶說出一些樣本聲音片段用於統計用戶的聲音模型,隨後在識別階段系統比較輸入和模型來決定接受或拒絕外部輸入的喚醒。
用戶登記階段
個性化的Hey Siri喚醒包括了直接和間接收集兩個階段。在直接收集階段,用戶需要朗讀出特定的語句以供系統記錄和訓練,識別出主要用戶的表達方式。這保證了每一個用戶都有一個置信度較高的模型檔案,這極大地減小了誤識別率。然而為數不多的幾次聲音信息不能覆蓋生活中所有的場景,為了解決這一問題工程師們引入了間接收集的方法。
在間接收集的階段,主要用戶的聲音信息會隨著使用的過程不斷被收集用於模型的訓練。隨著使用環境的增加,用戶模型被不斷地改進。通過兩種方法的配合來減低誤喚醒率和錯誤接受率。目前初始化Hey Siri的過程中,需要用戶按照以下的順序進行朗讀:
1. 「Hey Siri」
2. 「Hey Siri」
3. 「Hey Siri」
4. 「Hey Siri, how is the weather today?」
5. 「Hey Siri, it』s me.」
長短不一的句子同樣為用戶提供了使用這一功能的樣例。在下一部分內容里,將詳細描述如何通過持續的收集用戶的表達方式來改進用戶模型。工程師們希望在未來無需通過特定模式信息的收集,直接利用用戶使用Hey Siri過程中的信息來訓練改進模型,隨著使用的增加模型也越來越趨於完善。不過用戶也可以在初始化Siri的時候選擇跳過直接收集階段來嘗試從日常訓練中來改進Siri的表現。
系統架構
上圖中上半部分描述了個性化Hey Siri的高層模型。其中綠色框圖表示特徵抽取單元,將不同狀況下的「Hey Siri」轉換為定長的語言矢量,這一矢量同時可以用於描述說話人的特徵。特徵抽取單元主要包括上圖下半部分描述的兩個步驟。首先將輸入表達轉換為定長的語言矢量,這一矢量可以視為Hey Siri音頻信息的綜合,其中包含了語音內容、背景和說話人的識別信息。隨後將其中與說話人相關的特徵抽取出來並弱化環境和語音的影響。這些不同情況下收集的說話人特徵將會訓練識別器適應不同場景和音調下的喚醒,最後以低維表達的形式輸出說話人矢量。
在設備端的用戶檔案中,保存了一系列說話人矢量。在初始化Siri階段,用戶檔案中保存了五個矢量。在模型比較階段,將輸入信號的說話人矢量與檔案中保存的矢量計算餘弦分數,如果平均分高於預先給定的閾值λ那麼設備將被喚醒並進行後續工作。在間接收集階段,將不斷收集最近接受的說話人矢量,直到用戶檔案保存40個特徵矢量為止。
除了保存說話人矢量外,系統還會保存與Hey Siri對應的波形信息,這些信息將用於更新改進語音轉換單元(上圖中右下方從語音矢量到說話人矢量的部分)。
改進說話人轉換
對於所有的說話人識別軟體來說,說話人轉化是其中最為重要的部分。它的作用在於最小化同一說話人的差異而最大化不同說話人間的變化。在初始化階段,系統利用利用通用的Hey Siri檢測器得到了語音矢量,它利用13維的梅爾頻率倒逆係數MFCC作為音頻特徵並利用28個隱試馬爾科夫狀態HMM參數來為表達方式建模,共形成了28*13=364維矢量。其目標是尋找子空間的表達來作為有效的說話人表示。
評價
除了誤接受率(IA)和誤拒絕率(FR),還增加了等錯誤率作為評價指標(EER:FR=IA的點),這一指標可以更好的衡量系統的整體表現。
上表中描述了不上述三種方法的EER,這一試驗利用200個從用戶數據中隨機選取的樣本來進行的。其中一二行顯示了神經網路非線性相對於線性模型的提升,而二三行則顯示了更大的神經網路所帶來的性能提升。
由於上述結果來自於包含Hey Siri的樣本中,並不能保證在端到端的Hey Siri應用中得到性能提升。表1b顯示端到端系統的FA,FR,IA等指標在不同轉換下的性能。實驗利用了150位不同男女用戶的2800小時數據進行,實驗顯示DNN顯著提高了說話人轉換器的性能。
展 望
雖然說話人識別的性能得到了普遍提高,但在處理大房間回聲和噪音環境下的識別還面臨一系列挑戰。目前的研究重點在於理解和量化造成系統性能退化的環境因素。在接下來的工作中將會研究多風格訓練,並利用不同的噪音和回聲在增強訓練數據並用於訓練。
Hey Siri的核心功能在於使得用戶可以喚醒Siri來協助用戶,這篇文章的主要內容在於觸發Siri,但我們同樣也可以將Siri請求用戶文本無關的說話人識別。蘋果的研究人員探索了利用循環神經網路架構的課程學習方法來從變長的音頻序列中綜合出用戶信息。這一領域的研究同樣促進了利用包含Hey Siri的片段進行說話人識別。
更多詳細的內容請參看下列參考文獻:
[1] Apple Siri Team. Hey Siri: An On-device DNN-powered Voice Trigger for Apple』s Personal Assistant. Apple Machine Learning Journal, vol. 1, issue 6, October 2017. URL: https://machinelearning.apple.com/2017/10/01/hey-siri.html
[2] E. Marchi, S. Shum, K. Hwang, S. Kajarekar, S. Sigtia, H. Richards, R. Haynes, Y. Kim, and J. Bridle. Generalised Discriminative Transform via Curriculum Learning for Speaker Recognition. Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), April 2018.
[3] N. Dehak, P. Kenny, R. Dehak, P. Dumouchel, and P. Ouellet. Front-end Factor Analysis for Speaker Verification. IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 4, pp. 788-798, May 2011.
[4] G. Bhattacharya, J. Alam, P. Kenny, and V. Gupta. Modelling Speaker and Channel Variability Using Deep Neural Networks for Robust Speaker Verification. Proceedings of the IEEE Workshop on Spoken Language Technology (SLT), December 2016.
[5] G. Heigold, I. Moreno, S. Bengio, and N. Shazeer. End-to-end Text-dependent Speaker Verification. Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), March 2016.
[6ICASSP--https://2018.ieeeicassp.org/default.asp
-The End-
將門是一家專註於發掘、加速並投資技術創新激活商業價值的創業公司的新型創投機構,旗下設有將門創新服務、將門技術社群以及將門投資基金。
將門創新服務專註於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。
將門技術社群專註於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。
將門投資基金專註於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在兩年的時間裡,將門投資基金已經投資了包括量化派、碼隆科技、禾賽科技、杉數科技、Convertlab、迪英加科技等數十家具有高成長潛力的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我「門」:bp@thejiangmen.com


TAG:將門創投 |