當前位置:
首頁 > 最新 > 互聯網上的聽風者:聲紋識別的應用與核心技術迭代

互聯網上的聽風者:聲紋識別的應用與核心技術迭代

聲波識別,是組成語音識別體系的關鍵所在,在了解了聲波識別的基本概念之後,讓我們一起了解下聲波識別技術的發展歷程。隨著它的迭代發展,其中關鍵的技術又有怎樣的突破和瓶頸?

1、聲紋識別的發展

隨著信號技術的進步和硬體水平的提高,聲紋識別在金融領域、軍事安全以及醫療領域都得到了廣泛應用。

90年代以來,聲紋識別技術日趨成熟,逐漸建立了完善的理論體系。1995年以來,基於梅爾頻率倒譜係數、高斯混合模型、UBM-MAP模型等理論的聲紋識別系統更加成熟;

2005年後,將GMM與JFA結合,而後衍生出i-vector技術,使聲紋識別的性能得到了提升;2013年開始,深度學習開始逐步應用在聲紋識別領域,由i-vector向d-vector轉變,進一步提升了聲紋識別的識別系統性能。

2、核心技術解析

GMM-UBM系統結構

高斯混合模型(GMM)為聲紋識別的第一個主流模型,已有長達20年的發展歷程。此技術的基本理論是對每個訓練集說話人構建屬於自己身份特徵的概率分布模型。

用一個生動的例子形容GMM模型:每一種狗的體型大小都有一個均值和方差,接近一個正態分布。而不同種類的狗的均值不同,方差也不同。所以各種狗混在一起,它們的體型無法用一個均值和方差表示,只能表示成多個正態分布的線性混合,也就是由多個單高斯分布經加權和表示成GMM。

通用背景模型(Universal Background Model,UBM),本質是一個大型的GMM模型,也是生成式模型,其訓練過程是無監督的。目標說話人模型的註冊是以UBM模型為初始化模型,用最大後驗概率估計(MaximumA Posteriori,MAP)的方法進行自適應調整,得到每個目標說話人的模型。UBM-MAP技術的流程圖如圖所示:

圖註:對訓練說話人的語音特徵,用期望最大化(ExpectationMaximization,EM)

演算法進行訓練,得到UBM模型。將註冊的目標說話人特徵對UBM模型自適應,得到每個目標說話人的GMM模型。將用於的測試說話人特徵送進每個註冊集的GMM模型中計算對數似然比得分,進行邏輯判斷,得分最高的說話人即為識別結果。

UBM訓練

一個小例子說明MAP演算法:假設有五個袋子1-5,每袋中都有兩種口味的餅乾(奶油口味或水果口味),比例確定。假設拿到袋子1或5的幾率都是0.1,拿到2或4的機率都是0.2,拿到3的機率是0.4,問從同一個袋子中連續拿到2個水果餅乾,那麼這個袋子最有可能是上述五個的哪一個?這就是一個MAP的問題,因為它融入了要估計量的先驗分布,也就是說明了拿到某個袋子的概率。如果沒有先驗分布,這就是一個極大似然估計問題了。

對數似然比+等錯誤率+DCF

說話人的識別過程,所用的性能指標:與待測語音的相似度計算得分最高的模型所對應的說話人即為識別結果。

說話人的確認過程,所用的性能指標:通過判斷待測語音和其聲稱的模型之間的相似度是否大於某一閾值,由此作出判斷。

EER的一句話概括就是:錯誤拒絕率和錯誤接受率的折中。在一批本該全部正確(True)的語音中出現幾個沒識別出正確的語音,這個就是錯誤拒絕率FR(FalseRejection);在一批本該全部錯誤(False)的語音中出現了幾個沒識別出錯誤的語音,就是錯誤接受率FA(False Acceptance)。然後各自占的比例:FR =Miss / Total_TRUE;FA=False Alarm/ Total_False。FR與FA的計算公式如下:

閾值增大時FA降低,而FR則呈負相關增大。具體關係如下:

FA與FR的關係曲線圖

EER指的是DET(detection error trade-off)曲線上FR和FA相等時的共同取值,該值越小表示系統的性能越好。由此,則可以進行判斷並分析系統性能。EER的值越小,表示系統的性能越好。

北京林業大學信息學院人工智慧研究所,致力於採用人工智慧的研究方式,將深度學習應用在聲紋識別領域中。目前已取得了突破性的進展,不僅能提升聲紋識別的識別系統性能,還能提高聲紋識別的精確度。

AI-Union聯盟成員

北京林業大學信息學院

人工智慧研究所

北京林業大學信息學院於2001年成立,其歷史可以追溯到1984年成立的計算中心和1986年成立的國內第一個林業信息管理專業,是一個發展迅速、年輕而有朝氣的學院。學院秉承「結構、特色、質量、創新」的八字方針,緊隨國家戰略腳步,全面部署人工智慧各領域研究。本系列內容由北京林業大學信息學院柯登峰老師,王岩碩士等研究員提供指導。

後續來自聯盟的專家學者將為您分享研究成果的各項解讀,千萬不要錯過哦!

如果你對聲波識別有想了解的內容,歡迎留言告訴我們,來自聯盟的學者將您帶來最專業的解讀。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!

TAG: |