當前位置:
首頁 > 最新 > 語音識別技術簡述

語音識別技術簡述

聲學特徵的提取與選擇是語音識別的一個重要環節,聲學特徵的提取既是一個信息大幅度壓縮的過程,也是一個信號解卷過程,目的是使模式劃分器能更好地劃分。由於語音信號的時變特性,特徵提取必須在一小段語音信號上進行,也即進行短時分析。

一、常用的聲學特徵

1、線性預測係數LPC

線性預測分析從人的發聲機理入手,通過對聲道的短管級聯模型的研究,認為系統的傳遞函數符合全極點數字濾波器的形式,從而n時刻的信號可以用前若干時刻的信號的線性組合來估計。通過使實際語音的採樣值和線性預測採樣值之間達到均方差最小LMS,即可得到線性預測係數LPC。

2、倒譜係數CEP

利用同態處理方法,對語音信號求離散傅立葉變換DFT後取對數,再求反變換iDFT就可得到倒譜係數,使用倒譜可以提高特徵參數的穩定性。

3、Mel倒譜係數MFCC和感知線性預測PLP

不同於LPC等通過對人的發聲機理的研究而得到的聲學特徵,Mel倒譜係數MFCC和感知線性預測PLP是受人的聽覺系統研究成果推動而導出的聲學特徵。

MFCC的計算首先用FFT將時域信號轉化成頻域,之後對其對數能量譜用依照Mel刻度分布的三角濾波器組進行卷積,最後對各個濾波器的輸出構成的向量進行離散餘弦變換DCT,取前N個係數。

PLP仍用德賓法去計算LPC參數,但在計算自相關參數時用的也是對聽覺激勵的對數能量譜進行DCT的方法。

二、聲學模型

語音識別系統的模型通常由聲學模型和語言模型兩部分組成,分別對應於語音到音節概率的計算和音節到字概率的計算。馬爾可夫模型的概念是一個離散時域有限狀態自動機,隱馬爾可夫模型HMM是指這一馬爾可夫模型的內部狀態外界不可見,外界只能看到各個時刻的輸出值。

對語音識別系統,輸出值通常就是從各個幀計算而得的聲學特徵。用HMM刻畫語音信號需作出兩個假設,一是內部狀態的轉移只與上一狀態有關,另一是輸出值只與當前狀態有關,這兩個假設大大降低了模型的複雜度。

三、語言模型

語言模型主要分為規則模型和統計模型兩種。統計語言模型是用概率統計的方法來揭示語言單位內在的統計規律,其中N-Gram簡單有效,被廣泛使用。

該模型基於這樣一種假設,第n個詞的出現只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現概率的乘積。這些概率可以通過直接從語料中統計N個詞同時出現的次數得到。

四、搜索

連續語音識別中的搜索,就是尋找一個詞模型序列以描述輸入語音信號,從而得到詞解碼序列。搜索所依據的是對公式中的聲學模型打分和語言模型打分。在實際使用中,往往要依據經驗給語言模型加上一個高權重,並設置一個長詞懲罰分數。

五、系統實現

語音識別系統選擇識別基元的要求是,有準確的定義,能得到足夠數據進行訓練,具有一般性。系統所需的訓練數據大小與模型複雜度有關,模型設計得過於複雜以至於超出了所提供的訓練數據的能力,會使得性能急劇下降。

六、自適應與魯棒性

語音識別系統的性能受許多因素的影響,包括不同的說話人、說話方式、環境噪音、傳輸信道等等。提高系統魯棒性,是要提高系統克服這些因素影響的能力,使系統在不同的應用環境、條件下性能穩定。自適應的目的,是根據不同的影響來源,自動地、有針對性地對系統進行調整,在使用中逐步提高性能。

語音識別系統技術在實際使用中達到了較好的效果,但如何克服影響語音的各種因素還需要更深入地分析。目前聽寫機系統還不能完全實用化以取代鍵盤的輸入,但識別技術的成熟同時推動了更高層次的語音理解技術的研究。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!

TAG: |