語音識別技術簡述

最新 08-20

聲學特徵的提取與選擇是語音識別的一個重要環節，聲學特徵的提取既是一個信息大幅度壓縮的過程，也是一個信號解卷過程，目的是使模式劃分器能更好地劃分。由於語音信號的時變特性，特徵提取必須在一小段語音信號上進行，也即進行短時分析。

一、常用的聲學特徵

1、線性預測係數LPC

線性預測分析從人的發聲機理入手，通過對聲道的短管級聯模型的研究，認為系統的傳遞函數符合全極點數字濾波器的形式，從而n時刻的信號可以用前若干時刻的信號的線性組合來估計。通過使實際語音的採樣值和線性預測採樣值之間達到均方差最小LMS，即可得到線性預測係數LPC。

2、倒譜係數CEP

利用同態處理方法，對語音信號求離散傅立葉變換DFT後取對數，再求反變換iDFT就可得到倒譜係數，使用倒譜可以提高特徵參數的穩定性。

3、Mel倒譜係數MFCC和感知線性預測PLP

不同於LPC等通過對人的發聲機理的研究而得到的聲學特徵，Mel倒譜係數MFCC和感知線性預測PLP是受人的聽覺系統研究成果推動而導出的聲學特徵。

MFCC的計算首先用FFT將時域信號轉化成頻域，之後對其對數能量譜用依照Mel刻度分布的三角濾波器組進行卷積，最後對各個濾波器的輸出構成的向量進行離散餘弦變換DCT，取前N個係數。

PLP仍用德賓法去計算LPC參數，但在計算自相關參數時用的也是對聽覺激勵的對數能量譜進行DCT的方法。

二、聲學模型

語音識別系統的模型通常由聲學模型和語言模型兩部分組成，分別對應於語音到音節概率的計算和音節到字概率的計算。馬爾可夫模型的概念是一個離散時域有限狀態自動機，隱馬爾可夫模型HMM是指這一馬爾可夫模型的內部狀態外界不可見，外界只能看到各個時刻的輸出值。

對語音識別系統，輸出值通常就是從各個幀計算而得的聲學特徵。用HMM刻畫語音信號需作出兩個假設，一是內部狀態的轉移只與上一狀態有關，另一是輸出值只與當前狀態有關，這兩個假設大大降低了模型的複雜度。

三、語言模型

語言模型主要分為規則模型和統計模型兩種。統計語言模型是用概率統計的方法來揭示語言單位內在的統計規律，其中N-Gram簡單有效，被廣泛使用。

該模型基於這樣一種假設，第n個詞的出現只與前面N-1個詞相關，而與其它任何詞都不相關，整句的概率就是各個詞出現概率的乘積。這些概率可以通過直接從語料中統計N個詞同時出現的次數得到。

四、搜索

連續語音識別中的搜索，就是尋找一個詞模型序列以描述輸入語音信號，從而得到詞解碼序列。搜索所依據的是對公式中的聲學模型打分和語言模型打分。在實際使用中，往往要依據經驗給語言模型加上一個高權重，並設置一個長詞懲罰分數。

五、系統實現

語音識別系統選擇識別基元的要求是，有準確的定義，能得到足夠數據進行訓練，具有一般性。系統所需的訓練數據大小與模型複雜度有關，模型設計得過於複雜以至於超出了所提供的訓練數據的能力，會使得性能急劇下降。

六、自適應與魯棒性

語音識別系統的性能受許多因素的影響，包括不同的說話人、說話方式、環境噪音、傳輸信道等等。提高系統魯棒性，是要提高系統克服這些因素影響的能力，使系統在不同的應用環境、條件下性能穩定。自適應的目的，是根據不同的影響來源，自動地、有針對性地對系統進行調整，在使用中逐步提高性能。

語音識別系統技術在實際使用中達到了較好的效果，但如何克服影響語音的各種因素還需要更深入地分析。目前聽寫機系統還不能完全實用化以取代鍵盤的輸入，但識別技術的成熟同時推動了更高層次的語音理解技術的研究。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

TAG: |