當前位置:
首頁 > 科技 > 絕佳的ASR學習方案:這是一套開源的中文語音識別系統

絕佳的ASR學習方案:這是一套開源的中文語音識別系統


機器之心編輯


作者:AI檸檬博主




語音識別目前已經廣泛應用於各種領域,那麼你會想做一個自己的語音識別系統嗎?這篇文章介紹了一種開源的中文語音識別系統,讀者可以藉助它快速訓練屬於自己的中文語音識別模型,或直接使用預訓練模型測試效果。所以對於那些對語音識別感興趣的讀者而言,這是一個學習如何搭建 ASR 系統的極好資料。



ASRT 是一套基於深度學習實現的語音識別系統,全稱為 Auto Speech Recognition Tool,由 AI 檸檬博主開發並在 GitHub 上開源(GPL 3.0 協議)。本項目聲學模型通過採用卷積神經網路(CNN)和連接性時序分類(CTC)方法,使用大量中文語音數據集進行訓練,將聲音轉錄為中文拼音,並通過語言模型,將拼音序列轉換為中文文本。基於該模型,作者在 Windows 平台上實現了一個基於 ASRT 的語音識別應用軟體它同樣也在 GitHub 上開源了。





  • ASRT 項目主頁:https://asrt.ailemon.me



  • GitHub 項目地址:https://github.com/nl8590687/ASRT_SpeechRecognition



這個開源項目主要用於語音識別的研究,作者希望它可以一步步發展為極高準確率的 ASR 系統。此外,因為模型和訓練代碼都是開源的,所以能節省開發者很多時間。同樣,如果開發者想要根據需求修改這個項目,那也非常簡單,因為 ASRT 的代碼都是經過高度封裝的,所有模塊都是可以自定義的。如下展示了該項目的一些特徵:





系統流程

特徵提取:將普通的 wav 語音信號通過分幀加窗等操作轉換為神經網路需要的二維頻譜圖像信號,即語譜圖。



聲學模型:基於 Keras 和 TensorFlow 框架,使用這種參考了 VGG 的深層的卷積神經網路作為網路模型,並訓練。




CTC 解碼:在語音識別系統的聲學模型輸出中,往往包含了大量連續重複的符號,因此,我們需要將連續相同的符號合併為同一個符號,然後再去除靜音分隔標記符,得到最終實際的語音拼音符號序列。



語言模型:使用統計語言模型,將拼音轉換為最終的識別文本並輸出。拼音轉文本本質被建模為一條隱含馬爾可夫鏈,這種模型有著很高的準確率。

使用流程



如果讀者希望直接使用預訓練的中文語音識別系統,那麼直接下載 Release 的文件並運行就好了:



下載地址:https://github.com/nl8590687/ASRT_SpeechRecognition/releases/tag/v0.4.2



如果讀者希望修改某些模塊,或者在新的數據集上進行訓練,那麼我們可以複製整個項目到本地,再做進一步處理。首先我們通過 Git 將本項目複製到本地,並下載訓練所需要的數據集。作者在項目 README 文件中提供了兩個數據集,即清華大學 THCHS30 中文語音數據集和 AIShell-1 開源版數據集。


$ git 

clone

 https://github.com/nl8590687/ASRT_SpeechRecognition.git


THCHS30 和 ST-CMDS 國內下載鏡像:http://cn-mirror.openslr.org/



在下載數據集後,我們需要將 datalist 目錄下的所有文件複製到 dataset 目錄下,也就是將其與數據集放在一起:


$ cp -rf datalist/* dataset/

在開始訓練前,我們還需要安裝一些依賴庫:





  • python_speech_features



  • TensorFlow



  • Keras



  • wave



當然,其它如 NumPy、Matplotlib、Scipy 和 h5py 等常見的科學計算庫也都是需要的。一般有這些包後,環境應該是沒什麼問題的,有問題也可以根據報錯安裝對應缺少的庫。



訓練模型可以執行命令行:


$ python3 train_mspeech.py


測試模型效果可以運行:


$ python3 test_mspeech.py


測試之前,請確保代碼中填寫的模型文件路徑存在。最後,更多的用法和特點可以查看原 GitHub 項目和文檔。

本文為機器之心編輯,

轉載請聯繫原作者獲得授權


?------------------------------------------------


加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com


投稿或尋求報道:

content

@jiqizhixin.com


廣告 & 商務合作:bd@jiqizhixin.com

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

對話Gary Marcus:人工智慧還未找到它的牛頓,我們不能依賴它
看得見的高斯過程:這是一份直觀的入門解讀

TAG:機器之心 |