當前位置:
首頁 > 新聞 > 谷歌開放語音命令數據集,助力利用深度學習解決音頻識別問題

谷歌開放語音命令數據集,助力利用深度學習解決音頻識別問題

選自Google Research

機器之心編譯

參與:路雪

近日,谷歌開放語音命令數據集,發布新的音頻識別教程,旨在幫助初學者利用深度學習解決語音識別和其他音頻識別問題。

  • 語音命令數據集地址:http://download.tensorflow.org/data/speech_commands_v0.01.tar.gz

  • 音頻識別教程地址:https://www.tensorflow.org/versions/master/tutorials/audio_recognition

在谷歌,我們經常被問到如何使用深度學習解決語音識別和其他音頻識別問題,比如檢測關鍵詞或命令。儘管已經有很多大型開源語音識別系統,如 Kaldi,這些系統可以把神經網路作為一個模塊使用,但是它們的複雜性導致其很難用於指導簡單的任務。更重要的是,並沒有多少適合初學者的免費、開源數據集(部分數據集需要在構建神經模型之前進行預處理)或適合簡單的關鍵詞檢測任務的數據集。

為了解決這些問題,TensorFlow 和 AIY 團隊創建了語音命令數據集,並用它向 TensorFlow 中添加訓練和推斷的示例代碼。該數據集有 30 個短單詞的 65000 個長度 1 秒鐘的發音,這些音頻由數千人通過 AIY 網站提供。它隨 Creative Commons BY 4.0 license 發布,並將隨著音頻的增多持續發布新版本。該數據集旨在幫助構建基礎但有用的應用程序語音介面,包括常用單詞「是」(Yes)、「否」(No)、數字和方向詞。我們還開源了用於創建該數據集的基礎架構,希望更多人使用它創建自己的數據集,尤其是能夠覆蓋到服務水平不足的語言和應用。

想自己試試,那麼下載 TensorFlow 安卓演示應用程序的預置數據集(http://ci.tensorflow.org/view/Nightly/job/nightly-android/lastSuccessfulBuild/artifact/out/tensorflow_demo.apk)並打開「TF Speech」。你可以申請耳機的訪問許可權,然後就會看到一個十個單詞的列表,你說哪個單詞,它就會點亮。

谷歌開放語音命令數據集,助力利用深度學習解決音頻識別問題

識別結果取決於你的語音模式是否被數據集覆蓋,因此這並不完美,商業語音識別系統比這個教學示例複雜的多。但是我們希望,隨著更多口音和變體加入數據集,社區向 TensorFlow 貢獻改進後的模型,我們能夠看到數據集的不斷改進和擴展。

你還可以通過 TensorFlow.org 上新的音頻識別教程學習如何訓練自己的模型。有了該框架的最新開發版本(https://hub.docker.com/r/tensorflow/tensorflow/)和現代的桌面電腦,你可以下載該數據集並在幾小時內訓練模型。你還擁有多種選擇來為不同的問題定製神經網路,產生不同的延遲時間、規模、精度的平衡以適應不同的平台。

我們很期待看到大家在該數據集和教程的幫助下構建的新應用,因此我希望大家有機會利用這些資源,開始做音頻識別任務!

  • Interspeech 2015 會議上展示的《Convolutional Neural Networks for Small-footprint Keyword Spotting》(http://www.isca-speech.org/archive/interspeech_2015/papers/i15_1478.pdf)中對該網路的架構進行了描述。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

利用TensorFlow和神經網路來處理文本分類問題
如何從一名軟體工程師轉行做人工智慧?
蘋果機器學習期刊:Siri通過跨帶寬和跨語言初始化提升神經網路聲學模型
瀏覽器使用synaptic.js訓練簡單的神經網路推薦系統
在世界機器人博覽會現場,我們發現了 8 個有趣的展位

TAG:機器之心 |

您可能感興趣

微軟研究員提出多束深度吸引子網路,解決語音識別「雞尾酒會問題」
用問題解決理論解析生物學試題難度的探討
掌握關鍵技術,中國有效解決潛艇噪音問題,美俄表示十分羨慕
如何利用虛擬化技術解決物聯網開發難題?
怪物獵人世界聯機語音用不了 奇游聯機寶解決語音問題
疏導抑或壓制:中國學者通過應力釋放解決金屬鋰電池的枝晶問題
機器學習解決口令問題
專註 B 端實時音視頻,他們用「白板交互」為用戶解決複雜溝通難題
英特爾推出無人機軟體解決方案,助力企業釋放航空數據潛力
抑鬱症:記憶力、注意力、思維等出現問題後的解析即解決方法
爆發力訓練三大要點深度詳解,有效解決爆發訓練安全問題
全球能源問題將解決?科學家利用量子隧道技術從地熱中轉化電力
拇指大接收器,解決了iPhone耳機孔適配問題—擊音 聽鍵DJ 調音師藍牙音頻接收器體驗
心理問題不解決,情感問題更無解
俄推遲核動力航母計劃,是否會向中國發出求助?根本問題很難解決
用設計解決問題
不依賴幼師,綠橙教育想用數據解決個性化問題
「眼」來助聽:谷歌視覺-音頻分離模型解決「雞尾酒會效應」
一款應用解決所有問題 小內存手機的福音
釋放「應力」或可解決高容量鋰電池安全難題