Google發布最新「語音命令」數據集，可有效提高關鍵詞識別系統性能

最新 04-16

圖源：unsplash

編譯 | 嗯~是阿童木呀、EVA

導語：在本文中，我們描述了Google最新發布的一個用於幫助訓練和評估關鍵詞識別系統的口語辭彙組成的音頻數據集。討論了為什麼這個任務是一個有趣的挑戰，以及為什麼它需要一個專門的，與用於對完整句子進行自動語音識別的傳統數據集所不同的數據集。

我們提出了一種對該任務進行可重複、可比較的精確度指標度量方法。描述了數據是如何被收集和驗證的，它所包含的內容，以及其以前的版本和屬性。通過報告在該數據集上訓練的模型的基線結果而得出了結論。

一般說來，語音識別研究傳統上需要大學或企業等大型機構的資源來進行。在這些機構工作的人通常可以通過與語言數據聯盟（Linguistic Data Consortium）等組織達成協議，從而自由地訪問並使用學術數據集或者專有的商業數據。

隨著語音技術的成熟，想要訓練和評估識別模型的人數已經不僅只是這些傳統組織群體，但是數據集的可用性並沒有被擴展。正如ImageNet和計算機視覺領域中類似的集合所顯示的那樣，拓寬對數據集的訪問可以鼓勵跨組織的協作，並使得在不同方法之間能夠進行同類比較，幫助整個領域向前發展。

語音命令數據集（Speech Commands dataset）是為一類簡單的語音識別任務構建標準訓練和評估數據集的嘗試。它的主要目標是提供一種方法來構建和測試小模型，這些模型可以從背景噪音或不相關語音中以儘可能少的誤報（false positives），從一組10個或更少的目標單詞中檢測出單個單詞的使用時間，這個任務通常被稱為關鍵詞識別。

為了覆蓋到更廣泛的研究人員和開發人員，該數據集已經在「知識共享」（Creative Commons）4.0許可下被發布了出來。這使該數據集能夠很容易地被納入到教程和其他腳本中，可以被下載和使用，而不需要任何用戶干預（例如，在網站上註冊或向管理員發送電子郵件尋求許可）。該許可證在商業環境中也是眾所周知的，因此通常在需要批准的情況下可以由法律團隊快速處理。

圖1：數據集中每個單詞的記錄數量

Mozilla的通用語音（Common Voice）數據集擁有2萬名不同的人的超過500個小時的語音，並且可以在「知識共享」Zero許可（類似於公共域）下使用。這個許可證使得構建它非常容易。它由句子對齊，並且是由志願者通過網路應用程序閱讀請求的短語而創建的。

LibriSpeech是一個1000小時的閱讀英語演講集，在「知識共享」4.0許可下發布，並使用受到廣泛支持的開源FLAC編碼器進行存儲。它的標籤只在句子級別上對齊，因此缺少詞級的對齊信息。這使得它比起關鍵詞識別更適合全自動語音識別。

TIDIGITS包含由300位不同說話者錄製的25,000位數字序列，由付費的參與者在安靜的房間錄製。該數據集只能在來自語言數據聯盟的商業許可下使用，並且以NIST SPHERE文件格式存儲，這種格式被證實難以使用現代軟體來解碼。我們關於關鍵詞識別的初始實驗是使用該數據集進行的。

CHiME-5擁有在人們家中錄製的50個小時的語音記錄，存儲為16 KHz的 WAV文件，並可以在有限的許可下使用。它在句子級別對齊。

許多語音介面依賴關鍵詞識別來啟動交互。例如，你可能會說」Hey Google"或"Hey Siri」開始查詢或命令你的手機。一旦設備知道你想要進行交互，就可以將音頻發送到Web服務以運行一個僅受商業考慮限制的模型，因為它可以在資源由雲服務提供商控制的伺服器上運行。雖然交互開始的初始檢測想要作為基於雲的服務運行是不切實際的，因為它需要始終從所有設備通過網路發送音頻數據。這樣維護成本會非常高，並且會增加該技術的隱私風險。

相反，大多數語音介面在手機或其他設備上本地運行識別模塊。這種連續監聽來自麥克風的音頻輸入，並不是通過互聯網將數據發送到伺服器，而是他們運行監聽所需觸發短語的模型。一旦聽到可能的觸發信號後，就開始將音頻傳輸到Web服務。由於本地模型在不受Web服務提供商控制的硬體上運行，因此設備模型必須尊重硬資源限制。其中最明顯的是，通常移動處理器所具有的總計算能力比大多數伺服器要低得多，因此為了實現互動式響應，近似實時運行，設備模型的計算所需的計算量必須少於其等效雲計算量。

更巧妙的是，移動設備的電池續航時間有限，而且持續運行的任何設備都需要非常節能，否則用戶會發現設備的耗電速度太快。這一考慮不適用於插電式家用設備，但這些設備在可以消散多少熱量上存在一定的限制，從而限制了本地模型可用的能源數量，並受到諸如能源之星（EnergyStar）等計劃的鼓勵，儘可能減少其整體用電量。最後需要考慮的是，用戶期望設備能夠做出快速響應，而網路延遲可能會因環境而變化很大，因此，即使伺服器的全部響應延遲，一些命令已收到的初始確認對於獲得良好體驗也很重要。

這些約束意味著，關鍵詞識別的任務與一旦發現交互後在伺服器上執行的語音識別是完全不同的：

關鍵詞識別模型必須更小，所涉及的計算量更少。

它們需要以非常節能的方式運行。

它們的大部分輸入是沉默或背景雜訊，而不是言語，所以誤報必須盡量減少。

大部分語音輸入與語音介面無關，因此模型不應觸發任意語音。

識別的重要單位是單個單詞或短語，而不是整個句子。

這些差異意味著設備內關鍵詞識別和一般語音識別模型之間的訓練和評估過程是完全不同的。有一些有發展前景的數據集可以支持通用的語音任務，例如Mozilla的通用語音，但它們不容易適用於關鍵詞識別。

此語音命令數據集旨在滿足構建和測試設備上模型的特殊需求，使模型作者能夠使用與其他模型相媲美的度量標準來演示其架構的精確度，並為團隊提供一種簡單的方法通過對相同數據進行訓練來重現基準模型。希望這將加速進展和協作，並提高可用模型的整體質量。

第二個重要受眾是硬體製造商。通過使用密切反映產品需求的公開可用任務，晶元供應商可以以潛在購買者易於比較的方式展示其產品的精確度和能源使用情況。這種增加的透明度應該會導致硬體更好地滿足產品要求。這些模型還應提供硬體工程師可用來優化其晶元的清晰規範，並可能提出模型更改，以便提供更高效的實現。機器學習和硬體之間的這種協同設計可以是一個良性循環，在各個領域之間增加有用信息的流動，而這對雙方都有幫助。

圖2：使用不同訓練數據的Top-One精確度評估結果

該數據集的版本1於2017年8月3日發布，包含1,881位演講者的64,727條發言。使用V1訓練數據對來自TensorFlow教程（基於卷積神經網路的小尺寸關鍵詞識別）中的默認卷積模型進行訓練，當對V1的測試集進行評估時，TopOne得分為85.4％。使用本文中所記錄的數據集版本2對相同模型進行訓練，產生了一個模型，該模型在從V2數據中提取的訓練集中Top-One得分為88.2％。在V2數據上進行訓練，但是針對V1測試集進行評估的模型得到89.7％的Top-One得分，這表明V2訓練數據在精確度上比V1大大提高。圖2列出了完整結果。

總而言之，該語音命令數據集對於訓練和評估多種模型來說是非常有用的，而第二個版本顯示了相較於原始數據的等效測試數據的改進結果。

來源 | arXiv

作者 | Pete Warden

https://arxiv.org/pdf/1804.03209.pdf

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 人工智慧頭條 的精彩文章:

※關於強化學習你不得不知道的5件事

TAG:人工智慧頭條 |

Google發布最新「語音命令」數據集，可有效提高關鍵詞識別系統性能

▌相關研究