迄今最大公開語音數據集上線，漢語部分還不夠強，需要你來幫忙

科技 03-03

曉查發自凹非寺

量子位報道 | 公眾號 QbitAI

今天，Mozilla發布了迄今為止最大的公開語音數據集Common Voice，內容全部來自志願者的貢獻。它的總時長達到了1368小時，包含18種語言，其中也有漢語。

數據集中的每一條都包含了一組獨立MP3錄音及相應的文字文件，同時包含了年齡、性別、口音等人口統計元數據，能夠訓練語音識別引擎提升其準確性。

Mozilla希望此舉能促進語音技術的創新與健康的商業競爭。

如何下載

現在去官方網站：

https://voice.mozilla.org/zh-CN/datasets

在上面填入自己的郵箱，內容會以tar.gz壓縮包的形式下載到本地，而且可以按照不同語種分類下載。

其中英語部分的素材最多，總共達到了803小時，文件體積22GB。而漢語（台灣）現在的素材比較少，只有28小時、800MB。

但是大陸地區的漢語暫時還沒上線，它的目標是錄入5000句話，現在只有584句，只完成了目標的10%多。希望大家積極去做貢獻，讓它早日上線。

為漢語數據集做貢獻

除了下載數據外，官方網站還提供了語音收集和驗證的選項，你也可以為這個數據集貢獻自己的一份力量。

打開電腦麥克風和揚聲器，按照屏幕上的句子讀出來，為數據集錄入語音素材。你還能聆聽別人的錄音，驗證數據的正確性。

對於未上線的大陸中文，你可以在網站上填寫自己的郵件地址，成為提供資源的志願者，Mozilla團隊會在第一時間通知你最新進展。

特別之處

Common Voice是由志願者按照屏幕文字錄入的語音內容組成。

也許有人要問，有聲讀物本身就包含語音和文字的對照，為何Mozilla還要花大力氣去做Common Voice？

因為有聲讀物作為語音識別的訓練數據集存在著一些局限性。

首先，書面與口語非常大的不同。

其次，有聲讀物通常是在安靜的錄音棚內錄製，錄製設備質量更好，音頻內容也很乾凈。而現實生活中的語音環境十分複雜。

最後，閱讀時的語氣和節奏也與平時說話不同。

其他語音數據集推薦

Mozilla還為大家提供了其他的語音數據集，有需要的同學請自取。

有聲讀物英文語料庫LibriSpeech：

https://www.openslr.org/12

TED演講語料庫TED-LIUM：

https://www.openslr.org/51/

講話轉錄文本語料庫VoxForge：

http://www.repository.voxforge1.org/downloads/SpeechCorpus/Trunk/

翻譯和口語音頻的大型資料庫Tatoeba：

https://tatoeba.org/eng/downloads

—完—

加入社群

量子位現開放「AI 行業」社群，面向AI行業相關從業者，技術、產品等人員，根據所在行業可選擇相應行業社群，在量子位公眾號（QbitAI）對話界面回復關鍵詞「行業群」，獲取入群方式。行業群會有審核，敬請諒解。

此外，量子位AI社群正在招募，歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話界面回復關鍵字「交流群」，獲取入群方式。

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回復「招聘」兩個字。

喜歡就點「好看」吧 !

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量子位 的精彩文章: