當前位置:
首頁 > 科技 > 迄今最大公開語音數據集上線,漢語部分還不夠強,需要你來幫忙

迄今最大公開語音數據集上線,漢語部分還不夠強,需要你來幫忙

曉查 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

今天,Mozilla發布了迄今為止最大的公開語音數據集Common Voice,內容全部來自志願者的貢獻。它的總時長達到了1368小時,包含18種語言,其中也有漢語

數據集中的每一條都包含了一組獨立MP3錄音及相應的文字文件,同時包含了年齡、性別、口音等人口統計元數據,能夠訓練語音識別引擎提升其準確性。

Mozilla希望此舉能促進語音技術的創新與健康的商業競爭。

如何下載

現在去官方網站:

https://voice.mozilla.org/zh-CN/datasets

在上面填入自己的郵箱,內容會以tar.gz壓縮包的形式下載到本地,而且可以按照不同語種分類下載。

其中英語部分的素材最多,總共達到了803小時,文件體積22GB。而漢語(台灣)現在的素材比較少,只有28小時、800MB。

但是大陸地區的漢語暫時還沒上線,它的目標是錄入5000句話,現在只有584句,只完成了目標的10%多。希望大家積極去做貢獻,讓它早日上線。

為漢語數據集做貢獻

除了下載數據外,官方網站還提供了語音收集和驗證的選項,你也可以為這個數據集貢獻自己的一份力量。

打開電腦麥克風和揚聲器,按照屏幕上的句子讀出來,為數據集錄入語音素材。你還能聆聽別人的錄音,驗證數據的正確性。

對於未上線的大陸中文,你可以在網站上填寫自己的郵件地址,成為提供資源的志願者,Mozilla團隊會在第一時間通知你最新進展。

特別之處

Common Voice是由志願者按照屏幕文字錄入的語音內容組成。

也許有人要問,有聲讀物本身就包含語音和文字的對照,為何Mozilla還要花大力氣去做Common Voice?

因為有聲讀物作為語音識別的訓練數據集存在著一些局限性。

首先,書面與口語非常大的不同。

其次,有聲讀物通常是在安靜的錄音棚內錄製,錄製設備質量更好,音頻內容也很乾凈。而現實生活中的語音環境十分複雜。

最後,閱讀時的語氣和節奏也與平時說話不同。

其他語音數據集推薦

Mozilla還為大家提供了其他的語音數據集,有需要的同學請自取。

有聲讀物英文語料庫LibriSpeech

https://www.openslr.org/12

TED演講語料庫TED-LIUM

https://www.openslr.org/51/

講話轉錄文本語料庫VoxForge

http://www.repository.voxforge1.org/downloads/SpeechCorpus/Trunk/

翻譯和口語音頻的大型資料庫Tatoeba

https://tatoeba.org/eng/downloads

加入社群

量子位現開放「AI 行業」社群,面向AI行業相關從業者,技術、產品等人員,根據所在行業可選擇相應行業社群,在量子位公眾號(QbitAI)對話界面回復關鍵詞「行業群」,獲取入群方式。行業群會有審核,敬請諒解。

此外,量子位AI社群正在招募,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式。

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

喜歡就點「好看」吧 !


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

你的線性代數魔法書,極度易吸收:想讓圖像怎麼動,它就怎麼動

TAG:量子位 |