迄今最大公開語音數據集上線,漢語部分還不夠強,需要你來幫忙
曉查 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
今天,Mozilla發布了迄今為止最大的公開語音數據集Common Voice,內容全部來自志願者的貢獻。它的總時長達到了1368小時,包含18種語言,其中也有漢語。
數據集中的每一條都包含了一組獨立MP3錄音及相應的文字文件,同時包含了年齡、性別、口音等人口統計元數據,能夠訓練語音識別引擎提升其準確性。
Mozilla希望此舉能促進語音技術的創新與健康的商業競爭。
如何下載
現在去官方網站:
https://voice.mozilla.org/zh-CN/datasets
在上面填入自己的郵箱,內容會以tar.gz壓縮包的形式下載到本地,而且可以按照不同語種分類下載。
其中英語部分的素材最多,總共達到了803小時,文件體積22GB。而漢語(台灣)現在的素材比較少,只有28小時、800MB。
但是大陸地區的漢語暫時還沒上線,它的目標是錄入5000句話,現在只有584句,只完成了目標的10%多。希望大家積極去做貢獻,讓它早日上線。
為漢語數據集做貢獻
除了下載數據外,官方網站還提供了語音收集和驗證的選項,你也可以為這個數據集貢獻自己的一份力量。
打開電腦麥克風和揚聲器,按照屏幕上的句子讀出來,為數據集錄入語音素材。你還能聆聽別人的錄音,驗證數據的正確性。
對於未上線的大陸中文,你可以在網站上填寫自己的郵件地址,成為提供資源的志願者,Mozilla團隊會在第一時間通知你最新進展。
特別之處
Common Voice是由志願者按照屏幕文字錄入的語音內容組成。
也許有人要問,有聲讀物本身就包含語音和文字的對照,為何Mozilla還要花大力氣去做Common Voice?
因為有聲讀物作為語音識別的訓練數據集存在著一些局限性。
首先,書面與口語非常大的不同。
其次,有聲讀物通常是在安靜的錄音棚內錄製,錄製設備質量更好,音頻內容也很乾凈。而現實生活中的語音環境十分複雜。
最後,閱讀時的語氣和節奏也與平時說話不同。
其他語音數據集推薦
Mozilla還為大家提供了其他的語音數據集,有需要的同學請自取。
有聲讀物英文語料庫LibriSpeech:
https://www.openslr.org/12
TED演講語料庫TED-LIUM:
https://www.openslr.org/51/
講話轉錄文本語料庫VoxForge:
http://www.repository.voxforge1.org/downloads/SpeechCorpus/Trunk/
翻譯和口語音頻的大型資料庫Tatoeba:
https://tatoeba.org/eng/downloads
—完—
加入社群
量子位現開放「AI 行業」社群,面向AI行業相關從業者,技術、產品等人員,根據所在行業可選擇相應行業社群,在量子位公眾號(QbitAI)對話界面回復關鍵詞「行業群」,獲取入群方式。行業群會有審核,敬請諒解。
此外,量子位AI社群正在招募,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式。
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
喜歡就點「好看」吧 !
※你的線性代數魔法書,極度易吸收:想讓圖像怎麼動,它就怎麼動
TAG:量子位 |