當前位置:
首頁 > 科技 > 資源 | 囊括歐亞非大陸多種語言的25個平行語料庫數據集(拿走不謝!)

資源 | 囊括歐亞非大陸多種語言的25個平行語料庫數據集(拿走不謝!)


選自gengo.ai


作者:Meiryum Ali

機器之心編譯


參與:王淑婷、路





與大部分機器學習模型一樣,有效的機器翻譯系統需要大量的訓練數據才能產生可讀性強的結果。平行文本翻譯語料庫是兩種語言之間的結構化翻譯文本集。此類平行語料庫對訓練機器翻譯演算法至關重要。但從哪裡可以獲得這些外語數據集呢?請看下列清單↓↓↓







平行文本數據集






  • Aligned Hansards of the 36th Parliament of Canada:包含英語-法語句對。



  • 地址:https://www.isi.edu/natural-language/download/hansard/



  • European Parliament Proceedings Parallel Corpus 1996-2011:包含 21 種歐洲語言句對。



  • 地址:http://www.statmt.org/europarl/



  • Global Voices Parallel Corpus:新聞門戶網站 Global Voices 的內容精選,包括 57 種語言的新聞文本。



  • 地址:http://casmacat.eu/corpus/global-voices.html



  • RATS language identification:包含將近 5400 個小時的阿拉伯語、波斯語、達里語、普什圖語和烏爾都語電話會話語音,並附有語音分割標註。



  • 地址:https://catalog.ldc.upenn.edu/LDC2018S10



  • Chinese-French Text:包含來自 Chinese Broadcast News 語料庫的大約 3 萬漢字子集的法語譯文。



  • 地址:https://catalog.ldc.upenn.edu/LDC2018T17



  • Arabizi Text:自動檢測英語和阿拉伯語混合文本中語碼轉換的訓練數據,包含 522 條推特。



  • 地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0126/



  • English-Vietnamese Text:包含 50 萬個英語-越南語句對的語料庫。



  • 地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0124/



  • English-Persian Text:包含超過 20 萬個英語-波斯語對齊句對。



  • 地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0118/



  • Chinese-English Emails:包含來自電子郵件的 15000 個漢字(相當於 10000 個英文單詞)及其英文參考譯文。



  • 地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0113/



  • French-Arabic Newspapers:包含 10000 個阿拉伯語單詞和 2 個法語參考譯文的語料庫。源文本是 2013 年 5 月從阿拉伯版《Le Monde Diplomatique》中收集的文章。



  • 地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0100/



  • Pashto-French Text:106 個小時的普什圖語錄音的文字記錄及其法語譯文。



  • 地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0093/



  • German-English Text:手動詞對齊的德語-英語平行語料庫。



  • 地址:https://github.com/bicici/SMTData/blob/master/German-English_WordAlignment.zip



  • Turkish-English Text:為 WMT 2018 準備的土耳其語-英語平行語料庫。



  • 地址:https://github.com/bicici/SMTData/commit/1cca572244c6c9b8e810735ca898f5f3a19b2ecc#diff-7a11a746e07c7411854b77f3f521f534



  • UN translation text:6 種不同語言的聯合國翻譯文檔合集。



  • 地址:http://opus.nlpl.eu/UN.php



  • XhosaNavy:南非海軍英語和科薩語平行語料庫。



  • 地址:http://opus.nlpl.eu/XhosaNavy.php



  • Wikipedia:20 種語言的平行句子語料庫,句子來源於維基百科。



  • 地址:http://opus.nlpl.eu/Wikipedia.php



  • English-Croatian:英語和克羅埃西亞語平行文本。



  • 地址:http://opus.nlpl.eu/hrenWaC.php



  • Catalan-Spanish:從加泰羅尼亞政府官方刊物中收集的加泰羅尼亞語和西班牙語文檔合集。



  • 地址:http://opus.nlpl.eu/DOGC.php



  • English-Japanese:Wikipedia』s Kyoto Articles 日英雙語語料庫,包含大約 50 萬個人工翻譯的句對。



  • 地址:https://www.kaggle.com/team-ai/japaneseenglish-bilingual-corpus



  • OntoNotes:包含英語、中文和阿拉伯語各類文本(新聞、電話會話、網路日誌、新聞組、廣播、脫口秀)的標註語料庫。



  • 地址:https://catalog.ldc.upenn.edu/ldc2013t19





  • Central Europe Telephone Speech:包含約 44 小時的標註電話語音,捷克和斯洛伐克語。



  • 地址:https://catalog.ldc.upenn.edu/LDC2018S08



  • South Asia Telephone Speech:包含約 118 小時的標註電話語音,孟加拉語、印地語、旁遮普語、泰米爾語和烏爾都語。



  • 地址:https://catalog.ldc.upenn.edu/LDC2017S14



  • Turkish Telephone Speech:包含約 18 小時的土耳其語電話語音。



  • 地址:https://catalog.ldc.upenn.edu/LDC2017S09



  • Chinese Treebank:來自 Chinese newswire、政府文件、雜誌文章和各種廣播新聞的約 150 萬字標註和解析文本。



  • 地址:https://catalog.ldc.upenn.edu/LDC2013T21



  • Arabic Broadcast News Transcripts:包含 2008 年和 2009 年收集的大約 37 小時阿拉伯廣播新聞文字記錄。



  • 地址:https://catalog.ldc.upenn.edu/LDC2018T14 




原文鏈接:https://gengo.ai/datasets/25-best-parallel-text-datasets-for-machine-translation-training/






本文為機器之心編譯,

轉載請聯繫本公眾號獲得授權



?------------------------------------------------


加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com


投稿或尋求報道:

content

@jiqizhixin.com


廣告 & 商務合作:bd@jiqizhixin.com

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

前沿 | 看圖聊天的騷操作,MIT開發精準到單詞的語音-圖像配對系統
2017圖靈獎得主:通用晶元每年僅提升3%,神經專用架構才是未來

TAG:機器之心 |