囊括歐亞非大陸多種語言的25個平行語料庫數據集
選自gengo.ai
作者:Meiryum Ali
機器之心編譯
參與:王淑婷、路
與大部分機器學習模型一樣,有效的機器翻譯系統需要大量的訓練數據才能產生可讀性強的結果。平行文本翻譯語料庫是兩種語言之間的結構化翻譯文本集。此類平行語料庫對訓練機器翻譯演算法至關重要。但從哪裡可以獲得這些外語數據集呢?請看下列清單
平行文本數據集
Aligned Hansards of the 36th Parliament of Canada:包含英語-法語句對。
地址:https://www.isi.edu/natural-language/download/hansard/
European Parliament Proceedings Parallel Corpus 1996-2011:包含 21 種歐洲語言句對。
地址:http://www.statmt.org/europarl/
Global Voices Parallel Corpus:新聞門戶網站 Global Voices 的內容精選,包括 57 種語言的新聞文本。
地址:http://casmacat.eu/corpus/global-voices.html
RATS language identification:包含將近 5400 個小時的阿拉伯語、波斯語、達里語、普什圖語和烏爾都語電話會話語音,並附有語音分割標註。
地址:https://catalog.ldc.upenn.edu/LDC2018S10
Chinese-French Text:包含來自 Chinese Broadcast News 語料庫的大約 3 萬漢字子集的法語譯文。
地址:https://catalog.ldc.upenn.edu/LDC2018T17
Arabizi Text:自動檢測英語和阿拉伯語混合文本中語碼轉換的訓練數據,包含 522 條推特。
地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0126/
English-Vietnamese Text:包含 50 萬個英語-越南語句對的語料庫。
地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0124/
English-Persian Text:包含超過 20 萬個英語-波斯語對齊句對。
地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0118/
Chinese-English Emails:包含來自電子郵件的 15000 個漢字(相當於 10000 個英文單詞)及其英文參考譯文。
地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0113/
French-Arabic Newspapers:包含 10000 個阿拉伯語單詞和 2 個法語參考譯文的語料庫。源文本是 2013 年 5 月從阿拉伯版《Le Monde Diplomatique》中收集的文章。
地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0100/
Pashto-French Text:106 個小時的普什圖語錄音的文字記錄及其法語譯文。
地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0093/
German-English Text:手動詞對齊的德語-英語平行語料庫。
地址:https://github.com/bicici/SMTData/blob/master/German-English_WordAlignment.zip
Turkish-English Text:為 WMT 2018 準備的土耳其語-英語平行語料庫。
地址:https://github.com/bicici/SMTData/commit/1cca572244c6c9b8e810735ca898f5f3a19b2ecc#diff-7a11a746e07c7411854b77f3f521f534
UN translation text:6 種不同語言的聯合國翻譯文檔合集。
地址:http://opus.nlpl.eu/UN.php
XhosaNavy:南非海軍英語和科薩語平行語料庫。
地址:http://opus.nlpl.eu/XhosaNavy.php
Wikipedia:20 種語言的平行句子語料庫,句子來源於維基百科。
地址:http://opus.nlpl.eu/Wikipedia.php
English-Croatian:英語和克羅埃西亞語平行文本。
地址:http://opus.nlpl.eu/hrenWaC.php
Catalan-Spanish:從加泰羅尼亞政府官方刊物中收集的加泰羅尼亞語和西班牙語文檔合集。
地址:http://opus.nlpl.eu/DOGC.php
English-Japanese:Wikipedia』s Kyoto Articles 日英雙語語料庫,包含大約 50 萬個人工翻譯的句對。
地址:https://www.kaggle.com/team-ai/japaneseenglish-bilingual-corpus
OntoNotes:包含英語、中文和阿拉伯語各類文本(新聞、電話會話、網路日誌、新聞組、廣播、脫口秀)的標註語料庫。
地址:https://catalog.ldc.upenn.edu/ldc2013t19
Central Europe Telephone Speech:包含約 44 小時的標註電話語音,捷克和斯洛伐克語。
地址:https://catalog.ldc.upenn.edu/LDC2018S08
South Asia Telephone Speech:包含約 118 小時的標註電話語音,孟加拉語、印地語、旁遮普語、泰米爾語和烏爾都語。
地址:https://catalog.ldc.upenn.edu/LDC2017S14
Turkish Telephone Speech:包含約 18 小時的土耳其語電話語音。
地址:https://catalog.ldc.upenn.edu/LDC2017S09
Chinese Treebank:來自 Chinese newswire、政府文件、雜誌文章和各種廣播新聞的約 150 萬字標註和解析文本。
地址:https://catalog.ldc.upenn.edu/LDC2013T21
Arabic Broadcast News Transcripts:包含 2008 年和 2009 年收集的大約 37 小時阿拉伯廣播新聞文字記錄。
地址:https://catalog.ldc.upenn.edu/LDC2018T14
本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。
------------------------------------------------
※世界人工智慧大會背後的智能助理——樂言科技的技術思路
※把2D公路變成3D飛車遊戲,MIT、清華打破圖像編輯的次元壁
TAG:機器之心 |