當前位置:
首頁 > 科技 > 南加利福尼亞大學:利用中文室翻譯一種你不認識的語言

南加利福尼亞大學:利用中文室翻譯一種你不認識的語言

你和「懂AI」之間,只差了一篇論文

很多讀者給芯君後台留言,說看多了相對簡單的AI科普和AI方法論,想看點有深度、有厚度、有眼界……以及重口味的專業論文。

為此,在多位AI領域的專家學者的幫助下,我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成,芯君和編輯部的老師們都會一起笑到崩潰,當然有的論文我們看得抱頭痛哭。

同學們現在看不看得懂沒關係,但芯君敢保證,你終有一天會因此愛上一個AI的新世界。

讀芯術讀者論文交流群,請加小編微信號:zhizhizhuji。等你。

這是讀芯術解讀的第136篇論文

ACL 2018 System Demonstrations

利用中文室翻譯一種你不認識的語言

Translating a Language You Don』t Know in the Chinese Room

南加利福尼亞大學

University of Southern California

本文是南加利福尼亞大學發表於 ACL 2018 的工作,文章提出了一種配備了與機器翻譯引擎相同資源的工具,我們稱之為中文室(Chinese Room)。我們發現,我們高級語言模型和世界知識允許我們創造幾乎足夠完美流暢的翻譯,只需要目標語言的人的專門知識。當雙語翻譯器不可用時,尤其是對於低資源語言,可以使用中文室工具快速創建小型的並行數據語料庫。

引言

機器翻譯的領域自適應是一個很重要的研究問題。大多數工作都假定系統構建器具有足夠數量的域外或「general」域內並行語句訓練數據,和一些較小的域內數據語料庫,這些數據可以根據域內語料庫的大小用於附加的訓練、參數估計,或者,如果領域語料庫很小,簡單地用於系統評價。然而,很少提到這樣的場景,其中沒有可用的域內並行數據,並且必須構建域內系統。

在這種情況下,人們可以嘗試從可比較的語料庫中挖掘並行數據,但是,在可獲得的領域內單語資源很少(但不是0)的情況下,這不是一個可行的策略,並且獲得任何可靠質量度量的唯一途徑是請求人工翻譯。然而,如果語言表達不足或政治敏感,招聘翻譯者可能很難處理這樣的數據。

Al-Onaizan等人描述了一個實驗,人類將10個句子從Tetun翻譯成English,並且沒有任何Tetun的先驗知識,僅僅基於1102個句子的域內雙語文本。如果沒有任何先前的工具,每小時大約翻譯一個句子,這對於10個句子來說非常繁瑣、低效,而且不切實際。但是,實驗在原則上成功地證明了在沒有源語言先驗知識的情況下進行人工翻譯的可行性。

我們介紹了一個工具,中文室(Chinese Room),以促進高效的沒有源語言先驗知識的人工翻譯。這個名字源於Searle,他設想了一個只會說英語的人,通過操作中文信息語料庫和問題文本的符號以形成答案,並配有回答中文問題的指令。當Searle用這個想法來反對「strong」AI時,我們認為這種設置,即給人一個NLP模型的工具(在這種情況下,一個機器翻譯模型),是一個很好的用於快速生成有用翻譯數據的工具。

除了生成人工翻譯數據之外,中文室的另一個用途是支持計算語言學家識別特定語言對和語言資源的機器翻譯的挑戰。通過將人類置於MT的角色中,我們可以更好地理解辭彙外空白的性質和規模,以及它們是否可能是由於形態複雜性、複合、同化、拼寫變化、不足或域外平行語料庫或詞典等原因造成的。我們發現,中文室可以成為一個有用的工具,以幫助機器翻譯研究產生新的想法。

特徵

我們的中文居室工具有以下特點:

1. Glosser容納了多種NLP和源語言資源

2. 用戶可以探索替代翻譯

3. 語法支持(如前綴、後綴、功能詞)

4. 源文本的可選擇的romanization

5. 拼寫變化的健壯性

6. 可選擇的置信級別

7. 用戶翻譯的傳輸

8. 字典搜索函數(允許正則表達式)

9. 具有登錄、密碼、工作集、獨立工作區的用戶帳戶

10. 基於Web

系統描述

字典和T-table查找:主要的注釋資源是字典和翻譯概率表(t-table),這些是從並行語料庫中自動計算的。中文室工具將提供前十個t-table條目和所有字典條目,包括多詞條目。

辭彙表以外的辭彙:然而,特別是對於低資源語言來說,單詞往往不容易找到。由於詞形變化、詞綴、複合、同化以及拼寫錯誤,源詞可能不會出現在字典或t-table中。由於方言、缺乏拼寫標準或缺乏教育,低資源語言常常缺乏一致的拼寫。例如,甚至於一個小的Uyghur語料庫也包括了Uyghur單詞kilometer的六種不同的的拼法:kilometer, kilometir,kilomitir,kilometr,kilomitr,klometir。

因此,能夠識別字典和t-table條目來近似匹配一個單詞或本文的一部分是至關重要的。我們結合了多個索引和加權字元串相似性度量來解決這個問題。

用於串匹配的多個索引:目前我們使用以下索引啟發式:(1)詞幹提取,(2)哈希,(3)drop-letter,和(4)長子字元串。受語音匹配的啟發,我們當前的散列函數首先刪除重複的字母,然後刪除母音,除了映射到規範e的任何母音。例如,break和broke都被散列為brk。Drop-letter允許查找由於字母刪除、添加、替換和並列而導致拼寫錯誤的單詞的條目。例如「crocodile」 和 「cocodrile」 共享drop-letter序列「cocodile」。長(7 letter)子串啟發式查找包含附加內容的字典條目。

加權字元串距離度量:傳統的編輯距離度量不考慮添加、減去或替換的特定字元,因此通常會分配給 (gram, gramme)比(gram, tram)更高的成本。這種統一的編輯距離成本在語言學上是難以置信的。因此,中文室編輯器使用改進的度量,該度量利用編輯距離成本的資源。特別是母音和重複字元的成本很低。

下表中的第一條規則為O/U替換分配0.1的成本,遠低於1的默認成本。第二和第三規則將(gram, gramme)的字元串距離成本降低到0.12。最後一個規則為英語中的word-initial silent K分配了低成本。

Romanization:對於相似性度量,字元串需要在同一腳本中。因此,我們在計算字元串相似度之前進行romanize。如下表,在中文室里進行romanization的另一個動機是基於這樣的觀察:外文腳本給不熟悉它們的人帶來了巨大的認知障礙。

語法資源文件:附加的可選資源是一組用於詞綴和函數詞的語法條目,而字典和t-table並不能很好地覆蓋這些語法條目。下表顯示了5個Hungarian和兩個Tagalog函數詞。

下圖提供了中文室過程的概述。給定一組NLP資源和源語言語句的工作集,中文室注釋器構建一個中文室文件,可以在中文室編輯器中編輯該文件。由此產生的中文室可以用於機器翻譯和其他NLP應用。

下圖展示了Uyghur文關於地震的一個例子。對於 (romanized) Uyghur 單詞asaslanghanda,該工具顯示了幾個相關的條目,這些條目指導譯者根據這些條目做出正確的注釋。請注意有關後綴的信息 -maq, -ghan,和-da。

文檔中經常出現單詞和表達式。當翻譯人員編輯注釋時,編輯的注釋將傳播到文檔中相同單詞的其他未經編輯的注釋。傳輸的注釋可以被改寫,但這是很少需要的。此外,編輯後的注釋作為附加的翻譯資源收集,可以編譯並傳播到其他文檔。這允許在翻譯人員之間共享新發現的翻譯。

中文室的URL是bit.ly/chinese-room。要探索所提供的注釋的替代品,請將滑鼠懸停在要探索的注釋上。要編輯注釋,或者只是為了修復用於隨後滾動的信息框,單擊注釋便可編輯。若要移動到另一個注釋,請單擊注釋。要退出注釋編輯模式,按Enter(游標在游標框中)。

實驗

在受時間限制的MT系統構建場景中,我們使用ChinaRoom創建了並行數據的小型語料庫。在這種情況下,我們要求把Uyghur描述地震和救災工作的文件翻譯成English。然而,我們沒有處理該主題的並行數據,並且我們使用不相關的測試集(見下圖)來估計總體任務性能是不可靠的。因此,我們希望構建一個域內Uyghur-English平行語料庫。

在這個場景中,我們與一位母語為NI的維吾爾人進行了一小時的交談,該人講英語,不是語言學或計算機科學專家。我們最初要求NI使用時間翻譯文檔,一次一句。這是以每小時360字的速度完成的,但需要另外30-60分鐘的後期編輯以確保流暢。接下來,我們嘗試為NI打字(並確保流暢);這產生了320個單詞/小時,但不需要後期編輯。最後,我們用中文翻譯,並要求NI指出任何錯誤。這個小時發了480個字。機器翻譯質量對最終的indomain集的跟蹤效果更好,對評估集的性能也更好。後來,我們建立了第二個域集,但沒有任何進一步的訪問NI。使用這組近似平移來調優參數,系統性能得到0.3BLEU的提高。

總結

我們建立了一個實用的系統,這個系統可以實現從不熟悉的語言進行人工翻譯,甚至支持低資源語言。我們發現,通過利用翻譯者的目標語言模型和他們的世界知識,我們能夠創造出幾乎足夠流暢的翻譯,遠遠超過使用與中文室相同的資源的最先進的機器翻譯系統的質量。通過使用中文室,人類譯者開始學習源語言的一些辭彙和語法。因此,探討中文室工具在外語學習中的運用是非常值得的。

論文下載鏈接:

http://aclweb.org/anthology/P18-4011


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 讀芯術 的精彩文章:

NOVA:通過主題建模中的命名實體推廣來提高主題質量
Facebook承認:參與研究間諜軟體有18%是青少年

TAG:讀芯術 |