當前位置:
首頁 > 最新 > 谷歌翻譯楊絳《我們仨》的背後,是資深語言學家揭秘谷歌翻譯之「不能」

谷歌翻譯楊絳《我們仨》的背後,是資深語言學家揭秘谷歌翻譯之「不能」

本文出自一位熟練掌握中、法、德、英四國語言的資深譯者之手。作者以語言學的視角揭示了谷歌翻譯之「不能」。

編譯 | 張震、Edison Ke

來源 | The Atlantic

作者 | Douglas Hofstadter

周末,在我們每周的 Salsa 舞蹈課上,朋友 Frank 帶了一位丹麥客人。我知道 Frank 會說丹麥語,因為他媽媽就是丹麥人,小時候,還曾在丹麥生活過。他的這位朋友,按照斯堪的納維亞半島人說英文的標準,這位朋友的英文說的算是流利。

然而,令我驚訝的是,在晚上閑聊的時候,二人卻在利用谷歌翻譯通過郵件進行交流。Frank 用英文寫一段話,用谷歌翻譯成丹麥語;而她則是用丹麥語寫一段話,然後再用谷歌翻譯成英文。

太奇怪了!兩個知識分子,互相都會說對方的語言,為什麼要這樣做呢?一般來說,機器翻譯會帶給我很大的苦惱,但這二人顯然沒有這方面的問題。事實上,許多人士都對翻譯項目有很大的興趣,對翻譯軟體的指摘很少。這讓我困惑不已。

作為一個語言愛好者、認知科學家、對人類意識的微妙擁有終生執念又熱愛翻譯的人,十多年來,我一直在關注著機器翻譯。20 世紀 70 年代中期,我開始對這一學科產生興趣,當時我偶然間看到一封早期機器翻譯倡導者,數學家 Warren Weaver 在 1947 年寫給控制論權威 Norbert Wiener 的一封信。在這封信中,Weaver 說了一段在今天很著名的話:

當我看一篇俄文文章時,「它實際上是用英文寫的,但它用一些奇怪的符號進行了編碼。而我現在正在對其進行解碼。」

幾年以後,他表達了一個不同的觀點:「理智的人絕對不會認為機器翻譯能夠做到文字的雅緻和風格的統一。所以普希金們一點也不必害怕。」

我曾有過生命中一段難忘的時光,我將亞歷山大·普希金著名的詩體小說《歐根奧涅金》譯成我的母語(也就是大膽的將俄羅斯偉大的作品翻譯成英文詩體小說),我發現 Weaver 此時的言論與他更早期的言論具有很大的相似性,它揭露了語言一個看似奇怪但卻很簡單的特質。不過,他在 1947 年表達的,將翻譯比喻成解碼的觀點長期以來成為了推動機器翻譯前進的信條。

經過多年的發展,「翻譯引擎」不斷得到改進。最近,「深度神經網路」的應用讓一些意見領袖們(如《紐約時報》Gideon Lewis-Kraus 的著作《人工智慧大覺醒》以及《經濟學人》Lane Greene 的著作《Machine Translation: Beyond Babel 》)斷言人類翻譯工作者可能將不再存在。在這種情況下,要不了幾年,人類翻譯工作者將從事的只是一些質量控制和譯文修改的工作,而不再直接參与翻譯。

這種發展對我的精神世界造成了巨大的衝擊。儘管我完全理解採用機器進行翻譯的優勢之處,我卻並不想人類譯者被毫無生氣的機器取代。機器翻譯取代人工譯者的觀點著實讓我驚恐。在我看來,翻譯是一門極為細緻的藝術,不僅需譯者多年之功力積累,譯者還需有創造性的想像力。如果真有這麼一天,人類翻譯工作者成為了歷史,我對人類意識的尊崇將受到極大的衝擊,這種衝擊將會讓我產生極大的困惑,給我帶了無盡的悲傷。

一些文章稱在新技術的強勢衝擊下,人類譯者將被迫屈服,每次讀到這種文章,我都有想要親自核查一下這種論斷的慾望,部分原因是出於對這種噩夢很快就將到來的恐懼。不過,更多的確認以上這種情形的到來還為時尚早,更長遠的目標是要與過度誇大的人工智慧論斷進行反擊。

人工神經網路早就被提出來了,只是最近被谷歌的一個部門 Google Brain 利用,又通過「神經網路」進行改進,做出了一個新型的軟體,聲稱會對機器翻譯產生革命性的影響。在讀到這種觀點以後,我決定對最新版的谷歌翻譯進行一下檢驗。它真的會像 Deep Blue 和 AlphaGo 對象棋和圍棋的作用那樣成為翻譯的變革者嗎?

我了解到,儘管舊版的谷歌翻譯可以處理很多種語言,但新的深度學習版本僅僅支持九種語言。相應地,我對谷歌翻譯的檢驗只限於英語、法語、德語和中文。

在展示我的發現之前,我想首先對形容詞「深度」的模糊性進行探討。當聽到谷歌收購了一家從事「深度神經網路」的公司 DeepMind 之後,人們不禁會認為「深度」一詞的意思為「深刻」,然後是「強大」,「智慧」。但「深度」一詞在此語境下意味著神經網路比以往的網路有更多層(據說是 12 層)。以往的網路可能只有 2-3 層。但這類深度能說明這種網路一定要深刻嗎?恐怕很難這樣說。它只是一種媒體公關而已。

我對谷歌翻譯一直存有很大的疑惑,尤其是在各種虛誇不斷的情況下。儘管我對這種虛誇很是厭惡,但在有些方面還不得不承認谷歌翻譯的優越之處。世界上的所有人都可以免費使用谷歌翻譯,大約可以翻譯 100 種語言。如果我以自己能說三種以上語言感到自豪的話,那能翻譯 100 種語言的谷歌該是多麼自豪啊。對於懂三門語言的人來說,能懂 100 種語言的確是很了不起的。而且,如果我粘貼複製一頁文字放進谷歌翻譯,只需一瞬間的功夫我就能拿到另外一種語言的版本。在世界各地都能完成多種語言之間的轉換。

我們無法否認谷歌翻譯和類似技術的實用性,它總體上是一件好的事情,但是這種方法有一個很大的欠缺之處,用一個詞概括就是:理解。機器翻譯根本無法理解語言。相反,這個領域一直試圖在「解碼」,根本不關注理解和意思。為了翻譯好文章,難道不需要理解嗎?一個實體、人抑或機器,如何不了解一門語言,能呈現高質量的翻譯嗎?為了解決這個問題,我接下來會談一下我自己的經歷。

我首先採用的是一些短句進行測試,這些句子在人類看來意思很清晰明了:

In their house, everything comes in pairs. There『s his car and her car, his towels and her towels, and his library and hers.

翻譯這句話似乎難度不大,但在法語(以及其它羅曼語族的語言)中,「his」和「her」的所有格有性的變化。採用谷歌翻譯的譯文如下:

Dans leur maison, tout vient en paires. Il y a sa voiture et sa voiture, ses serviettes et ses serviettes, sa bibliothèque et les siennes.

雖然每個人類讀者都能明白這句話的意思,谷歌翻譯的結果卻落入了我的圈套。這句話描寫的是一對夫婦,強調男方有的東西女方同樣也有相同的一個。

例如,深度學習引擎使用「sa」均修飾「他的車」和「她的車」,因此,你無法通過譯文了解汽車所有者的性別。同樣地,譯文使用無性別的複數「ses」修飾「他的幾個毛巾」和「她的幾個毛巾」,最後是兩個書櫃,他的和她的,「her」後面直接加了一個「s」表示她的書櫃。而谷歌翻譯成法語時卻完全理解錯了。

下面是我自己將這句話翻譯成了法語,原文的意思得到了很到的保留。以下是我的版本:

Chez eux, ils ont tout en double. Il y a sa voiture à elle et sa voiture à lui, ses serviettes à elle et ses serviettes à lui, sa bibliothèque à elle et sa bibliothèque à lui.

「sa voiture à elle」這個短語可以表達出「她的車」的意思,同樣地,「sa voiture à lui」也能表達出「他的車」的意思。在這點上,我覺得讓谷歌翻譯把我的譯文回譯稱英文不會是什麼難事,應該可以完整的表達出戶願意。可是我完全想錯了。谷歌翻譯回譯的譯文如下:

At home, they have everything in double. There is his own car and his own car, his own towels and his own towels, his own library and his own library.

怎麼會這樣?即使句子清楚的表明了所有者的性別,翻譯機器還是忽略了這一點,所有的詞性都變成了陽性。這句話最重要的信息為何會遺漏掉了呢?

我們人類知道夫妻、房子、個人物品、驕傲、競爭、嫉妒、隱私以及其他的一些無形的事物意味著什麼,一對已婚夫妻在毛巾上綉上「他」和「她」不免讓人感到奇怪。而谷歌翻譯對這種情況不熟悉,它所熟悉的只是字母組成的單詞,以及單片語成的句子。它只是對文本進行超快速度的處理,而不會進行思考、想像、記憶或者理解。它甚至不知道每個單詞所代表的事物。我並不否認計算機程序知道語言的作用,有想法,會記憶,還能利用經驗,但是谷歌翻譯設計的初衷並不在此。計算機的這些作用甚至都沒有出現在設計者的考慮範圍內。

看到谷歌翻譯的表現,我是大跌眼鏡,同時也不禁鬆了一口氣,人類譯者要被自動化取代恐怕還有很長的路要走。但我仍覺得,我應該對谷歌翻譯做進一步的測試。畢竟「一口水無法解渴」(One swallow does not thirst quench.)。

我們乾脆就用這句「One swallow does not thirst quench.」進行測試吧。谷歌翻譯回復給我「Une hirondelle n』aspire pas la soif.」這是一句符合語法規範的法語,但是它確實沒有什麼深意。首先,它將多義詞 swallow 翻譯成了燕子(une hirondelle),然後它說這隻燕子沒有在「吞咽」(n』aspire pas),最終用一個既非「吮」也非「吸」的動作 la soif 描繪 thirst(乾渴)。很顯然,谷歌翻譯並沒有理解我的意思,基本上沒有傳遞任何深意。

測試過了法語,現在我們再來用德語測試一下。最近,我沉迷於奧地利數學家 Karl Sigmund 的一本書《Sie nannten sich der Wiener Kreis》(英文名為《They Called Themselves the Vienna Circle》)。它描述了 20 世紀二三十年代維也納一群有理想的知識分子,這群人對以後的哲學和科學產生了很大的影響。我從 Sigmund 的書中選取了一小段用谷歌進行了翻譯。以下三段話中,第一段是德文原文,然後是我自己的翻譯,最後是谷歌翻譯的版本。(順便說一下,我找了兩位說德語的人對我的譯文進行校對,其中就包括 Karl Sigmund,所以說你可以暫定我的翻譯時正確的。)

原文:

Nach dem verlorenen Krieg sahen es viele deutschnationale Professoren, inzwischen die Mehrheit in der Fakult?t, gewisserma?en als ihre Pflicht an, die Hochschulen vor den 「Ungeraden」 zu bewahren; am schutzlosesten waren junge Wissenschaftler vor ihrer Habilitation. Und Wissenschaftlerinnen kamen sowieso nicht in frage; über wenig war man sich einiger.

作者譯:

After the defeat, many professors with Pan-Germanistic leanings, who by that time constituted the majority of the faculty, considered it pretty much their duty to protect the institutions of higher learning from 「undesirables.」 The most likely to be dismissed were young scholars who had not yet earned the right to teach university classes. As for female scholars, well, they had no place in the system at all; nothing was clearer than that.

谷歌翻譯:

After the lost war, many German-National professors, meanwhile the majority in the faculty, saw themselves as their duty to keep the universities from the 「odd」; Young scientists were most vulnerable before their habilitation. And scientists did not question anyway; There were few of them.

谷歌翻譯後的單詞都是英文單詞(只是有些單詞的首字母是大寫,其實並不必要。)從整體上來看還是不錯的。但越仔細看,越覺得翻譯的慘不忍睹。

我們首先談一下「odd」(奇數),它對應的德語是「die 『Ungeraden」,在原文中它指代「沒有政治意願的人。」然而,谷歌翻譯還是將其翻譯成了「odd」. 可能是因為,在谷歌翻譯強大的雙語資料庫中,「ungerade」一般都是翻譯成「odd」,基於統計,在本文中也就翻譯成了「odd」。

儘管谷歌翻譯無法意識到為什麼要這樣翻譯,我卻可以告訴你原因。這是因為「ungerade」,字面的意思是「不直的」或者是「不平的」。反觀我將「Ungeraden」翻譯成「undesirables」,從統計上來說幾乎沒有這樣的翻譯,但確實我對原文本理解後得出的結果——這個翻譯時我對原文本中隱含意思的理解後得出的,在任何德語字典上「ungerade」都沒有這種翻譯。

再來看一下另外一個德語單詞「Habilitation」,它指代的是一種大學的職稱,類似於終身教職。「habilitation」在英文中也有同源詞,但極為少見,但與終身教職或類似的意思毫不相關。這就是為什麼我選擇對這個詞進行簡單的解釋,而沒有選擇直譯。因為直譯會讓讀者一頭霧水,不知所以。但谷歌翻譯絕不會這樣做,因為它無法了解讀者的知識水平。

最後兩句話正證實了理解對翻譯而言是多麼重要的一件事。「Wissenschaftler」,這個德語單詞既可以指「科學家」也可以指「學者」(我傾向於後者,因為原文中一般指知識分子,而谷歌不會注意到這種細微的差別。)

「Wissenschaftlerin」在原文的最後一句話是以複數形式「Wissenschaftlerinnen」出現的,因為在德語中,名詞有性的變化。「短」的名詞在語法上是陽性的,指代男性學者,較長的名稱是陰性的,只指代女性。為了讓讀者理解,我翻譯成了「女性學者」,而谷歌翻譯並不理解「-in」指代的是陰性後綴。因為谷歌翻譯沒有意識到女性應該被指明,所以還是翻譯成了「科學家」,使得整個句子的意思全變了。同法語的測試一樣,谷歌翻譯無法知曉德語句子的重要屬性是區分陰陽性。

除了上面的錯誤之外,最後一句話其它部分的翻譯錯的更是一塌糊塗。先看前半句,「scientists did not question anyway」真的是「Wissenschaftlerinnen kamen sowieso nicht in frage」這句話的譯文嗎?譯文不僅沒有表達出原文的意思,翻譯的簡直是風馬牛不相及。它只是對德語進行僵硬的轉換,這怎麼能夠稱得上是翻譯呢?

這段話的後半部分同樣錯的離譜。最後六個德語單詞,直譯過來就是「over little was one more united」,表達的再流暢一點就是「there was little about which people were more in agreement,」本來表達的很清楚的觀點,谷歌翻譯卻翻成了「There were few of them.」我們人類可能會問「Few of what?」但機械地傾聽者可能會覺得這個問題毫無意義。翻譯機器不會有想像。它所做的只是單純的翻譯,而不會去考慮這個概念究竟象徵著什麼意思。

人類對文字的使用有很多的經驗,能理解並知道如何使得文字表達有意義,讓人類去理解谷歌翻譯的內容為何如此空洞是一件很難的事情。幾乎所有人都會認為,軟體要想流利地處理文字,一定要知道文字的意思才行。這種對人工智慧相關的經典假設被稱為「伊莉莎效應」(eliza effect:指的是人可以過度解讀機器的結果, 讀出原來不具有的意義)。20 世紀 60 年代,一個被稱為 eliza 的項目,欺騙他人說它懂英文,實際上它只會說一些無用的空話,它假裝是一名心理治療師,讓與它進行互動的人產生以後總異樣的感覺好像它能懂得別人內心的想法。

十多年來,有經驗的人,甚至是一些人工智慧研究人員都陷入了伊莉莎效應。為了確保讀者能完美避開這個陷阱,我先引用幾段文章中的幾句話,即「谷歌翻譯不理解」,「它沒有意識」以及「谷歌翻譯沒有任何想法」。可矛盾的是,儘管谷歌翻譯無法理解東西,這些句子也幾乎說明,谷歌翻譯至少能夠理解一個單詞、一個短語或者一個句子的意思,或者知道它所講的大致是什麼內容。但事實上,谷歌翻譯並不想要理解一門語言。

對於我個人來說,「翻譯」並不神秘,也不高大。它是人類的一門藝術形式,將一種語言的觀點想法流暢地轉換成另外一門語言,它發揮的是一種橋樑的作用,因此,翻譯不僅要表意清晰,而且應該保留原作者寫作的風格。無論什麼時候做翻譯,我都是先仔細閱讀一下原文本,儘可能清晰的將原作者的想法進行內化,把這種想法存在我的腦海中,在大腦中構建出一幅相關的圖景。無須多言,這種想法都是無意識的。一旦這種圖景在我的頭腦中被激活,我就開始嘗試用另外一種語言進行表達。

我並不是簡單地字對字或者句對句的進行翻譯。我會依據我個人的經驗(或者讀到的,在電影中看到的,或者是從朋友那裡聽到的經驗)下意識的構建出圖片、場景、想法,只有當我有了這種超出了語言表達的,經驗的,精神的理解之後,只有原文的意思在我腦海中揮之不去時,我才開始用目標語言進行遣詞造句,然後再進行反覆的修訂。相比較谷歌翻譯每頁只需兩到三秒的翻譯速度,我的這個翻譯過程聽起來很緩慢,不過的確也是如此,任何一個嚴肅的人類譯者都會這樣做的。當我聽到「深度意識」這個短語時,我以為機器也是這樣做的。

然後,我又採用中文進行測試,相較於以上兩種歐洲語言,中文對深度學習軟體來說會更加的難以駕馭。至於測試材料,我選用的是中國著名的劇作家和翻譯家楊絳先生的深情作品《我們仨》,楊絳先生活了 104 歲,剛剛離世不久。這本書記錄了她和丈夫錢鍾書以及女兒的生活故事。這本書的語言並不晦澀,但語言很有文采。我選取了一小段讓谷歌進行翻譯。以下是谷歌翻譯、我自己的翻譯(經母語為中文的人修改)的結果:

楊絳:

鍾書到清華工作一年後,調任毛選翻譯委員會的工作,住在城裡,周末回校。他仍兼管研究生。

毛選翻譯委員會的領導是徐永煐同志。介紹鍾書做這份工作的是清華同學喬冠華同志。

事定之日,晚飯後,有一位舊友特雇黃包車從城裡趕來祝賀。客去後,鍾書惶恐地對我說:

他以為我要做「南書房行走」了。這件事不是好做的,不求有功,但求無過。

作者譯:

After Zhongshu had worked at Tsinghua University for a year, he was transferred to the committee that was translating selected works of Chairman Mao. He lived in the city, but each weekend he would return to school. He also was still supervising his graduate students.

The leader of the translation committee of Mao』s works was Comrade Xu Yongying, and the person who had arranged for Zhongshu to do this work was his old Tsinghua schoolmate, Comrade Qiao Guanhua.

On the day this appointment was decided, after dinner, an old friend specially hired a rickshaw and came all the way from the city just to congratulate Zhongshu. After our guest had left, Zhongshu turned to me uneasily and said:

「He thought I was going to become a 『South Study special aide.』 This kind of work is not easy. You can』t hope for glory; all you can hope for is to do it without errors.」

谷歌翻譯:

After a year of work at Tsinghua, he was transferred to the Mao Translating Committee to live in the city and back to school on weekends. He is still a graduate student.

The leadership of the Mao Tse Translation Committee is Comrade Xu Yongjian. Introduction to the book to do this work is Tsinghua students Qiao Guanhua comrades.

On the day of the event, after dinner, an old friend hired a rickshaw from the city to congratulate. Guest to go, the book of fear in the book said to me:

He thought I had to do 「South study walking.」 This is not a good thing to do, not for meritorious service, but for nothing.

我簡單的指出幾處問題。

第一點,谷歌翻譯沒有翻譯「鍾書」,儘管原文中出現了三次這個名字。第一次,谷歌翻譯採用了代詞「he」指代;第二次,將「鍾書」翻譯成了「book」;第三次「鍾書惶恐地」竟翻譯成了「the book of fear in the book。」完全的沒有搞懂。

第二個問題在於,第一段清楚的說了鍾書在監管研究生,而谷歌卻翻譯成他是個研究生。

第三個問題在於,「毛選翻譯委員會」的翻譯直接把毛澤東的名字漏掉了三分之一。

第四個問題是「永煐」本應翻譯成「Yongying」卻翻譯成了「Yongjian」。

第五個問題在於「客去後」在譯文中變成了「將要離去的客人」。

第六個問題在於最後一句的翻譯完全沒有意義。

對谷歌翻譯來說,六處錯誤確實是不小的問題,不過拋開這些問題不談。我關注的是一個讓我很困惑的短語,就是最後一段用引號引起來的五個字 (「南書房行走」). 如果是字對字的翻譯,應該翻譯成「south book room go walk」,但這種翻譯時肯定不能接受的,從語境來看,這是一個名詞。谷歌翻譯發明了一個短語「South study walking,」,不過也並沒有任何幫助。

其實我一開始也不理解「南書房行走」這個短語。雖然從字面上,它看上去是在某個建築南面的書房裡用腳移動的意思,但我知道在這裡肯定不是這樣,和這段話的語境毫無關聯。為了翻譯出來,我得查找中國文化里我還不了解的某些部分。所以我該怎麼找呢?當然是谷歌一下!(但並不是用谷歌翻譯。)我打入了這幾個中文字,用引號把它們括起來,然後點搜索查找這個字元串。剎那間,跳出一堆中文網頁,接下來就是辛苦的閱讀過程,在前端十幾個網頁的開頭幾段摸索,揣摩這個短語是在說什麼。

在這個過程中,我發現這個詞語可以追溯到清朝(西曆 1644 年-1911 年),指代御用知識份子,也就是負責輔助皇帝(在紫禁城南書房)起草諭旨,保證文式得體。看似表示「走路」的「行走」二字,實際上是表示助手之意的部分。因此,通過谷歌搜索提供的信息,我得到了自己的表達——「南書房特別助理」。

谷歌翻譯竟然還不能像我這樣用上谷歌搜索的功能也是有點不合適吧?但話又說回來,谷歌翻譯也理解不了網頁上的內容,雖然它可以一眨眼的工夫都翻譯出來。或許其實它理解得了嗎?以下展示的,是我把我得到信息的網站交給谷歌翻譯後,它噼里啪啦打到我屏幕上的結果:

「South study walking」 is not an official position, before the Qing era this is just a 「messenger,」 generally by the then imperial intellectuals Hanlin to serve as. South study in the Hanlin officials in the 「select chencai only goods and excellent」 into the value, called 「South study walking.」 Because of the close to the emperor, the emperor』s decision to have a certain influence. Yongzheng later set up 「military aircraft,」 the Minister of the military machine, full-time, although the study is still Hanlin into the value, but has no participation in government affairs. Scholars in the Qing Dynasty into the value of the South study proud. Many scholars and scholars in the early Qing Dynasty into the south through the study.

這真的是英語嗎?當然毫無疑問這段都是英文字(嚴格來說大多數是),但這樣就算一個英文段落了嗎?在我看來,由於上述段落文不達意,實際上不能算是英語,而只是一個用英語詞作為「食材」的一團東西——一個雜亂的詞語色拉,沒搭配好的大雜燴。

鑒於讀者可能好奇,我也寫上我對這一段落的翻譯(花了我好長時間):

The nan-shufang-xingzou (「South Study special aide」) was not an official position, but in the early Qing Dynasty it was a special role generally filled by whoever was the emperor』s current intellectual academician. The group of academicians who worked in the imperial palace』s south study would choose, among themselves, someone of great talent and good character to serve as ghostwriter for the emperor, and always to be at the emperor』s beck and call; that is why this role was called 「South Study special aide.」 The South Study aide, being so close to the emperor, was clearly in a position to influence the latter』s policy decisions. However, after Emperor Yongzheng established an official military ministry with a minister and various lower positions, the South Study aide, despite still being in the service of the emperor, no longer played a major role in governmental decision-making. Nonetheless, Qing Dynasty scholars were eager for the glory of working in the emperor』s south study, and during the early part of that dynasty, quite a few famous scholars served the emperor as South Study special aides.

有讀者可能懷疑我為了抨擊谷歌翻譯,只節選了它表現不佳的部分,也許絕大多數的文章它都能翻譯地比上面好。雖然看似有理,但事實並非這樣。我把我最近在讀的書中選擇的幾乎每一個段落放到谷歌翻譯中,結果都有各式各樣的錯誤,包括沒有任何意義以及以上這樣無法理解的詞語。

當然我也承認,谷歌翻譯有時也會翻出一些聽著挺不錯的句子(也不排除可能會有歧義或者誤譯)。可能會出來一個或兩個翻得很棒的完整段落,讓人產生錯覺,以為谷歌翻譯知道自己在幹什麼,理解自己「讀到」的是什麼。如果情況真是如此,谷歌翻譯的表現似乎真是令人驚艷,都趕上人類了!這些讚美背後,其開發團隊的集體奮鬥功不可沒。

但與此同時,別忘了谷歌翻譯是如何處理這兩個中文段落以及之前的法語和德語段落的。要理解類似的失敗的話需要記得伊莉莎效應。這個百國語機器從沒有閱讀任何內容——不是通常人類意義上的「閱讀」。它其實是在處理文本,它處理的符號隔絕於現實世界的經歷。它沒有可提取的記憶,沒有意象功能,不會理解,它迅速丟出的詞語背後沒有任何意思。

一個朋友問我,谷歌翻譯的技巧水平是否已經超越程序資料庫的功能。他覺得如果你將它的資料庫擴大到比如百萬或十億倍,最終它可以翻出任何丟給它的東西,而且質量上乘。我並不認同。就算有再大的數據量,也不見得能有助於實現理解,因為理解需要擁有概念,而缺乏概念這一點,是當下所有翻譯工具出現的問題的根本所在。因此我斗膽猜測,更大的資料庫——即使相當龐大——也沒用。

另一個自然而然的問題是谷歌翻譯運用的神經網路——模仿大腦的一種途徑——是否有助於機器對語言的真正理解。首先這值得鼓勵,但目前還沒有能夠越過字和詞的表層意義的嘗試。所有關於大資料庫的統計結果都包含在了神經網路中,但這些統計僅僅將字關聯到其他字,沒有關聯到概念。

還沒有出現將概念,圖像,記憶或經驗串聯起來的內部結構的嘗試。這種思維過程還很難由計算機做到,因此作為替代,系統運用的是快而複雜的數據化組字演演算法。但這種技術的成果還是比不上在閱讀、理解、創作、修改以及評價一段文字時,真正有概念作用其中的效果。

雖然我個人持消極看法,但谷歌翻譯對很多人很有用:雖然它只能讓 A 語言寫出的快速而隨意的對話中有意義的部分,轉變為 B 語言中可能無意義的一串文字。只要 B 語言中的文字在某種程度上還能讀懂,許多人就對最終成果相當滿意了。他們得到了一種語言下某段文字的「基本概念」就挺開心了。這不是我個人對「翻譯」一詞的理解,但對一些人認為這就很棒了,對他們而言就是夠格的翻譯。好吧,我知道他們需要什麼了,也明白這樣他們就滿足了,真讓人羨慕。

最近我看到科技愛好者做出的柱狀圖,用於體現手工和計算機的翻譯「質量」,這些圖表顯示,線下的翻譯程序已經快趕上人類翻譯出來的效果了。但對我來說,這種量化無法量化的事物的行為明顯帶有偽科學的意味,或者可以說,明顯帶有書獃子試圖將無形,微妙,藝術性的特質用數學表示的意圖。

當下谷歌翻譯的輸出成果良莠不齊,但我無法量化我對此的感受。再回想下我舉出的第一個例子里的「他」與「她」。這個毫無概念的程序幾乎把所有字都翻對了,但也就做到了這點,翻出來的文字完全沒抓到原文的重點。如果是這種情況,該如何「量化」這種翻譯的質量?用上看似科學的柱狀圖來反應翻譯質量只是濫用了科學的外部體現。

再說回人類譯員的悲慘形象:懷著不久就會落後過氣的擔心,漸漸就只會監督質量,掰扯文字。而這是碌碌無為之人最好的秘訣。認真的藝術家不會將滿是錯誤又俗氣的廢話作為素材,對其到處修改後做成名作。這不是藝術的性質,而翻譯是一種藝術。

在我多年的寫作經歷中,我一直堅持認為人腦是機器,一種非常複雜的機器,我也曾大力反對那些認為機器根本上無法處理意義的觀點。甚至還有一個哲學流派持有計算機永遠不可能掌握語義學的觀點,因為計算機是「錯誤的東西」(硅)組成的。

我認為這種看法草率且不成立。在此我不想對此展開辯論,但我也不想讓讀者覺得,我認為計算機永遠不可能掌握智慧和理解。如果這篇文章讓我顯得有這種想法,是因為我評論的這種技術並沒有嘗試生產出人類的智慧。與之相反,這種技術試圖繞過人類智慧,以上展示的輸出段落清楚地表現出存在的巨大漏洞。

我認為,機器在理論上沒有決定性的理由無法做到思考、有創造力、幽默、懷舊、興奮、害怕、狂喜、聽天由命、滿懷希望,因此能夠令人稱道地翻譯各種語言。並沒有根本性的理由否定機器可以在未來極好地翻譯笑話、雙關語、劇本、小說、詩歌以及像這篇這樣的文章。但這一切只有在機器像人類這樣很好地掌握了概念、情緒和經歷的情況下才能發生。但現在是八字都還沒一撇。我確實也認為這是極漫長的過程,至少是我這個人類思維深度地畢生仰慕者所熱切期盼的。

當有一天,翻譯工具用英語以詩的形式創作出一本有才氣的小說,用精確押韻的抑揚格四音步句,富於機智、悲愴、和聲韻,然後我就知道那是我脫帽鞠躬的時候了。

往期文章


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之能 的精彩文章:

一千四百公里與十萬感測器:南水北調背後的智能化力量
Udacity飛行車課程報名啟動,我們和負責人聊了聊飛行車的現在和未來

TAG:機器之能 |