科大訊飛說「冒充AI」只是個誤會，我們又找「真的同傳」聊了聊

知識 09-24

哪個行業會被人工智慧消滅？從目前的狀況看，至少不會是同傳行業。

同傳譯員Bell Wang指責科大訊飛用人工翻譯偽裝成AI同傳的事兒，大家想必都聽說了。果殼針對本次事件的爭議焦點——人機耦合，同科大訊飛 AI 研究院聯席院長李世鵬進行了獨家對話，並聽取了北外高翻學院李長栓副院長以及譯員張偉、陳老師（化名）等多位翻譯界業內人士的聲音。

這是一場誤會？

9月20日， Bell Wang來到上海國際會議中心，為2018創新與新興產業發展國際會議（IEID）的高端裝備技術與產業分會做現場同傳。

在會議現場，他發現科大訊飛在識別出同傳譯員說的譯文後，再將譯文投放到屏幕和直播中。翻譯工作並不是完全由AI完成。而且，科大訊飛沒有提前將詳細情況告訴Bell和搭檔，就冒名使用了他們的翻譯成果，涉嫌侵犯兩人的知識產權。

請注意會議的宣傳語 | 知乎@Bell Wang

21日晚上八點，訊飛通過電話會議的形式召開新聞發布會，高級副總裁江濤及負責翻譯業務的產品經理劉晨璇等參會。

在發布會上，科大訊飛否認相關指責，並聲稱這是同譯員的「誤解」：Bell不知道他所在的分會場，人工智慧使用的是人機耦合工作模式。據介紹，IEID使用的科大訊飛智能會議系統，有兩種工作模式：其一是全自動翻譯，即識別演講者發言，轉換成文字並實時翻譯，隨後投射到大屏幕上；其二為人機耦合，顧名思義，機器識別語音後轉錄為文字並進行翻譯，降低人類同傳譯員的工作難度。

科大訊飛 AI 研究院聯席院長李世鵬：

AI不可能不犯錯誤

要判斷人機耦合是否對譯員有幫助，得先了解人機耦合聽起來如此高深莫測的詞究竟是什麼意思。

對此，在當晚八點的新聞發布會前，果殼和科大訊飛 AI 研究院聯席院長、前微軟亞洲研究院副院長李世鵬進行了獨家對話。

李世鵬說，他特別不同意的一點就是宣稱機器把所有的事情都做了，機器不會犯錯誤。「所有的AI都是基於統計上的意義，是有概率的。翻譯的正確率，語音識別的正確率都有一個概率在後面。AI不可能不犯錯誤。」

這就凸顯了人機耦合的重要性。

AI翻譯棒 | 新浪科技

李世鵬認為，在人工智慧時代，人和機器的協同作業尤其重要。現有的AI框架還是基於大數據和深度學習。不管有多少數據，總有一些corner case會漏掉。如果沒有一個很好的人機耦合的方式，AI就會失敗。有些時候，這些失敗是致命的。很多起人工駕駛出的事故，就是因為訓練時有些場景沒有遇到，機器不知道該怎麼判斷。現在很多人把人工智慧太神化了。人工智慧所有的基礎，直到今天，還是基於有沒有足夠的數據，有沒有足夠的資源去來標註這些數據。就像有些人說的，人工智慧的人工成分確實很大。

在現有的框架下，有一點尤其重要：即在人工智慧沒法處理的時候，人怎麼去介入。

李世鵬心目中的人機耦合理想狀態是，機器翻譯如果犯了一個錯誤，同譯員發現並改正錯誤，機器以後就不會再犯這個錯誤。人把危機解決了，同時又讓機器多了一個訓練的數據。在這樣的過程中，AI會越來越好。

同傳中的人機耦合，

目前只是一廂情願

做了十年同傳的前中山大學口譯老師、現自由譯員陳老師曾有和機器「耦合」的經歷。會議開始前幾天，技術人員拿著好幾個機器處理不了的術語來諮詢她的意見。她和搭檔一一給出了參考譯文，並配上了詳細的注釋，當時還考慮到了字幕的特點，盡量採用了簡短、達意的版本。陳老師說：「現場AI展示的這些高難度術語譯文，全是我們幫著提前翻的。」

外交部譯員張璐 | sohu.com

在人機耦合的過程中，人在幫機器糾錯。機器給了人什麼？根據科大訊飛發布會的說法，機器在輔助人，「機器給同傳作參考……使他們做的更準確，更不容易疲勞」。

可惜，對於這一說法，翻譯圈內人士根本不買賬。

果殼聯繫了北外高翻學院的副院長李長栓、其他高校的口譯老師以及多位譯員，他們表示，「有文字也不看，甚至是閉著眼翻譯」，「帶稿翻譯經常會降低效率」，「科大訊飛根本不了解譯員的工作狀態，才會認為機器能輔助譯員」。

一般演講者開始講話兩到三秒鐘後，同傳譯員就要開口翻譯。這之間的間隔被稱為「聽說時差」（EVS，Ear-Voice Span）。譯員按照聽到的原文順序，不間斷地將句子切割成意群和信息單位，再把這些單位聯繫起來，力求翻譯出演講者的原意。這叫做「順句驅動」。據從事八年同傳工作的張偉對果殼說，譯員一般聽到一到兩個意群就要會開口翻譯，在調整邏輯說出話語的同時，耳朵要聽下面第三個第四個意群。

圖 | LVIV.com

無論處在翻譯的什麼階段，一旦聽到演講者另起一個話題，譯員就需要在不影響當前翻譯的情況下，稍微多分一點精力去演講者的開頭部分。聽懂了大致的話題，再收回多分配過去的精力，繼續翻譯。

請注意，這一過程僅僅發生在幾秒鐘的時間內。

為了培養「分心」能力，同傳譯員會做「影子練習」（Shadowing）。練習者聽英語錄音、半句過後跟著讀英語的同時，手寫數字。一開始是12345……正著寫，熟練之後變成999，998，997……倒著寫，或者只寫雙數/單數。一邊聽，一邊說，一邊寫，一心三用。

對於熟練的譯員來說，翻譯近乎一種本能：坐下來就能翻，翻完了就忘。一場會下來，翻的東西基本忘光了。熟練的同傳譯員甚至可以做到一邊聽一邊翻譯，還一邊查單詞。

很多與會者會佩戴耳機聽同傳翻譯 | cnmisn.com

在整個過程中，目前機器不能起到任何輔助作用。

即便有了機器，也省略不了譯員聽的環節。因為只有在聽了之後，譯員才能發現機器語音轉寫的錯誤。譯員只要聽到了信息，就「本能」地開始處理信息、進行翻譯。譯員和機器乾的活兒一樣，完全屬於重複作業。

即便機器語音轉寫能保證100%的正確率，對譯者來說，看文字也是干擾。聽的時候，人能更簡明扼要地抓住一段話的重點，但是看文字的時候，人會試圖把每一個細節都翻譯出來，反而跟不上發言者的速度。一位譯員說，有看字幕的功夫，「閉著眼，聽清楚，張嘴說，活都齊了！」

更為重要的是，參與過AI翻譯在場、不發耳機的會議的同傳譯員紛紛表示，在同傳箱里，根本看不清機器轉寫給出的字幕。這怎麼能叫人機耦合？

同傳譯員會在同傳箱里工作 | cscbeijing.com

陳老師為果殼描述了會場的情況：大多數情況下，AI字幕都投放在會場講台上方的主屏幕上，而流動同傳箱的搭建往往離講台比較遠，要麼在會場最後方，要麼在會場一側。譯員看不清楚屏幕上閃現的字幕。如果相關公司真的認為屏幕上展現的信息對譯員有幫助，應該在箱子里放一個屏幕，專門滾動字幕。陳老師說：「事實上，我身邊的各位同行也是看到訊飛這兩天的回應文，才恍然：『哦，原來我們也是你們的服務對象啊』？」

人工智慧翻譯取代人類？

雖然圈外人動不動就驚呼「翻譯這個行當要消失了」、「人工智慧翻譯要取代人類了」，但在翻譯圈內，大家心態相當樂觀，一致認為，譯員的飯碗穩得很，絕不會被機器搶走。

在業內人士看來，即使聽懂了每一個單詞，人工智慧翻譯仍有三大障礙無法跨越。

圖 | Google Cloud

一是一詞多義。北外高翻學院的李長栓給我們舉了個例子。Mission一詞，基本意思是「交給一個人或一群人的一項重要任務，通常需要旅行到國外完成」（牛津英語詞典）。在這個意思基礎上，引申出「使命」「任務」「特派任務」「出差」「使團」「代表團」「特派團」「傳教團」「訪問團」等具體意思。譯員必須根據上下文判斷翻譯為「使命」還是「使團」，是「傳教團」還是「特派團」。這個判斷並非一目了然。如果交給機器翻譯，機器通常會根據統計得出的概率，選擇最常見的那個意思，而這往往會出錯。

二是複雜的句子結構。甚至都不需要過分複雜的句子，只是酒店電水壺上貼的一句簡單的功能性指示語，「請閣下把自來水用電水壺燒開後飲用」，機器翻譯都不盡如人意。

必應：

愛詞霸：

有道：

Google：

百度：

三是變化多端的現場。

有學者研究發現，英文演講者的語速在120個單詞/每分鐘，同傳是最精準。請注意，這裡的最精準不是指精度達到100%，而是80%到95%。就算在最適宜的速度，人類譯員也會丟失信息。如果演講者的語速達到每分鐘180個單詞，譯員會大面積漏詞漏句；如果速度達到每分鐘200個單詞，人類譯員基本就跟不上了。

而機器不一樣。就算演講者說得再快，機器都能抓住每一個單詞，不會遺漏任何一個信息點。

這本該是機器的優勢，但目前來看，反而成了劣勢。譯員在現場不光要翻譯出信息，還要讓翻譯出來的中文長度和英文原文的長度儘可能靠近。一個英文的縮寫專有名詞，中文翻譯過來可能有六七個字長。這時，譯員會臨時調整，壓縮簡化後面的信息。一般情況下，演講者發言結束的二到三秒後，譯員也要結束髮言。如果拖了五秒才結束，「那就完了。這五秒鐘就像永恆一樣漫長。」譯員張偉說。

同聲傳譯現場 | Consultancy Register

而機器沒有應變的能力，只會盡職地聽出每個字、再進行翻譯。這就導致機器翻譯出來的信息量過大，讓觀眾聽得吃力。張偉說：「逐字逐詞譯出來是能譯出來，能不能被理解被消化，是另外一回事。為了讓觀眾聽起來舒服，譯員隨時在做取捨。」

同傳譯員的隨機應變甚至可以說到了「隨意」的程度。如果演講者精神飽滿地跟與會者打招呼，譯員也會調整語氣，喊出早上好。譯員能夠模仿演講者的語氣，在他強調的時候強調，在他講段子的時候幽默。

這也是為什麼同傳需要坐在會場後方的一個「箱子」（同傳箱）里觀看會場情況的原因：他們需要感知會場的氛圍。

這都是冰冷的機器沒辦法做到的。

《集異璧》作者侯世達(Douglas Hofstadter）在之前同果殼對話時曾提到，翻譯軟體根本就不理解任何東西。「零。它不知道有這樣一個世界，有這麼多事情正在其中發生，不知道有過去和未來，不知道有大有小有上有下。它什麼都不知道。它所知道的一切就只是字詞。」

——————

在博鰲2018之《讓人工智慧「落地」》的論壇上，科大訊飛董事長劉慶峰表示，科大訊飛的翻譯機已經達到了大學六級水平，兩年之內會達到英語專業八級水平。

對此，從事同聲傳譯八年的張偉給出的回復是：「同傳是爺爺，專業八級是孫子。」

北外高翻學院的李長栓曾受邀參加騰訊舉辦的智能翻譯研討會。聽完騰訊方面的介紹後，李長栓覺得「非常可笑」。他認為，在翻譯領域，不會有機器取代人類的那一天。

對於李長栓的評價，李世鵬給出的回復是：「我們一直認為現階段的AI翻譯只能是輔助工具，至少在人工智慧新的框架到來之前是這樣的。」

後記

「訊飛」事件爆發後，從譯員們的反應中不難看出，在AI翻譯這個特殊領域中，技術與翻譯專家們存在著不小的矛盾。

Bell Wang 在知乎專欄對此事的評價

需要指出的是，果殼接觸過的幾位翻譯業內人士，反對的都不是技術進步，而是虛假宣傳。陳老師表示：「AI犯錯誤也沒有什麼，很正常。AI跟人一樣，也會成長，會進步，谷歌翻譯的進步就很讓人驚喜，有效提升了我們譯前準備的效率。凡是踏踏實實做技術的公司，我們都打心底里敬佩，並願意與之合作。」張偉也說，他在任務急時間緊的情況下，會使用「翻譯狗」來翻譯主辦方提供的資料，「確實給了我很大的幫助」。

不可否認的是，AI翻譯的實際表現不夠優秀。這跟「翻譯」這項任務的特殊性有很大關係。

MIT教授、未來生命研究所創始人馬克斯 ?泰格馬克（Max Tegmark）在其著作《生命3.0》中，給了「智能」和「人工智慧」如下的定義和分類：

智能：完成複雜目標的能力

狹義智能：只能完成非常特定的目標，如下棋和打電子遊戲

廣義智能：人類的智能非常「廣義」，「目標」也更加複雜

圖 | kejilie.com

從這個角度，「翻譯」這項任務可謂相當的複雜：它絕不僅僅是簡單的文本的對應，而是需要綜合文化、語境、專業知識、情緒、心理、認知、個人語言特點等無數複雜因素，方能有效地完成「目標」。換句話說，AI想做同傳，可能需要在更複雜的「通用人工智慧」技術突破的情況下才能實現。

實際上，李世鵬也同果殼談到了這個問題。他認為，如果人工智慧翻譯有突破，一定是在框架上有所突破：不是基於現有的大數據加深度學習的框架，而是從人的認知層面出發，找到不依靠數據的AI新框架。科大訊飛正在朝這個方向努力。「我們做技術的人，了解情況。我們因為樂觀，因為有信心，才會在這條路上越走越遠。」

無論此事最後以何種方式落幕，希望能翻譯人士的技能與工作得到充分的尊重，更希望人工智慧領域有突破性進展的那一天早點到來。

（感謝北外高翻學院行政秘書張陽老師、蔣一凡律師、同濟大學知識產權專業的羅凱忠，以及Catherine和luna對本文提供的幫助）

作者:雪竹、樟腦玩、武權

編輯：Mo

一個AI

認同一個觀點：拒絕神化AI。再有來找我算命的，我就不客氣了！

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自果殼的精彩文章:

※你可能嘗不出葡萄酒的好壞，但你能嘗出果蠅味和瓢蟲味兒
※你已經是個成熟的LaTex了，該學會自己寫論文了

TAG:果殼 |