當前位置:
首頁 > 新聞 > Laura:AI 字幕翻譯經驗分享 AI研習社第 52 期猿桌會

Laura:AI 字幕翻譯經驗分享 AI研習社第 52 期猿桌會

越來越多的小夥伴們加入到 AI 課程的字幕翻譯隊伍。在這些翻譯同學中,有些是 AI 相關領域的學生或從業者,有些是純粹的知識愛好者,很多同學並未上過英語翻譯課程,未經受過專門的翻譯技巧培訓。

Laura:上海外國語大學英語專業碩士畢業,目前從事專職英語翻譯工作。曾獲 CATTI 二級口譯、高級口譯等證書,雅思 8.0。在網易公開課、雷鋒網、Udacity 等平台做字幕翻譯志願者,參與翻譯 CS231n、CS224n、Deep Learning Nano Degree 等 AI 相關課程。

分享主題:AI 字幕翻譯經驗分享

分享提綱

1.怎樣做好 AI 字幕翻譯?

?字幕翻譯的特點

?字幕翻譯的原則

?字幕翻譯的規範

?實戰翻譯的 TIPS

2. AI 翻譯的個人心得

雷鋒網 AI 研習社將其分享內容整理如下:

我今天會跟大家分享一下關於 AI 字幕翻譯,我自己的一些經驗和技巧。首先自我介紹一下,我是上海外國語大學英語專業的研究生,主要研究口譯方向,曾考取了 CATTI 二級口譯、高級口譯等證書,雅思 8.0,目前專職從事於翻譯工作,包括口譯和筆譯兩個方面。在字幕翻譯經歷方面,我曾從事?易公開課的 TED TALK(科技相關話題)的翻譯工作,還曾擔任 UDACITY 的深度學習納?學位課程字幕組翻譯審核負責人,累計翻譯、審校 5000 多行課程字幕,目前在雷鋒字幕組參與翻譯、校對 CS231n、CS224n、Hugo 教學視頻等 AI 相關課程。

本次分享,我會從一個英語專業出身的譯者角度出發,主要從 4 個方面講一下怎樣做好 AI 字幕翻譯:第一,字幕翻譯的特點;第二,字幕翻譯的原則;第三,字幕翻譯的規範;第四,實戰翻譯的 TIPS。

字幕翻譯有哪些特點?

從我的翻譯經驗中,我總結出了以下三點:

一是瞬時性,指的是字幕出現在視頻上,停留的時間非常有限,往往一閃而過,這對閱讀速度有一定要求。這裡有一個概念,叫做 CPS——Character/Second,TED 上也對這一項有要求,就是閱讀速度不要超過 21 cps。簡單來說,就是這個 CPS 不應該太高,字幕不能過密、過長,不要讓觀眾來不及看。

因此,我在這裡為大家推薦一款字幕軟體,叫 Aegisub,它可以實時顯示 CPS。大家可以看一下這個表格,在第三列,軟體會根據字幕的長短和時長來計算出 CPS 值,顏色越深,就表示這個字幕越密,即 CPS 值越高。如果這個位置顯示的顏色過深,大家就需要考慮一下,簡化一下自己的表達。

另外,還有一個檢查字幕是否過長的方法就是,你可以自己模擬一下觀眾,翻譯完後將視頻進行回放,以觀眾的視角,看一下你在看視頻的時候能否跟上字幕的速度。這是一個比較簡單的檢驗方法,我自己也經常使用。

二是單向性,因為字幕作為視頻的一個呈現,理論上我們是不會去回看的。這一點上,字幕與一般文本是截然不同的,文本可以同時看到大片信息,而字幕則是——這一句過了,再顯示下一句。因此,你在句式結構使用上,盡量不要使用嵌套式的句式結構,即不要將一句話分成不在一個頁面上的兩行字幕,這樣觀眾就需要先記住前一句話,再結合下一句話才能完全理解,從而造成他們理解上的負擔。

三是多線程模式。大家自己在看課程或視頻的時候,會一邊聽語音,一邊看字幕,對於大腦來說,它需要把精力同時分配給不同的任務,在這樣的情況下,分配給字幕閱讀的精力就十分有限。因此大家在翻譯的時候,語言與句式都不要太為複雜。

接下來說一下翻譯中要遵循的原則。根據上面的三個特點,我歸納出來以下幾個原則:

第一是語言的簡潔性,即在表達上要化繁為簡,讓大家在看的時候能跟上字幕的顯示速度,句子不要太長。

第二是方便閱讀,這是指大家不一定要進行字對字的翻譯。在我們翻譯那些 AI 課程的時候,讓觀眾看懂、學懂才是最重要的目的,基於這個目的,你在翻譯的時候,首先你要自己看懂這個句子,搞清楚它想說什麼,然後用觀眾能夠理解、聽懂的方式表達出來。所以說做課程字幕翻譯的時候,傳遞知識才是最重要的,如果你自己一知半解,也無法保證觀眾看懂,那就無法達到這一主要目的。

第三是意群完整,指的是不要在不合適的地方斷句。我們遇到的英文視頻,原本的英文字幕可能是由一些軟體自動生成的,斷句的地方不合適, 因此在翻譯時需要對這些斷句進行調整。例如,某些英文原字幕會在形容詞和名詞間斷句,這既不符合英文表達習慣,更不符合中文表達習慣。

第四是前後一致。在翻譯課程的過程中,我們往往會遇到很多專業術語,這些術語可能會前後出現很多次,特別是在時長一個多小時的課程由同學們合作完成字幕翻譯的情況下,這些術語可能會因大家翻譯的差異而出現前後不一致的情況。因此,大家在校對時,尤其需要注意前後術語的一致性。同時,大家也可以在翻譯之前,就一起討論、統一術語的表達,以避免給觀眾造成一些理解上的負擔。

下面我講一下字幕翻譯的規範。事實上,一些字幕平台,自己就會對字幕翻譯有一些要求。

第一是關於標點的使用。比如現在雷鋒字幕組在做的這類翻譯,就採用空格來代替逗號和句號。我一般都是用兩個半形空格來代替逗號和句號,但是對其他的一些標點,比如頓號、冒號、問號、書名號這些具有實際意義的標點,是需要保留的,只是逗號、句號這些表示斷句的標點用空格代替。

第二是關於書名、人名和公司名稱的翻譯。一般來說,如果公司名有約定俗成的中文譯名,那就直接採用該中文譯文,比如說 Google 在中國,就被叫做谷歌;如果公司名還沒有中文譯名,即當你上網搜索時,發現網頁採用的都是其英文原名,可以保留它的英文名。

而書名和論文名,一般都要求翻譯成中文名。關於書名,你可以先去網上查一下這本書是否出版過中文版本,如果有的話,你就採用已有的中文譯名;如果還沒有,你可以根據自己的理解翻譯一下。

還有一個需要特別提一下的就是人名。我自己在翻譯的時候就遇到過,一些老師或者助教是華裔,名字是拼音式的英文名,我們一般能在網上查到的他們原來的中文名,因此大家在翻譯的時候要盡量避免音譯。比如我曾翻譯過一個名字叫 Danqi Chen,她是斯坦福的一名助教,我會在網上搜一下,找到她的中文原名——陳丹琦。

第三是字幕長度的控制。我在這裡列了 TED 的標準,比如說每行總長度不超過 42 個字元,這是一個參考。我們在翻譯的時候,也要看一下這一頁字幕的效果,然後自己把握一下。我下面也附上了一個相關鏈接:https://www.ted.com/participate/translate/guidelines,大家可以參考一下。

第四是關於斷句。我前面也說了不要在意群中間斷句,就比如說圖中的第一個句子,在這裡它將「one bit of terminology」變成了兩行,我在翻譯的時候,就會把「術語」提到第一行字幕上。第二句的斷句也是非常不自然——PhD 和 student 中間斷開了,這可能是因為字幕自動生成而產生的問題,因此我翻譯的時候將「博士生」的翻譯直接放到了下一行字幕。最下面的鏈接:https://translations.ted.com/How_to_break_lines,裡面有一些斷句相關的建議,大家也可以參考一下。

現在就進入實戰部分,我來具體介紹一下翻譯中比較實用的一些技巧和方法,主要為以下四點:

第一,化繁為簡。其實中文和英文是兩種非常不同的語言。英文是一種「形合」的語言,通過句法手段、辭彙銜接等方式來體現邏輯關係,多數詞都只是有一個邏輯上的連接功能,功能性大於內涵。我們經常用的一個比喻就是英語就像一串葡萄,它有一個主幹,把一顆顆葡萄穿起來——這些葡萄就相當於一個一個的意群,靠著主幹和上面的分支然後將其穿起來。

中文則是「意合」的語言,不依靠句法、結構上的顯性關係串起來,而是依靠其內容的內在邏輯,更具畫面感和意境。比如說「枯藤老樹昏鴉,小橋流水人家」這句詩,全部由名片語成,這樣的句式在中文字是很美的,但是在英文中是不可能出現的。

所以我們會說,中文的感覺就像大珠小珠落玉盤,一個玉盤中裝著很多珠子,由一個個意群組成,而不像葡萄有莖幹,但是這些意群間是有內在聯繫的,它們通過內容、實際含義串在一起。中文這樣的特點要求我們在翻譯的時候做到「得意忘形」,不要被英文的形式給框住了,而是以意合的形式將其翻譯出來,否則翻出句子會有英文腔。當然,「得意忘形」需要一個長期的積累過程。

此外,由於每一行字幕的字數有限,所以大家在翻譯的時候要儘可能精簡。針對我的一些翻譯經驗,以及在幫別人校對過程中遇到的一些問題,我也為大家整理一些實用的 TIPS,這些案例都是我在翻譯或校對 AI 課程視頻中摘取的句子:

首先,刪掉「我們」、「我們的」、「你的」、「你們」這些不必要的詞,因此它們在英文中只是結構需要。如「hidden layer」前面需要一個 the、a 或者 our 這樣的修飾成分以保證結構的完整性,但是這些修飾詞是沒有實際含義的。後面兩句也是這樣。我們可以使用的一個檢測方法就是,你試著將這些詞刪掉,然後看你的譯文是否還是通順、能夠理解的。

其次,要刪掉一些 fillers、口頭禪,如 sort of, a bit of stuff, kind of, you know 等。舉個例子,在一些課程中,有一些教授在構思自己接下來要說的話的時候,可能會不由自主地使用他們自己的一些口頭禪來緩衝一下——中文中也有類似的,比如「然後」、「那麼」、「就是」這類詞。圖中有一些案例,大家可以看到帶了 sort of 、a bit of 這些詞的英文句子,顯得很啰嗦,大家在翻譯的時候都可以將其刪掉。

最後一點就是簡化表達。比如這一句「made our network more efficient」,大家不需要一看到 make 就把句子翻譯成「把」字句,直接使用動賓結構就可以了。在另一句中,前面這句「what we"re gonna do 」和後面這句「a bit of stuff about」都沒有信息量,大家完全可以不翻出來。總之,大家在翻譯的時候,要想一想是否有更簡練的表達。

第二,巧用空格。字幕中,如果出現長長的一句話,觀眾看起來會很費勁,就像我之前說的,因為這是一個多線程的操作。我們在瞄一眼字幕後,怎樣才能迅速 get 到信息點呢?一個很簡單的方法就是在合適的地方加入空格,把長句變成一個個小短句,以減輕觀眾的理解壓力,從而提高他們的閱讀速度。可以加空格的地方就是那些可以拆成獨立意群的地方。下面我們看一些具體案例:

比如在「因為」、「所以」、「目前」、「我認為」等詞以及「十年前」等表示時間的短語後面加上空格,以方便觀眾能迅速閱讀到信息點。

此外,還可以將從句拆開,變成短句/短語。大家可以參考一下我在圖中列出的案例。

三是順句驅動。這其實是同傳翻譯中的一個技巧,思路是:我們盡量順著整句話的意思,按順序提取句中的意群,然後依次將一個意群一個意群翻出來。在這個過程中,我們可能要對原來的句子結構進行一些調整或者添加一些連接詞或者進行句子的轉換。我講一下以前我們同傳老師會講到的例子,比如說 There are still 5 minutes / before we call it a day 這句話,如果使用一般的翻法,我們會翻成「在我們結束今天的會議之前還有五分鐘」;但如果運用順句驅動,可以翻譯成「還有五分鐘,我們就散會」,這樣就把句子順下來了。第二句,也是這個道理。這種翻譯方式可以給大家多一種選擇和思路。

而順句驅動中,第一個具體技巧就是重複。在一行字幕信息不完整的情況下,你可以通過補全這一行的關鍵字,讓每一行的字幕都顯得完整,同時也可以在不打亂句子結構的情況下,就能順著英文意思進行翻譯。比如第一個案例,每一行的內容都出現了「內容」,這些「內容」都是為了讓每一行字幕看起來完整而補上去的。第二個例子,也是這樣。

第二個具體技巧是詞性轉換。中文的一大特點是動詞用得很多,基於這一點,我們可以把英文中的名詞成分或介詞成分變成動詞。比如第一個句子中的 winners,本來是一個名詞,但可以被翻譯成「勝出」,這樣更能讓句子順下來,也比較貼合中文的表達習慣。

第三是被動變主動。因為中文中主動句式會比較多,因此如果翻譯出來的被動句式出現過多,就會給人一種濃濃的翻譯腔。

此外,我們也可以對句子做出一些其他的變化,例如我在下面這句話的翻譯中,結合上下語境,不將 whether 直接翻譯出來,而是用「準確性」來表達整句話的意思。

最後我補充一下我自己的一些個人心得。

第一個是邊學邊翻。如果你在翻譯一個課程的同時,正好又在學習這個課程,當碰到不懂的情況,會先去網上查一些同一話題的中文資料,來讓自己弄懂知識點後,再以觀眾能理解的中文表達出來——這樣不僅會讓翻譯效果更好,而且也會對你自己的學習有促進作用。

第二,碰到了不懂的術語怎麼辦?

第二個方法就是用雷鋒字幕組的雲詞庫。我們在翻譯過程中,如果遇到不懂的術語,可以參考雲詞庫中的中文翻譯。

如果上述方法都不管用,大家可以跟群里的小夥伴們討論一下,一起找到一個比較合適的翻法。

這裡我要特別說明一點就是,AI 這個領域目前還處於快速發展的階段,其中的很多中文表達還沒有固定下來。大家平時在網上搜索某個術語的時候,也會從不同的來源看到不同的譯法,在這種情況下,一個比較好的方式其實是,大家一起討論一下哪種譯法更貼合中文的表達習慣、更能反映其英文所要表達的意思。大家不要認為網上出現過的翻譯就是最好的,如果我們能夠討論出更加合適的譯法,並讓它更廣泛地被使用,成為主流,就更有意義。

第三,有需要解釋的術語怎麼辦?

第一種情況是,有些術語有縮寫、簡寫。大家遇到這類術語時,可以採取的方法是:第一次出現的時候,先翻譯成中文,並在後面加上括弧寫上它的英文縮寫,當下次再出現這個概念的時候,字數有限的情況下,就可以採用縮寫。比如這句話,第一次出現 natural language process,我先把「自然語言處理」翻譯出來,並在後面的括弧中寫上 NLP,當該術語在後面出現的時候,直接用 NLP 即可。這其實也能幫助觀眾積累一些英文專業術語的知識,換句話說就是,當他們以後在瀏覽信息時看到這些術語的英文縮寫,他們就知道這個縮寫指的是什麼。

第二種情況是,可能你覺得英文部分沒有講清楚,或者你覺得觀眾看到後不能很好理解,需要加一些解釋說明。這個時候,你可以使用一些最簡練的話來對其進行解釋說明,如果因為加了說明而變得太長,可以考慮將後面的話移到下一行,做一個微調,畢竟字幕翻譯的最終目的,就是為了讓觀眾看懂。比方說,我在翻譯 ResNet block 的時候,想到有很多觀眾可能會看不懂,因此我不僅將「ResNet 模塊」翻譯出來了,還在後面標註上了我對這個術語的理解「註:即上下都有1x1的卷積層」。

第三種情況是,不知道英語在說什麼怎麼辦?

碰到這種情況,有一半的概率其實是英文字幕本身是錯誤的,比如 encoding 打成了 in coding,conv net 打成了 com net,pair 打成了 pear。那怎麼做呢?大家可以聽一下英語原音,比如說第一句中出現了一個 comNet,我們理解不了,我們可以聽一下視頻原聲,會比較容易發現其實這個單詞應該是 conv net。另外一種方法是(針對某些課程),在返回去聽英文原句的同時,配合查看相應的 PPT——因為有時候教授在念這一句話的時候,課程中的 PPT 上也會同步顯示這句話。比如我遇到過一個字幕,句中的 if 造成了翻譯困難,但當我去查看 PPT 的時候,發現其實 if 是沒有的,刪掉 if 以後,這句話就變得很容易理解了。

如果上述辦法都不奏效,大家不妨求助一下小夥伴吧。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

進入中國7年後,Mobileye有哪些積累和計劃?
下個五年,跨境支付的變數在哪裡?

TAG:雷鋒網 |