當前位置:
首頁 > 科技 > 訊飛翻譯機3.0發布:離線翻譯識別率95%,精通7種專業翻譯

訊飛翻譯機3.0發布:離線翻譯識別率95%,精通7種專業翻譯

智東西(公眾號:zhidxcom)文 | 李水青

導語:這款翻譯機懂得神曲《生僻字》,不竊取用戶的個性特徵數據。

智東西8月8日消息,西班牙當地時間8月5日,科大訊飛發布了訊飛翻譯機3.0 Lite。同時,球星武磊簽約科大訊飛,成為其首位品牌代言人,訊飛翻譯機也成為皇家西班牙人足球俱樂部官方翻譯合作夥伴。

2016年,科大訊飛推出了訊飛曉譯翻譯機,在國內開闢了這一新品類。2019年5月,訊飛翻譯機已更新至3.0,能進行中文與58種外語互譯,覆蓋全球近200個國家和地區,支持離線翻譯、方言翻譯、行業AI翻譯和拍照翻譯等等。其中,離線翻譯效果達到大學英語六級水平。訊飛翻譯機3.0 Lite則會新增西班牙語的離線翻譯,以便於用戶在沒有網路的情況下也能自由交流。

今天,在訊飛翻譯機的媒體溝通會上,智東西提問了關於「外語譯中文」的技術難點和用戶數據處理的隱私問題。科大訊飛翻譯機業務總經理翟吉博表示,目前主要的技術難點是「小語種數據匱乏」;而在用戶隱私方面,訊飛翻譯機則利用數據脫敏技術,以大數據集的形式對用戶數據的共性進行學習,而不會關注用戶數據的個性情況。

訊飛翻譯機的發展歷程

一、離線翻譯識別率高達95%,精通7種專業翻譯

科大訊飛翻譯機業務總經理翟吉博表示,翻譯機的場景是極其多樣化的。場景既涉及使用者的語言、語音、習慣,又涉及環境的嘈雜程度,還涉及翻譯內容的多樣性。根據不同的場景,訊飛翻譯機將「聽得清」、「聽得懂」、「譯得准」、「發音美」作為其四大標準。

從環境的複雜性來說,人們常在國外的展會現場、商場等場所使用翻譯機。對此,訊飛翻譯機對麥克風和揚聲器進行深入優化,新款3.0版本使用4顆陣列式的麥克風和雙揚聲器,應對聲音的干擾。

從內容的適應性來說,訊飛翻譯機對產品進行專業細分和訓練,可覆蓋到醫療、金融等7個專業領域。比如「Mad doctor」,訊飛翻譯機不會將這個醫療辭彙錯翻為「瘋醫生」,而會翻譯為「精神病醫生」。

從使用者多樣性來說,訊飛翻譯機獨家支持方言和民族語言翻譯,滿足國人說話習慣。

在離線翻譯方面,科大訊飛推出新一代離線翻譯。具體來說,其離線語音識別引擎使用新一代端對端混合離線語音識別神經網路架構,離線識別率高達95%。離線翻譯引擎採用自適應低精度翻譯模型加速技術,支持的詞庫規模擴大一倍。訊飛翻譯機還將四核處理器升級到八核處理器,使得性能翻倍。

訊飛翻譯機3.0升級離線翻譯功能

在拍照翻譯方面,新版本可以解析複雜版面。訊飛翻譯機的新一代的拍照翻譯,搭載了包攬CPR國際大賽三項大獎的OCR技術,可自動對焦,並採用3.1寸高清視網膜屏幕,使清晰度翻倍。

二、小語種數據不足是技術難點,數據脫敏以保護用戶隱私

在採訪環節中智東西問道,我們知道訊飛翻譯機3.0在「中文-外語」方面非常快速和準確,那麼在「外語-中文」的翻譯效果上,訊飛從那些方面做優化,有什麼技術難點?

科大訊飛翻譯機業務總經理翟吉博表示,主要技術難點在於相關外語的可用數據不足。訊飛翻譯機通過深度學習技術進行學習,需要相對較多的數據。在「中文譯外語」方面,用戶基礎廣泛,數據積累充足。但是,在「外文譯中文」方面,用戶數據積累仍有挑戰。

比如,各國人說英語的口音不一樣,但其只能通過很少的數據來提煉這些「口味英語」的特點,如何將各種口音都涉及到,這是非常難的。

當智東西接著問,隨著用戶隱私問題日益受到關注,訊飛翻譯機是否會將用戶日常產品使用中產生的數據存儲下來,用以訓練語言處理模型?

對此,翟吉博介紹,訊飛翻譯機處理用戶數據的方式和搜索引擎的原理相似,是以大數據彙集方式進行。所有的用戶數據都會通過脫敏技術進行處理,以全集形式形成大數據集,對模型進行訓練。訊飛翻譯機提取的是數據的共性,而非個性。

科大訊飛翻譯機業務總經理翟吉博先生

當有記者問到訊飛是否打算做一款翻譯APP?翟吉博表示,其實訊飛翻譯機已有公眾號和小程序可以提供翻譯功能。據稱,訊飛翻譯機也有APP,其定位主要是以人際語言對話翻譯為主,而不是文字翻譯。

這實際上涉及翻譯演算法和硬體載體的關係問題。在智東西和翟吉博先生的場下溝通中,翟先生表示,訊飛也正在探索翻譯耳機、手機軟體等多種載體,它們適用於不同場景。比如,耳機的優勢往往在於多輪複雜對話,而不太適用於短對話;智能手錶則暫時不太適用於做成翻譯硬體,因為手錶的用途目前還是以視覺方面的應用為主。

三、可翻譯抖音神曲《生僻字》,情感傳達仍需優化

在圓桌會談中,知名作家曾鵬宇先生表示,訊飛翻譯機為其母親的出國旅遊大增便利。曾先生說自己是英語專業畢業,本來不太信任翻譯器。但經過母親的體驗,他發現訊飛翻譯器在點菜、遊覽、問路、聊天等場景都很好用。藉助訊飛翻譯機,當母親講到好笑的內容,對話者會有反應,也開懷大笑。

曾先生的測評涉及「信達雅」效果、語種、離線翻譯等多方面。翻譯的「靈珠」是詩詞和成語,這是最難的部分。有趣的是,增先生測試了抖音神曲《生僻字》,其翻譯機可以將歌詞都翻譯出來。他測試了五言和七言律詩,都是秒翻,雖然難以達到原詩的意境,但信息可以立馬傳達。

果殼網吃貨研究所所長玉子桑先生表示,他在今年去了東南亞和咖啡農進行交流,訊飛翻譯機助他做到溝通無障礙。他甚至可以和當地咖啡農、果農砍價。他認為,有了訊飛翻譯機,從此不需要花時間去學用不了太多次的小語種,就可以去小國家旅遊。

嘉賓在交流訊飛翻譯機的體驗感受

對此,翟吉博表示,用戶代表的體驗符合訊飛翻譯機的初衷:「世界聊得來」。這也是代言人武磊所說的:「讓世界聽到中國聲音。」

翟先生說:「翻譯是非常複雜的事,人們在交流時其實要結合許多常識、文化背景。機器目前做的只是比較簡單的語言翻譯。因此,在涉及到情感方面,訊飛翻譯機還是有挑戰的。

另外,訊飛翻譯機的「中文譯外語」的效果要比「外語譯中文」的效果更好。因為使用者會對自己的表達方式更加習慣,但是當使用者要用機器配合對方講話,就沒那麼習慣了。因此訊飛翻譯機在這方面還有很多地方可以提升。

曾鵬宇分享道,曾遇到了同音異形詞識別難的問題,但是3.0版本似乎在識別上有改進。比如,結合上下文,訊飛翻譯機3.0已可以區分「星星」和「猩猩」。

在訪談的結尾,訊飛翻譯機還推廣了其「全民體驗官活動」。訊飛翻譯機想以此獲得用戶使用中的問題反饋,進而改進產品。用戶只需要關注「訊飛翻譯機」公眾服務號,即可了解活動詳情。

結語:迭代技術,深入場景洞察

翻譯機用戶使用頻率越高,服務調用次數越多,需要比其他硬體產品花費更大量的伺服器成本。目前來看,翻譯機仍是一個強技術導向、強應用場景的產品,這意味著背後在數據、演算法等層面大量的研發投入,而消費者主要看重的是翻譯機在不同場景是否好用。

國內翻譯器玩家大致可分為兩類,一類是科大訊飛、百度、搜狗等自身掌握AI核心技術的企業;另一類是一些消費電子領域的硬體公司,他們大多依託外部技術落地翻譯機產品。

科大訊飛具有強大的技術代差和深入的場景洞察,以此在國內翻譯機市場中居於領導地位。科大訊飛不僅通過簽約足球明星來網羅更多的目標受眾,更通過切入具體場景的洞察力進而快速迭代技術,為產業同行提供了具有參考性的經驗。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 智東西 的精彩文章:

《科學》子刊登電子皮膚新技術:快速感測!可助機器臂敏銳反應

TAG:智東西 |