搜狗吳滔：聽覺＋視覺才能組成一個完整的翻譯機產品，離線翻譯是搜狗的「獨家秘籍」

最新 04-24

對於很多公司來說，做硬體是一個很難，卻又無法迴避的問題。

-shenzhenware-

「對於很多公司來說，做硬體是一個很難，卻又無法迴避的問題。」

在深圳灣「WARE 2018 新硬體峰會」上，搜狗公司副總裁、搜狗旅行翻譯寶項目負責人吳滔很坦誠的表達出自己對於互聯網公司做硬體的理解。

到目前為止，搜狗一共推出過三款智能硬體，第一款是三年前推出的兒童智能手錶「糖貓」，另外兩款則是今年 1 月份發布的「搜狗旅行翻譯寶」及「搜狗速記翻譯筆」。3 月 12 日，搜狗翻譯寶在京東首發，在首發當日銷售額突破了 1000 萬。

吳滔認為，出境旅遊是 AI 翻譯技術一個核心的應用場景，而用戶的需求聚焦在聽得懂及看得懂兩個層面，搜狗的翻譯產品依據這兩個核心需求已經有了足夠的技術積累：

在「聽」的方面，搜狗的語音識別+語義理解準確率達 97%，並且離線翻譯結果媲美在線水平。雙麥克風陣列技術能夠保證拾音清晰。基於搜狗獨創的神經網路機器翻譯技術，能實現 61 種語言互譯。

在「看」的方面，目前搜狗的 OCR 圖像識別技術準確率可達 96%，能有效解決光線不足、抖動、扭曲、字體折行等問題，經由全卷積神經網路演算法處理，形成準確的文本翻譯。

目前搜狗翻譯產品覆蓋軟硬體，已經在在全球積累了超過 1000 萬用戶，日均翻譯請求達 1.4 億次，交互翻譯方式包括語音、對話、文字翻譯和圖像翻譯，字元規模達 200 億規模。

吳滔表示，搜狗希望用 AI 翻譯打破語言壁壘，幫助用戶跨語言表達和獲取信息。而智能硬體是互聯網公司 AI 能力落地最好的體現，未來，搜狗會有更多硬體產品的探索。

以下是吳滔在「WARE 2018 新硬體峰會」上的演講實錄，在不改變原意的基礎上略有刪減：

嘉賓演講實錄

演講嘉賓：吳滔 / 搜狗公司副總裁、搜狗旅行翻譯寶項目負責人

演講演講：搜狗 AI 翻譯的應用之路

大家好，今天主要給大家分享一下搜狗 AI 翻譯的應用之路。

搜狗公司是中國第四大互聯網公司。我們主要有兩個產品：一個是搜索引擎，移動搜索引擎領域搜狗是第二大；另外一個產品是搜狗的輸入法，在輸入法裡面我們是屬於領先的位置，是中國第一大輸入法。

搜狗本身是一家技術公司，聚焦 IO 的場景。整個搜狗在人工智慧上的布局，主要是圍繞著 IO，IO 的主要載體就是語言。無論是輸入法還是搜索，都有一個很相似的特徵：有用戶的輸入，通過用戶輸入之後，我們去理解它，能夠推測用戶的意圖，幫助他，給到他想要的東西。

搜狗的人工智慧布局，是以認知為主體的，分為聽覺認知和視覺認知。

聽覺認知包含語音識別、TTS、聲紋識別，這些技術已經比較成熟了。搜狗的語音識別+語義理解準確率達 97%，並且離線翻譯結果媲美在線水平。雙麥克風陣列技術能夠保證拾音清晰。基於搜狗獨創的神經網路機器翻譯技術，能實現 61 種語言互譯。搜狗在這些基礎技術上還做了風格的遷移、個性化語音的標註和身份識別，並已經比較成熟的應用到現在的很多產品上。

視覺認知包含 OCR、唇語識別、狗臉識別等等。目前搜狗的 OCR 圖像識別技術準確率可達 96%，能有效解決光線不足、抖動、扭曲、字體折行等問題，經由全卷積神經網路演算法處理，形成準確的文本翻譯。

問答，則是我們對於識別之後的文本，如何能夠理解用戶的意圖，同時能夠回答用戶的問題，這其實與搜索的原理是相同的。至於翻譯，是從一種文本轉換成另外一種文本，其實跟整個交互邏輯相關，比如說從語音的識別到合成，有了整個循環的基礎，我們才能把翻譯做得更好。

這是我們在人工智慧上面獲得的一些成績（見 PPT），剛剛拿到了視覺識別領域國際大賽的獎項，我們提交的深度模型打破了世界紀錄，在國際學術賽事 WMT 中獲得中英機器翻譯全球第一名。NTCIR 是日本短文本交互類比賽，看把 Twitter、微博這些社交內容分析輸入其中，看能不能找到相關的匹配度，這裡面我們也拿到第一。

跨語言搜索是搜狗引擎上比較突出的特色，我們的英文搜索是業內首個跨語言的檢索產品，不僅能讓我們檢索到重要的英文文獻，更能夠讓中國人了解到國外最先進的科技類的、學術文本界和輿論界的消息。此外，我們還在 2016 年 11 月烏鎮大會上發布了首個基於 NLP 深度神經網路的商用同聲傳譯產品。

剛剛講了這麼多，回歸到搜狗的使命，那就是讓表達和獲取信息更簡單。I 與 O 一個是輸入、一個是輸出，翻譯就是讓跨語言的表達和獲取信息更簡單。

講完跟搜狗人工智慧戰略相關的產品，接下來講講搜狗是如何落地應用的。

做硬體這件事情，是很多公司現在很頭疼，卻又很難迴避的問題。最早的時候，互聯網架構了一個虛擬世界，我們從最早的原子世界裡構思出來一個新的虛擬世界，這就是互聯網的價值。現在互聯網已經非常成熟了，但是依然還有很多應用場景是沒有辦法覆蓋到的。在這些應用場景中，我們需要一些新的實物載體和新的技術才可以 touch 到用戶的需求，因此我們需要通過 IoT 來連接到更多場景。

搜狗在傳統翻譯領域都是 toB 端的，所以我們思考以出境旅遊作為一個 to C 的核心的場景。圍繞這個場景，我們通過深度的調研與洞察，認為用戶到國外旅遊，他的需求會聚焦在兩件事情上：一是要能聽得懂，二是要能看得懂。

我們在推出搜狗旅行翻譯寶之前，已經有一些翻譯機產品進入市場了，包括訊飛、百度等公司都推出了一些相關產品。但我有兩個點不太理解：

第一是這些產品都沒有屏幕，雖然你的語音識別準確率比較高，但是在你不懂英文或者不懂其他語言的情況下，如何確認對方說的是什麼，這個問題還是很大的；

第二是沒有攝像頭，我們東方人相對比較含蓄，在國外能不依賴別人完成的事情還是盡量自己完成，特別是看到路牌和菜單，可能不好意思問人家，所以在這些場景中，視覺翻譯也許這是比聽覺翻譯更重要的能力。

在解決「聽得懂」這個問題上，我們可以拆解成幾個方面：

第一，網路永遠是痛點。很多朋友都體驗過，中國的 4G 網路真的是全球領先的，我們在國內可能沒什麼感覺，但出過國的朋友都知道國外的網路很惡劣，我們在外面被吐槽的是網路太卡頓，而且延時太長；另外，出入境的時候、飛機上也是沒有網路的，這時候該怎麼辦？

第二，在日常的會議或者環境很嘈雜的情況下，怎麼能精準的聽清別人說的話，因此過硬的拾音降噪能力很重要。

從技術維度解讀一下我們做了什麼事情。語音識別我不多講了，這方面大家都差不多，重點講講搜狗的演算法積累。

搜狗對機器翻譯技術很有信心，我們這個技術是跟清華的實驗室聯合做的，中間有很多技術細節大家可能不是特別了解。

首先是端到端神經機器翻譯模型，重點講一下，我們能做到把一個神經網路模型變得可視化，這是重大的突破，我們知道機器學習基本上是一個不可被描述的過程，很難被改進，因而輸出的結果很難去優化。而通過這種可視化的神經網路模型，這個技術能夠不斷被迭代優化。在國際學術賽事 WMT 2017 中，我們的這項技術獲得人工評價指標的雙向第一名。

翻譯這件事情，但凡涉及到人工智慧、但凡涉及到機器學習的，就是看數據。搜狗本身是做大數據的公司，我們每天產生的語料長達 24 萬小時，調用次數 3.6 億次，再加上我們從自己的搜索引擎裡面可以發掘上億的語料。有了這個數據的積累，這對我們訓練模型是非常有益的。

每天，在搜狗整個平台上翻譯相關的請求，有 1.4 億次左右，包含 200 億字元，活躍用戶超過 1000 萬用戶。交互翻譯方式包括語音、對話、文字翻譯和圖像翻譯。

這裡也簡單分享一下，為什麼搜狗旅行翻譯寶的離線能力能做到這麼好，這是我們的獨家秘籍。現在很多友商，包括訊飛都說自己有離線能力，但是把這個能力拿出來 PK 一下，我們毫不謙虛的講，他們跟我們的差距還是比較大的。為什麼呢？裡面有四個核心點：

第一，搜狗的語料數據量足夠大。上面已經講過，這裡不再贅述。

第二，我們的模式足夠完整。在雲端我們有上百 G 的資源和內存可以做計算，但是一般要做到離線設備上挑戰就非常大。現在主流手機的內存大概 2-4G，最高配的 6G，怎麼把你的模型塞進去。

我們知道，做一個機器和語音對話翻譯有三個模型：第一個是識別，能夠離線識別出你的語言；第二是通過機器翻譯，將一種語言轉換成另一種語言；第三是把翻譯出來的東西讀出來。在翻譯機離線內存嚴重受限的情況下如何把這三個模型放進去？這就是把在線翻譯模型壓縮，搜狗能做到將翻譯模型壓縮至1/ 48 ，極大的減少了佔用內存空間。

第三，語音運算響應速率可達百毫米級。在離線的時候非常受限制。如果你的模型能做到足夠大，那你的效果一定是很好的。但是這樣的話你的計算量很大，效率可能很低，一句話可能需要一秒、兩秒才翻譯出來。我們自己做了 EVA-Inference，極大提升了反應速率，能達到離線百毫米級實時響應。

第四，知識的提純能力。通過壓縮翻譯模型，翻譯效率也會隨之降低，例如當你把模型壓到 1/4 的時候，準確度和相關指標品質會極速下降。於是我們就通過機器學習的技術，建立相應的彌補模型，希望把準確度和匹配度拉回來，這使得我們的離線翻譯水平足以「媲美在線水平」。

搜狗的翻譯技術已經支持 24 種語言，覆蓋了 200 多個國家。目前我們的離線主要做中英，中日、中韓離線翻譯能力應該會在未來的 2-3 個月內發布，其他的語言翻譯主要是在線的。

OCR 是比較複雜的技術，特別是文本和 logo，在圖像識別領域是很難的事情。搜狗旅行翻譯寶已經能做到中英、中日和中韓的 OCR，翻譯準確率可達 96%。

OCR分了幾個部分，第一部分跟拍相關，你拍的像素、清晰度、光線、角度等等，這都有很大影響；如果你拍的很糟糕，那麼誰都沒有辦法識別，這跟背景、光線、拍攝角度相關。第二部分，OCR 識別的時候要先把文字摳出來，通過離線翻譯出來，然後替換成需要的文字。一般行業內講的準確率 96% 是在相對標準情況下的文字識別率。