從技術到產品，搜狗為我們解讀了神經機器翻譯的現狀

新聞 03-26

在深度學習快速發展的今天，機器翻譯系統的能力究竟達到了什麼樣的水平？機器翻譯是否已經可以代替人類翻譯？3 月 17 日，機器之心與搜狗共同舉辦的 INTERFACE 線下分享中，搜狗語音交互技術中心研發總監陳偉、搜狗 IOT 事業部產品負責人李健濤，從技術和產品兩個方面為我們回答了這些令人感興趣的問題，解讀了搜狗，以及業內目前機器翻譯技術的現狀。

在活動結束之後，我們對本次分享內容進行了整理：

搜狗語音翻譯技術

分享者：搜狗語音交互技術中心研發總監陳偉

陳偉：語音這塊分語音識別、語音合成和機器翻譯的積累。我將重點介紹搜狗如何把複雜的在線語音翻譯技術放到離線上面的，我相信這件事大家會很感興趣。

搜狗語音翻譯技術架構

在移動時代，我們更多地通過輸入法表達信息，搜索獲取信息。而到了智能時代，知音 OS 是怎麼獲取信息呢？通過深智引擎獲得，因此搜狗的人工智慧戰略是兩塊，一塊是自然交互，一塊是知識計算。我們團隊目前是在自然交互，人和機器之間，人更好的在機器輸入信息，同時機器有很好的反饋。速記翻譯筆設備不是拍腦袋想出來的，本身的產品思考已經非常成熟，技術上我們一直沒有落下，緊跟產品思維在做。

搜狗這段時間在人工智慧上面的能力持續提升，一個是在語音識別方面，處於行業領先，準確率 97% 的水平；另外，我們在 2016 年 11 月份首發機器同傳技術，另外是 2017 年 5 月份我們參加了國際頂級機器翻譯評測 WMT，獲得了中英機器翻譯全球第一。我們也一直在推動機器翻譯技術的進步，因為去年我們跟今日頭條和創新工場一起推動人工智慧挑戰賽，當時參與的人群比較多，當時我們在業內開放出 1000 萬條精標口語翻譯數據集，目前很多學術機構和公司使用的都是目前我們開放出來的數據集，這也是業內開放出來最大的高質量評測語料機器翻譯數據集。除此之外，搜狗在知識問答上過去幾年也取得了很大成績。

從技術到產品，搜狗為我們解讀了神經機器翻譯的現狀

把這些單點技術拿出來看我們會形成好的產品，2016 年開始我們一直在推搜狗機器同傳，往技術層面來看，它其實就是語音翻譯技術，把搜狗語音識別和搜狗機器翻譯、語音合成打通。這是一個簡單的機器框圖，同傳整個口譯技術裡面最難的技術層面，相當於人不斷講話過程中，屏幕和耳機要實時聽到機器翻譯的聲音，語音不會停，我們做的過程中要不斷去判斷語音斷點，找到語音之前斷句的位置，然後做語音識別。語音識別之後拿到的句子非常多，不同語句混合在一起，需要有文本斷句的能力，我們判斷出這句話是完整的句子送到機器翻譯，把結果通過語音合成方式，最後構成機器同傳的完整能力。

我們需要加強的單點能力是把語音識別、機器翻譯、語音合成的能力提升。連接語音識別和機器翻譯之間文本斷句能力是我們過去一直在加強的功能，有三個方面：內容順滑、句子劃分、輸出判斷。舉一個例子，這個例子比較簡單，他說「呃，我想去找你吃飯，不知道你有有沒有空」。我們要把語氣詞去掉，否則會影響用戶觀感，做了順滑以後會把語氣詞刪掉，還有重複詞去掉，這樣的東西帶到翻譯里會極大降低翻譯體驗。

此外，我們經常講的關於口頭禪的事情，比如有人經常說「在這裡、在那裡、那就是說」等等。做了順滑之後我們會得到相對來說語義完整，沒有太多冗雜的句子。多個句子連在一起，如何找到斷句的位置，需要在文本上做斷句，通過神經網路模型，把句子劃分開，上一個句子就變成了：我想去找你吃飯，不知道你有沒有空。

在我想去找你吃飯後面加上標點符號。是不是把整個句子送過去就可以？這樣是不合理的，為什麼？我們做的過程中在實時做語音翻譯處理，用戶可能想說我想去找你吃飯，不知道你有沒有空，我們一般來說會判斷一下到底哪些句子需要送到後台做翻譯，哪些需要等一等，等來了之後拼湊成完整語句再進行翻譯。輸出判斷的時候，優先把我想去找你吃飯進行翻譯，後面會有句子加進來。因此同傳的時候會做很多容錯以及判斷，同傳這件事情是很強的單點技術融合在一起，把更多單點技術串連起來非常大的系統工程。

搜狗語音產品發展歷程

簡單回顧一下搜狗在語音產品上面的進展，2016 年 11 月 24 號，第三屆烏鎮世界互聯網大會上同傳，在屏幕上投屏，這個系統有什麼特點呢？第一，它是同傳的，真正對於人工口譯行業，他們一般叫同傳和交傳，同傳概念是講話過程中，人工同傳把聽到的語音翻譯成對應的目標端語言，還有交傳，說完了翻譯才會做翻譯，比如新聞發布會上，總理講完了，翻譯針對總理講的東西做翻譯，那是交傳。我們首發的時候是同傳模式，整個服務基於在線，使用兩項技術：語音識別和機器翻譯。2017 年我們逐漸把產品放到搜狗產品上面，目前搜狗翻譯產品日均請求量已達 720 萬次，隨著技術成熟逐漸上線，產品帶來了大量數據積累，這方便了我們不斷進行技術迭代。2017 年第四屆烏鎮互聯網大會上，我們發布了機器同傳 2.0，把語音合成能力加進去。因為現場有人工同傳箱，我們把機器合成的聲音連到人工同傳箱，人們戴上耳機以後可以選擇 3-4 個頻道。

整個 2017 年，機器同傳支持了 200 多場同傳服務，極客公園創新大會上我們發布了英譯中機器同傳，之前很多是中譯英，但台下如果很多是中國觀眾的話不是剛需，反過來英譯中對於國內大會來說非常重要，大家可以實時的看到英譯中的效果。

搜狗的翻譯硬體布局

搜狗在語音翻譯硬體上的布局，在於今年 1 月 24 號發布的搜狗旅行翻譯寶和搜狗速記翻譯筆。技術特點拆解來看，搜狗旅行翻譯寶主要是搜狗離線語音翻譯，交傳模式，我講完以後你會看到我的播報聲音，並不是同傳的，用到的技術有搜狗的語音識別、機器翻譯和語音合成。搜狗速記翻譯筆是同傳模式，語音識別和機器翻譯。所以這兩個產品略有區別。

現有技術進步肯定會提到深度學習對我們這個行業，對 AI 技術帶來極大的提升，怎麼來看帶來的提升呢？或者從哪些因素分析呢？一般來說分三個特點：1）數據的變遷；2）演算法的變遷；3）運算的變化。

從數據角度來看，其實現在數據對於工業界而言是非常大的護城河，工業界因為有自己的產品，因為有更多人力財力支持，我們可以獲得更多的數據。現在已經達到數十萬的量級，真正工業級商業機器翻譯系統都是過億語料規模，以前做語音合成語料庫大概需要 10 個小時，從錄音室出來的精標數據，現在這個量已經擴展到幾百小時，甚至上千小時，數據規模逐漸變遷。

從技術到產品，搜狗為我們解讀了神經機器翻譯的現狀

為什麼說數據有用呢？上圖是搜狗語音識別從 2012 年上線到現在的數據變化情況，早期上線之前，我們通過 Google 介面，收取大量用戶數據，我們沒有完全做語音識別系統，而是做了熱啟動，最早期的語音識別系統。當時上線用到的數據量也就 500 小時左右，隨著數據級變化，從早期接近 40% 的錯誤率一直到 2016 年是 4.8%，現在已經是 3% 以內了。現在搜狗輸入法上面每天請求數 PV 是 3 億次左右，差不多總體語音總時長是 26 萬小時，雖然這個數據並不代表搜狗馬上可以拿 26 萬小時的內容做訓練，但是它的確會給我們帶來更多的可能性，當你有大量數據的時候要不要做更多數據挖掘，我們可以通過機器半自動方式挑選數據，讓我們的技術獲得不斷提升。

我們有一個自己的平台，叫 EVA，來自日本動漫的名字（新世紀福音戰士），這個平台更多研究如何去做訓練，因為當你的數據越來越多的時候，演算法越來越複雜的時候，怎麼樣在短時間內獲得更好的模型就成為需要優先考慮的問題了。底層基礎設施有不同硬體，RDMA 是高速率的路由器。再上面，我們怎麼能夠更好的做自動配置，以及更靈活的調度，所以我們用了分散式系統，更好的調度各種各樣訓練服務。再上層，基於目前已有的系統上面的設計，把很多演算法放上去，比如現在常用的 CNN、RNN、CTC、LSTM/GRU。再往上就是應用，圖像識別、語音識別、機器翻譯這樣的技術。

現在的大多數其他開源平台在伺服器端還是比較成熟的，但在終端——手機端和硬體端的運算能力，如何拿到好的模型來做推斷？我們團隊內部意識到，針對特定業務，做推斷這件事情一定是強定製的，不可能有通用運算庫，針對所有模型和任務都可以算得非常快。因此，搜狗團隊在自己的深度學習平台內部孵化出一個工具，試圖解決在已有 ARM 的 CPU 等計算硬體的條件下，如何進行更高效的運算的問題。

這一挑戰分兩個部分：任務調度的事情和高性能計算，針對目前我的邏輯和業務做更多的運算定製，這些東西支持了目前我們在語音識別、機器翻譯、語音合成上各種運算任務，這些任務會逐漸放到搜狗對內對外很多產品上，比如今天看到的搜狗旅行翻譯寶，包括之前手機端的很多業務，另外車機，搜狗在家，主要依賴於目前在雲端基於我們的平台，以及在手機終端上比較強的運算定製能力，保證這件事情是打通的。

我們把自己的庫與 ARM 的 ACL 對比，目前我們已有的庫平均性能加速比 1.62 倍，在搜狗自有任務下加速比將近 4 倍。自有硬體可以保證你基於已有架構做更好的定製。如果你想在手機上跑起來，首先要對模型做更大的裁剪，在相對容忍的時間內跑起來，如果在自有硬體上，由於有很強的運算能力，我們可以把高品質模型和能力放入設備。

自 2010 年以後，深度學習技術變革了整個語音識別性能，2010 年之前，我當時學的語音專業，找工作非常難，2010 年之後忽然發現深度學習技術使用起來之後，錯誤率急速下降 30%，從實驗室-可商用中間搖擺的狀態到快速使用的狀態。我們發現深度學習技術不只變革了語音識別，也變革了 AI 行業。比如現在做語音做圖像，它用到的底層結構基本類似。

語音為例，2010 年之後，搜狗團隊做過 DNN，做過 CNN，做過 LSTM 和簡單的 RNN，我們也嘗試把 CNN 做的很深，比如我們團隊做 50 多層 CNN 結構，嘗試了 seq2seq 等結構。我們也嘗試做一些變化，比如用 CTC 結構代替之前的 cost funtion，保證它能夠更多的端到端，而不要把很多東西做的太複雜了。我們嘗試在 LSTM 經典的基於序列建模方式上，把它簡化，因此就會有 SRU 和 QRNN 的嘗試，所以在演算法方面有很多的變化。

如何把多個模型結構融合在一起，形成多模型融合在一起的複合結構？比如我們現在做的是 LS-BLSTM，不同的特點，提升整體在語音識別上的效果。

語音合成的合成前端，包括分詞也使用了神經網路結構，合成後端是端到端神經網路系統。這裡給大家分享一些小的差異點。語音合成現在已經比較成熟了，得到的參數合成效果現在較之前有很大的提升，我們能不能做更多的事情，能不能使用少量語音做更大的合成？我們拿林志玲 6 分鐘訓練數據合成，或者做遷移學習，變到其他風格上面，比如她只是講話，能不能讓她去講貫口，或者唱首歌？

我們可以實現個性化定製，也可以稱之為情感遷移、風格遷移。6 分鐘林志玲的聲音，合成了讓機器像她一樣講話，怎麼針對已有風格讓它遷移到這個風格上面，我們團隊在做這樣一些事情。

搜狗的機器翻譯技術

聊聊搜狗在機器翻譯上的工作，目前的框架是去年我們獲得 WMT 冠軍時的框架，採用 encoder attention 加 decoder 技術，採用 layer norm 加速收斂。當時我們做了比較多的深層 RNN-NMT 模型，另外做了很多融合，在後面結果的篩選上，提升候選重排序，還有神經網路語言模型。RNN-NMT 已經是 2017 年的技術，甚至 2017 年上半年的技術，現在技術變化非常快。

2017 年，Facebook 提出了基於卷積神經網路（CNN）的 NMT，之後 Google 的論文《Attention is all you need》則提出了更先進的機器翻譯技術。我們在 2017 年 7 月份上線了基於 transformer 的機器翻譯系統，這個系統最大的問題在於它的解碼器很慢，搜狗很快解決了解碼器的問題，形成了自有的 Transformer 框架，新系統較原生系統提升了 8 倍，機器評分好了 3 個 BLEU 以上。在人工評測上，和競品對比，我們發現目前這個框架比其他系統都要好很多。

從技術到產品，搜狗為我們解讀了神經機器翻譯的現狀

為什麼搜狗能這麼快上線？主要原因是我們把解碼器這件事情做好了，我們找一個小的測驗級測試，TensorFlow 版本解碼器是 691 毫秒，我們自己的解碼器是 78 毫秒，加速比是 9 倍。目前有一些基於 transformer 的競品開始上線，他們在做在線的時候，我們在今年 1 月份發布的旅行翻譯寶用到的框架已經是離線的 transformer 了，我們認為我們的翻譯產品是領先其他競品一個代差的。

在離線產品上，我們的語音識別、語音合成、機器翻譯效果媲美在線水平。

我們的提升有三個維度：翻譯模型壓縮至原模型的 1/35，現在大家拿到最新版本搜狗旅行翻譯寶已經壓縮到了 1/48。再是實時響應，最後是模型精度接近無損，基本上中英一致。這裡引用了一句話，是我比較喜歡的科學家 Alex Graves，說「what is possible in principle is not always what is simple in practice」。做的過程中踩了很多坑，碰到很多問題，真正想把東西做到離線設備上，並且有好的體驗，其實是很難的事情。首先從硬體設計上，最早期我們設計旅行翻譯寶的時候我們就在做麥克風雙陣列設置，這塊描述圖比雙麥用到的演算法多很多，這是完整麥克風陣列演算法圖，實際上對於我們旅行翻譯寶上面用到的技術主要是三塊：

1）波束形成，我首先知道你在哪，麥克風陣列一定角度指向你，在角度內的聲音會做到語音增強，角度外的做到語音抑制；

2）環境降噪，我們做雜訊抑制，我們叫 NS；

3）自動增益，這塊主要針對遠場拾音，當我和對方距離不是特別遠，幾十公分還好，進到麥克風裡的聲音很小，我怎麼把它進一步放大。所以主要做了這三方面。

圍繞著這三個維度給大家講一下我們當時在開發產品時的心得。

模型壓縮，我們發布的時候壓縮到 1/35，現在到了 1/48，怎麼做的呢？目標是怎麼降低離線模型存儲大小，我們畢竟希望推出一款離線設備——這就存在一定的硬體限制，我們希望把硬體需求降下來。大家能想到的就是精細的模型結構設計，減少模型的參數數量，另外是針對特別大的矩陣試圖做一些 SVD 的分解。另外是量化存儲和運算，現在的大部分神經網路是 32 位的，但實際上我們可以做一些量化，嘗試做半精度，甚至到 8 位存儲。這樣的話，只要你做一次量化比特降低，就會使得你實際存儲降低。這裡只是模型存儲降低了，我能不能把內存降低？需要做完量化運算，比如針對 16 位做運算，針對 8 位做運算，這樣的話運算需求的內存也會降低。

還有參數矩陣共享，之前雲端一個模型各有各的參數，沒有內存和存儲上的限制。但在移動設備上，因為有很多硬體上存儲和內存限制，對於翻譯而言，我們希望在嵌入向量（embedding）、識別語言模型和翻譯之間進行參數共享，通過這種方式把存儲進一步降低。還有模型裁剪，2017 年上半年我們和 MIT 助理教授，深鑒科技聯合創始人韓松合作，他們致力於開發壓縮後模型在 FPGA 上的運算，我們和他們共同研究了語音識別模型的深度壓縮。我們在 FPGA 行業最頂級會議上發布了一篇論文，對語音識別模型壓縮的工作做了總結。我們已經做到把語音模型在無損情況下壓縮到原來的 20% 以下，再小就不太行了。怎麼裁剪？一般剪兩種，對於模型來說是凸處，即剪權重；再是剪神經元，剪完之後需要做在訓練，要保證精度拉回來，所以有很多這樣的工作。

運算的加速，目標是能夠壓縮語音翻譯的延遲。我講完話以後，馬上聽到翻譯的合成聲音控制在百毫秒級，我們的目標是 1 秒以內。為了讓模型處理速度變快，我們希望在輸入輸出上做批量運算和批處理，另外是運算策略優化，我們希望能每個時刻都在做測算，或者跳幀處理，低幀率操作，保證運算速度提上去。在工程上，針對任務的運算定製，基於 EVA 平台的定向優化，還有任務調度，我們有很多任務。旅行翻譯寶有識別翻譯和合成三個大任務，裡面還有很多小任務，比如在邏輯上，做路徑搜索，做前端文本還是做後面的參數預測，有很多任務，我們把它拆解成小的任務，每個子任務評估目前的任務難度以及目前運算瓶頸在哪，把它分別調度到不同的運算器件上。旅行翻譯寶上面有一個小的 ARM GPU 和一個大的 ARM A72 CPU 核心，及一個小的 ARM A53 CPU 核心，它們分別算哪個任務是需要提前做好調度的，我們做了一些優化策略。

我們還對很多任務進行了強定製，如一些循環、向量化的並行，以及針對內存、緩存、寄存器的優化等等。在定向優化之後，設備的運行內存快了 3 倍，解碼速度快了 5 倍，這是非常重要的。這就是我們為什麼要做硬體的原因——很多事情只有在可控的硬體以及有更多自由度的硬體上才可以做更多優化策略。

我有了好的速度，有了好的壓縮，但仍然要保證離線翻譯的效果。我們的目標是能夠媲美在線的效果，在這種情況下，我需要明確設備的使用場景到底是什麼，比如旅行翻譯寶面向出行，場景數據要做更多優化和定製。另外是知識提純，所有的方法都有一個老師，有一個學生。老師幹什麼？不用考慮運算速度和硬體限制，只要有好的性能就可以了，學生做什麼？能不能從老師那裡學到更多知識，讓自己和老師一樣有學問，大致的思路是這樣。因此，有老師和學生以後，他們倆共同維護一個目標函數，讓他們輸出概率分布儘可能保持一致，這是整個知識提純非常基礎的想法。

從技術到產品，搜狗為我們解讀了神經機器翻譯的現狀

我列出來的只是一篇論文，截了一張圖，給大家一個主觀感覺，基於不同層級的機器翻譯層級，在詞一級就可以做提純了，有完全針對句一級的，也有混合在一起的，這個方法不僅限於機器翻譯。另外，在語音識別上我們也在使用，比如這張圖是我們在語音識別上聲音的，我們用 50 層 CNN 的結構，得到語音識別模型，基於這個模型我用它做老師，訓練離線語音識別模型。這是非常大的 transformer 在線翻譯模型，用這個老師教離線的小學生去學知識。

從技術到產品，搜狗為我們解讀了神經機器翻譯的現狀

最後我們做到了在線和離線模型效果保持一致。

今天的時間有限，我們只與大家分享了一些感興趣的技術內容，感謝大家能夠來到現場學習，也歡迎大家對我們的技術多提意見，也希望大家能夠隨時來我們團隊參觀訪問和加入，謝謝！

搜狗旅行翻譯寶背後的思考

分享者：搜狗 IOT 事業部首席產品經理李健濤

李健濤：歡迎大家來到搜狗，今天我們給大家做一些分享。我們剛剛發布了翻譯的硬體產品，可能很多人會好奇：你們做這款產品是出於什麼目的，背後怎麼思考的，今天就這個話題展開，我們要進行一場答疑解惑。

本次的分享內容有關我們做這個產品背後的思考，包含幾方面的問題：

1）搜狗為什麼發力翻譯？現在業內出現了一些翻譯類的產品，按理說，手機上的翻譯 APP 很早以前就已經出現了，為什麼現在幾家公司都會做翻譯機這樣的產品，為什麼大家發力翻譯產品，包括 Google 也在大力推動自己的翻譯產品。

2）為什麼做硬體？人們普遍認為，手機上已經有很好的翻譯 APP，我們應該不需要一款硬體產品。

3）除了能夠語音對話翻譯之外，為什麼費勁拍照翻譯？

4）為什麼要有屏幕，簡簡單單成本還低一點，便宜一點，為什麼要有屏？

5）翻譯這件事情的未來會是什麼樣的，再往前演進會怎麼樣？

今天圍繞著這幾個話題，我們來講講自己對這些事情的思考。

搜狗為什麼發力翻譯

搜狗作為一家互聯網公司，在用戶規模上和可利用的用戶數據上規模非常大，我們的數據主要在於兩個方面：搜索和輸入法，這也是搜狗兩個核心引擎。它們都是圍繞語言做處理的——搜索也是幫助人們搜索互聯網世界各種語言，輸入法幫助人們輸入語言，讓表達和獲取信息更簡單。作為人工智慧的重要組成部分，我們必須考慮未來 AI 技術發展的時候，怎麼讓人工智慧能力對語言進行處理，人類區別於動物最重要的地方就在於人類有語言，從有語言和文字開始，人和動物就有了巨大的不同，人工智慧如果能夠類比人的話，它也具備對語言的處理能力。

在這裡又分為兩個方面：在聽覺上——包括能不能聽得清、聽得懂，包括說得出，這裡涉及語音識別、語音合成等等，相應技術稍後陳偉會介紹其中細節；在視覺上——能不能看得清、看得懂，包括把你想表達的東西合成出來，因為涉及到 OCR 等等技術。

這些技術最後會應用在三個核心方面，分別是：對話、問答、翻譯。問答可以理解，是搜索再往前演進的必然發展方向，搜索現在是輸入一個你想查詢的詞，獲得 10 萬條結果，演算法會對結構進行排序，你可以在這些結果里找到自己想要的。問答做到的是你給計算機一個問題，它會給你一個答案，而這個答案就是你想要的，這是搜索必然要發展的方向——問答。對話是讓人和機器之間、人與人之間能夠順暢無阻地進行交流，理解彼此背後的意思，包括上下文等等。

最後就是翻譯。為什麼翻譯是目前大家都在發力的事情？因為隨著神經網路技術發展，現在的機器翻譯技術已經到了技術成熟的臨界點，我們已經真正可以將這些技術應用在生活中了。在以前，各種翻譯類產品使用更多的是統計學翻譯：只是簡單地按照語法結構、單詞拆分做字面上的翻譯。現在，我們能夠做到通過神經網路來進行翻譯，它可以翻譯的更准，真正能夠達到人們日常生活中翻譯的訴求。相對來說，AI 問答和對話技術的發展程度還差那麼一點點，目前離真正的應用可能還有一定的距離，所以翻譯是搜狗首先選擇去發力的方向。

如果大家對聖經中的故事有些了解的話，有個巴別塔的故事：上帝造人，人們希望造通天之塔找到上帝，就開始建造巴別塔，上帝不想人類干成這樣的事情，就創造了語言，讓不同人群無法協作，最終只好放棄了巴別塔的建造。如果通過機器技術，真正打消人們彼此之間跨語言的障礙，這會是一件非常偉大的事情，不亞於人類學會使用電能。它能夠真正解決人們之間協作的問題，包括信息溝通獲取的問題，這也是為什麼搜狗願意在翻譯這件事情上持續投入，包括技術和產品方面，甚至做硬體產品的原因。

翻譯的本質是解決人們之間跨語言交流問題，跨語言問題有三種典型場景：1）外文檢索，可以看到外文世界的內容。目前國內所有搜索引擎能夠接觸到的中文信息只佔全世界信息的 10%，這意味著 90% 的信息因為語言障礙是無法使用的。2）在線交流，當你和外國人交流的時候也會存在語言障礙。3）境外旅遊場景，現在中國人境外游的頻次和市場規模每年都在擴大。

外文檢索，可以讓你輸入中文，收到外文世界的搜索結果，前段時間搜狗跨語言搜索上了英文，最近上了日文、韓文的，那些喜歡海淘的、網購的，願意追星的，想在 Twitter 上交流的等等都可以。輸入法方面，輸入中文，發給對方的可以是英文、日文、韓文，這意味著你可以和外國朋友去聊天。我們也推出了 toB 產品，機器同傳，現在很多大會上也都有應用，台上嘉賓演講，屏幕上實時把演講的中文內容英文內容識別出來，形成會議紀要。

搜狗為什麼要做硬體

另外，境外旅遊，為什麼不做一個 APP 就 OK 呢？境外旅遊有兩個很重要的痛點：

第一，網路連接問題，很多國家和地區的網路是不如中國發達的，你想找個 wifi，尤其美國 wifi 不免費，即使有網路，租個當地的卡，或者連個當地的 wifi，進行翻譯的話，數據通信鏈路依然要跑到國內的機器，消耗時間很長，這個體驗會非常糟糕。所以國外翻譯本身網路帶來的速度感覺會非常差。

第二，翻譯準確度問題，很多用戶用各種翻譯 APP 時候經常會吐嘈的點，大部分是翻譯不準，關鍵在於它的識別不靠譜，有很多噪音，識別能力就會受到影響。這些都是目前手機 APP 難以解決，但又必須解決的問題。問題的一方面原因是翻譯能力需要是離線的，不在雲端，把這麼一個複雜神經網路模型想辦法放進小小的機器里，是一件非常有挑戰的事情。

另一方面則是需要 MIC 陣列，需要讓這樣的設備具備把噪音降掉的能力，需要這樣一些獨有的設備去解決人們在嘈雜環境裡面識音的問題，而這個是手機也做不到的。有人可能會問，你為什麼不在手機 APP 上做離線神經翻譯？因為離線本身對機器計算性能要求非常高，目前主流手機達不到離線計算要求，可能高端手機，新的旗艦手機勉強可以，但主流手機很難達到這樣的計算能力要求。

從技術到產品，搜狗為我們解讀了神經機器翻譯的現狀

我們今天需要這樣一種特別的設備：它具備很強的離線計算能力，以及識音的能力，讓我們可以做到離線語音翻譯，可以即說即翻。它需要能夠處理 18 種語言，畢竟現在國人出遊不只是去英語世界，包括日韓，也是國人出遊典型的目的地。

除了語言翻譯之外，為什麼會有拍照翻譯？其實語言的處理兩方面：聲音的、圖像的。尤其對於中國人來說，我們有著含蓄的文化，往往很多時候不太願意去說，而更願意自己解決問題，能夠看，解決看不懂這個問題，這個往往更有意義。這個頻次甚至更高，包括你點菜的時候，走路的時候，看路牌等等，其實很多時候你是看不懂的。這也是我們為什麼在機器裡面加入拍照翻譯，真正解決人們看不懂的問題，加入實景 OCR，同樣也是離線，讓這樣小小的機器可以離線識別你看到的問題，並且把它翻譯成你懂的語言。

這裡也有很多挑戰，包括複雜的背景，複雜的版式，因為和平常 OCR 拍普通文章不一樣，面對實景有很多複雜情況，包括複雜字體，剛才我看後面擺的菜單，裡面有一些花體字，這個挑戰非常大。另外，實景拍照光線的問題，角度的問題，包括你拍的菜單可能是扭曲的等等，這裡也有很大的技術挑戰。這條路我們依然在往前推進摸索，目前還沒有到完美的程度。

作為一個獨有的產品，只是翻譯的話還是不夠，我們在翻譯寶中還加入了如匯率的計算、多國的時間、當地緊急聯繫電話等等實用小工具，讓你真的在出國的時候可以拿這麼一個設備，就可以解決你在出遊中面對的絕大部分問題。後面我們也會考慮在裡面加入導航的一些能力，目的地的景點推薦能力，包括到了某一個景區裡面，某一些景物的介紹能力等等，因為很多國外你去參觀博物館，看到《蒙娜麗莎》，卻看不懂英語法語的介紹，不知道它的背景故事，我們希望針對旅遊場景的能力也結合進來。

對於屏幕的問題，我們也回訪過很多用戶，人們總是擔心你識別的準不準，在對話過程中，你不必要等對方說完了機器給你讀出來，因為讀的速度慢，如果翻譯完給你文字看這個效率更高，所以這都讓有屏幕這件事情變得非常有意義。待機的時間基本上也夠一周出遊時間，3.1 寸的觸摸屏體積也很小，隨便揣在口袋裡就可以走，很方便。

從技術到產品，搜狗為我們解讀了神經機器翻譯的現狀

翻譯的未來

面向未來，翻譯再往前演進，未來會是什麼樣子？我們把這件事情拆解一下，上面是軟的，下面是硬的。軟的兩條路徑，上面是語音這條路徑，下面是圖像路徑。通過語音識別翻譯，然後合成，播放出來。圖像進行圖像識別、翻譯，再把圖像合成，給人去看，這是從軟的層面。從硬的層面相對應的需要具備拾音能力，計算能力，播放能力，圖像方面需要採集的能力，計算處理能力，顯示的能力。

面向未來我們需要考慮的是：手機處理能力會隨著時間的發展越來越強，雖然現在手機計算能力沒那麼強，沒辦法做到離線快速實時的翻譯，未來隨著時間的發展，也許兩三年後的主流手機就可以支持這樣的計算。本身播放和顯示方面也是手機的優勢，但你會發現，在前兩件事情上，不管是從手機能力上還是使用體驗上，都不是最佳的解決方案，包括拾音，本身手機就不是面向遠場拾音的設備，從技術上講，半米就算遠場，識別就已經非常有挑戰了，手機天然不具備優勢，現在 iPhone 有三個麥克風，只能針對近場識別，有意消掉遠場噪音，很長一段時間手機面對遠場拾音都不會作為重要的發力點，這是手機所缺失的。

另外，手機實時性速度體驗很重要。讓我們去思考一下，最極致的體驗是什麼，我們希望能夠立即聽到翻譯好的語言，讓看不懂的文字隨時變成我看得懂的文字，實時的感覺很需要，這種實時感覺也是作為手機形態產品所不適合的，你不可能一直舉著手機到處看到處聽。所以未來演進的形態分別是耳機、眼鏡這些產品，戴著耳機和眼鏡可以實時的聽、看，這本身對計算能力和硬體的拾音採集等等都會帶來極大的挑戰。

搜狗的使命是讓表達和獲取信息更簡單，在翻譯這件事情我們希望能夠讓跨國表達和獲取信息更簡單，我們也會在這條路上持續走下去，而且會保持行業的領先，不管是技術層面的，產品層面的，持續在這條領域裡面去發力。

今天大體是這些，謝謝大家！

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※致開發者：2018 AI發展趨勢
※斯坦福吳恩達老師 deeplearning.ai 開課了：敲黑板序列模型

TAG:機器之心 |