【中信雙創沙龍】搜狗陳偉：通用語音助手這條路，現在還行不通

科技 05-17

在語音交互這條路上，很多廠商吃了不少苦頭，尤其在涉及一些專業術語的時候，語音識別的效果往往讓人不敢恭維。同樣，搜狗語音也經歷了類似的苦惱。近日，搜狗語音交互中心總監陳偉在中信雙創沙龍的活動上便分享了搜狗在語音識別與交互上趟過的坑與得到的經驗。此外，本次沙龍活動還請來了人工智慧領域其他從業者，銀弗科技聯合 COO 朱梓鳴、健康諾數據總監董雲帆、ARK 董事長張文新等。

【中信雙創沙龍】搜狗陳偉：通用語音助手這條路，現在還行不通

據了解，正是基於語音輸入對未來人機交互至關重要的作用，搜狗於 2011 年開始組建語音團隊，並在搜狗輸入法上使用語音識別功能，而且在搜狗輸入法上率先上線了谷歌語音識別 API。陳偉介紹稱，最初搜狗語音識別能力和谷歌當時 API 能力基本字錯誤率維持在 40%左右，不過近年來有了突飛猛進的發展。「這幾年（錯誤率）從 40%、30%降到了 5%左右，而現在錯誤率基本是 3%。同時伴隨語音量的增長，目前每天有 2 億次識別請求，對應語音時長超過 18 萬小時。」陳偉表示。

數據、演算法、計算能力三管齊下

眾所周知，大數據的興起、深度學習演算法的普及、計算能力的提升是近年來人工智慧迅速發展的三大技術前提。同樣，搜狗也從這三方面出發，不斷推進其人工智慧技術的進步。陳偉表示，當他們的產品上線後，新老用戶產生了大量數據，從最早的 500 小時變成了數萬小時。而在演算法上，搜狗也緊追行業最新成果，在 2010 年，通過深度學習技術，錯誤率直接下降了 30%；此後其又先後通過引入 CNN 卷積神經網路以及時序概念；並將深度學習「深度」繼續加升，「在我們語音這邊做到 30 層到 50 層（神經）是非常常見的現象」；同時，在運算能力建設方面，搜狗也逐漸從 CPU 轉換到了單片 GPU 再到多機多卡（CPU、GPU 等），運算能力從之前的幾 T 變成了上 P。

區分應用場景，破除通用語音助手的識別盲區

目前， 搜狗圍繞語言提出了搜狗人工智慧戰略，主要分為兩個部分：自然交互和知識計算，其中陳偉團隊的工作重心則主要放在自然交互上。

提到自然交互，就不得不提及登陸蘋果的 Siri。多年以前，創業者們紛紛跟風，做出了很多類似的助手類產品，但這些產品在火了一段時間之後，最後基本上都逐漸消失了。搜狗同樣也是其中一個跟隨者，「我們當時做得是比較不錯的，比如有調戲的功能，另外可以滿足用戶查詢類的需求等。」陳偉認為包括搜狗等企業當時犯的錯誤主要就是 未能及時認識到產品邊界，過早地做了通用型的語音識別。

「然而，目前的技術能力還遠遠達不到通用的能力。比如說語音，當我們在做語音識別的時候，就會面臨通用或者口語類的語音識別。比如，識別科技類或者體育類的專有名詞時，準確率就會下降。語義理解也一樣，依然有我們無法覆蓋到的。」陳偉如此解釋。因此，搜狗的解決之道便自然而然地落在了「產品邊界需要做一些區分」上面。

【中信雙創沙龍】搜狗陳偉：通用語音助手這條路，現在還行不通

正是在這樣的思路下，搜狗去年推出了自己基於語音交互的搜狗知音引擎，並重點關注垂直細分場景，「一個是在車內，解放人的雙手和眼睛，比如可以通過語音控制聽歌、導航等操作；另外就是客廳，出現電視這種場景，人和機器之間已經有了一定距離，這時候語音成為重要的交互方式；最後就是戶外，解決邊走路邊打字的問題。」 陳偉認為關注於垂直場景後，企業就可以將精力集中在可控範圍內，從而提升產品性能。

以下技術，使自然語音交互更有效

陳偉認為，想要做好語音交互，第一就是要具有多輪對話能力，人和機器目前交流的內容依賴於我們之前交流的歷史信息來共同決定機器目前給出的反饋；第二是當語音識別錯了要有糾錯能力；第三就是內容理解，就是人和人之間交流的過程中往往會有多處出現打斷的情況，或者出現兩個人共同說話的情況，那麼怎麼解決這種真實的對話的場景呢？

據陳偉介紹，把引擎下垂到具體場景，其實就是為了做到多輪對話。而搜狗累積的大量包括命令操作、生活消息、娛樂消費、知識問答等數據，更是有利於搜狗建立完善的知識圖譜，解決內容理解問題。

不過，僅僅這些技術還是不夠的，「在家庭、車載等場景下交互，會出現多種雜訊，比如在開車時面臨的風噪，在大的房間裡面有回聲、迴響，在這些條件下，語音識別基本上不可用。」為此，在語音輸入前要做降噪和增強處理，「這裡的重點就在於，軟體解決不了的問題需要硬體的方式來解決。」

【中信雙創沙龍】搜狗陳偉：通用語音助手這條路，現在還行不通

具體而言，搜狗推薦採用多麥克風陣列方案。「我們之前更多地在手機上使用單麥克風的方案，單路麥克風引入的雜訊是很難分離的，而多麥克風陣列方案則可以很好地降低雜訊，比如車載麥克風只對司機方向錄音，在電視場景中，當在客廳裡面有一個人說話的時候可以定位你在哪個位置，從而規避掉角度之外的聲音，提升說話人語音識別的效果。」陳偉如此表示。

另外，陳偉認為在相對不那麼複雜的情況下語音識別可以做到 97%的準確率，但是離百分之百存在一定的鴻溝和差距。因此，「當出現錯誤後怎麼通過產品的方式去彌補，這是我們目前搜狗的重要關注點之一。這就意味著語音糾錯功能必不可少，比如人和人之間溝通的時候，在介紹說我叫章硯，會具體的說一下，立早章，硯台的硯。」陳偉介紹，「當有了這樣語音糾錯能力後，用戶在出錯後可以通過語音的方式進行糾正。我們在上線的時候修改成功率只能到 40%，但是隨著產品不斷迭代目前可以達到 80%的修改成功率。」

最後，陳偉總結認為，產品跟技術相輔相成，因為技術永遠有缺陷，當技術上出現了問題時，通過產品設計的方式去糾正和避開，也很關鍵。

本文【中信雙創沙龍】搜狗陳偉：通用語音助手這條路，現在還行不通來自動點科技.

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 動點科技 的精彩文章:

※受三星業績好轉影響，今年一季度蘋果在智能手機行業利潤降至 83%
※一加 5 真機諜照首次曝光，加入雙攝像頭設計
※大疆首次在海外發布電視應用，可以觀看用戶分享的無人機航拍內容

TAG:動點科技 |

您可能感興趣

※《武林怪獸》：復刻老港片這條路，看來行不通
※行，心中的那一條路
※巨頭入場後的網路互助，社交與金融哪條路通向未來？
※讓「龍珠」中的人物選擇一條後路，龍珠超和龍珠GT，哪條路更好走
※通告：石阡縣境內已有多條路段實行交通管制
※《中國好聲音》不用心疼李健：一條路停止了，千萬條路開起來
※伊朗警告美以的話音剛落，西部邊境再度交火，這條路美國或行不通
※超現實人性圖：不是每一條路都通向羅馬，女人的軟肋
※評論：鏈家貼牌迎來史上最快拓展但這條路不乏「先烈」
※撐起中華文明：一堵牆，一道河，一條路（上）
※《陳情令》藍啟仁神助攻，藍湛終究走了父親那條路
※雅蘭：走上這條路
※華山一條路！陝西大秦之水被南通雙殺想沖超只能寄希望於一點
※陳傳席：中國畫「復古」也是一條路
※徐曉東：障眼法出手又贏了鐵砂掌一局，誰說自古華山一條路？
※上海旅行：讓張愛玲念念不忘的一條路，如今有多時尚？
※蘋果：在另一條路上的開放
※《法醫秦明2》再掀熱度的背後，搜狐自製這條路走通了
※行駛川藏線這條路該使用什麼車
※袁隆平用米丘林的辦法，種出「紅薯王」，最後證明這條路還是錯的