當前位置:
首頁 > 新聞 > 訊飛馬嘯:語音助手應該先在垂直市場發力

訊飛馬嘯:語音助手應該先在垂直市場發力

訊飛董事長劉慶峰在今年兩會上說:「我們做了一個叮咚音箱,在京東這個平台上,銷量排名不光是第一,還超過了第二名到第十名的總和,但它的影響力跟亞馬遜相比,差距還挺大,我們在這個產品還沒有樹立訊飛在行業中這麼大的名氣。」

換句話說,Amazon Echo 碾壓的不是某個廠商,而是整個行業。

今年年初,亞馬遜宣布Alexa 智能語音助手平台已經擁有超過 10000 項「技能」,相比去年同期,增長了近百倍。用戶已經開始議論哪個「技能」更好用,甚至還有科技媒體列出了最受歡迎的「技能」排行榜。

此情景,像極了當年拉開移動互聯網序幕的 APP Store。

根據 CIRP 報告,截止到 2017 年 1 月,Amazon Echo 用戶已達到 820 萬。同時,幾乎所有國外 IT 巨頭都相繼進入了這個市場。人們紛紛猜測,在 Amazon Echo 暫未入華的這段空窗期,誰最有可能複製同樣的成功。

帶著這個問題,雷鋒網採訪了科大訊飛靈犀事業部總監馬嘯。他多次強調,訊飛是一家以技術見長的公司,在語音交互並未全面爆發道阻且長的背景下,他們不會追求大而全,而會向垂直場景滲透。

以下是馬嘯採訪實錄,雷鋒網做了不改變原意的刪減:

訊飛馬嘯:語音助手應該先在垂直市場發力

雷鋒網:每個語音助手都說自己的識別率是最高的,難道行業沒有明確的測量標準嗎?

馬嘯:有一些行業標準,但也要分不同的環境來討論。比如在實驗室環境下、在安靜環境下、在有噪音環境下測量出來的識別率是不同的。訊飛在實驗室環境下99%以上都能做到,鎚子發布會上的識別率是97%,車機系統上能夠達到90%以上,識別率跟場景、雜訊、口音等都有關係。

其實不管識別率如何,語音助手的好壞還是要回歸到用戶體驗本身,大家心裡都有一個判斷標準:

1、能聽懂我說的話;

2、能給我們帶來幫助。

如果只是閑聊一下,那麼它的商業價值並不是很高的。

雷鋒網:為什麼不同的訊飛產品在識別率上有很大差別?

馬嘯:這要分三個方面講。

第一個是面向場景的優化,這個有專門的語音模型。面向領域的比如演講、聊天,面向場景的比如車載、會議以及手機近場說話的語音模型都是不盡相同的,演講、聊天以及對著手機說話的語音模型都是不盡相同的,發布會上的那套系統就有面向會議的場景優化。

第二個硬體降噪。手機的降噪能力是比較弱的。而訊飛聽見那套系統下面有好幾個麥,各個角度,我們有聲學實驗室專門研究這個。


手機上在遠場的識別率不如記錄會議時那麼高,原因就在硬體這,手機上並沒有面向遠場識別

的麥克風陣列,手機廠商考慮到成本一時半會是不會加的,這在產業方面的改變是要有一個過程的,隨著我們把一些麥克風降噪的技術和產品標準輸出出去,行業里逐步認可這個標準,才能更加的支持我們。但是這個改變又是非常困難的。不過我感覺這是個趨勢,以後會慢慢好起來。

第三個是軟降噪,也就是演算法本身可以回聲消除。雖然我們可以將軟體放到不同的硬體里,但是也受制於硬體的處理能力。比如說一個非常低廉的麥克,後面沒有一個MCU,這個時候在跟它對話的時候,它只能把音不作處理的傳過來,如果沒有處理晶元的話,有可能效果就不好,這是很正常的。

雷鋒網:訊飛里提供語音服務的各個產品團隊在人員配置上有交集嗎?

馬嘯:訊飛聽見、靈犀語音助手、錄音寶這些產品都有各自的硬體團隊,但底層演算法方面的技術都是訊飛研究院提供的,出產品的時候,業務部門都跟後端的研究院有緊密協作的關係。

雷鋒網:能否評估一下Alexa的中文識別水平?

馬嘯:現在大部分語音識別都基於深度神經網路,它需要大量的數據來訓練,還有面向不同語言的針對性演算法優化和語義後處理技術,中文的多音字較多和容易產生歧義的語句也很多,還有方言等等。所以,中文跟英文識別還是有所區別,針對中文,還需要做很多優化。

所以這裡有兩點,一個是誰更了解中文,在演算法調教上就有一定的優勢;一個是誰佔有更多的語料誰就能識別的更精準。訊飛在這兩方面都是有很大優勢的。

但是現在深度神經網路已經可以保證識別率在80%~90%了,這現在是及格線,以前如果沒有深度神經網路,沒有海量語料積累的話,連60%都做不上去。所以現在你要問Alexa做普通話的識別怎麼樣,因為他們中文產品還沒有上市,所以不太好評價,但總體來看他們也做好也是有難度的。

雷鋒網:語音助手打不開相關APP,這個是技術問題還是商業問題?

馬嘯:就是沒打透,這是商業問題。為什麼在垂直領域的接入會出現這樣的問題,我認為這是all in one和one in all之爭。

比如地圖吧,高德和百度都使用我的語音能力,這是one in all,就是我的語音in all所有的app,我們把語音能力給他們,去壯大他們的客戶端,這符合那些垂直領域公司的估值模型和商業訴求。

第二個是all in one,就是所有的服務在語音助手上面呈現,all in one相當於對他們來講是渠道,給他導流就好了,有些公司願意被導流,有些公司不願意被導流。

雷鋒網:在做智能音箱的過程中,訊飛的主要考量是什麼?

馬嘯:音箱要看它的主要功能是什麼,如果就是放音樂的話,不考慮政策方面的因素,Amazon只需要把版權這件事情做好就行了。但如果要想提供一個智能入口服務的話,實際上路還很長。因為相比海外,中國的互聯網又是一套生態系統。比如說如果出門要叫一輛車的話,在海外它對接的是Uber,在國內它就要和滴滴來談,相當於重新開始。

其實這個困難對於訊飛來說也是同樣的,所以我們一直也在反思,智能助手到底該怎麼做?我們思考得到了一些心得,那就是做大而全的事情目前來看是沒有意義的。

現在中國的互聯網市場,點評、出行,每個都是大公司,他們憑什麼分享自己的數據?除非是給他導流,但這又會影響到用戶體驗。所以我個人覺得我們應該走到垂直領域去做事情。

雷鋒網:用戶認為語音助手是全能的,但如果它卻只能叫車,不能點餐,會不會讓他們很失望?

馬嘯:這是我們一直在考慮的問題。這是個博弈,與其讓用戶失望,還不如一開始就讓用戶覺得你就是在某一個垂直領域做的很出色,然後再逐漸擴展領域,也可以把功能開放給開發者,讓群體來貢獻智能。

雷鋒網:你們認為語音助手落地的最佳方式是什麼?

馬嘯:我覺得一定要分不同的場景。「互聯網女王」Mary Meeker 在2016年的報告裡面有一大篇幅都講語音,她說美國人是在什麼場景下使用語音的,最主要的前三個場景是車、家庭和on the go。我的理解on the go就是在走路,或者是跑步。

語音的信息傳遞是單向的,並且效率低。但是語音的命令是快的,打開引擎,說把電話號碼發給誰,這個東西對手機立馬就操控出去了。

這就造成了語音僅在弱視覺交互的情況下是剛需。什麼是弱視覺交互?比如做飯,開車,跑步,這種場景下語音才是真正的剛需。

再回到問題,未來到底落地方式是電視還是音箱,我覺得都不重要,未來在家裡面應該有一個東西去承載語音,甚至它不存在都可以,把家裡全部布上麥克風是不是就可以了?

當然如果現階段只能落地一個場景,那麼音箱是個好的選擇。它可以放在一個比較自由的位置上。

雷鋒網:你們認為未來成熟的語音助手是個什麼樣的狀態,目前的規劃是什麼?

馬嘯:我們的判斷就一句話:每個人都有一個能理解他的隨身智能助手,不是人,是個機器人,或者別的形態,無所謂。這個目標該怎麼達成?我認為幾個必要條件。

  • 第一,要充分理解用戶,這是自然語言理解等人工智慧技術要解決的問題。

  • 第二,用戶所說的所有服務我能跟得上,這是資源對接的問題。

  • 第三,用戶所有的信息我都能夠知道,這是用戶畫像的問題。

  • 第四,雲+端,形態無所謂,音箱也好、電視也好,這是服務形態的問題

這個戰略終局現階段是看不到的,也許未來技術達到一個閾值以後才可以。那回到現在該怎麼辦?我認為要回到確定的場景,就是車載、家庭、戴著耳機on the go,這樣的話,技術難度就大大縮小。我覺得這個階段是我們通過投入更多的人力、物力可以做到落地的。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

你知道嗎?Chrome 瀏覽器標記安全的網站,其實未必安全
阿里開始用微軟Azure網路交換機軟體SONiC
怪機器人跟你搶方向盤?也許你被IBM的程序檢測出不適合駕駛
洞見:谷歌公布了TPU細節,AI業界怎麼看?

TAG:雷鋒網 |

您可能感興趣

楊飛:發力供給側,湖北下好「先手棋」
發力過猛!詹姆斯反擊戰斧扣飛
巧發力自訓練:反手高遠球發力手法
攜手騰訊珠聯璧合 雷鳥發力互聯網內容電視
命名「君馬」,眾泰進軍新能源為何突然發力?
騰訊推《靈山奇緣》進一步發力回合制遊戲市場
雙核火箭能起飛?哈登保羅來控球,外線射手齊發力,周琦怎麼說!
快訊:集成電路概念發力 京東方A衝擊漲停
上海網路視聽大會開幕:騰訊視頻發力講好中國故事
中國開始發力小型核反應堆市場:未來將與美俄搶佔國際市場!
成飛沈飛同時發力 中國一直不敢公開的鎮國重器終於震撼曝光!
英特爾發力!左手智能互聯右手性能爆發
馬雲新零售時代發力:線下門店後又牽手海瀾之家
巧發力自訓練丨從握拍開始拯救你的發力!
伊朗土耳其聯手發力:讓美帝夾著尾巴逃跑!
啞鈴飛鳥用胸部發力嗎 怎麼做
中國陸軍:沙場點兵向能打勝仗發力!
王者榮耀:玩家嘗試「廉頗」新玩法,先手團戰爆發力高的嚇人!
新能源汽車不斷發力,相關配套電子迎來爆發