人工智慧還在風口，語音交互技術卻開始被「唱衰」

科技 04-12

【獵雲網北京】4月12日報道（文/小LV）

語音是人類最自然、最重要的信息交互方式，得益於深度學習和人工神經網路的發展，語音識別近年來取得了一系列突破性進展，並逐漸成為各智能設備的標配技術。

據Research and Markets公開數據現實，預計到2020年，全球語音市場規模預計將達到191.7億美元。為了爭奪人機交互的下一個入口，互聯網巨頭開啟了在智能語音市場瘋狂的「軍備競賽」。

投資人「唱衰」語音識別，行業巨頭加緊市場布局

人工智慧還在風口，語音交互技術卻開始被「唱衰」

面對各大公司在語音交互市場的明爭暗鬥，一向看好AI創業的李開復卻潑來一盆冷水，他表示，語音識別是所有技術裡面最不成熟的，99%的項目會死掉。

「語音的識別和理解完全是兩個事情，我聽懂講的每個字不代表聽懂了意思，所以自然語言理解到平台化使用還有十萬八千里。」

無獨有偶，新入局的互聯網巨頭Facebook也及時調整了其AI研究的戰略方向。由於Messenger聊天機器人的錯誤率高達70%，在有人力干預的情況下，能夠正確處理人類請求的概率不到30%，Facebook決定消減對機器學習和人工智慧技術的投資，轉向於訓練Messenger聊天機器人專註處理一些特定的任務。

然而，行業其他巨頭在語音、語義技術等領域的研發和創業勢頭依然強勁——蘋果、亞馬遜、谷歌、微軟、三星、科大訊飛、百度和華為等巨頭紛紛通過併購與自研推出自己的語音產品，加大市場布局。

2010年，喬布斯2億美金收購自然語音應用軟體Siri，隨後又收購了英國語音技術公司VocalIQ來改進Siri，儘管Siri看起來更像iPhone可有可無的雞肋存在，但蘋果依然可憑藉十億級的設備數量以及HomeKit平台來爭奪智能家居入口。

亞馬遜方面，搭載人工智慧語音助理Alexa的智能音箱Echo僅去年就賣出了超過650萬台；隨後，谷歌推出了家用智能硬體Google Home，作為智能家居的中樞控制音箱，用戶可與之進行雙向對話來調節燈光、恆溫器等；

微軟智能助理Cortana（小娜）後來居上，為提高語音識別精度，微軟採用了神經網路來存儲海量的數據，幫助識別軟體更「聰明」地識別出人類語音表達的模式。

同樣，三星於去年斥2.15億美元的巨資收購了加州一家虛擬助手初創公司Viv，Viv團隊就是蘋果Siri的創始團隊。據稱，在處理複雜要求的能力上Viv比Siri更為強大，且具備更強的機器學習能力。

再看國內，科大訊飛旗下的訊飛開發平台是全球最具規模的智能交互技術服務平台，目前已為超過6萬個App、以及8.9億終端用戶提供智能語音交互服務，佔有中文語音技術市場70%以上市場份額。

百度是國內最早布局人工智慧的互聯網企業，不久前完成了對渡鴉科技的全資收購，並同時將原度秘團隊升級為度秘事業部，加速人工智慧戰略布局。

此外，華為也在深圳組建了100名工程師團隊，用於開發語音助手服務。儘管項目還處於早期研發階段，但目標卻瞄準了蘋果Siri、亞馬遜Alexa和Google Assistant。

市場日趨明朗化，但技術還不夠強大

人工智慧還在風口，語音交互技術卻開始被「唱衰」

種種跡象表明，智能語音交互市場的趨勢逐漸明朗化。相比5年前，今天的語音識別技術準確率已經提高了20%以上，但基於用戶特定場景需求的邏輯理解能力以及成熟可靠的商業模式，依然距離遙遠。

首先是噪音等干擾下的識別率問題。目前業內普遍宣稱的97%識別準確率，更多的是在安靜的室內並近距離靠近麥克風的場合。但在噪音或者遠場識別環境下，錯誤率是近場識別錯誤率的近兩倍。

其次是更好的識別演算法。例如其快速自適應的方法（unsupervised adaptation），比如面對口音、方言，機器或許一開始聽不懂，但幾句之後就能聽懂了。這種方法在很多情況下能夠提升語音識別率。

第三，人機對話缺少語境。正如亞馬遜Alexa負責人Toni Reid所說，「目前用戶最大的期待，同時也是人機對話中存在的最大問題：語境。比如，我和你面對面交談，很多視覺線索會告訴我你是否真的聽懂了我在說什麼，或者是否贊同我的觀點。但是在人機對話場景下，這種視覺線索是缺失的」。從AI角度來說，補齊缺失的語境，是解決人機交互體驗的當務之急。

此外，現有的語音識別技術還缺乏邏輯推理與表達因果關係的能力。即使是行業巨頭的人工智慧語音助理，基本定位也只是在信息檢索、資訊收集等非常初級簡單的工作，例如它們能夠回答今天天氣怎麼樣，但面對稍微複雜的問題，附近的麥當勞是否可以用微信支付等就無能為力了。

顯然，無法根據邏輯進行多層次推演，就無法承擔起更深層的服務。這也是我們看到即使是巨頭研發的聊天機器人，都只能做到幾輪對話的原因。

創業不是科研項目，從科研出發到核心技術，進而形成產品，關鍵的地方在於「致用」。

為此，獵雲網將4月13日於北京四季酒店召開「解碼人工智慧·2017人工智慧產業創業創新峰會」，正是希望通過人工智慧領域著名學者、頂級專家和業界精英代表的參與，共同探討當今AI的發展創新與變革，將產業與人們的實際應用相結合，為人工智慧的普及奠定可行性的基礎。

創業公司缺數據難拼巨頭，切入垂直場景尋找方向

人工智慧還在風口，語音交互技術卻開始被「唱衰」

AI的基礎是海量數據的支持，但這些資源通常都掌握在巨頭手中。對於創業者來說，一旦科技巨頭都開足馬力，無論從用戶、流量還是資本實力來比拼，都不在一個段位，貿然進入賽道，結果可想而知。

「現階段，有能力做出以技術為平台的創業公司恐怕機會不多」，思必馳CMO龍夢竹告訴獵雲網，「因為底層技術、語音大數據對於數據、文本的要求是很高的。但是，越細分越垂直機會越多。去年就誕生了大概二、三十家單獨做文本、語義方向的團隊。我認為瞄準一個方向，深挖一樣有機會」。

三角獸科技就是一家基於語義打造人工智慧交互系統的初創公司，COO馬宇馳表示，團隊目前專註於語義技術、開放域聊天和任務驅動的多輪對話技術。

馬宇馳介紹，鑒於核心團隊在度秘和小冰兩個產品上的技術經驗，三角獸積累了很多產品落地經驗，且區別於百度和微軟，團隊在上下文、長時記憶、性格定製、情緒識別等方向有更多探索。

然而，無論是初創公司還是大公司，都面臨著同樣的問題——沒有足夠多且適合人工智慧介入的場景。

據思必馳CMO龍夢竹介紹，「思必馳以前是做教育方向、口語評測的，2014年後，物聯網的風潮剛剛起來，當時團隊在教育方面的盈利很不錯。但國內訊飛在智能語音和教育市場一家獨大，創業公司無論從人力、資源還是業務的專註力上都難以企及，因此開始收縮業務，集中在垂直場景下」。目前，思必馳只專註於智能硬體場景的語音交互，如車載、家居和機器人等。

成立於2015年的海知智能是一家提供語義API開放技術服務的創業公司，團隊將目標鎖定在開放平台上，做語義垂直的一些細分領域。「不管是做實體機器人還是虛擬機器人，都必須選擇從特定場景、特定用戶、特定領域來做有限的服務」，CEO謝殿俠告訴獵雲網，「巨頭公司在資料庫上的確有著巨大優勢，所以我們目前只有在提供開放的平台下做垂直的細分領域，人工智慧才能更好地不斷學習，並且解決用戶的實際痛點」。

對於語音交互場景的市場潛力，三角獸科技COO馬宇馳認為將會在兩個大的領域出現，「一個是在獲取信息和服務方面，人工智慧能提升效率，節省時間成本；另外就是從家居、車載方向切入，它能真正抵達用戶，對用戶進行教育」。

營銷誇大，盈利維艱

值得注意的是，語音、語義識別技術雖然不斷完善，但當前的產品體驗層面並未令人感到滿意。

由於語音在開放場景下識別準確率不高，導致後期糾錯的成本更大，所以用戶寧可選擇已經非常友好的圖形界面——通過文字推送或按鍵選擇等設置完成任務。

技術的提升是一個方面，此外，用戶使用習慣的養成還需要時間。三角獸科技COO 馬宇馳表示，「以聊天機器人為例，純聊天對於用戶價值來說還偏弱，當我發現它不好用的時候，為什麼還要在這裡花時間呢？」

對此，機器學習與金融風險投資機構 DCVC 的合伙人 Bradford，前不久也在一篇博客中預測了2017年人工智慧領域內的5大變化，其中就包括「bot」（包含語音和聊天功能的對話式界面）的機器人狂熱將在2017年開始冷卻。

事實上，從今年開始，幾乎所有的硬體產品都打出了「語音識別」這張牌。某種程度上，更多來自谷歌、Facebook、百度等開源的深度學習的框架，以及高計算能力硬體獲取成本的不斷降低，為更多創業團隊開闢了道路，但也使得項目魚龍混雜，但凡能和「語音」扯上關係的，都聲稱自己是人工智慧。

泡沫的另一方面來自巨頭公司對於語音識別技術誇張的營銷宣傳，這令初創團隊倍感尷尬和無奈。海知智能CEO謝殿俠告訴獵雲網，「許多客戶會問我們，『你們的識別率是多少，人家的97%你們能做到嗎』，我們只能說目前還無法達到那個級別。我認為，適當推廣是好事，但過於誇大以致誤導就會出現問題」。

根據艾瑞諮詢最新統計數據，2020年中國人工智慧市場規模將達91億元，年複合增速將超過59%。看似龐大的數據，實則3年後，市場規模還不及共享單車市場的一個零頭。這也就意味著，現階段的人工智慧還處於初級階段。

語音交互無疑是繼鍵盤、滑鼠和觸屏之後下一個人機交互的入口，但距離真正商用、產業化落地與人類生活密切關聯還有很長的路要走。

微軟亞洲研究院常務副院長芮勇說過一句誇張卻清醒的話：「實現真正的人工智慧大約要500年，你要讓我在後面再加個0我也不反對」。

從當前來看，如果沒有清醒的認識現狀，在資本的瘋狂助推下，創業者貿然入局會把AI的泡沫越吹越大。最終，「創業就去搞人工智慧」可能只會淪為一個笑話。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 獵雲網 的精彩文章:

※超級高鐵Hyperloop One爆最新工程照，科幻概念或成現實？
※CES 2017新品：Oria兩款專利香氣提升睡眠質量
※科學家發明可彎曲的超級電池：充電幾秒鐘，通話一禮拜
※電視里的竟然是真的！6款高科技產品帶你走進熱門英劇《黑鏡》
※熱情過後，AR/VR如何提供令人滿意的體驗？

TAG:獵雲網 |

您可能感興趣

※谷歌再來添亂！誰才是人工智慧、語音交互的下個風口？
※語音交互發展迅速，仍有技術難關待解決
※智能音箱走熱背後：語音成人工智慧重要交互方式
※語音對話系統的技術突破點在哪？深度解讀人機交互的技術核心
※被玩壞的語音交互，叮咚2代智能音箱評測，人工智慧本該如此？
※火狐開發語音識別技術挑戰谷歌人工智慧霸權
※巨頭搶灘智能音箱爭奪入口語音交互技術短板待補
※跨界對話：人工智慧爆發點會先是語音交互和感知系統
※跟著語音控制的大潮流，魔聲也開始做「智能」耳機了？
※語音合成新技術，可複製任何人的語音！
※【人工智慧】日立製作所開發出自發成長的語音對話人工智慧技術
※小米發布全球首款人工智慧語音電視把語音交互玩出新高度
※音箱之後，耳機品牌也開始接入智能語音助手
※智能語音助手市場發展迅速蘋果也很積極
※人臉識別語音交互互聯網巨頭布局人工智慧
※都在賭語音交互，誰會是勝出者
※阿里為什麼要做一款語音交互的人工智慧音箱？
※AI落地有聲，中國「語音交互革命」從智能音箱開始
※谷歌開源語音命令數據集，幫助開發者搭建基礎的語音交互