當前位置:
首頁 > 新聞 > 從買不起專業卡到語音IoT獨角獸,雲知聲從0到1的進階之路

從買不起專業卡到語音IoT獨角獸,雲知聲從0到1的進階之路


2012年,創業初期的雲知聲還不能負擔專業顯卡。梁家恩和幾位語音老手一起,索性用台式機和遊戲卡 DIY 伺服器,一個估值 10 億美金的語音 IoT 獨角獸就此啟程。

撰寫 | 王藝

編輯 | 藤子

從有計算機開始,人類就想對著它說話。

這一願望終於在 2000 年前後得以實現,美國語音巨頭 Nuance 的語音識別應用 Dragon Dictation 以及 IBM 發布的商用語音系統 Viavoice 開啟了人類解放雙手的革命。Viavoice 是一款面向桌面的語音輸入工具,它稍顯笨拙,使用者需要對著 Viavoice 朗讀文本半小時,來對系統做預訓練。在此後的很長一段時間裡,人機對話始終停留在這樣「不怎麼聰明」的層面。當時,基於統計的大規模連續語音識別雖然在實驗數據上取得了較好的效果,但在真實複雜口音和雜訊環境下的實用性很差,市場在短暫的驚喜過後很快失去信心。

情況在 2010 年得以好轉,這一年,神經網路在各項測評中開始碾壓傳統的統計學習方法。2011 年,時任微軟首席研究員的鄧力、俞棟發表了一篇題為 Large vocabulary continuous speech recognition with context-dependent DBN-HMMS 的論文,驗證了將深度學慣用在語音交互領域的可能性,且相較於傳統的機器學習方法,使用深度學習能夠使識別錯誤率下降 33%。在此之前最好的情況是,通過技術的不斷演進與優化,語音識別的錯誤率平均每年至多可以降低 10%。這意味著,深度學習的應用,使得語音識別技術向前跨越了三年,且顯著優化了複雜雜訊場景下的體驗。至此,國內語音行業變得熱鬧起來。

從雲平台到終端晶元

從買不起專業卡到語音IoT獨角獸,雲知聲從0到1的進階之路

雲知聲就是在那時成立的,當時,語音從業者多為中科大、中科院等少數高校和研究所背景。雲知聲創始人兼 CTO 梁家恩也不例外,他畢業於中科大,博士畢業於中科院自動化所,並曾擔任盛大語音創新院高級研究員。

2012年,他和幾位語音老手一起,帶領雲知聲從四塊遊戲顯卡開始,一步步成長為如今估值 10 億美金的獨角獸。目前,雲知聲主打 IoT 領域的語音集成方案,客戶涵蓋美的、格力、長虹、海爾、海信、TCL 等家電廠商;中國電信、聯想、英特爾、高通、中興、樂視、小米、高德地圖等 IT 企業;通用汽車等車企;全通教育等教育機構;且其醫療語音識別技術已在協和醫院等十多家醫院落地使用。

在雲知聲的創業初期,語音市場遠不像今天這樣成熟,技術找不到成功的商業落地模式。當時,在語音賽道上領先的兩位選手——已經起跑十餘年的科大訊飛和捷通華聲靠政府和企業級訂單生存,並不是雲知聲合適的效仿對象。「在語音這樣的新興行業里,誰都不是標準答案。」梁家恩說。雲知聲決定從 B 端做起,與行業共同推動市場成熟,再深入 C 端,走 B2B2C 的路線。

和所有的 AI 公司一樣,雲知聲在起步初期面對的首要問題是數據。當時,深度學習技術還未走出實驗室,想要提高識別與理解的準確率,一定需要大量的數據支持。本著收集數據和培育市場的目的,雲知聲決定從雲平台入手,以向開發者提供免費 SDK 的方式吸引語音從業者使用雲知聲的技術,產生數據,構成良性循環。

一年內,雲知聲先後成為搜狗語音助手、樂視超級電視、易信等產品背後的耳朵,並在 iOS AppStore 上線微信語音插件,曾連續一周排名免費工具第一位。並且為了彌補其與競爭對手相比數據上的差距,雲知聲在三個月內攻克並上線了深度學習技術,成為國內首個使用深度學習技術的語音雲平台。

「當時我們深度學習上線後,聽說整個訊飛研究院加班了半年。」梁家恩笑道。

通過比較雲平台上開發者們所從事的項目及其收益,加上自身與大廠的合作經驗,雲知聲堅定了自己曾經判斷的兩個「不能」。第一,不能跟風作手機語音助手;第二,不能做 ToC 產品。

梁家恩表示,手機助手在當時是個偽命題,用戶活躍度很低。推廣時能達到 10%,不推廣的話可能只有 1%-2%。這樣的活躍度不足以支撐一個商業模式。相比較來看,樂視電視上的語音助手使用率能夠達到 30%-40%。

他由此判斷,語音交互和硬體的深度結合是未來的方向。而在產品方向上,梁家恩決定不做 C 端產品。因為要做一個好的單品,比如音箱,背後需要很多內容服務的整合,營銷渠道的梳理。「我們是技術公司,那些不是我們的強項,我們希望將更多的精力放在打磨技術上面。」梁家恩說。

漸漸地,雲知聲摸索出適合自己的發展道路——面向 IoT 產業的人工智慧服務。那幾年,智能硬體方興未艾,萬物互聯是大勢所趨。

據梁家恩的觀察,在未來,電視、冰箱、空調、檯燈、汽車,都需要能聽懂人說話,IoT 產業下的語音業務大有可為。在需求如此旺盛的市場大環境下,雲知聲惋惜地發現,其雲平台上的 IoT 設備開發者們不能真正地用好平台提供的 SDK,因為 IoT 是軟硬一體的學問,僅優化軟體層面無法創造出好的產品。

惋惜的同時,雲知聲看到了商機,以雲平台為根本,深入終端,將硬體部分打包,統一解決。2014 年 3 月,雲知聲提出「雲端芯」戰略,這是從雲平台到設備語音交互,再到設備語音專用晶元與麥克風陣列的集成式解決方案。

雲知聲是業內為數不多自己設計語音晶元的廠商之一。最開始,為了驗證「雲端芯」智能交互方案的可行性,雲知聲的語音晶元基於通用晶元進行設計,整合遠講降噪和語音識別模塊。晶元成本高,功耗大,這對於 IoT 設備是兩個致命的問題,只能從高端、插電的設備做起。

因為成本方面,現有晶元成本普遍在百元以上,不能滿足如檯燈等小設備的成本需求;功耗方面,如今白色家電上市需配有綠色環保標誌,功率需要壓至幾百毫瓦,然而採用通用晶元的解決方案,功耗在幾瓦的量級,不符合工業量產的需求。

雲知聲將通用晶元中與語音交互無關的單元裁掉,同時增強語音降噪和識別所需的計算能力。 2015 年與長虹合作,推出了第一款符合工業級要求的面向語音識別的深度學習加速晶元。2017 年,雲之聲開始獨立自主研發晶元 UniOne 並計劃於 2018 年量產,按照需求量計算,量產規模將在百萬級以上。

不斷打破又建立的階段性壁壘

近兩年,巨頭湧入語音市場,一些雲知聲曾經的客戶,如阿里雲,開始組建自己的語音團隊。阿里推出智能音箱天貓精靈一號,京東推出叮咚音箱,百度開放其語音平台,出門問問與大眾成立合資公司,科大訊飛剛剛慶祝其輸入法用戶突破 5 億。隨著語音技術的逐漸成熟,市場也愈發擁擠。作為較早入局的語音玩家之一,雲知聲表示「有自己的優勢」。

從創業初期,雲知聲就能夠預見到未來巨頭的參與,並豁達地認為單憑自己的力量不足以推動整個產業,巨頭的加入利大於弊。雖然巨頭的資源整合能力以及對人才的吸引力都很強,但梁家恩表示,巨頭的趕超不會那麼快。因為雲知聲在遠講、降噪、低功耗方面,都有自己的優勢。

「我們有自己的壁壘,任何一個新入局的玩家首先都要解決演算法與工程結合的問題,我們花了大概兩年時間走過這些坑。」梁家恩說,「這是時間維度的問題,不是人多人少的問題。」

逆水行舟,任何技術層面的壁壘與優勢都是階段性的,因此雲知聲亟需在壁壘被攻破之前建立新的。梁家恩認為,這個新的壁壘來源於數據和用戶。雲知聲希望通過優化體驗增加用戶粘性。道理類似 BAT,他們之所以成為巨頭,是因為有足夠大的用戶粘性。現在再出現一個類似微信、QQ、淘寶的產品,顯然不會有市場。

另外,雲知聲業務的主要方向——白色家電產業不似 IT 產業短平快,他們的研發周期長,導致方案替代成本高。產品一旦進入量產階段,競爭對手的性能必須顯著超越原方案,廠家才有替換合作方的動力。雲知聲計劃加緊與 B 端夥伴的配合,使緊密的合作成為其另一個階段性壁壘。

不論是加強用戶體驗,還是與廠家緊密合作,其根本還是要落在技術的先進性上。目前,雲知聲的語音識別準確率已經超過 98%,遠講識別準確率超過 95%,而現在所有語音廠商都稱自己的識別準確率在 97% 以上。但梁家恩反覆強調,數字沒有意義,因為測驗所在的環境、語料沒有統一的度量。

在數字的維度之上,雲知聲的語音技術經過 B 端廠商的嚴格驗證。例如,對於語音助手來說最基礎的喚醒功能,雖然目前已不再是技術難點,然而在實際應用場景下更加重要的誤喚醒率卻很少有人提及。美的、格力等家電廠商為了保證自己的產品質量,要求雲知聲的解決方案在 24 小時內的誤喚醒少於一次,且測試環境為充斥著家庭雜訊、音樂聲、新聞聯播聲的實際應用場景。在家電廠商的強力推動下,雲知聲死磕誤喚醒率,最終達到了工業級的量產要求。

未來底層技術突破方向:語用計算和情感分析

梁家恩表示,目前語音識別整體的技術框架已經非常成熟,雖然還有一些問題需要解決,但可以交由時間逐步收斂。真正的問題在於語義交互。

當前,自然語言處理技術還停留在「有多少人工才有多少智能」的階段,對數據打標籤做預處理需要大量的人力參與,且只能針對不同垂直領域進行理解,沒有統一的成熟的框架。像微軟小冰需要解鎖新能力,Alexa 有一萬五千個技能,都是因為當前的技術解決方案只能對各個垂直領域進行單獨的優化。另外,機器識別人類情緒的方面也需要突破,目前機器只能識別人類非常極端的情緒,比如大笑、大哭、非常生氣。對於稍微微妙一些的情緒,機器是束手無策的。

基於此,雲知聲將語用計算以及情感分析作為未來底層技術的突破方向。其正在打磨的語用計算框架擁有關聯上下文以及信息檢索的能力,加之回聲消除技術和無效語音判定技術,能夠支持流式交互的多輪對話。另外,雲知聲與中科院自動化所成立了聯合實驗室,圍繞智能交互問題展開研究,例如口語表達的規範化、用計算機(而非人工)構建可擴展的知識庫等等,將科研院所探索到的可靠的新方法放在實際應用場景中進行打磨。

過去五年,雲知聲完成了商業模式的量產驗證;未來五年,梁家恩希望雲知聲能在技術和商用層面均有突破。在感知技術上繼續提升精度和穩定性,拓展感知維度;在認知技術上提升智能水平;並結合產品交互設計、雲端芯架構、用戶大數據建模等,打造面向物聯網的完整 AI 方案,為家居、車載、醫療、教育等領域用戶提供全新的智慧生活體驗,實現雲知聲 Just for Smart Life 的願景與使命。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

斯坦福CS231n 2017春季課程開放全部視頻(附大綱)
這家公司的 132 項工作被機器人填充,平衡正發生變化
「以柔克剛」,軟體機器人的崛起
斯坦福CS231n 2017春季課程開放全部視頻
UC伯克利提出新型視覺描述系統,物體描述無需大量樣本

TAG:機器之心 |

您可能感興趣

S8小插曲:RNG八強賽語音疑似流出,慘敗G2的原因找到了!
前沿 | 看圖聊天的騷操作,MIT開發精準到單詞的語音-圖像配對系統
Runvi推出69美元的AI鞋墊,專屬語音跑步教練和你一起「汗流浹背」
看圖聊天的騷操作,MIT開發精準到單詞的語音-圖像配對系統
RNG再次道歉,把對陣G2的語音放出來了,Uzi主動道歉!
從蘋果Siri到谷歌!語音助手AI智能到觀眾冷汗盡出!
多大仇?RNG打三星時隊內語音曝光:MLXG從頭罵到尾!
對話微軟黃學東:語音和語言讓AI從「感知」進化到「認知」
Runvi推出AI鞋墊,這個專屬語音跑步教練和你一起汗流浹背
360 N7Pro即將發布,搭載新的語音助手,竟然叫小三……
Google 又逆天:語音輸入離線實時輸出文字,僅占 80 MB!然而……
5萬起買國產「小路虎」,10寸大屏,帶語音控制
RNG隊內語音曝光:Letme說的最多的一句話就是「太吵了」
玩遊戲從不開語音的3大星座男,原因令人哭笑不得,射手座上榜
Google 語音輸入離線實時輸出文字,僅占 80MB!然而……
RNG語音:Uzi早意識到GEN一級草叢,Mlxg邊罵邊追,Letme攔不住!
王俊凱和TFBOYS組合都給粉絲髮過語音私信,有多少人收到了?
亞馬遜智能音箱Alexa出錯 收到別人1700條語音
RNG第五局語音曝光,UZI首發聲:很對不起自己的隊友
iOS 13會自動將未知來電者直接發送到語音信箱