解密智能音箱行業,獨家專訪靈隆科技CEO魏強
【IT168 評論】2014年11月,亞馬遜低調發布全球首款智能音箱Amazon Echo。或許是Fire Phone的慘敗帶來的打擊過於沉重,亦或是這款智能硬體新寵並未被看好,亞馬遜集團董事會主席兼CEO 傑夫·貝佐斯甚至連一場單獨的發布會都未曾為它舉辦。如今,貝佐斯無意間播下的這顆火種,卻引來了百箱大戰的熊熊大火,掀起了全球範圍內新一輪的人工智慧浪潮,智能音箱已經成為實現智慧家庭、萬物互聯的「火箭」助推器。
而在中國智能音箱市場,入局最早的便是中國最大3C數碼銷售平台京東和中國公認最好的語音技術公司科大訊飛的「親兒子」——靈隆科技(2015年3月成立),前不久旗下智能音箱產品叮咚音箱已經正式更新迭代到了叮咚2代,為中國家庭帶來了更加成熟、能夠個性化定製的智能音箱產品。如今,曾經孤軍奮戰中國智能音箱市場的靈隆科技也正在攜手一眾國產兄弟對標以Amazon Echo為首的海外市場。
靈隆科技CEO 魏強博士
那麼如今中國智能音箱市場究竟處於怎樣的境況?以叮咚智能音箱為首的中國智能音箱能否與Amazon Echo放手一搏?我們普通用戶究竟什麼該不該買智能音箱?相信很多讀者都會有這樣或那樣的問題,為此,小編受邀對靈隆科技CEO 魏強博士進行了獨家媒體專訪,就靈隆科技旗下叮咚2代智能音箱新品以及目前中國智能音箱市場等相關問題進行了深度討論。靜心讀完,本文一定會令你受益匪淺。
叮咚2代智能音箱
文章導讀:
本文通過從兩大方向進行媒體專訪:行業/市場方向、產品/技術方向,文中加粗處是重點內容,請仔細閱讀。
在開啟正式專訪前,我們為大家整理了智能音箱的概念,非小白用戶可自行跳過。
智能音箱概念:
智能音箱,音箱升級產物,是家庭消費者用語音進行上網的一個工具,比如點播歌曲、上網購物,或是了解天氣預報,它也可以對智能家居設備進行控制,比如打開窗帘、設置冰箱溫度、提前讓熱水器升溫等(百度百科)。簡單來說,智能音箱是利用人類最傳統的語音交互的方式,來控制實現一些基本網路和生活場景,以解放雙手。接下來我們便開啟今天的獨家訪談。
關於行業/市場
一、作為京東和科大訊飛的親兒子,您覺得靈隆科技相比其他智能音箱廠商的優勢在哪?
魏強博士:靈隆科技在智能音箱領域的優勢,我們歸結為三方面。
1、作為最大3C數碼平台,京東在營銷渠道和To C品牌背書方面有非常強的實力,這是整個行業公認的。
2、科大訊飛擁有全球最卓越的中文語音技術,因此在語音技術(包括合成識別)方面,擁有非常強的技術積累,科大訊飛會將這種強大的語音技術加持到叮咚音箱上。
3、我們靈隆科技擁有強大的產品轉化能力,即我們做硬體產品所需要的優秀產品設計和強大供應鏈。這主要包含兩方面,一是我們的團隊都來自都來自頂尖技術及高科技產業公司;二是京東利用在供應鏈方面的實力來給我們做品牌背書,包括目前已經非常成熟的音箱後台所連接的服務(比如購物)以及一些相關的其他資源(比如音樂資源),當然還有O2O的一些思路。這些都是目前國內大多數同行所沒有或都在爭取的資源。
二、您在之前預測,智能音箱市場從探索期到成長期,100萬台出貨量是一個關鍵點,能再具體解釋一下么?
魏強博士:入局智能音箱的企業都是想把智能音箱作為一個入口級的產品,智能音箱不僅僅是一個買回去只為聽音樂的傳統音箱,更重要的是作為語音交互的入口,為後台服務提供交互渠道。因此在這樣的產品定位下,市場上如果沒有足夠的量級,是引起不了規模效應的,無論是前端的用戶活躍度還是後台接入的服務數量。同時服務廠商也會進行審核,如果你的產品維護(前端用戶活躍度)足夠多,更多的服務才願意接進來,才能夠把服務針對語音交互形式調優做好,這樣便能夠促進產品迭代,促進更多用戶的加入。所以前期的規模、用戶量、或者說銷售數據實際上是非常重要的。
而100萬台這個數字,我們是參考美國亞馬遜的發展軌跡來衡量的,Amazon Echo是在2015年年中的時候,首次達到了100萬台,隨後整個市場的知曉度、用戶活躍度、以及後台接入的服務開始逐漸變多了,也正是在這個時間節點,亞馬遜把Alexa平台推了出來,更加促進產品功能的不斷迭代,後台服務的不斷增多。
三、有市場調研公司曾爆出一個數據,預計2017年中國智能音箱的出貨量約為200萬台,而美國則為1400萬台,差距非常大;同時據統計,Amazon Echo的銷量已經超過3000萬台,您覺得目前限制智能音箱在中國市場普及最重要的因素是什麼?中美在智能音箱應用方面主要有哪些差異?您又是如何看待中美市場之間的差異的?
魏強博士:200萬台的數據只是一個預估的規模,但實際情況也的確是中國的智能音箱市場容量(銷售數量)還沒有達到亞馬遜在美國的數量,這是一個事實。導致這個問題的原因包含很多方面。首先,亞馬遜在國外推出時間較早,而國內智能音箱的興起和熱度升高實際上從今年才正式開始的。過去兩年中國智能音箱市場基本只有靈隆科技的叮咚音箱,而國內智能音箱市場肯定需要一定時間才能夠達到足夠的市場規模。
關於中美市場之間差別。
1、新奇產品敏感度。普通用戶對新奇消費電子產品的敏感度還是有一定差距的,美國用戶對這種新奇產品嘗試的意願還是比較強烈的,國內用戶的意願在提升中,但還沒有達到一定高度;
2、家庭習慣。美國的大多數家庭都有傳統意義上的音箱來播放音樂,但是在國內市場,90年代時家庭影院曾經興起過一段時間,但是普及率不是特別高,而且價格也比較貴,後來我們聽音樂基本上都是基於MP3、手機、以及近幾年流行單價比較低的藍牙音箱,智能音箱在國內還是處於一個剛剛起步的階段。
3、音樂內容。美國音樂市場已經形成了相當成熟的付費模式,但亞馬遜當時推出Echo的時候,把付費和硬體產品綁到一起去,簡單來說你交99美元亞馬遜的會員費,你就可以再花99美元買到一個199美元的Echo音箱,這時還可以享受Amazon Prime Music上的音樂,這種打包服務對他們來說吸引力非常強。國內音樂版權正在發展過程中,正在逐漸改變大家以前免費聽音樂的習慣,目前還沒有形成完全付費的意識,這也限制了智能音箱在國內的發展。
四、自Amazon Echo始,百箱大戰便已打響,那麼您認為目前最具競爭力的中國智能音箱企業有哪幾家?在智慧家庭、萬物互聯這個風口,您覺得目前智能音箱企業最需要做的事情是什麼?
魏強博士:我不太願意具體說,哪一家能夠成功,或者哪幾家比較有實力,接下來我們從性質上來分析。智能音箱研發包含以下三個環節:語音交互技術、後台內容、以及生產製造。未來,如果有智能音箱廠商能夠做出爆品,肯定要圍繞這三個基本點,只有這樣企業才有可能成功。
但是這不意味其他小企業就沒有生存空間,他們可以在整個智能音箱產業鏈中,一個相對小的領域裡做好做精,比如TTS語音合成,這樣也會令他們在整個鏈條里起到應有的作用。
關於目前智能音箱企業最需要做得事情。
首先,技術還需要打磨,基礎技術的發展需要一定時間,短期之內可能不會有特別大的提升,因此更需要做的是在產品層面、交互層面。智能音箱是基於語音交互這種新型交互方式的,如何引導用戶讓用戶去適應這種新型的交互方式,或者讓用戶更方便地使用這種新型交互方式,是目前短時間內大家投入資源便可以解決的,這需要同行一起去做。
此外,在市場方面,讓用戶更多地去了解智能音箱產品是目前亟待做的事情。目前如果你把智能音箱給到一些沒有接觸過智能產品的小白用戶,他們完全不知道怎麼用,他們還是會把它當成一種傳統音箱,但實際上智能音箱是完全可以語音交互的,因此產品概念、產品定位是要通過市場、宣傳來傳遞給用戶,讓他們能夠真正感受到智能音箱的服務。
五、前不久,谷歌曝光了一款智能耳機,從定位上看也是主打語音交互助手、智慧家庭入口;而目前國內的一些家電企業也選擇電視作為智慧家庭入口,那麼您是如何看待目前實現智慧家庭的這些入口平台的?相比其他平台,智能音箱的有哪些優勢?
魏強博士:未來,智慧家庭的入口肯定是多元、分散、去中心化的,不可能只是音箱、耳機、或者電視。在理想狀態下,我們希望場景如下:對空調發出「溫度調到25度」的指令,但是這個指令到底是誰來接收,我們不需要關心,可能是音箱、空調,也可能是其他設備,只要他能滿足我的需求即可。因此,現在大家也在探索,除了音箱以外,我們是不是在電視、耳機、機頂盒、甚至插座上加一個麥克風來實現語音交互,目前整個行業還沒有一個完全的定論,智慧家庭入口平台種類是隨著行業的發展而變化的。
但是現在我們看,在美國亞馬遜Echo銷量、市場普及率非常高,可以看到是在家庭中進行語音交互的一種比較成功的方式,所以說我們覺得智能音箱可能是最快成為家庭語音交互的一種形式。未來,或許隨著智能音箱的普及,其他入口平台便會隨之被帶動起來。未來智慧家庭入口平台一定是網狀的,而不是單點的。
六、叮咚智能音箱在中國市場的銷量和佔有率目前是十分可觀的,能簡單描述一下未來叮咚在智能音箱和智慧家庭領域的布局么?能否透露一下未來幾年的市場銷量預期?
魏強博士:從布局的角度來說,靈隆科技從最開始做叮咚音箱的時候便是想把其作為智能家居的交互入口:靈隆科技初創時,京東便有一個京東微聯的智能家居控制平台,目前已經集成了上千款智能家居設備,但是在交互方式上,我們希望除了手機App,還能通過語音交互這種最自然的交互方式來控制。從長期的角度來說,我們希望把它作為整個智能家居平台的核心產品,當然未來產品形態會進一步改進,比如加入視覺方面的交互。
預期銷量上,如果叮咚音箱真地要成為入口級產品,那肯定是要達到百萬級別的,而且從整個的行業發展來看,中國市場容量(以戶為單位)非常大,家庭支出也非常多,而且倘若換成耳機,那就屬於一個隨身產品,將會以個人為單位,因此市場容量可以說是非常可觀的。壟斷智能音箱市場並非我們公司的願景,我們希望隨著市場規模的發展,靈隆科技可以佔有市場領先的地位。未來我們將配合其他合作夥伴、上下游廠商、或相似產品廠商,以打造好整個智慧家庭的良好生態環境。
關於產品/技術
一、叮咚智能音箱經過的兩年的迭代,相比初代產品,叮咚2代智能音箱有哪些升級和改進的地方?
魏強博士:如果和1代產品去比較,我們增加了很多個性化、智能感更強的功能。我們在2015年8月推出第一款產品,在2代推出之前,我們1代軟體版本便更新了30多個,基本上是一個月1到2次更新,不斷地進行產品迭代,包括產品品質、軟體交互等方面的提升。
2代產品相比1代產品有以下四方面顯著革新。
1、打電話的功能:當你雙手被佔用或操作電話不方便時,你可以通過語音交互進行電話呼叫。
2、自定義喚醒詞,這是用戶在使用我們1代產品時的反饋,他們覺得叮咚叮咚剛開始叫得還挺新鮮,但長時間還是會比較厭煩,因此用戶還是想做一些個性化的聲音定製,你可以叫他麻辣雞絲,也可叫它小明同學,什麼都可以。
3、TTS發音人,除了標準聲音,我們還加入了一些特色聲音,比如兒童聲音、方言(陝西話、東北話)等,對於一些有方言的人,聽起來會十分親切。
4、聲紋識別:這也是我們在該領域裡的大膽嘗試,通過聲紋讓叮咚2代更顯個性化,讓音箱能夠聰明地知道誰在跟他交流,通過聲紋識別它的主人誰。
二、我們看到此次叮咚2代智能音箱主打自定義喚醒功能,這是一個十分有趣的功能,您覺得自定義喚醒對於智能音箱行業的未來發展有哪些意義?同時,可調節TTS發音人也是個有趣的功能,我特別喜歡蠟筆小新的聲音,那麼在大數據、雲計算、人工智慧等技術的支持下,能否實現如下場景:我想要誰的聲音就可以就直接模擬調用?
魏強博士:自定義喚醒的意義還是蠻多的。
1、我們推出的這個功能更多還是從用戶的角度來考慮:想要產品做得好,首先要令用戶喜歡,這是能賣出去產品的最根本條件。而用戶也剛好有這個需求,他們覺得只叫叮咚叮咚難免會有些枯燥,因此我們便通過定製喚醒詞進行改進。
2、我們在和行業里其他合作夥伴在進行深度合作,比如傳統的營銷廠家,每一個廠家都有一些品牌方面的需求,他們希望通過定製喚醒詞讓雙方合作的產品更具有他們自己品牌的特性。
3、我們把自定義喚醒詞功能推出後,也有利於更多合作品牌加入智能音箱的行業中,去推出更多的智能音箱產品,以滿足不同層次不同的場景需求。
可調節TTS發音人直接模擬調用完全是可行的,我們也在正在做這方面的研發。目前如果一個人能有20分鐘的聲音提交到我們後台,我們就能把它的音色、發音特點提取出來,研究這個人的發音。
同時,用戶也有這方面需求,我昨天還看到一篇文章:美國的一個專門做語音技術的人,他利用父親生前留下來的兩萬多句話,把中間的音色提取出來,然後開發了一個的軟體交互系統,這樣他就能讓沒有見過爺爺的小孩,能夠與這位「假爺爺」對話,了解爺爺生前的一些事情。
之前,訊飛便已經可以模仿奧巴馬的聲音:奧巴馬說的是英文,我們可以把它的音色提取出來,然後通過中文進行播放。這對用戶來說,無論從情感方面、個性化定製,還是娛樂方面都非常有吸引力。
三、新一代iPhone主推Face ID功能,換句話說就是3D人臉識別技術,目前遭到質疑的聲音還是很大的,但整體卻相對成熟;而叮咚2代則加入了聲紋識別功能,但是整體的聲紋識別市場還是處於初級階段,那麼作為繼指紋之後未來的主流生物識別技術,您覺得未來聲紋識別普及需要攻克的難點有哪些?您是如何看待聲紋識別的前景的?
蘋果推出的人臉識別是傳統2D人臉識別的升級版本——3D人臉識別技術,目前2D技術已經比較成熟,但是卻會遇到一些問題,比如利用照片能騙過攝像頭,而加入3D之後人臉識別技術安全性便大幅提高,目前人臉識別在一些場景(登陸、刷卡等)都可以使用。而聲紋是近幾年才剛剛起步的技術,全球範圍內的成熟度還是沒有達到足夠高度,特別是基於遠場(距離比較遠的狀態),目前近場的識別率能達到90%。
未來聲紋識別行業需要在以下兩方面進行深造。
1、依賴聲紋技術的不斷發展,針對遠場聲音收集、並對演算法不斷提升,不斷提高準確率。
2、在現有技術條件下,重新定義使用場景。我們一直不建議單純地拿聲紋識別進行支付等對安全性要求比較高的行業操作,這樣帶來的風險特別大,如此做法是對用戶不負責任的態度。因此我們會將聲紋識別應用到個性化新聞定製、歌曲推薦等使用場景,特別是針對家庭環境下:家庭中的人音色差別相對較大,能做到相對比較高的識別率,在這種情況下可以進行一些個性化推薦。
四、語音、語義、情感,是人工智慧語音交互的三個階段,實現的難度也是逐級遞增,那麼您覺得目前語音交互的處於哪個階段?您如何看待目前階段的語音交互技術的?想要實現萬物互聯,語音交互技術需要加強哪些方面?
語音的發展可以說在技術上已經達到了可以使用、產品化的程度,當然還有提升空間,目前普遍的識別率為95%到98%之間。而語義則需要基於後台的大量數據,在一個領域裡如果有足夠的相關數據進行支持,我們可以達到一定高的準確率。但是如果把領域放開,不加限制,就需要特別龐大的數據來支撐,這在全世界範圍內還沒有解決,處於發展過程中。
而情感還基本處於概念討論階段,大家還沒有找到正確的路、正確的理論支撐,到底如何去做如今仍沒有定論。比如通過聲調、聲強等特點來進行簡單判斷,但是這遠沒有達到人和人之間交互所需要的情感理解。同時,光憑語音交互並不能完全表達一個人的交互情感,我們還要結合其他的信息,比如表情、上下文,這和語義是纏繞在一起的。因此目前情感還是屬於一個完全開放的階段。
在推動萬物互聯、智慧家庭普及的道路上,我們主要需要在語義方面進行提升。目前語音控制家電相對來說比較簡單,指令都是比較簡潔的;而語義方面,你需要應對不同的說法,以控制空調為例,有人會說「給我打開空調」,有人會說「把空調給我打開」,還有人甚至說「直接把冷風機打開」,各式各樣的說法都需要滿足,這便需要語義方面能做到各種各樣的支持。
其次便是需要在應用環境或者應用場景下進行分類,因為不同的智能家居設備,使用場景是不一樣的,比如空調工作時會有進風出風的噪音,洗衣機冰箱又有不同的噪音,這都對語音(遠場)識別有各方面的挑戰,因此需要我們的語音技術在不同的應用場景下能夠具有慣性,或者針對某一個具體的場景進行單獨優化。我們之前也測試過不同廠家空調(變頻或不變頻)發出的雜訊,它們都是不一樣的,這對語音識別影響很大。
五、目前科大訊飛的語音識別率能達到95%,但是這個識別率還是有局限性的,我們在實際使用科大訊飛的一些應用中,其實識別率遠沒有這麼高;同時方言、環境等問題也是影響識別率的重要因素,您是如何看待目前語音識別「不太准」的這個現狀的?
1、目前訊飛語音識別在標準普通話環境下,達到95%甚至更高的準確率是完全沒有問題的,但是實際上用戶在使用過程時會遇到各種各樣的場景,比如說話時吞字吐字、方言、雜訊等,這些都給語音識別帶來了挑戰,這些方面會直接影響最終識別率,這是環境條件限制;
2、用戶的語言習慣都是不一樣的,比如叮咚音箱是需要聯網、喚醒之後才能進行對話,這種交互方式用戶並不太熟悉,目前有兩種明顯的用戶使用對比:第一種就是叮咚叮咚,我想幹什麼,很快速地連續一氣說下去;另外一種用戶則是叮咚叮咚,猶豫半天才說。設備到底要以什麼樣的節奏來交互,實際上並沒有一個非常準確的認識。
這也是我最初說的,智能音箱在推向市場的過程中,一方面產品本身要根據用戶的使用習慣不停迭代,另一方面也需要我們去引導用戶告訴他們這種產品基於目前技術水平階段,如何使用才能達到最好的體驗,這兩方面都需要努力的。因此不能單憑一味地追求技術,而是需要產品和用戶之間的不斷磨合,包括演算法層面和產品設計層面。
寫在最後:
今天凌晨,亞馬遜在美國召開了以Alexa為主題的新品發布會,推出了6款圍繞Alexa的新品,其中包含5款Echo系列新品——Echo、Echo Plus、Echo Spot、Echo Connect、Echo Buttons,再次為智能音箱家族帶來了具有跨時代意義的新品。未來,以靈隆科技為首的中國智能音箱廠商將同以亞馬遜為首的海外廠商一道,推動全球智能音箱行業的高速發展,為全球家庭帶來體驗更好、擁有更加成熟解決方案的智能音箱產品。


※酷炫外形很外星 Alienware AW2518H顯示器
※是啥你萬萬想不到 努比亞新品邀請函搶先看
※盡情享受閱讀的樂趣 YOTA3手機開箱圖賞
※微鯨智能語音投影F1 PLUS雪山白開箱圖賞
※亞洲飛人蘇炳添大婚 曬婚紗照甜蜜虐狗
TAG:IT168網 |