阿里智能音箱力推的「殺手鐧」功能，也許只是個「偽賣點」

最新 07-15

導語：天貓精靈X1，激進的產品策略。

本文作者：張棟

不出所料，阿里還是發布了智能音箱。

從亞馬遜三年前的無心插柳到今天阿里的入局，智能音箱市場的爆發讓人始料未及，但這的確發生了。

Echo已累計銷售近2000萬台，谷歌、微軟、蘋果隨之跟進，之後的一段時間裡，國內的軟體廠商、硬體產商、內容廠商爭相進入，好不熱鬧。

而直到本月初，阿里才正式發布智能音箱天貓精靈X1，既出乎意料又在情理之中，使得語音入口的爭奪戰因為阿里的入局變得更加有趣。

其實，499元的天貓精靈在發布前一天，雷鋒網就曾寫過一篇題為【為何中國版Echo還未問世，明天阿里的AI新品能帶來驚喜嗎】的文章。

那麼，阿里的智能音箱到底帶來了哪些有別於其他同類產品的驚喜？

眼前一亮的「驚喜」

此前有媒體稱，為了這款智能音箱，阿里巴巴甚至將馬雲投入上億美元的Pepper機器人項目中止，把人員隊伍拆分划進人工智慧實驗室。而花了這麼大代價出來的產品好像似乎與Echo等音箱並無本質上的差異，所含功能大致包括播音樂、叫外賣、查天氣、設鬧鐘、智能家電操控等。

根據天貓精靈對外宣傳的賣點，其中非常重要一點就是連Echo都不具備的聲紋識別功能。

阿里稱，通過聲紋識別技術，音箱可以分辨家裡的每一個人，並且根據每個人的喜好而設定推送不同的內容，目前最多可以識別6個人的身份；另外，用戶還可通過自己的聲音完成購物支付驗證環節。而Echo在分辨人的身份上，還需要通過進一步操作來獲取用戶的個人信息。

讓雷鋒網好奇的是，如此酷炫的功能為何亞馬遜至今都還沒用在Echo上。

據悉，亞馬遜很早就想應用這項技術，但據亞馬遜員工介紹，從聲紋識別領域的硬體和軟體公司中得到的反饋看來，讓這些語音控制設備去識別不同用戶的聲音比想像中要艱難很多。

「由於設備需要去除噪音，回聲，混響，使得它難以對聽到的發聲者的身份進行識別。」Conexant語音部門副總裁Vineet Ganju說道。

那麼擁有聲紋識別的天貓精靈真的能撐起它所重點訴求的這個賣點嗎？

我看懸。

聲紋識別功能為什麼懸？

先從聲紋識別演算法層面講，聲智科技創始人陳孝良博士此前在接受雷鋒網專訪時表示，聲紋識別還是一個比較窄的學科，應用也相對較少。現在大部分研究都是有關動態實時檢測，動態檢測的方法自然要利用靜態檢測的各種原理方法，同時也需要增加其他很多演算法，比如VAD、降噪、去混響等。VAD的目的是檢測是不是人的聲音，降噪和去混響是排除環境干擾。

VAD常用兩個方法，基於能量檢測和LTSD（Long-Term Spectral Divergence)，當前用的較多是LTSD，另外特徵提取方面還需要：動態時間規整(DTW)、矢量量化 (VQ)、支持向量機 (SVM)，模型方面則需要隱馬爾可夫模型(HMM)和高斯混合模型 (GMM)。

從上面模型不難看出，聲紋識別還是一種基於數據驅動的模式識別問題，因為所有模式識別存在的問題聲紋都存在，而且聲紋識別還有一些不太好解決的物理和計算問題。

聲紋識別的唯一性很好，但實際上現有的設備和技術仍然很難做出準確分辨，特別是人的聲音還具有易變性，易受身體狀況、年齡、情緒等的影響。若在環境噪音較大和混合說話人的環境下，聲紋特徵也是很難提取和建模的。現階段，遠場聲紋識別理論並不成熟，研究進展也不大。

陳孝良認為，深度學習帶給模式識別極大的提升，甚至還有開源的相關演算法，但是聲紋識別的研究進展仍然不大，這仍然受制於聲紋的採集和特徵的建立。

聲紋識別提供商SpeakIn資深科學家陳東鵬博士談到，從聲紋識別這一單項技術來講，容易受到真實環境下的各種影響，包括：噪音問題、多人說話、身體狀況、情緒影響等，現在確實很棘手。包括他們在內的一些公司也在大力通過軟、硬體演算法去優化這些行業通用問題，在深度學習的加持下，整個行業的進步也比以往更快。陳博士補充到，聲紋識別只是一個環節，效果判斷還需看產品本身和使用場景等因素。

在產品層面，剛剛發布「小雅」智能音箱的喜馬拉雅表達了他們的看法。喜馬拉雅副總裁李海波表示，對於聲紋識別的應用，公司內部也攻關了很久，但無法做到完全準確，目前還只是實驗階段，效果一般。

在談及阿里天貓精靈時，他講到，遠場語音識別通常在三米到五米內有效，降噪是在70dB左右，環境噪音和音響聲音大於這個標準就很難喚醒。而遠場聲紋識別在同等距離下就更加不穩定，目前客廳、電視機、廚房、床頭是智能音箱的四個常用場景，而除了床頭外，其他三個常用場景實際距離通常情況均超過三米，所以阿里音箱聲紋識別的具體實用性還不可得知。

至於亞馬遜Echo為何至今還沒用這個功能，李海波認為該技術還不成熟，雖然很炫但風險很大。

另外，Sensory公司的CEO Todd Mozer也認為對Echo這樣的遠場語音設備來說，識別誰在說話是很困難的，設備的表現隨之變差。

「降噪和從雜訊中分離語音的處理對於用戶身份的識別有非常大的影響，目前為止，市場上還沒有產品同時處理好用戶身份識別，遠場語音和雜訊處理。」Mozer說道。

再從遠場聲紋識別的實際應用情況來看，中科院自動化所、極限元資深智能語音演算法專家劉斌向雷鋒網談到了他的看法。劉博士表示，遠場語音識別受到雜訊、回聲、混響的干擾，無論是語音識別還是聲紋識別都很具有挑戰性。

目前遠場語音識別可靠的識別距離大約是3-5米；對於聲紋識別還要更難一些。因為語音識別的目的是理解語音信號中的言語內容，言語內容信息跟共振峰高度相關，共振峰主要集中在低頻帶，語音信號低頻帶能量較高，受外部干擾相對較小，而說話人相關特徵更多集中在高頻帶，語音高頻帶能量相對較低，更容易收到各種干擾的影響，因此遠距離聲紋識別更具挑戰。他隨即說到，因為每個人說話特徵會隨著不同因素而變化，例如感冒時發音跟正常時肯定有所差異，所以近場聲紋識別還不敢保證特別成熟，遠場條件下肯定不太容易實用。總體來說，對於大多數用戶，聲紋識別應用於智能音箱並不是剛需，從技術角度分析，聲紋識別尚不成熟。

那麼，相比遠場語音識別來說，更加不成熟的遠場聲紋識別技術為何會被阿里急著應用到音箱中呢？

除了用此技術滿足用戶的個性化需求尋求差異化搶佔市場外，劉博士還提到，介於阿里在電商領域的一些積累和優勢，應用在電商身份認證也是阿里重點推進的方向。

阿里基於淘寶、天貓巨大的資源優勢將購物場景引入音箱中聽上去無可厚非，但從之前亞馬遜將此場景應用在Echo上來看，用戶用其購物的使用頻率並不高，使用體驗也不理想。

科大訊飛執行總裁胡郁此前接受雷鋒網(公眾號：雷鋒網)採訪就說到，從整個市場來看，購物場景應用於音箱中還非常不成熟。真需求一定是用來滿足用戶剛需行為的功能，雖然Echo現在賣的很好，但調查後發現，用戶真正用得比較多的工具不過是設個提醒、查個天氣等等。之前亞馬遜大力推的Echo語音購物功能並沒有做起來，當用戶用語音交互的形式去買東西時，會發現裡面各個環節和場景挺麻煩，還不如直接在屏幕操作來的方便。

所以這也是很多企業一直在強調語音交互要和視覺呈現的原因，因為用戶在面對沒有視覺呈現的情況下，你獲得的信息不夠，這時候很難完成一些複雜的操作。所以有些功能和場景都是我們自己憑空想出來的，直到真正投入實際使用時卻發現用戶的思維與行為習慣並不是產品設計的那樣。

這裡可以看出，如果用戶連使用電商功能的習慣都尚未養成，且聲紋技術問題重重，那麼在電商中加入聲紋識別的訴求，目測也很難以經得住市場考驗。

激進的產品策略

總體來看，阿里此次在智能音箱中加入聲紋識別的出發點很好：大打Echo和京東叮咚都沒有的功能營銷牌，在同質化產品浪潮中，用前沿技術來提升競爭力。

但在整個技術和市場尚未成熟之際，阿里仍舊急切地嫁接聲紋識別，這個節點的產品策略，顯然有些激進。

雷鋒網原創文章，轉載請至雷鋒網官網申請授權。歡迎熱情討論，轉發分享~

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※哈工大教授劉挺：人機對話技術的進展
※Google最新研究：讓機器像人一樣，「拍出」完美照片
※專訪UCL教授汪軍：中國能否出現DeepMind這樣的企業？

TAG:雷鋒網 |

您可能感興趣

※巨頭都想搶智能家居「入口」，智能音箱帶個屏就會不一樣嗎？
※智能音箱背後，聽你說話的可能真是個人
※小度智能音箱還能看電視？擁有「拒絕」能力，一次喚醒，連續對話
※讓孩子輸在起跑線的，可能是智能音箱
※讓你的耳朵「懷孕」！性能不凡的智能音箱更懂你
※智能音箱算什麼，智能牆才是「控制一切」
※智能音箱，智能門鈴，智能恆溫器這些智能家居產品哪些最實用？
※給智能音箱種上這個「蘑菇」，你就能防止它偷聽啦
※阿里巴巴真做晶元，格力是真想做；挖礦與智能手機都是最先進位程的優先使用者；大陸智能音箱至今沒有巨頭
※虛擬助手之爭，智能音箱能否挑戰智能手機？
※科技圖鑑 | 智能音箱背後，聽你說話的可能真是個人
※擁有了智能音箱，你的生活真變智能了嗎？
※僅僅是多一塊屏幕智能顯示器能取代智能音箱類產品嗎？
※智能音箱還能這麼玩！
※智能音箱必須狠砸錢？小度音箱已經很給力了
※智能音箱 VS 智能電視：是否只是一屏之隔
※智能音箱還能怎麼玩？我們出了幾個點子
※音箱只能聽不能看？這群帶屏智能音箱表示不服
※手機語音助手與智能音箱功能衝突？有了語音助手還要智能音箱嗎？
※除了查天氣和定鬧鐘，有人幫智能音箱找了個新功能