當前位置:
首頁 > 最新 > 雷軍至今發布的最重磅AI產品,不是手機和音箱,而是小米AI研發團隊與技術夥伴們

雷軍至今發布的最重磅AI產品,不是手機和音箱,而是小米AI研發團隊與技術夥伴們

儘管小米AI音箱的長相曾被人無數吐槽過,但很多人最後竟然被它的內在征服了。

撰文 | 宇多田

上周,推銷小米 MIX2S 的新亮點,曾讓雷軍大費口舌。

不過,他更多是把筆墨放在了這款手機的外觀設計與攝影性能上。而大家鼓吹的 AI,僅僅是介紹完 MIX2S 逆光、暗光拍照能力後的一個「點綴」:

背景虛化、場景識別以及「把語音助手小愛同學搬到手機上」…說是「微創新」都有些牽強(標配還差不多)。

(此處可參考機器之能此前發過的一篇文章:AI 手機的秘密)

簡單來說,這是一部具備 AI 能力的手機,但賣點絕不是 AI。因此,當看到媒體鋪天蓋地將這款產品的關鍵詞定義為 AI 時,我們真的…百思不得其解。

當然,如果你想對小米的 AI 硬體研發與製造能力有進一步了解,關注點不應該在手機上,而是雷軍在發布會上最後宣布的一款產品——小米 AI 音箱 Mini。

從名字就能看出來,這款產品是標準版小米 AI 音箱的 Mini 版,長得很像無印良品的車載移動香薰機。據官方表示,其具備的功能幾乎「複製」了標準版。

上圖為小米音箱Mini,下圖為Muji移動香薰機

但顯然,產品小了一圈,價格砍去了一大半,性能方面一定會有相應削弱。在使用它之前,我們並不清楚它是否能延續標準版的好口碑。

從配置來看,其麥陣方案是從標準版的環 6 麥降至環 4 麥,不再支持 5GWifi。而這個新麥陣的供應商仍然為聲智科技。

聲智科技 CEO 陳孝良告訴我們,從 6 麥到 4 麥,體積自然更小,成本也更低。

按照理論效果,比起 6 麥陣列,4 麥在 5 米外的遠場識別性能方面還是有差距的。

我在卧室里測試了 Mini 版的中遠場拾音效果。

如果在房間保持安靜,房門打開的情況下,距離 10 米左右,從另一個房間喚醒小米 Mini 沒有任何問題,其具備穩定的遠場拾音效果。

但如果門關上,距離 5 米在門外也不能輕易喚醒 Mini。(這是不是說明門的隔音效果好?)

打開門,距離10米左右仍然能喚醒

從理論上來說,麥克風的數量越多,越有利於遠場識別。

但陳孝良給出的一個看法是,AI 演算法在音箱中的應用削弱了麥克風的「統治權」。

也就是說,在與喚醒以及識別等功能產生聯動後,不斷更迭的演算法與陣型可以彌補麥克風的一部分不足之處。

因此,4 麥陣列也不代表 Mini 版的製作難度有所降低。

「Mini 版的難度在於,體積太小造成麥克風陣列與大音量喇叭相距很近所引起的聲學問題,以及低成本喇叭失真較大的問題。」據陳孝良透露,在這些方面,公司跟小米團隊投入了很大的研發力氣。

而硬體評測媒體愛否科技對小米 Mini 的音質測評結果,能夠在一定程度上說明小米 mini 結構上引發的這個聲學問題:與標準版相比,小米 Mini 的音質明顯遜色於前者。

但雷軍在發布會上說了,基於這個價格(米粉節降至 99 元),是讓你在買一台標準版小米音箱後,再多買幾個小米 mini 放在每個卧室里……這算盤打的,也是「志在銷量」了。

而他唯一推薦的音箱新功能,也是基於每個家庭必須採購多個小米音箱的前提下才能實現:

多個設備放在一起時,每個音箱的語音助手會根據距離喚醒者的遠近作出自動響應。

也就是說,哪個離你近,哪個就響應你。

但是,「距離遠近」這個問題對於機器來說,非常難判斷。因為它靠的不是視覺,而是聽覺:

在實驗中通常出現的情況是,即便你距離一個音箱稍微近一些,但你對著較遠的另一台說話,聲源朝向後者,外加干涉聲音傳播的各種介質,那麼機器也很難判定你所在的位置。

陳孝良解釋,這裡面需要用兩項技術——SSP(空間知覺)與 SSA(空間意識)。

「SSP 是讓小米音箱知道自己在哪,比如音箱是距離電視更近還是沙發更近?這個功能可以幫設備調整自己,」他提到蘋果就是利用這個特性進行音效大小的自適應,

「而 SSA 則是讓音箱知道自己是誰,當我們進門喚醒的時候,是應該客廳的音箱響應,還是廚房的響應?目前亞馬遜的 Echo 與小米 Mini 都是距離最近的才自動響應。但未來,應該是最理解你命令的那台音箱響應。」

但在目前,他承認這項技術還沒有完全成熟,而且應用在小米 Mini 上的這個功能,公司也只是做了底層支持:

「雷總提到的這項技術是小米團隊實現的,他們的研發能力是很不錯的。」

我們也聯繫到了小米聲學工程師相非,他認為,在開發過程中,讓不同設備的不同陣列拓撲之間的拾音協同,具備很大難度:

「譬如標準版小愛音箱與小愛Mini,一個6麥,一個4麥,除了陣列布局,麥克選型、底層驅動、硬體方案都不同,無法用同樣的演算法做計算。如何針對每個維度做設備間的歸一化,在業界沒有任何先例。」

另外他提到的一個難點也是我們上面講過的——用戶的聲學場景太複雜了。

無論是把音箱放在開闊空間,還是牆角,亦或是電視旁邊,甚至旁邊掛件衣物,都會對信號造成很大影響。

「因此,設備要先做空間感知,獲取周邊場景信息,」他認同了陳孝良的說法,「再做包括能量、到達方向、相關性、置信度等等的多維度判決。」

在拿到Mini後,我們就在辦公室同時連接了標準版與 Mini,這個功能似乎目前還不太奏效。

在兩個音箱距離過近時(2 米以內),這項功能並不會發生作用,兩隻都是同時應答並播放歌曲。

而在兩隻音箱位於同一空間且距離大於 3 米時,音箱的確可以根據聲源來辨別距離遠近。但這僅限於你離其中一隻非常近(小於 1 米)的情況下,近處的設備才會被喚醒。而且也屢有失敗。

接下來,我又在與上面相同的條件(大於3米)下進行另外一種測試:

所站的位置距離兩隻音箱都很遠,結果會怎樣?

答案是,無論你離哪個更近,他們都會被同時喚醒並回復你。

但毫無疑問,標準版由於麥克風數量更多,因此拾音效果更好,幾乎「有應必答」,且網路連接更穩定。

不過在聯繫到相非後,他提醒我們,5月功能會正式上線……所以,買到標準版小愛同學和Mini的童鞋們,還是先別像我們一樣花一個多小時去測試這項功能了。

其實從小米發布標準版 AI 音箱那一天起,音箱各主要技術部分的供應商就寫在了他們的公開 PPT 上。

與阿里等公司一樣,音箱的很多技術都是「分包」出去的。

語音識別技術(ASR)的介面,用的是思必馳、Nuance 與搜狗的;

自然語言理解(NLP)等關於語義方面的技術,由小米大腦親自來做

前端的麥克風陣列以及降噪方案,是由聲智科技提供的。

語音合成技術,是由獵戶星空提供的。

但據我們獲得的消息,Mini 版並沒有繼續使用此前合作方的 ASR,不難推測,或許小米已經在逐步替換為自己研發的語音識別技術。

早在1年多以前,2017 年 1 月,小米就成立了小米雲平台語音組;同年 7 月,還曾在 arXiv 上首次提交過一篇端對端的語音識別論文。

當時就有人猜測,除了 NLP 之外,小米未來很可能會用上自己語音識別技術。這在很大程度上關係到數據的分析與共享。

實際上,與 BAT 以及很多純粹的 AI 技術公司相比,小米在 AI 領域一貫低調。直到上周 MIX2S 發布會,我們也是才獲知小米 AI 研發團隊的具體規模已經增至500~600 人。

對於一家製造消費類硬體的公司來說,成立研發團隊的優勢在於,讓技術進入應用層的周期大大縮短。

因為在任何時候,它都能把底層技術迅速實驗在自己的產品上,軟硬磨合期顯然要比純粹的 2B 技術公司短太多。

2017 年中旬,小米語音工程師張俊博在接受媒體採訪時就曾表示,經過無數實驗,小米的語音技術在小米電視測試數據上成功獲得了 2.81% 的字錯誤率,達到可用水平。

數據並不算耀眼,但這個數據在某種程度上卻是難得脫離了「學術舒適區」的產業品類評測數據。

當然,這也從側面說明了小米的軟硬耦合能力。就像上面陳孝良所說的,軟體能力會在一定程度上補足硬體的不足。反過來,充分的硬體製造經驗,也會加強軟體的運行效果。

AI 技術最終落實到硬體的用戶體驗上,就是小米音箱的智能內核——小愛同學的應用效果。

根據我們此前的評測,其水平明顯高於當下的音箱智力水平線,甚至在「自然語言理解」層面表現突出。

譬如在音樂操作方面,一個存在多個關鍵詞的語音命令,小米可以做到準確識別語義並給出正確答案。

當你發出「我想聽英文新歌」「我想聽英文的爵士樂」「我想聽周杰倫的新歌」等指令時,小愛同學為歌曲同時設定「爵士」與「英文」,或「最近的」與「英文」等約束條件是沒有問題的。

而在這方面,除了百度等大型科技公司,創業公司的產品普遍很難做到。

此外,小米系列 AI 音箱有一個有意思的功能——專門為自己的小愛同學創建命令。而且創建以後,這些命令在任何小米 AI 音箱上都可以被喚醒。

譬如那個在天貓精靈技能中非常火的「放屁」功能,就被用戶也創建在了小米 AI 音箱里:

這在某種程度上,可以比招攬專業技能開發者更快地增加自己的技能數量……

當然,根據用戶們的反饋,小米的槽點也不容忽視。譬如曲庫資源勉強達到要求,但不等於滿意,他們還是想請雷軍再去跟 QQ 和蝦米音樂談判一下;

此外,像小冰一樣的調侃式聊天,在小愛同學身上也是有限制的。但這畢竟是一個執行命令多於「插科打諢」的硬體產品,或許直接跟手機聊天可能更實惠一點。

而音箱不可忽視的另一個小 bug,是 Wifi 連接狀況不穩定。

這毫無疑問是使用音箱的第一個關鍵步驟——只要不聯網,除非連接藍牙,要不然音箱就是一塊板磚。

在這次使用 Mini 之前,我就碰到了這種情況——無論如何都連不上小米 AI APP。

最後在小米工程師快速的響應速度基礎上,我們終於發現了問題的根源——路由器設置的頻段與信道與小米音箱 Mini 不匹配。

「如果很多人 wifi 都設置成這樣呢?」我問,

「用戶環境複雜,確實是我們一直比較頭疼的事情。」小米工程師的回答也很無奈。

在當下的智能音箱市場,所有同類產品其實都以「達到及格線」為榮。

但從智能程度、內容資源、銷量以及生態系統等各個維度衡量,在一眾音箱產品中,小米音箱與天貓精靈是名副其實處於第一軍團。

與阿里依靠強大渠道與價格戰賣出了 200 萬台天貓精靈相比,小米 AI 音箱迅速提升的市場認知度在很大程度上要感謝小米強大的硬體生態鏈(作為一個控制中樞,米家任何智能家居都可以被控制,都是自己的東西當然沒有障礙),銷售策略及後續穩定增長的良好口碑。

有不願透露姓名的晶元採購商向我們,他們很奇怪為何小米會遲遲發不出貨。

「從音箱的配件市場供應情況來看,不應該出現這種情況,」她更傾向於這是一種銷售策略,「即便是去年雙十一訂單超量的天貓精靈,也基本在 1 個月左右就能從工廠出貨。」

而後續增長的良好口碑,除了很多評測媒體在「橫評」(多個音箱一起測試)中出了不錯的分數以外,普通用戶的一些追評其實超出了大眾對現階段智能產品打的平均分:

除了在人機交互體驗這一方面並不弱於 BAT 大廠,它的中控能力,終於把小米在過去四年里從一個充電器開始,默默做生態鏈的優勢發揮了出來。

「我一朋友結婚家裡剛裝修完,家電都買的小米的,說這樣更好連通,不用下那麼多 APP,而且壞了都能找一家去修。」一位圈外的「80 後老少女」在聊天時這樣告訴我們,「智能家居嘛,別以為我們不如你懂。」

其實我們之前也在很多文章中提到過(參考文章:天貓精靈的優勢與問題),僅僅依靠合作,其實很難把音箱的中控能力(家庭控制中樞)發揮到極致。

這裡面有技術與平台的兼容問題,有數據問題,也有團隊磨合問題等等一系列在雙方都要牢牢維護自身利益前提下產生的阻礙。

因此,平台與平台之間處處設置壁壘,美的、格力、海爾等等傳統硬體廠商正在出品多個應對不同 AI 平台與產品的智能空調型號;

為了連接另一個品牌的智能燈泡或智能開關,需要再下 1 個 2 個 3 個 APP;

普通電器常用的射頻遙控與紅外遙控,有不同的連接阻礙……

對於許多年輕人來說,在質量和效果沒有那麼大差距的條件下,為了體驗真正無障礙的智能家庭,會傾向於選擇「沒那麼麻煩的」。

而接下來,當這一代對智能家居有初步認識與好感的 80、90、00 後年輕人逐漸成長為社會的主流消費群體,傳統硬體企業,未進入生態圈的硬體企業,未打通生態圈的科技企業,就不再是「充滿危機感」這麼簡單了。

機器之能開年對話

8位AI行業局內人講述對過去、對未來的看法


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之能 的精彩文章:

極具爭議的百萬音箱銷量與科學家多重面具背後,暗藏阿里AI Labs參與競爭的獨特法則
捕獲曠視、寒武紀、蔚來汽車之後,聯想創投還要All in智能互聯網

TAG:機器之能 |