當前位置:
首頁 > 新聞 > 為什麼矽谷巨頭不約而同押注語音技術?

為什麼矽谷巨頭不約而同押注語音技術?

譯指禪導讀:

亞馬遜、蘋果、谷歌正在以數十億的資金投入,試圖將語音識別轉變為人類與互聯網溝通的主要方式。

隨著智能音箱等語音智能家用設備的普及,矽谷的科技巨頭們正在進行著一場激烈的博弈。

而語音識別技術的應用是自喬布斯推出蘋果手機以來最大的技術轉變……

請看來自《財富周刊》的文章:

亞馬遜在短短的四年之前還只是一個在線零售商,和公司在線網路託管的主要供應商,它還銷售自己的電子消費產品系列,其中包括 Kindle 電子閱讀器,這在當時是一個大膽的嘗試。

如今,由於無處不在的亞馬遜 Echo 智能音箱及其 Alexa 語音識別引擎,亞馬遜激發了自喬布斯推出蘋果手機以來個人計算機和通信領域的最大轉變。

起初這一切似乎都是很新奇的。亞馬遜在 2014 年 11 月首次推出了 Echo 智能音箱,一種使用人工智慧接收人類詢問的高科技精靈,它可以在互聯網資料庫中掃描數百萬字,並提供各種各樣的答案。

目前,亞馬遜在總共賣出約 4700 萬套 Echo 設備後,Echo 同時服務著 80 個國家的消費者,平均每天處理 1.3 億個問題。Alexa 是以古埃及圖書館 Alexandria 命名的,它可以接受音樂請求,提供天氣預報和體育比分信息,並遠程調節用戶的恆溫器等。它還可以講笑話; 回答瑣碎問題; 甚至是一些幼稚的小伎倆。(不信可以嘗試問問 Alexa 放屁。)

語音識別技術並不是亞馬遜發明的,這種技術已經存在了幾十年。亞馬遜也不是第一個提供主流語音應用的科技巨頭。早在 Alexa 之前,蘋果公司的 Siri 智能語音助手和 Google Assistant 谷歌語音助手早已經出現。

在亞馬遜推出 Alexa 的同時,微軟也推出了 Cortana(微軟小娜)人工智慧助理。但隨著 Echo 智能音箱的廣泛成功,亞馬遜潛移默化地引發了一場 「智能」 家用設備市場的激烈競爭,這場競爭可以使語音識別產品像個人電腦或智能手機對人類一樣發揮非常重要的作用。

就像谷歌的搜索演算法徹底改變了信息消費,並顛覆了廣告業一樣,人工智慧驅動的語音計算使得類似轉變成為可能。亞馬遜 Alexa 首席科學家 Rohit Prasad 說,「我們希望消除與客戶的摩擦,最自然的方式就是通過聲音。它不僅僅是一個能提供一堆結果的搜索引擎,它還會告訴你答案。」

 亞馬遜 Alexa 首席科學家兼副總裁 Rohit Prasad

人工智慧與全新語音驅動的用戶體驗的強大組合,使得這場戰爭已不僅僅是聖誕節期間搶佔最熱門玩具的競爭 – 儘管也是如此。谷歌,蘋果,Facebook,微軟,以及其他公司都在向競爭產品注入資金。

事實上,投資公司 Loup Ventures 的 Gene Munster 估計,科技巨頭們將會花費年度研發預算的 10%用於語音識別,總計超過 50 億美元。他稱語音技術的出現是計算機運作的 「巨大變化」,並預測語音命令正迅速成為 「我們與互聯網互動的最常見方式,而不是通過鍵盤或手機屏幕。」

賭注如此之高,競爭激烈也不足為奇。 根據研究公司 Canalys 的數據顯示,亞馬遜最早進入市場並處於領先,在全球連接音箱市場佔據 42%的份額。

谷歌也毫不遜色,與 Echo 外觀相似、由谷歌智能助理提供支持的家庭設備系列佔有 34%的份額,並且谷歌最近也反超亞馬遜。蘋果 HomePod 智能音箱因為價格昂貴和最後進入市場而位於第三。

Facebook 在 10 月份也推出了 Portal 音頻和視頻設備系列,可以完成主要競爭對手的部分語音識別任務,尤其是 Alexa。

目前連接音箱和類似設備的市場規模龐大並且不斷增長 – 但對於技術巨頭來說,這不一定是最戲劇性增長的機遇。研究公司全球市場洞察 (Global Market Insights) 將 2017 年全球智能音箱銷售額定為 45 億美元,預計到 2024 年這一數字將增長至 300 億美元。

然而硬體收入並沒有計算在內。例如,亞馬遜對 Echo 智能音箱的定價標準是盈虧平衡甚至更低的價格。去年假日期間亞馬遜推出的簡易版智能音箱 Echo Dot 售價為 29 美元,ABI Research 認為這個價格比設備部件的成本還要低。

相反,每個主要參與者都採取了一種策略,即在某種程度上將客戶鎖定到其他商品和服務上的更大目標。

例如,亞馬遜使用 Echo 系列來增加其 Prime 會員訂閱服務的價值。谷歌希望語音搜索能夠豐富已經相當龐大的資料庫,最終為其廣告業務提供支持。蘋果通過 Siri,將手機、電腦、電視控制器聯繫在一起,甚至將汽車製造商和車載系統軟體捆綁在一起。

正如所有投資和快速發展的革新一樣,現在預測誰將獲勝還為時過早。但可以肯定地說,該行業已經圍繞這樣一種觀念進行了合作,即依賴於人工智慧的語音技術將會是未來的用戶界面。

它必將是一個會對普通人生活產生深遠影響的技術。負責監管谷歌智能助理產品設計的副總裁 Nick Fox 說,「通過語音可以做各種各樣的事情,識字能力較差的人能操作該系統。

正在駕駛的人也能操作該系統。人們在烹飪時通過該系統可以找到菜譜。每隔一段時間,技術就會發生一次構造性的轉變,我們認為語音技術就是轉變之一。」

儘管如此,語音識別仍處於起步階段。與研究人員的期望相比,語音技術的應用還處在滿足基本需求的階段,並且有很大的上升空間。

關於科技公司竊聽客戶信息以及如何合法使用收集的用戶數據等問題,擔憂依然存在。「用人工智慧識別語音,我們已經從雙翼飛機時代進入噴氣式飛機時代,」 華盛頓大學電氣工程教授、語言技術世界頂尖科學家之一的 Mari Ostendorf 指出,計算機已經善於回答直截了當的問題,但在實際對話方面仍有欠缺。

人工智慧技術在語音識別單詞和理解命令方面,就數量而言已經令人印象深刻。但我們還沒有進入火箭時代。

數十年來,語音識別已成為下一個殺手級應用。在 20 世紀 50 年代,貝爾實驗室創建了一個名為 Audrey 的人工智慧系統,可以語音識別從 1 到 9 的數字。

在 20 世紀 90 年代,PC 用戶安裝的 Dragon NaturallySpeaking 語音識別軟體,已經可以處理簡單的語音識別,不需要說話者在每個單詞後停頓。但直到 2010 年蘋果公司在蘋果手機上發布了 Siri,消費者才意識到與大規模計算能力相關的語音識別引擎能夠實現什麼。大約在同一時間,亞馬遜,在首席執行官 Jeff Bezos 一個真正的星際迷航狂熱愛好者的領導下 – 開始夢想複製星艦進取號上的可以與人對話的電腦。

曾發表過 100 多篇人工智慧對話文章、亞馬遜現任職員工 Prasad 說道 「我們設想的未來是,你可以通過語音與任何服務進行互動,」 Alexa 實現了這一點,使消費者與亞馬遜溝通變得更為簡便。

語音識別技術的進步,伴隨著計算能力的進步,即計算能力更快,更便宜,更普遍,因此更主流 – 亞馬遜,谷歌,蘋果和其他公司可以更輕鬆地構建一個無縫網路,通過語音將智能家居設備與其他系統連接起來。

例如,蘋果 CarPlay 車載用戶可以通過 Siri 將最新一集 「權力的遊戲」 在蘋果電視上作為 「下一個」 播放,並且命令 HomePod 智能音箱在用戶到家後播放。兩年前,谷歌發布了支持語音的 Home 智能家居設備,它將音樂產品,YouTube 與最新的 Pixel 手機和平板電腦聯繫在一起。換句話說,每個科技巨頭都將語音技術視為它們創造更多數字產品的敲門磚。

科技巨頭各自獲利頗豐,因此能夠為研究和營銷提供充足的資金,從而實現更多新產品。例如,蘋果和谷歌分別擁有兩大主流移動操作系統 iOS 和安卓。這意味著 Siri 和谷歌智能助理幾乎可以預裝在所有的新手機上。相比之下,亞馬遜則需要消費者將 Alexa 應用程序安裝在手機上,然後才能在他們的蘋果或安卓設備上打開。

前華爾街計算機公司分析師、現任 Loup 公司的 Munster 說這個額外的步驟使得亞馬遜處於明顯的劣勢。相比之下,激活 Siri 和谷歌智能助理只需說出它們的名字。

也就是說,iOS 和安卓對所有第三方開發者開放,而亞馬遜就是第三方開發者其中之一 – 這也意味著所有開發人員都可以在這兩個平台上編寫 Alexa 程序。 Bezos 在今年早些時候發布的一份財報中表示,「超過 150 個國家 / 地區的數萬名開發人員」 正在構建 Alexa 應用並將其整合到非亞馬遜的設備中。實際上,合作是語音應用的關鍵。

 谷歌搜索和 GoogleAssistant 副總裁 NickFox

亞馬遜將 Alexa 內置於搜諾思 (Sonos) 的「迴音壁」、捷波朗 (Jabra) 的耳機以及寶馬,福特和豐田汽車中。谷歌加強與音頻設備製造商索尼和 Bang&Olufsen 的合作,並且聯合智能系統 August 智能鎖和飛利浦 LED 照明系統進行合作。

Apple 允許其 HomePod 智能音箱與 First Alert 安全系統,以及霍尼韋爾 (Honeywell) 智能恆溫器配合使用。谷歌的 Fox 說,「這些合作的好處在於,我們可以將語音連接到整個智能家電的生態系統中。我無需打開手機找到應用程序,直接對設備說,』告訴我誰在我的門前』,攝像頭的影像就會彈出來。因為統一,所以簡單。」

長期以來,人工智慧一直是反烏托邦流行文化的主要內容,尤其以 「終結者」 和「黑客帝國」為代表的電影,其中邪惡且聰明的機器人的崛起對人類構成威脅。值得慶幸的是,這還不是我們的現實。但隨著人工智慧的進步和計算成本的降低,這樣令人印象深刻並且未來感十足的應用已經成為現實。

語音識別程序通過互聯網可以連接到數據中心,這些複雜的數學模型是經過公司花費數年時間編製並通過識別不同語音模式而篩選出的大量數據。語音識別程序可以通過分析呼叫中心人員與客戶交談的記錄或通過與數字助理的交互,來識別辭彙、區域口音、口語和語境。

語音識別系統同樣依賴於物理學和計算機科學。語音在空中產生振動,語音引擎將其視為模擬聲波,然後轉換為數字格式。然後,計算機可以分析該數字數據的含義。人工智慧首先通過檢測客戶選擇的 「喚醒詞」(例如 「Alexa」)來確定聲音是否指向其系統來增強流程。

然後,他們從之前數百萬其他客戶那裡所積累的模型對接收到的問題做出高度準確的猜測。「語音識別系統首先是識別聲音,然後通過上下文進行解讀,」 谷歌智能助理項目副總裁 Johan Schalkwyk 解釋道。

「比如我說,』在…… 天氣怎麼樣,』,人工智慧就會知道下一個詞會是國家或城市。我們的資料庫中有 500 萬個英語單詞,在沒有上下文的情況下識別 500 萬單詞中的一個單詞是非常困難的。但如果人工智慧知道你是在問一個城市,然後就變成在 3 萬個英語單詞中檢索的任務,這樣準確率更高。」

計算能力使系統有多種學習機會。為了讓 Alexa 開啟微波爐 – 這是一個真實的例子 – 語音引擎首先需要了解命令,這意味著它要有學習破解各種各樣的口音的能力,比如濃重的南方口音,兒童的高音,非母語人士的發音等等,還要能同時過濾背景噪音,比如在收音機上播放的歌詞。

然後,語音引擎還必須了解人們可能要求使用微波爐的各種方式:「加熱我的食物」,「打開我的微波爐」,「將食物加熱兩分鐘。」Alexa 和其他語音助手將類似命令在資料庫中進行匹配,從而 「學習」「加熱我的食物」 是特定用戶將來可能會詢問的方式。

 語音發展史

語音識別技術能夠迅速發展的部分原因是因為它已經非常精通如何將人類命令轉化為行動。谷歌的 Schalkwyk 表示,他們公司的語音引擎現在的響應率已達到了 95%,幾乎與人類聽力準確度相同,而在 2013 年此響應率只有 80%。

最近在該領域取得的最大成就之一,就是過濾掉背景噪音,這對最敏銳的人耳來說也是難題。然而,只有回答像例如 「碟中諜什麼時候上映?」 這種簡單問題時,系統才能達到這個水平。而如果向谷歌智能助理或 Alexa 詢問意見或嘗試進行對話的時候,設備很有可能會給出一個預先編寫的滑稽答案或簡單地說:「嗯,我不知道答案。」

對於消費者而言,語音驅動設備是非常有用的。它們在與數據中心的計算機連接之後,體積雖小但卻是極其高效的數據收集器。

據消費者情報研究合作夥伴稱,大約 60%的亞馬遜 Echo 和谷歌 Home 用戶至少有一個家用設備,如恆溫器、安全系統或設備。語音家用設備可以記錄用戶日常生活的各個方面。無論是通過其他設備,訂閱服務還是代表其他商家做廣告,亞馬遜,谷歌和蘋果積累的數據越多,從而可以更好地為消費者提供服務。

商業機會其實很簡單。將 Echo 智能音箱連接到恆溫器的消費者,可能會接受購買智能照明系統的建議。儘管這可能會讓隱私權倡導者聽起來令人毛骨悚然,但科技巨頭們正站在個人數據的寶庫之上,更好地向消費者推銷產品。

與他們的總體戰略一樣,科技巨頭採取不同的方式進行數據收集。亞馬遜表示,使用 Alexa 收集的數據,可以使軟體更智能,從而對客戶更有用。

Alexa 做得越好,客戶就越能看到其產品和服務的價值,包括 Prime 會員計劃。雖然亞馬遜正在大力推廣廣告 – 研究公司 eMarketer 預計該公司將在 2018 年從數字廣告中獲得 46.1 億美元 – 一位發言人稱亞馬遜目前尚未使用 Alexa 數據來銷售廣告。谷歌公司,考慮到其巨大的廣告業務,也沒有將語音定位為廣告機會。蘋果公司之前大肆宣揚的不願意利用客戶數據來獲取商業利益,以 HomePods 的問世而終結。

儘管亞馬遜早期賣點之一是銷售產品,人們並不會要求他們的設備實現輔助購物功能。亞馬遜不會公布有多少 Echo 用戶使用該設備購物,但最近由 Codex Group 諮詢公司對購買書籍用戶的調查表明,輔助購物功能仍處於早期階段。

數據顯示只有 8%的人使用 Echo 購買書籍,而 13%的人用它來聽有聲讀物。人們是習慣性的動物,研究公司 Canalys 的技術分析師 Vincent Thielke 說,當你想買一個咖啡杯時,很難對智能音箱描述清楚你的想法。

亞馬遜表示確實沒有過度關注將 Echo 作為輔助購物工具,特別是考慮到如何將該設備與其通過 Prime 訂閱提供的其他服務聯繫起來。

儘管如此,亞馬遜仍然希望日益優化的計算機技術能夠提升其零售業務。亞馬遜的自然語言處理科學家 Prasad 說,「如果你想購買雙 A 電池,你不需要看到它們,你也不需要記住參數。參考購物歷史即可。如果您以前從未購買過電池,我們當然也會推薦亞馬遜品牌的電池。」

促進購物遠不止替代電池的銷售,特別是許多商家希望與科技巨頭合作並利用其相關的平台。研究公司 OC&C Strategy Consultants 預測,到 2022 年,Echo,Google Home 及其同類產品的語音購物銷售額將從目前的 20 億美元增加到 400 億美元。音箱的重要演變有助於解釋這一現象。

亞馬遜和谷歌現在都提供帶屏幕的智能家居設備,更像是小型電腦和電視機的結合,因此更適合在線購物。亞馬遜在 2017 年春季推出了售價 230 美元的 Echo Show 觸摸屏智能音箱。

與其他 Echo 設備一樣,Echo Show 也預裝了 Alexa,但同時用戶能夠看到圖像。這意味著購物者可以看到他們訂購的產品以及他們的購物清單、電視節目、音樂歌詞、安全攝像頭的圖像,甚至度假的照片,所有這些都無需按任何按鈕或操作電腦滑鼠。

就零部件而言,谷歌已經在與四家消費電子製造商合作,其中一些製造商最近開始銷售谷歌智能助理的集成智能屏幕。另外,聯想智能顯示器與的 Facebook Portal 外觀類似。

而 Facebook Portal 的零售價為 250 美元,與 JBL Link View 智能顯示器的價格相同。LG 計劃推出 ThinQ View 觸摸屏智能冰箱。谷歌在今年 10 月以 149 美元的價格開始銷售配備 7 英寸屏幕的 Home Hub 智能家居控制。

從長遠來看,谷歌認為增加屏幕可以讓語音購物變得更容易。與亞馬遜直接銷售產品不同的是,谷歌的購物網站將零售商與谷歌搜索引擎連接在一起。它已經將 Google Home 智能家居設備作為購物工具。

例如,谷歌與星巴克合作,用戶只需告訴谷歌智能助理訂購 「我經常訂購的飲品」,訂單在用戶到達時就已經準備好了。去年,谷歌鞏固了與全球最大零售商沃爾瑪的合作夥伴關係。購物者只需將他們現有的沃爾瑪在線帳戶連接到谷歌的購物網站,即可在 Google Home 智能家居設備瀏覽喜歡的跑鞋是否有貨,預定當天提貨的平板電視,或者找到最近的沃爾瑪商店。

視覺識別技術的加入會使在這些設備上的購物體驗更加便捷。視覺識別技術目前已經長期用於在人群中匹配罪犯面孔。今年 9 月,亞馬遜宣布正在與 Snapchat 一起測試應用程序,該應用程序可讓購物者用 Snapchat 的相機拍攝產品或條形碼,然後在屏幕上看到亞馬遜網上商店的產品頁面。

不難想像,下一步的購物體驗將會是使用嵌入在 Echo Show 的相機拍攝用戶想要購買產品的照片,然後在屏幕上就可以看到相同或類似的產品信息,價格,評價,是否可以使用 Prime 兩天免費送貨。

語音技術雖然令人振奮,但這種技術可能會讓非技術愛好者花一點時間習慣如何才能與機器對話。科技巨頭目前還不是最受信賴的公司,他們需要說服消費者設備不會被惡意竊聽。智能音箱只有在檢測到 「喚醒詞」 時才會進入聆聽模式,例如 「Alexa」 或「Hey, Google」。今年 5 月,亞馬遜將波特蘭一位高管與妻子關於硬木地板的對話錯誤地發給了他的員工。亞馬遜為此公開道歉,稱設備 「誤解」 了這次談話。

語音輸入產生的錯誤可能遠遠超過打字輸入產生的錯誤 這可能還會對商業經濟造成影響。

去年,達拉斯的一位 6 歲女孩在和 Alexa 談論餅乾和娃娃屋的幾天之後,她家收到了 4 磅餅乾和 170 美元的娃娃屋。亞馬遜表示,Alexa 的家長控制功能如果使用得當的話,可以防止類似事件發的生。

語音技術隨著社會的發展會越來越普及。目前已經有超過 1 億台語音設備成功安裝並處於聆聽模式,語音成為人與機器進行交流的主導方式只是時間問題 – 即使談話只是一些雜亂的聲音而已。

本文作者 Brian Dumaine,文章在 2018 年 11 月 1 日發表於的 「財富」 雜誌。

本文轉自公眾號「譯指禪」,譯指禪專註於翻譯國外泛互聯網領域的優質長文,精選高質量信息源,想看更多長文,請搜索「譯指禪」或「yizhichan007」關注。愛范兒經授權發布,文章為作者觀點,不代表愛范兒立場。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 愛范兒 的精彩文章:

新 iPad Pro 不會用劉海全面屏,外形設計更類似 iPhone 5
小米財報業績超預期,但互聯網 + IOT 的故事還是沒講好

TAG:愛范兒 |