普利策獲獎記者細述全球首個語音巨獸的誕生

新聞 08-14

此文來自 MIT Technology Review 中國大陸地區獨家授權發布。作者 George Anders 曾因撰寫《華爾街日報》的一篇報道而獲得 1997 年的普利策獎。以下是翻譯整理後的全文：

眼下的這場交互革命與以往都不同：從前，所有人都傾向於讓自己去適應技術產品，去適應打字、敲擊或滑動等動作。現在，語音要想成為主流的交互方式，它必須迎合人類。

然而，這個巨大的挑戰在一開始的時候並不在 Alexa 的「射程」範圍之內，儘管它現在是語音交互市場的佼佼者。

語音怪獸的誕生

2012 年 8 月 31 日，四名亞馬遜工程師提交了一項基礎專利。他們只需要用十幾個字和一個簡單圖表就能描述它的工作原理：一名用戶下達「播放音樂」的語音命令，一台機器則回復「沒問題」並開始播放用戶所要求的歌曲。當然，完成這個任務用戶得保證它處於一個安靜的環境中。

這台點播機器就是 Alexa 最初的形態。亞馬遜工程師們設計出這麼一款產品，希望藉助它與世界上最大、最複雜的數據集之一——亞馬遜數據集——進行人性化溝通。

也就是從那個時候開始，基於語音的家用人工智慧成為了亞馬遜的一大業務，並且越來越成為亞馬遜與競爭對手搏鬥的戰場。如今，這個戰場上已經聚集了谷歌、蘋果、三星、微軟等公司，他們同樣派出成千上萬的研究人員和業務專家，竭盡全力地創造出具有誘惑力且好用的語音交互設備。

圖丨亞馬遜Alexa + Echo

自從 2014 年在市場首次亮相以來，由 Alexa 驅動的機器銷量已達數百萬計。在美國市場上使用語音驅動的AI設備中，亞馬遜的銷量佔據了單位產品總銷售額的70％。當然，競爭也在加劇。對手家的 Google Home 也銷售了數百萬台，而蘋果和微軟也即將推出自己的版本。

據研究，谷歌、蘋果、微軟和亞馬遜的 AI 平台各自顯示出不同的優勢。 Google助手是大範圍搜索指令的最佳選擇；蘋果的Siri和微軟的 Cortana 有其他方面的才能；Alexa對購物指令的表現特別好。

這些大公司爭先恐後地湧入這個市場，是因為競爭優勝者將獲得巨大的回報，那就是對三個重要市場的控制影響力：家庭自動化、家庭娛樂市場和購物市場——這三個市場中最小的市場是家庭自動化，單單這個市場每年就已經擁有超過 50 億美元的份額，而去年美國的零售業總額高達 4.9 萬億美元，潛力十分巨大。

亞馬遜期待智能語音助手像曾經的智能手機一樣改變人們的日常生活：智能手機已經滲透到生活的方方面面，它改變了人們的約會禮儀，甚至改變了人的步行速度。類似地，基於語音的人工智慧也將改變家庭生活的方方面。

但為了使 Echo 變得像智能手機一樣普及，亞馬遜需要做更多的事情。為此，亞馬遜正在鼓勵獨立開發商在平台上建立新服務，就像蘋果長期以來對APP開發者的扶持一樣。到目前為止，平台上已經建立了超過 15,000 個「技能包」或應用程序。而且，應用程序的構建工具已經變得十分容易搭配。

現在，只需要一個小時，就能構建一個簡單的應用，也不需要太多的編程知識。平台上最受歡迎的應用程序是 Uber 和 Lyft 的搭車工具。不受歡迎的壞應用則包括 48 個用言語對用戶污言穢語的應用。

在那些雄心勃勃的開發商中，既有與 Alexa 合作的硬體公司，也有提供與Alexa搭配的軟體服務的公司。例如，CapitalOne 正在向銀行客戶提供基於Alexa的賬單支付; 位於多倫多的 Ecobee 是一家智能恆溫器製造商，它可以搭載Alexa驅動的版本，讓人們只需說出幾句話即可為房間升溫或降溫，Alexa設備是這家公司發展最快的產品線，Alexa設備已佔其總銷售額的40％左右。

現在，亞馬遜主要通過銷售 Dot 和 Echo 機器來賺錢，價格從低端的 50 美元 Dot 到高端帶視頻屏幕的 230 美元Echo。如果這些設備能引導用戶在亞馬遜在線商場進行更多的購物活動，這將給亞馬遜帶來另一大回報——不過，亞馬遜不會透露這方面的數據。

實際上，Alexa 驅動的 Echo 裝置和 Dot 裝置已是無處不在的家庭助理，它可以為你關燈，講笑話，或者為你閱讀新聞。它們還可以收集有關用戶的數據，用於改進 Alexa ，增加其用途。

對亞馬遜而言，當初那個點播機器也早已改頭換面。如今，它已經變成了極其宏大的怪獸。

更好地聆聽

如果 Alexa 或其附屬產品可以在寒冬臘月替你鎖上大門或啟動汽車加熱器，你還有什麼必要去親力親為呢？

目前，亞馬遜公司還沒有試圖去賺那些製造智能溫控器、燈具和其他與 Alexa 連接的設備的企業的錢。儘管如此，仍然很容易想像，將來亞馬遜會如何和這些企業分享市場收益。

亞馬遜的當務之急是，讓 Alexa 的人工智慧系統建立在人類數據基礎上，提高從人類的資源中學習的速度。

幾乎所有的語音 AI 玩家都知道，語音 AI 之所以對消費者這麼有吸引力，是因為它能直接面對我們的需求，回應我們的發言和想法，而不需要我們在鍵盤或屏幕上打字。這也使得它在技術上極難構建，因為當我們談話時，我們的話並不總是井井有條的。相反，我們常常打斷自己，我們的想法搖擺不定，我們還以奇怪的方式使用詞語、點頭搖頭、發出咕嚕聲。哪怕我們實際說出的話不可理解，我們也傾向於認為自己的話能被理解。

數千名的亞馬遜員工正在努力應對這一挑戰。這些人的工作地位於西雅圖，加利福尼亞州桑尼維爾和馬薩諸塞州劍橋研究中心。即使這樣，亞馬遜的招聘頁面最近還提供了 1,100 多個新的 Alexa 職位，它們分布在十幾個部門，其中包括為機器學習專家提供的 215 個職位。

圖丨亞馬遜 Alexa 首席科學家Rohit Prasad

對於 Alexa 首席科學家 Rohit Prasad 而言，為什麼亞馬遜需要這麼多的人，什麼時候他的研究團隊才能完全滿員？他長期從事語音技術工作已有20年，其中大部分時間得到的都是令人沮喪的結果。

問題的答案是，在過去五年中，巨大的機會降臨了。

毫無疑問，創建一個真正有效的語音觸髮型 AI 是一個複雜且尚未被征服的任務。過去，語言科學家們努力想要在第一輪試驗中就能確定混亂話語的確切含義。而如今，機器學習的新方法通過採取不同的方向取得了進展：他們從不完美的匹配中開始工作，接下來進行快速微調和臨時的猜測。

關鍵是，分析大量用戶數據，並從早期的錯誤中學習。Alexa與用戶交互的時間越多，收集的數據越多，它就會變得越聰明。隨著 Alexa 的進步，越來越多的機遇來臨，從而需要更多的人力來配合。

「讓我舉個例子，」Prasad 說。「如果你問Alexa，Adele的第一張專輯是什麼？」答案應該是「19」。如果你對它說「播放它」，Alexa就會知道開始播放那張專輯。「但是如果中間摻進了其他對話呢？如果你第一次問 Alexa 這張專輯出來的年份，接著問它出售了多少份，再接下來才要求Alexa 「播放它」，早期版本的Alexa將被問題困住。現在，Alexa的技術已經可以跟上人的思路，至少有時候能認識到「它」在這裡仍然意味著「第一張專輯」。

這種改進來自機器學習技術。機器學習系統重新審查了 Alexa 之前發生的數千個溝通障礙，並進行了改進。系統能學會用戶實際想要聽哪首歌曲，並在對話的較早部分識別出那首歌曲。麻省理工學院口語系統團隊負責人 James Glass說：「你一開始就需要做出一些假設，假定人們會問哪些問題。然後你收集數據，並調整你的模型。」

James Glass 表示，這種機器學習方法得到了廣泛的認可，但要使用這種方法的話，所需要的數據量遠遠超過大學研究人員所能獲得的數據。隨著 Alexa 使用量的激增，亞馬遜現在可以訪問一個擴展的人機界面語音交互存儲庫，使其在對語音技術進行微調方面處於領先地位，正如谷歌在文本搜索查詢領域所享有的領先地位那樣。

為了加強與下一代 AI 和言語研究人員的聯繫，亞馬遜還邀請全球十幾所大學的工程學生來搭建可以持續 20 分鐘對話的語音機器人，而在今年11月最後期限前取得最大進展的團隊將贏得50萬美元的獎金。

外部數據的加入也是有幫助的。例如，2016年，亞馬遜把海量歌詞資料庫加入了Alexa，這樣，當用戶說出「drove my Chevy to the levee」這樣的歌詞時，Alexa將自動聯想到 Don Mclean的歌曲「美國派」。

Prasad 團隊的最新項目之一突出了這種方法的靈活性——這涉及到如何破譯用戶是不是在反悔其初始請求。不同用戶的指令可以有很大的不同。有人會說「不，不，不」，其他人更喜歡說「取消」，還有人喜歡說，「等等，實際上，這就是我想要的」等等。Alexa不需要破譯每段話語。大樣本和半監督機器學習使它能夠概括出一組可能的否定性語音標記，然後在話語變化之後提取出連貫的新請求。

總之，Alexa正在努力成為更好的聽眾。

還有太多話要說

可能有不少人能猜到，語音AI 最熱忱的使用者是那些無法輕易使用手機或平板電腦的人——這一點同樣在Alexa身上得到了驗證。

為殘疾人士提供住房和服務的費城 Inglis 公司執行官 Gavin Kerr 已在八個殘障居民家中安裝了 Amazon Echo 和 Dot 設備。一旦初期測試完成，他希望最終將它們添加到所有300個住宅之中。「對殘障居民而言，這是一個不可思議的福音，他們可以過得更舒服。它為他們帶來了獨立性。」

比如說，對於那些卧床不起或使用輪椅的人來說，一個怎麼也夠不著的牆壁恆溫器將是巨大的折磨。對此，Kerr解釋說：「他們的身體很難適應溫度。一個72°F 的房間可能會讓他們前一個小時感到炎熱，後一個小時又覺得冷。」由於行動不便，如果房間不提供搖鈴即來的人類看護，這些殘障人士很難讓自己變得舒服一點。

經過一些調整後，Alexa 軟體還可以服務於那些語言能力受限的人。Kerr 談到了一個30多歲的有語言障礙的人，他想要離開康復醫院回到日常社區。 Kerr 回憶說，「他告訴我們，他怎麼也無法使用Alexa的命令。於是，我們問他，你能說哪些話？然後我們修改了軟體，這樣他可以使Alexa按他的要求來工作。現在，當他想要打開廚房燈時，他會說"約翰"，當他想打開浴室燈時，他會說："媽媽"「。

雖然 Inglis 公司會為其Echo用戶提供四個小時的培訓，但是多數新用戶更喜歡自己去探索。將 Echo 拉出包裝箱後，一些特別常見的應用程序如播放音樂、設置鬧鐘或更新購物清單等選項將突出顯示出來。使用多裝置的用戶可以在智能手機、筆記本電腦上調用Alexa控制面板來調整其設置，發現新應用程序，或獲取關於怎樣讓應用程序具有最佳效果的指導。

微軟產品經理 Darren Austin 在 6 月發表的一篇熱門博客中寫道，Alexa的廣泛的成功在於，它減輕了超負荷生活中的壓力。Austin 寫道：「通過簡單的語音詢問，Alexa緩解了人們關於不確定性的負面情緒和對遺忘的恐懼」。用戶把各種各樣的困惑和慾望都對 Alexa 訴說，在這個意義上，Alexa已成為隨時準備回應用戶需求的伴侶。

每個星期，有時更頻繁，Alexa總經理 Rob Pulciani 都會瀏覽 Alexa 和 Dot 用戶最常見話語的總體數據。通常，最常見的話語是關於音樂，新聞，天氣，交通和遊戲的。然而，從今年春天開始，一個新的熱門話語正在快速上升：「Alexa，幫我放鬆」。

當用戶提出此請求時，他們會被引導到各種舒緩的聲音之中——鳥的唧唧聲，遙遠的海浪衝撞岸邊;，貨運列車在夜裡發出隆隆聲。如果用戶願意，這種環境雜訊循環可以持續播放數小時。

當這些內容 2015 年第一次出現在 Alexa平台上時，團隊曾將這些應用視為不那麼重要，然而這些內容迅速獲得了追捧。比如說，壓力過度的成年人在這些聲音中睡著了。父母將這些聲音變成搖籃曲來哄嬰兒。

在接下來的幾個星期內，團隊對Alexa的內部架構進行了微調，以便新的Echo買家在想要嘗試新的應用時，可以快速發現舒緩聲音這一選項。

交流的可持續性

語音 AI 的最終勝利必將是與用戶進行現實的、持續多分鐘的對話。這意味著，即使用戶沒有提出明確的要求，機器也要有能力辨識出用戶的意圖。這將是機器能力的巨大飛躍。

毫無疑問，人類很容易弄清楚，當朋友在說「我幾個星期沒去健身房了」的時候，他是想要談壓力還是想要談自尊。但對於AI軟體，這將是一個艱難的飛躍，理解突然切換的主題或拐彎抹角的暗示，這對AI來說是極大的困難。

在某個周末，我們測試了六台Echo機器人，對每個機器人都從簡單的查詢開始，逐步變換到複雜的、允許各種可能回復的開放式問答。當一台Echo問我：「你看最近的電影了嗎？」時，我們回答說：「是的，我看了 Hidden Figures 。」機器人並沒有枯燥扔出一段對這部電影的影評，而是對我說：「我認為， Hidden Figures (隱藏的人物) 在數學方面實際上很弱。」這句話並不符合我對這部電影的看法，但當這句話從機器人口中說出時，實在是件很迷人和得體的事。

沒多久，我們的談話便停滯不前，但至少我們有過一個簡短的美好時刻。

唉，其他Echo都沒有這麼好的表現。最令人困惑的是，當我以為我正在和機器人談論互聯網站點時，機器人會冒出一句「你喜歡停車送餐服務嗎？」這樣的句子。我說了幾句尖銳的話來批評機器人的缺點，機器人卻莫名其妙地反問我：「你能集體談判嗎？」

幾天後，當我問亞馬遜的 Prasad 對社交機器人的看法時，他認為早期的那些失敗並沒有困擾到他。

他告訴我：「這是一個非常重要的領域，這是一個可以讓 Alexa 變得非常聰明的領域，但這比玩圍棋或象棋這樣的遊戲更難。在這些遊戲中，即使有多個可能的出招方式，你始終知道最終目標是什麼。而在對話中，你卻連對方的意圖都不知道，就更別提做出判斷了。」

也許，當有一天，Alexa能夠理解對話者的真實意圖時，那才是真正的智能對話。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 DeepTech深科技 的精彩文章:

※電子競技有望成為2024年奧運會比賽項目
※馬斯克OpenAI版「阿爾法狗」完勝最強人類選手

TAG:DeepTech深科技 |

您可能感興趣

※耳機界新寵！全球首款全語音人工智慧莫比斯耳機
※魔獸世界新增角色語音文本
※「全球華語金曲獎」全新出發「拾」級而上打造頂級華語音樂獎項
※中國第1家！採用語音生物識別銀行誕生
※惠普發布全球首款智能語音控制印表機
※《只狼影逝二度》力爭在全球各版本中包含日語語音
※語音識別研究獲進展
※布點語音在零一科技節震撼發布語音助手不再是雞肋
※三星蘋果最新專利；AI語音可穿戴、桌面全息顯示器等創新產品
※語音識別技術簡述
※三條語音版
※英語語音知識精講
※搜狗發布「個性化語音識別」技術，語音輸入將更懂用戶
※四條語音版
※我的第一堂千聊語音健身科普課
※人生一字師『語音版』
※趙傳榮獲華語音樂傑出貢獻獎實至名歸
※安卓搗蛋語音助手內置多個語音素材
※語音貝貝誕生背後：首款離線語音智能插座，擊穿便利與隱私痛點
※微軟為「靜音」語音指令申請專利