專訪鄢志傑：阿里全面進軍 IoT，語音交互能做什麼、將做什麼？

新聞 04-05

在 3 月底的雲棲大會上，阿里雲總裁胡曉明在會上做出戰略宣布：阿里巴巴全面進軍 IoT。這是繼電商、金融、物流、雲計算之後的一條新的主賽道。

阿里巴巴希望數字化整個物理世界，並作為 IoT 基礎設施的搭建者而存在。這樣一層「新身份」也讓不少人為之振奮，認為「5 年內 100 億設備」的未來將成為阿里雲 IoT 事業部總經理庫偉所說的「萬物智聯」的全新世界。

在阿里巴巴這樣的企業戰略規劃之下，以語音交互智能實驗室為代表的眾多研究部門如何明確自己的定位，並助力阿里巴巴更好地領跑這一賽道，也成為一個亟待解答的問題。

在 3 月底舉辦的首屆 AITech 峰會上，阿里巴巴達摩院-機器智能技術研究院的語音交互智能實驗室首席科學家鄢志傑做了題為《IoT 時代的語音交互智能》的主題演講。

專訪鄢志傑：阿里全面進軍 IoT，語音交互能做什麼、將做什麼？

圖via 新一代人工智慧聯盟

計算是心臟，AI 是大腦，IoT 是神經；這是阿里巴巴數字化進程中發揮重要作用的三個「器官」。那麼作為「阿里集團乃至螞蟻金服語音技術的研究開發和產品部門」，鄢志傑所在的語音交互智能實驗室在 IoT 中擔任怎樣的角色？

鄢志傑認為，語音是最自然的與 IoT 交互的方式。首先它無需學習。用語言交流是人類所具備的一種獨特能力；其次，語音「hands-free」、「eyes-free」的特點也讓教育用戶的成本幾乎能夠降到最低。

「語音交互智能是 AI 與大眾最近的接觸。」鄢志傑如是說。不論是 BB-8 還是 R2-D2，能與機器順暢自由地交流一直是科幻作品的美好想像。得益於 AI 近年來的突破性進展，以語音、計算機視覺為代表的感知智能；與語義理解、語義生成的認知智能，技術的飛躍有目共睹。

在近年來，業界也推出了以聊天機器人、智能音箱為代表的語音交互產品，也讓這一願景不再遙遠。而智能語音交互也已跨越了「能用」的基本訴求，正在逐步向「好用」邁進。

阿里巴巴的語音交互智能實驗室也正在嘗試架起「人機交互」和「個性化服務」的橋樑。而上升到技術層面來總結，語音交互智能將成為 IoT 與互聯網內容和服務的橋樑。

以 NUI 自然交互平台為例，背靠「雲+端基礎設施」和相應的開發者社群，語音交互智能得以從意圖理解、對話管理、問答系統、聊天系統、推薦廣告和數據閉環展開對自然輸入輸出的技術發現，並連接不同的功能選項（如出行、購物、天氣等）和相應的 IoT 設備（如手機、汽車等）。

而從語音交互智能實驗室的研究切入點來分析，一個完整的交互過程有兩個主要環節，語音進和語音出。

從用戶說第一句話開始，首先涉及的是麥克風采集感測器的硬體技術，到麥克風陣列的信號處理；在清晰採集到語音信息之後，系統需要對語音進行正確識別；再者，對語義做出正確的判斷和理解，並結合用戶的需求獲取相應的回復；最終，合成語音達成輸出，反饋給用戶。鄢志傑還補充道，話題背後的相關數據積累，也作為整個交互過程的一個調用環節而存在。

語音交互智能實驗室每半年會迭代一次聲學模型，原來的 BLSTM（雙向長短時記憶單元，Bidirectional LSTM）到後來的 Low frame rate latency controlled 的 BLSTM，在精度上已經有了很大飛躍。而今年即將在國際聲學會議 ICASSP 2018 上做 oral 報告的 DFSMN（深度前饋序列記憶網路）。DFSMN 使用基於 BLSTM 的統計參數語音合成系統作為基線系統，採用廣泛使用的跳躍連接技術，在執行反向傳播演算法時，梯度可以繞過非線性變換。鄢志傑告訴雷鋒網 AI 科技評論，這一技術已經在阿里巴巴的實際業務中發光發熱。

除了典型的 IoT 產品，如天貓音箱、榮威智聯網汽車、天貓盒子、海爾人工智慧電視外，鄢志傑還提及了 IoT 在公共場所服務上的應用案例。去年 12 月，上海地鐵與阿里雲攜手推出了上海地鐵語音售票機。

專訪鄢志傑：阿里全面進軍 IoT，語音交互能做什麼、將做什麼？

理論要應用到 IoT 實際層面，也有著不少門檻和障礙。在實際生活的體驗和接觸中不難發現，市面上的語音交互產品多應用於家庭、辦公等安靜場景中，強噪音場景下的技術落地存在諸多難點。

首先是識別「誰在說話」的問題。語音交互智能實驗室結合攝像頭帶來的視覺數據，結合語音輸入的信息，能夠進一步確認說話者及相應的指令。視覺和語音的多模態交互配合能夠讓識別率更加精準，進一步提升強噪音場景的應用能力。
解決了「誰在說話」的問題，下一步則是更好地保證語音輸入的信息完整。在排隊買票的過程中，如何精準識別買票者的語音信息，而儘可能避免後方排隊者帶來的雜訊干擾，也是困擾語音交互智能實驗室的又一問題。通過改造麥克風陣列的立體布局，將關注點更多地定位在站在售票機前說話者身上，則成為了解決這一方法的有效手段。

而相應地，上海地鐵的硬體設施也進行了一次「大改造」，增加了光學攝像頭及面板背後的麥克風陣列，這也涉及與以感測器為代表的硬體廠商的合作。

鄢志傑也對雷鋒網 AI 科技評論表示，從 IoT 的層面上看，語音交互智能實驗室可能原本只需要研究純軟體的技術，但進軍 IoT 賽道後，包括機器智能技術研究院都要下沉到硬體，團隊的擴張有很大一部分源於聲學硬體人才的加盟，如雷鋒網 AI 科技評論曾經採訪過的馮津偉博士。

但不可忽視的一個現狀是，語音尚未成為主流的交互方式。鄢志傑經常在內部分享提一句話，「今天語音交互技術的真實水平，與用戶的期待、業界的 PR 存在明顯的鴻溝。」針對這一點，鄢志傑認為可能有兩個方式可以去著力。

首先是良好的交互設計。

交互設計本身是一門科學，它能夠通過用戶調研將主觀的體驗觀感轉化為客觀的指標。這樣一來，即使技術水平在短時間內無法有大的提升，但可以以巧妙的方式將技術的缺陷掩蓋過去。在《夏洛特煩惱》里有一個情節，沈騰告訴老大爺，自己要找馬冬梅。老大爺沒聽清，反問，「馬什麼梅」。這就是一個典型的交互案例。

如果系統在識別時沒有完全聽清，對正確理解用戶的意圖沒有把握時，聰明的交互設計可以選擇避免讓用戶直接重複所說過的話，而是換一種角度讓用戶再次重申自己的意圖。

其次是如何找到應用場景，通過有效（useful）的交互結果讓用戶產生良好的反饋（reward），並最終培養用戶習慣。

在汽車內的語音交互就是一個重要的強場景。在車載系統上用語音輸入想去的地點，在技術成熟度和交互體驗上都有了極大的提升，這也促使了正循環，逐步淘汰原有的鍵盤輸入方式。如何暢想 IoT 可能與語音交互產生關聯的場景？鄢志傑表示，「當萬物互聯，或者說萬物智聯真正走向縱深，在你一天所可能接觸的任何場景都一定會有相應的 IoT 設備。」

從商業化的角度來看，在 IoT 時代下的語音交互智能，需要將互聯網內容和服務通過 IoT 觸達用戶形成商業閉環，並做好端和雲的布局。

鄢志傑也在會上提及了阿里巴巴的研究與實踐，主要分為三個方面。

構建有深度、全鏈路、多模態的關鍵技術棧；
其次，產出低成本、易複製的智能化 IoT 方案；
再者，以打造標杆硬體為「手段」，以基礎平台建設為「目的」。天貓音箱等產品和 NUI 自然交互平台就是明證。

鄢志傑反覆重申的多模態交互概念，也讓語音交互智能實驗室不再局限於語音層面。這也就意味著，它與其他技術團隊的交流也會變得越來越頻繁和深入。鄢志傑表示，目前主要協作較多的還是計算機視覺團隊和用戶體驗的團隊。在未來，融合表情、動作等蘊含高語境的模態識別，或許也會成為人機交互的一個重點攻關方向。

在此，引用鄢志傑在年初的技術預測做為結尾：

「從 2018 年開始，人類與機器的交互方式將開始徹底擺脫任何形式的交互界面，變得更接近人與人的交互。這背後是對聽覺、視覺、觸覺，甚至味覺等多模態技術的全面融合。機器將能感知到人類在語氣語態、肢體動作、面部表情等更豐富的表達方式，從而更智能的理解人類的意圖。生活空間、交通空間、工作空間將是三個首先落地領域。」

附鄢志傑簡介：

阿里巴巴達摩院-機器智能技術研究院語音交互智能實驗室首席科學家。在 2015 年加入阿里巴巴前，就職於微軟亞洲研究院，任語音組主管研究員。畢業於中國科學技術大學訊飛語音實驗室，獲博士學位。研究領域主要包括語音識別、語音合成、說話人識別驗證、OCR/ 手寫識別、機器學習演算法等。在語音及文本識別領域頂級學術期刊及會議發表多篇論文，長期擔任語音領域頂級學術會議及期刊的專家評審，並擁有多項美國及 PCT 專利，目前是 IEEE senior member。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※專訪瓏璟光電：AR光波導模組實現量產，將應用在更多AR眼鏡
※Google 高層變動：搜索與 AI 分家，Jeff Dean 領導 AI 部門

TAG:雷鋒網 |