實現不間斷對話後，微軟小冰距離理想中的樣子又近了一步

科技 04-04

在眾多的語音助手中，微軟小冰是一個特殊的存在。作詩、唱歌、陪人聊天，即便客觀層面上小冰做的依舊並不完美，比如你和她聊天的時候，總會收到一些無厘頭的回復，但她正在一步步向著人們理想中的人工智慧靠近。

算上前幾天微軟小冰團隊召開的媒體溝通會，我和微軟（亞洲）互聯網工程院副院長、微軟小冰全球負責人李笛一共有過三次接觸。將這三次接觸連在一起，也能夠讓我們或多或少看到小冰的現在和未來。

從作詩到唱歌，小冰的「養成計劃」

去年五月底，也就是在微軟宣布小冰獨立完成詩集《陽光失了玻璃窗》之後，帶著好奇我對李笛做了一次一對一採訪。在那次採訪中，我得到了兩個現在看來很有價值的答案：小冰選擇作詩的理由和是否會進行落地。

為什麼要讓小冰去作詩？這可能是很多人的第一反應。如果單就小冰作詩這件事情本身來講，確實會讓人感覺到很突兀。

外界對此的看法大致分為兩種：一種認為詩歌作品本身的邏輯關係是跳躍的，它的讀者有很多的想像空間，所以操作起來比較簡單；另外一種截然相反的觀點則認為，詩詞是非常高超的文學形式。

不可否認的是，以上兩種觀點都有著一定的道理，但顯然這並未觸及到小冰團隊最初想要達到的目的。在那次與李笛的交談中，他肯定了「操作起來比較簡單」的說法，「相對固定的數據，是我們選擇詩歌的原因。」

而讓小冰作詩背後更重要的一點是，從 1919 年五四之後到現在，實際上中國的現代詩的詩歌風格其實變化不是很大，比較有助於小冰形成自己的風格。從某種角度上來說，作詩更像是一種訓練小冰形成風格化的方式。

當然，按照常規邏輯來講，語音助手最終是需要進行落地的。有關這個問題，李笛當時也坦誠的講到，其實包括國內外幾乎所有做人形的機器人廠商都向微軟諮詢過合作事宜，不過都被拒絕了。

原因主要有兩方面，第一個也是非常重要的一點是，彼時在他們看來沒有必要將小冰放到實體里去限制它，完全可以是純數字形態；另外還有一點是，硬體的技術和科研水平沒有達到微軟的要求。

站在今天再去回顧當時的對話，顯然「硬體的技術和科研水平沒有達到微軟的要求」是主要的原因。事實也證明，小冰團隊也一直在為其實現落地這件事情做著努力。

2017 年 6 月 13 日，在微軟聯合湛廬文化發布了由人工智慧小冰獨立完成的詩集《陽光失了玻璃窗》一個月之後，微軟再次召開朱主愛 + 小冰 · 音樂發布會，向外界展示了小冰在音樂方面的進展。

為了能夠讓小冰在音樂方面有更好的表現，微軟特意邀請了馬來西亞歌手朱主愛（Joyce），來作為小冰的實習產品經理。在朱主愛進入到微軟小冰團隊之後，小冰團隊借鑒了她的一些好的想法和建議，把小冰唱歌的模型進一步進行了優化，情感表達上面都有了突破和進展。

就小冰唱歌這件事情來講，它的意義一方面在於可以更好訓練了其情感表達能力，另外不可忽略的是一項是，這也讓小冰具備了相對不錯的發音能力，從而為未來硬體落地打下了基礎。

落地 Yeelight 語音助手

14448 人參與，籌集金額 2875152 元，完成度 722%，Yeelight 語音助手在小米眾籌交出了這樣的成績單。它的特別之處除了以上這些漂亮的數據之外，更重要的地方在於其讓微軟小冰第一次擁有了實體形態。

此次微軟小冰帶來了許多此前沒有的新特性，包括完整的智能家居設備控制技能、一次喚醒小冰後即可進行連續對話（不再需要喚醒詞）、比以往更加人性化的情感和同理心能力、獨特的「小冰姐姐」模式。

坦率來講，小冰實現落地是一件意料之中的事情。而為什麼會選擇與小米米家合作，推出 Yeelight 想要實現怎樣的目的，成為了我與李笛第二次對話的焦點。

其實過去的智能家居設備有很多測試環節，但實際上，有些用戶常用的命令可能只有固定的幾個。與諸如智能音箱等設備有所不同的地方在於，微軟小冰希望通過 EQ 的方式，去和用戶建立起一種默契。

「目前為止，包括美國和中國在內，我們還沒有見到一款設備，是因為這款設備裡面的 AI 而成功的。AI 在這個過程中，往往變成了設備的賣點，完成硬體銷售就成功了。實際上在我們看來，這還是一個雲交互的一種形勢。」

此次聯合小米生態鏈推出 Yeelight 語音助手，更多的是想要為行業帶來一些不一樣的東西，讓人工智慧成為真正的核心，來幫助設備從銷量到實際使用體驗都變得更完善，而不再只是作為一個賣點。讓設備裡面的 AI，不要淪為一個命令的操作員，而是像家庭成員一樣，在李笛眼中是比較重要的。

更加自然的全雙工語音交互感官

其實我對於此次小冰所具備的智能家居設備控制技能、更加人性化的情感和同理心能力以及獨特的「小冰姐姐」模式這三項功能並不感到意外，而真正值得關注的地方是其一次喚醒可進行連續對話。

要知道，目前包括智能音箱在內，絕大多數語音控制設備都採用了「一問一答」的交互方式。理由也很簡單，這樣的方案允許設備在技術並不足夠成熟的前提下，依舊能夠可以相對不錯的識別準確度。

但這樣的人機交互方式所存在的不足之處在於，其並不符合人們自然的交互習慣。從某種角度上來說，即便是它在準確度和回饋速度上都做到了接近完美，但可能也還是更多地停留在「工具」的層面，並非人們理想中人工智慧該有的模樣。

而對比來看，搭載了微軟小冰的 Yeelight 可以實現對話像河流一樣不間斷進行，在語音交互方式上顯然要更自然一些，微軟稱之為全雙工語音交互感官。

不顧想要實現近乎於人與人之間的交流方式，顯然並不是一件容易的事情，在前幾天的媒體溝通會上，小冰團隊也對這背後部分技術特徵進行了披露。

首先在基礎框架上，微軟沒有選擇面向單個任務的的 Turn-oriented，而是採用了面向對話全程的 Session-oriented。

同時在實際的人機交互過程中，小冰所採用的全雙工語音交互技術，在包括邊聽邊想、節奏控制器、對聲音場景的理解以及自然語言理解與生成模型等多個維度上進行了探索。

首先它建立了一套預測模型，來實現邊聽邊想。簡單來講，小冰會提前預測你想要表達的完整意思，從而實現更快的響應速度和改口能力。同時在回答你所提出的問題時，可以實現動態回應，通過有選擇的將回答分成多段，來減少你的等待時間。

另外，為了讓小冰在與人類的對話過程中可以更好的掌握時機和重要內容，它也設置了節奏控制器。當然，人與機器交互時需要它能夠很好的實現對聲音場景的理解。比如識別你的性別、對指令的正確識別等等。

還有一個重要的技術特徵是，小冰擁有自然語言理解與生成模型，從而實現更好的容錯性以及基於整個對話對上下文的理解。

綜合來講，在語音交互方式上，微軟選擇了一條短時間內可能並不容易獲得明顯效果，但上限更高的技術路徑。不難想像的是，未來隨著 Turn-oriented 框架走到極致而無法更進一步的情況下，也會有越來越多語音平台加入到這個行列中。

但顯而易見的是，早先一步開始布局 Session-oriented 框架的微軟已經領先了半個身位。從長遠來看，其將獲得更高的收益。

回過頭來看小冰這個平台，正如我們前邊提到的，雖然就目前而言它的整體體驗並不那麼完美，但其成長上限非常高。一旦未來各方面走向成熟，這個平台或許將最早成為我們理想中的人工智慧。

（頭圖來自視覺中國）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 極客公園 的精彩文章:

※360 電話手錶 X1 Pro 上手：性能強勁，但更厲害的是定位功能
※區塊鏈內容平台會是「寫作者如何賺錢的」的終極答案么？

TAG:極客公園 |