對話微軟小冰李笛：底層框架決定發展上線四大技術表現讓小冰更「聰慧」

科技 03-31

智東西文 | 寓揚

在人工智慧的舞台上，微軟小冰可是一個明星人物，憑藉著「鄰家女孩」溫柔可人的「形象」，可謂風靡萬千少男少女。

自2014年誕生以來，在微軟亞洲互聯網工程院諸位「爸爸」的培育下，小冰也在不斷實現自身的升級，目前已經成長至第五代，除了寫詩、當主持人之外，小冰也開始與硬體相結合，落地米家生態鏈Yeelight。小冰也開始從最初的情感陪伴轉向一個面向家庭的生活助手。

近期微軟亞洲互聯網工程院副院長、微軟小冰全球負責人李笛、微軟小冰全球研發負責人、首席架構師周力首次公布了對話式AI的最新框架——Session-oriented（面向對話全程）。給智東西印象最深刻的一個觀點是，在小冰團隊看來國內對話式人工智慧整體的發展像堆積木，而沒有更多地探索底層框架的設計，這就大大限制了對話式AI的發展。微軟小冰正試圖採用一種新的底層框架，來改善現有的交互體驗。

(左為微軟亞洲互聯網工程院副院長、微軟小冰全球負責人李笛，右為微軟小冰全球研發負責人、首席架構師周力)

一、「十字路口」的陷阱

微軟小冰正在做的是「全雙工語音交互」，所謂全雙工可以理解為實時交互、雙向交互、連續交互，就像人和人打電話一樣，它可以實時的聆聽並與你溝通，這樣做的好處就在於對話式人機交互更加自然，更符合人與人交互的體驗。李笛稱目前國內的對話式AI都不能算是全雙工，最多算半雙工，而核心原因在於底層框架的限制。

他將基礎框架的理念分為兩種：Turn-oriented（面向單個任務）和Session-oriented（面向對話全程）。

所謂Turn-oriented就是面向單個任務的編程，簡單的表現就是一問一答，通過最少的多輪對話幫你把任務完成，目前國內大多數對話式AI沿用這種思路。

而Session-oriented不是這樣，它首先關注的是一個更大範圍的全程的對話，更加關注整個交互過程質量的高低。這也是目前微軟小冰採用的基礎框架。

為了更好的理解，李笛將這兩種框架的區別形象的類比為日常的事物。他將Turn-oriented比作「來自十字路口的對話」，它就像一個十字路口的「民警」，當你發出指令後，它會快速的把你引導到一個方向，完成任務後就把你拉回十字路口，然後一切歸零，如此往複。當沒有辦法把你引導到一個地方時，過去就會通過搜索引擎的方式提供一些搜索信息。這樣做的好處就是能夠快速完成任務，但它的弊端就是你一直處在十字路口，忽視過程的體驗。

相比而言，Session-oriented的對話像「河流」，它會從一個任務往下一個任務走，這個任務可能會進入到進一步的交流甚至閑聊，隨著進一步交流可能引發出新的任務，就這樣走下去。在這樣一個「河流」中，整個過程對話質量的高低要優於單個任務的完成，這樣的對話體驗就更優。

此前Facebook、亞馬遜、蘋果等採用的也是面向單個任務的交互框架，比如你跟Siri對話，每次可能只能說一兩句，否則就不能很好的完成，我們從前端上認為它不夠機制、系統不夠好，實際上是底層框架的問題。而近期種種跡象表明他們都在向Session-oriented的技術方向探索，李笛稱這將會是對話式AI未來1~2年的一個重要發展方向。

李笛進一步強調到，Turn-oriented這種面向單個任務的框架的上限決定了它未來的發展空間。一開始Session-oriented框架下的交互可能會用慘不忍睹來形容，但是一旦它越過某一個節點，就會有很大的發展空間。

二、全雙工交互四大技術細節披露

微軟小冰的全雙工語音交互正是基於Session-oriented的框架進行的，更加關注整個對話全程的交互。但要實現這樣一種全雙工、自然的交互有很多技術需要突破，微軟小冰全球研發負責人、首席架構師周力分享了四大技術進展。

第一個技術表現是「邊聽邊想」，通過預測模型和動態回應來實現。所謂預測模型是小冰不在等到用戶一句話說完再去進行語音識別，而是每聽到一個字，就會提前預測用戶整句話的完整意思。而動態回應也不意味著用戶輸入一條，AI回答一條，而是會根據提前預測的用戶意圖進行「思考」回應，並根據最新獲取的信息來調整輸出結果。

這樣做有兩個好處，一方面可以讓對話式AI的回答速度變得更快，另一方面在處理一些複雜的情況，它可以不拘泥於「我要回消息」，可以使用更好的對話策略。比如在「開燈」這個指令下，它識別這個意圖後可以先說「收到」，等這個燈真正打開之後再說已經幫你把燈打開了，體驗效果就會好很多。

第二個技術表現是「節奏控制器」。在全雙工的對話中，節奏感會變得很重要，比如用戶說的第一句話很重要，或者第一句話還有很長時間要說，這時候AI不但需要與自己協調也要與人類協調，通過不同的應對策略，來選擇重複、跳過，甚至打斷用戶。

再比如用戶突然不說話了，AI能否更具上下文拋出新的話題，或者維持既有的話題，從而打破沉默。這意味著AI將具有更多的主動性，是目前語音助手所不具備的。

第三點全雙工的語音交互可以通過分類器、環境處理、對象判斷等從而實現聲音場景的理解。首先語音身份識別是對話的基礎，首先AI要識別是男的、女的、兒童，如果要對著一個男的垮「姐姐你好漂亮」就不合適。通過對用戶喜怒哀樂的識別，也可以採用不同的對話策略，從而增強用戶體驗。

環境的處理也很重要，通過環境的識別，如果在一個嘈雜的環境中AI自然需要放大聲音，但如果是談一些私密問題時，就應該降低聲音，來體現說話的藝術。此外對象的判斷也很重要，家庭環境中AI需要通過聲紋識別識別出爺爺、奶奶、爸爸、媽媽等不同人的身份來選擇不同的對話。

第四點在於自然語言理解和生成模型。在對話過程中，AI首先需要先理解它在做什麼，從而根據場景調整對話策略。周力形象的解釋到，比如在播放故事的場景下，你想要調節音量，它可能只是燈亮一下來顯示音量的調節而不影響用戶聽故事。

而生成模型意味著小冰的每一句話都是「自創」的，每一次回答都可能根據場景進行變化，而非之前通過資料庫檢索獲得的。在一個以連續的流作為對話基石的時候，生成模型作為一種對話的技術，變得越來越重要。

三、底層框架決定發展潛力

正如微軟亞洲互聯網工程院副院長李笛所說，目前國內對話式AI大多是單個單個任務的框架設定的。智東西此前也採訪過不少做NLP（自然語言處理）的公司，如三角獸、竹間智能、驀然認知、海知智能等。NLP一直是人機交互的瓶頸所在，尤其是通用NLP更是如此，在這種情況下，處於實用主義考量，通過限定邊界場景，NLP開始落地某一具體的場景。最初為了讓AI看上去更加有用，國內大多採用基於任務導向的一問一答式對話，從而儘可能完成用戶的任務。