當前位置:
首頁 > 科技 > 對話微軟小冰李笛:底層框架決定發展上線 四大技術表現讓小冰更「聰慧」

對話微軟小冰李笛:底層框架決定發展上線 四大技術表現讓小冰更「聰慧」

智東西文 | 寓揚

在人工智慧的舞台上,微軟小冰可是一個明星人物,憑藉著「鄰家女孩」溫柔可人的「形象」,可謂風靡萬千少男少女。

自2014年誕生以來,在微軟亞洲互聯網工程院諸位「爸爸」的培育下,小冰也在不斷實現自身的升級,目前已經成長至第五代,除了寫詩、當主持人之外,小冰也開始與硬體相結合,落地米家生態鏈Yeelight。小冰也開始從最初的情感陪伴轉向一個面向家庭的生活助手。

近期微軟亞洲互聯網工程院副院長、微軟小冰全球負責人李笛、微軟小冰全球研發負責人、首席架構師周力首次公布了對話式AI的最新框架——Session-oriented(面向對話全程)。給智東西印象最深刻的一個觀點是,在小冰團隊看來國內對話式人工智慧整體的發展像堆積木,而沒有更多地探索底層框架的設計,這就大大限制了對話式AI的發展。微軟小冰正試圖採用一種新的底層框架,來改善現有的交互體驗。

(左為微軟亞洲互聯網工程院副院長、微軟小冰全球負責人李笛,右為微軟小冰全球研發負責人、首席架構師周力)


一、「十字路口」的陷阱

微軟小冰正在做的是「全雙工語音交互」,所謂全雙工可以理解為實時交互、雙向交互、連續交互,就像人和人打電話一樣,它可以實時的聆聽並與你溝通,這樣做的好處就在於對話式人機交互更加自然,更符合人與人交互的體驗。李笛稱目前國內的對話式AI都不能算是全雙工,最多算半雙工,而核心原因在於底層框架的限制。

他將基礎框架的理念分為兩種:Turn-oriented(面向單個任務)和Session-oriented(面向對話全程)。

所謂Turn-oriented就是面向單個任務的編程,簡單的表現就是一問一答,通過最少的多輪對話幫你把任務完成,目前國內大多數對話式AI沿用這種思路。

而Session-oriented不是這樣,它首先關注的是一個更大範圍的全程的對話,更加關注整個交互過程質量的高低。這也是目前微軟小冰採用的基礎框架。

為了更好的理解,李笛將這兩種框架的區別形象的類比為日常的事物。他將Turn-oriented比作「來自十字路口的對話」,它就像一個十字路口的「民警」,當你發出指令後,它會快速的把你引導到一個方向,完成任務後就把你拉回十字路口,然後一切歸零,如此往複。當沒有辦法把你引導到一個地方時,過去就會通過搜索引擎的方式提供一些搜索信息。這樣做的好處就是能夠快速完成任務,但它的弊端就是你一直處在十字路口,忽視過程的體驗。

相比而言,Session-oriented的對話像「河流」,它會從一個任務往下一個任務走,這個任務可能會進入到進一步的交流甚至閑聊,隨著進一步交流可能引發出新的任務,就這樣走下去。在這樣一個「河流」中,整個過程對話質量的高低要優於單個任務的完成,這樣的對話體驗就更優。

此前Facebook、亞馬遜、蘋果等採用的也是面向單個任務的交互框架,比如你跟Siri對話,每次可能只能說一兩句,否則就不能很好的完成,我們從前端上認為它不夠機制、系統不夠好,實際上是底層框架的問題。而近期種種跡象表明他們都在向Session-oriented的技術方向探索,李笛稱這將會是對話式AI未來1~2年的一個重要發展方向。

李笛進一步強調到,Turn-oriented這種面向單個任務的框架的上限決定了它未來的發展空間。一開始Session-oriented框架下的交互可能會用慘不忍睹來形容,但是一旦它越過某一個節點,就會有很大的發展空間。


二、全雙工交互四大技術細節披露

微軟小冰的全雙工語音交互正是基於Session-oriented的框架進行的,更加關注整個對話全程的交互。但要實現這樣一種全雙工、自然的交互有很多技術需要突破,微軟小冰全球研發負責人、首席架構師周力分享了四大技術進展。

第一個技術表現是「邊聽邊想」,通過預測模型和動態回應來實現。所謂預測模型是小冰不在等到用戶一句話說完再去進行語音識別,而是每聽到一個字,就會提前預測用戶整句話的完整意思。而動態回應也不意味著用戶輸入一條,AI回答一條,而是會根據提前預測的用戶意圖進行「思考」回應,並根據最新獲取的信息來調整輸出結果。

這樣做有兩個好處,一方面可以讓對話式AI的回答速度變得更快,另一方面在處理一些複雜的情況,它可以不拘泥於「我要回消息」,可以使用更好的對話策略。比如在「開燈」這個指令下,它識別這個意圖後可以先說「收到」,等這個燈真正打開之後再說已經幫你把燈打開了,體驗效果就會好很多。

第二個技術表現是「節奏控制器」。在全雙工的對話中,節奏感會變得很重要,比如用戶說的第一句話很重要,或者第一句話還有很長時間要說,這時候AI不但需要與自己協調也要與人類協調,通過不同的應對策略,來選擇重複、跳過,甚至打斷用戶。

再比如用戶突然不說話了,AI能否更具上下文拋出新的話題,或者維持既有的話題,從而打破沉默。這意味著AI將具有更多的主動性,是目前語音助手所不具備的。

第三點全雙工的語音交互可以通過分類器、環境處理、對象判斷等從而實現聲音場景的理解。首先語音身份識別是對話的基礎,首先AI要識別是男的、女的、兒童,如果要對著一個男的垮「姐姐你好漂亮」就不合適。通過對用戶喜怒哀樂的識別,也可以採用不同的對話策略,從而增強用戶體驗。

環境的處理也很重要,通過環境的識別,如果在一個嘈雜的環境中AI自然需要放大聲音,但如果是談一些私密問題時,就應該降低聲音,來體現說話的藝術。此外對象的判斷也很重要,家庭環境中AI需要通過聲紋識別識別出爺爺、奶奶、爸爸、媽媽等不同人的身份來選擇不同的對話。

第四點在於自然語言理解和生成模型。在對話過程中,AI首先需要先理解它在做什麼,從而根據場景調整對話策略。周力形象的解釋到,比如在播放故事的場景下,你想要調節音量,它可能只是燈亮一下來顯示音量的調節而不影響用戶聽故事。

而生成模型意味著小冰的每一句話都是「自創」的,每一次回答都可能根據場景進行變化,而非之前通過資料庫檢索獲得的。在一個以連續的流作為對話基石的時候,生成模型作為一種對話的技術,變得越來越重要。


三、底層框架決定發展潛力

正如微軟亞洲互聯網工程院副院長李笛所說,目前國內對話式AI大多是單個單個任務的框架設定的。智東西此前也採訪過不少做NLP(自然語言處理)的公司,如三角獸、竹間智能、驀然認知、海知智能等。NLP一直是人機交互的瓶頸所在,尤其是通用NLP更是如此,在這種情況下,處於實用主義考量,通過限定邊界場景,NLP開始落地某一具體的場景。最初為了讓AI看上去更加有用,國內大多採用基於任務導向的一問一答式對話,從而儘可能完成用戶的任務。

而微軟小冰關於Session-oriented這種「河流」式的面向整個過程的對話,聽上去很美好,基於現有的NLP技術能否實現呢?智東西便把這一問題拋給了周力。

周力坦言對於NLP的問題包括學界都還是一個沒有很好解決的問題。從小冰的角度講,他們採用的方法是各種技術的綜合,包括深度學習技術、也包括搜索技術、決策樹等,綜合起來達到一個更好的效果。

另外從全雙工的角度他繼續解釋到,自然語言處理的能力其實只是小冰實現一個很好對話其中的一個小部分,它還要包括場景識別、結構控制等。儘管從NLP來講整個業界可能還有很長的路要走,但是從客戶體驗來講,只要找對了方向,找對了路,是可以在未來一兩年有非常大的突破的。

李笛也補充到,到今天為止,他們也不能說小冰對話非常好,但這裡面框架起到了決定性的價值,當我們關注全局的時候,一地的得失,無論是我們還是用戶,一定程度都能夠諒解,但像「十字路口」式的對話就沒有辦法了。

可見在他看來,並非NLP本身變得更加重要,也並非NLP變得怎麼樣小冰的對話就會很好,他強調的重點還在於底層框架,面向整個對話過程的對話機制才有更大的潛力空間。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 智東西 的精彩文章:

MIT研發以假亂真的軟機器魚,沒有嚇到附近的海洋生物
剛剛,獵豹狂發5款機器人新品,CEO傅盛現場跳水以表決心

TAG:智東西 |