歡迎來到和機器聊天的2.0時代

最新 03-31

能夠對話的語音助手已經成了互聯網科技巨頭的標配，不管做操作系統、搜索引擎、電子商務還是硬體終端，大家都得有個人工智慧支持的女性聲音跟用戶聊幾句天。但是「你有沒有覺得跟人工智慧對話很費勁？」周力在微軟北京總部的辦公室對記者提出這個問題。

2018年3月28日，微軟小冰團隊的兩位負責人李笛和周力與科技媒體溝通了小冰在人工智慧對話領域最新的技術進展。

李笛介紹微軟眼中的人工智慧對話平台最新進展

● 為什麼跟機器對話不自然

微軟在Windows 10內置的小娜語音助手估計是普通用戶最容易接觸的智能對話機器人。但相信大家能注意到在使用語音跟小娜交流時，往往都會用比較正式的語氣口齒清晰地跟她溝通。其他語音對話機器人也不能例外，即使它們好像學會了開玩笑，用戶也很少能用放鬆的方式對著機器說話。

微軟注意到用戶在通過語音完成任務之外，人機對話的情感需求也很重要，於是另闢戰場，在2014年發布了有具體人格和個性的微軟小冰，探索在人機對話中人類情感需求的滿足。實踐證明，小冰選擇的情感計算之路在增強互動、延長對話層面有了明顯進步，每輪對話的次數遠遠超過其他對話程序。

但即使面對小冰，人類也往往不由自主地選擇比較緊張的方式進行說出語音。這其中重要的原因，周力和他的團隊認為是機器說完了人再說，一人一句輪流發言的形式並不是真正的對話。如果我們認為在語音交流層面，電話和面對面談話差不多，與人工智慧對話更像是兩個人拿著對講機交談。

用通信行業的術語來說，對講機交流是半雙工傳輸，而人類自然交談是全雙工——通信雙方可以隨時發送和接受信息，也就是可以同時說話、邊聽邊說。拿著對講機說話，因為無法得到對方的實時反饋，人們傳達的內容就會不由自主地調整到盡量清晰、簡明的程度，也就是「說話費勁「的原因。

● 對話的河流

機器跟人對話是怎麼實現的？具體的技術細節恐怕普通用戶不容易掌握，但是在大框架上，目前各大公司使用思路都差不多：收到語音之後理解用戶說的內容，從中找到對應的任務，然後想辦法完成並反饋給用戶。但這隻能實現對講機式的交流，在現有技術平台上，這種技術思路已經比較成熟。微軟認為實現持續、全雙工的感官式交流才有更大的發展空間，這就需要全新的技術框架。

現有AI對話機器人大多基於具體任務，繼續提升體驗已經比較困難

傳統實現方法被行業稱為Turn-oriented框架，微軟表示可以翻譯為面向單一任務的框架。微軟小冰全球負責人，微軟（亞洲）互聯網工程院副院長李笛向記者解釋了其中的原理：「以單一任務為目標，每一個對話就像是來到了一個十字路口。在路口中間有指揮交通的民警，每次當你輸入一個命令，民警只負責把你迅速引導到干這個事的地方去。」

「比如你要問天氣，他迅速把你引導到提供天氣內容，然後把天氣內容提煉出來，以對話的形式輸送給你。當天氣的任務完成以後，這個民警就把你拉回到十字路口中心來，一切都歸零了。然後你再問出下一個問題的時候，他發現你還要去另外一個地方，就把你引導到另外一個地方進行。」李笛用具體的例子解釋。

如果這個系統無法完成用戶要求的任務，一個意外處理功能可以實現搜索協助，給用戶展示對應的網路搜索結果，最終還是回到原點，等待下一個任務。

在人工智慧的起步階段，Turn-oriented框架可以高效、準確地實現目標任務，所以獲得了幾乎所有對話應用的青睞。但它的問題就是不像人，不能實現自然、輕鬆、持續的對話，給用戶的感覺還是在和機器打交道，自然用起來就有些費勁。

微軟認為面向對話全程的框架相比以前的實現方法能實現更自然的交互

李笛認為，新的Session-oriented框架（面向對話全程的框架）將提供自然流暢的對話體驗，有更大的發展空間。「對話像河流一樣，我們認為任何的一個自然發生的對話，都是混合的。她就像河流一樣，從一個turn往下一個turn走，這個turn可能跟任務有關，但是這個任務之後可能會進入到進一步的交流。隨著進一步的交流有可能引發出新的任務，然後再隨著新的任務引發一些知識的了解，然後走下去，持續流轉。」

與現有的實現方法相比，我們可以看到Session-oriented框架在完成單個任務完之後，系統並沒有回到原點，而是像河水流到了下游，對話進入了新的階段。如果能實現持續的對話，在其中完成多個任務，用戶的滿意程度就不再局限於單個任務的成敗，全體對話的體驗將更重要。

有些任務傳統的對話方式已經能解決，但用戶體驗不好。比如手機推薦，傳統人工智慧對話需要持續詢問很多問題才能給出比較精確的答案。任務完成了，但用戶很痛苦。而這個痛點，李笛希望能在Session-Oriented框架中得到改善。

● 從局部到整體的視角轉換

人工智慧經常被網友戲稱為人工智障，但並不能否認在特定領域它們已經能很好地完成任務甚至完勝人類，比如下棋、圖像識別等應用場景。在傳統的AI語音對話領域，完成特定任務也成為核心價值，但我們人類對交流的期望遠不止查一下天氣和講笑話。微軟這一次提出面向對話全程的理念，抓大放小，從另一個維度讓我們看到了人工智慧發展的方向。

以對話全程為考量，以往你來我往輪流發言的形式就不行了，人工智慧需要具備邊說邊聽、被打斷和恢復、甚至插嘴的能力。為了保持對話，人工智慧還需要對用戶身份、情緒有適當的理解，從而引導對話持續進行。

全雙工的語音交流模式和以往差異很大

這對現在的人工智慧研究者來說，是全新的挑戰，甚至可能需要顛覆和重組整個底層架構。微軟小冰在情感計算領域的早發優勢應該是激勵他們最先提出這個理念的資本。小冰代表的情感計算能力是保持和引導對話的基礎，而以小娜為代表的智能計算能力，則可以完成對話河流中用戶的任務。

通過對話完成任務是很重要的價值，但如果用戶覺得不方便，這些功能可能永遠被打入冷宮。」真正重要的並不是有100個、或1000個功能，而是用起來到底費勁不費勁，如果我費勁的話，你有再多的功能，我可能嘗試一下之後，就不經常使用。但如果交互變得很自然，哪怕功能很少，用戶可能也會經常去用，甚至像我們天天用手機一樣，上癮地玩。「周力表示。

李笛和周力都認為，產業現存的人工智慧對話都將遇到難以繼續成長的天花板，而以對話全程為基礎的思路，能夠提供更自然的對話體驗，將是未來的方向。包括蘋果、亞馬遜、facebook等重要的人工智慧公司都將把產品重點轉向對話的持續性。

除了軟體架構的變化，硬體感官的進步也是需要的。微軟現在還沒展示人工智慧對話的視覺能力，但根據相關信息推測，他們已經做了很多工作，或許年內我們就能看到小冰能夠觀察用戶和環境，甚至以具體的形象出現在屏幕上了。

● 從對講機升級到電話的挑戰

人工智慧對話實現從對講機半雙工到電話的全雙工，技術上需要克服的挑戰很多。周力給記者舉了幾個例子。

首先，機器需要邊聽邊想，並及時反饋。人與人的對話正是如此，我們在聽別人說話的時候已經開始思考怎麼回答了，往往對方一結束我們就能立即接上話。對人工智慧來說，就需要持續接收用戶語音，對整體意思進行預測並開始組織答案。如果等到說完了再開始處理，考慮到網路延遲以及某些任務的處理時間（比如操作智能硬體），或許要等很久才能有反應。如果用戶說完就能得到實時反應，哪怕任務結果還沒有反饋，也會是很好的體驗。

周力解釋人工智慧邊聽邊想的流程

其次，保持對話節奏，說什麼和什麼時候說也非常重要。在持續的對話中，語音是不能像微信消息一樣一氣兒發出來的。人工智慧自己需要協調先後到達的內容，哪些更重要，把更重要的東西先說出來，甚至忽略掉還沒說但已經不需要的信息。機器也可能在講話時被人打斷，那麼它應該繼續說下去，還是該收口？如果立即回應，是不是後面還需要接上自己前面的話。這些都是半雙工，或者說面向單一任務模式不存在的挑戰。

再次，如何協調不對稱的交流以及讓對話持續。面向任務的交流一般是一來一往，人和機器的溝通處於同一個量級。但是人和人的對話經常出現一個傾聽一個傾訴的情況，在人工智慧對話中，需要解決這樣的場景。在對話中，如果出現冷場，人工智慧是結束對話，還是想辦法持續話題？這也是傳統人機對話沒有怎麼考慮的問題。

還有，人工智慧如何識別對話者的身份、情緒和場景。給大人講鬼故事沒問題，但如果小朋友聽到了就不妥。說我愛你和唱我愛你，機器給出的回應也不應該一樣。對話中如果來了別人，說話者接了個電話甚至家裡電視開始播放電視劇，機器怎麼識別這樣的場景又是更複雜的問題。

很明顯，這些新的對話需求以往的任務式對話技術很難滿足。微軟小冰最初的對話引擎基於大數據搜索技術，通過學慣用戶的對話，找到最適合當前場景的回答，效果相當好。但是這種模式基本上不能讓人工智慧產生新的內容，必須依賴大數據尺度下用戶的數據貢獻。

在基於對話的場景中，微軟採用了生成模型以滿足邊聽邊想、動態調整內容的能力。周力表示，「從目前能產生的對話質量來說，（生成模型）和我們之前的搜索技術是相當的，但生成模型本身本身更適於一種引流性交互的模式。」可以期待，隨著生成模型的完善，小冰的對話能力終將超越以往的搜索技術，給交流帶來更好的體驗。

● 更自然的智能對話可以無所不在

在微軟的眼裡，以小冰為代表的人工智慧對話能力可以接入任何具備語音功能的智能設備，如果不需要物聯網硬體控制能力，對這些設備來說，接入小冰只是多一個IP語音流連接到雲端，沒有什麼複雜的開發工作。最新的案例是微軟與小米生態合作，在Yeelight語音助手中植入了小冰。用戶可以自由選擇與小米的小愛同學或者微軟小冰對話，小冰還可以控制大多數小米生態鏈的智能產品。

在幕後，小冰的技術平台實際上已經有了很多的落地應用。小冰是很多媒體的人工智慧主持人、在日本羅森便利店的智能助手、甚至已經在大多數國內的陪伴機器人中給小朋友講故事了。李笛表示，微軟小冰在國內市場上有三種合作方式。第一個是提供人工智慧解決方案，相比其他產品更關注終端產品的用戶體驗。第二還能提供內容和服務，包括資訊資源的整合，以及啟動相關任務，如智能設備的控制。第三則可以利用人工智慧的創造能力，提供內容服務。

實際上，根據搭載的硬體場景不同，儘管接入的同樣是微軟小冰，她的功能和特性也會有差異，小冰是一個可以有不同面目和功能的對話平台，而不是具體的定型產品。比如在普通的語音助手設備上，實時信息的輸入基本上只有語音，而在車載設備上，對話隨時可能被駕駛信息打斷，兩種場景下的處理方式並不相同。在微信等消息平台上，以搜索模型為主的內容可以提供更安全可靠的交流，而物聯網智能設備上的小冰可以用生成模型適應更靈活的的對話。

對話式的人工智慧現在還沒有成為不可替代的應用，甚至大多數人幾乎不用。所以有人會認為小冰只是微軟研究未來技術的一個實驗性產品，不會成為Windows 、Office這樣商業化的應用。但是別忘了，微軟兩年前就提到過一個概念：對話即平台。以小冰為代表的持續性對話能力很可能成為微軟未來某個核心業務的基石。如果把現在大多數語音對話機器人稱為1.0一代的話，以對話全程體驗為目標的微軟小冰，給我們展示了智能對話2.0時代的樣子。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 齊魯壹點 的精彩文章:

※繼續向量子霸權邁進，谷歌開發72位量子比特計算機
※特斯拉員工爆料稱零件缺陷導致Model 3暫停生產

TAG:齊魯壹點 |