GMIS 2017大會俞凱演講：邁向智能認知型對話交互

新聞 05-28

全球機器智能峰會（GMIS 2017），是全球人工智慧產業信息服務平台機器之心舉辦的首屆大會，邀請了來自美國、歐洲、加拿大及國內的眾多頂級專家參會演講。本次大會共計 47 位嘉賓、5 個 Session、32 場演講、4 場圓桌論壇、1 場人機大戰，兼顧學界與產業、科技巨頭與創業公司，以專業化、全球化的視角為人工智慧從業者和愛好者奉上一場機器智能盛宴。

5 月 28 日，機器之心主辦的為期兩天的全球機器智能峰會（GMIS 2017）進入第二天，全天議程中最受關注的是多位重要嘉賓出席的領袖峰會，包括《人工智慧：一種現代方法》的作者 Stuart Russell、第四範式聯合創始人兼首席科學家楊強、科大訊飛執行總裁兼消費者事業群總裁胡郁、阿爾伯塔大學教授及計算機圍棋頂級專家Martin Müller、Element AI 聯合創始人 Jean-Sebastien Cournoyer 等。

上午，上海交通大學教授、思必馳聯合創始人、首席科學家俞凱教授發表了主題為《邁向智能認知型對話交互》的演講，他探討分享了目前語音領域的機遇和挑戰，以及如何邁向智能認知型對話交互，以下是該演講的主要內容：

GMIS 2017大會俞凱演講：邁向智能認知型對話交互

近期Gartner發了一個報告，2017年全世界物聯網設備的數量首次超過了人類的數量，達到了80多億，全世界人類數量大概是75億，預計2020年整個的數量會到204億。這些新興的物聯網設備中最重要的特點是小屏、無屏，而且是大量，這種情況下想要進行複雜的信息交互，傳統的手段就變得非常有限，而語音和語言就變成最主要的手段之一，這也就是為什麼近年來口語對話交互得到非常重大的發展，智能對話助理的蓬勃發展也驗證了這一點。

俞凱的演講從這件當下非常熱的事情入手，具體講述目前對話交互領域已經解決的問題有哪些，尚未解決的難點是什麼，以及背後的理論是怎樣的。

GMIS 2017大會俞凱演講：邁向智能認知型對話交互

俞凱認為，對話交互，無論是研究還是工程都是要解決一個問題，就是「端到端的非配合的自然口語交互系統」，這當中與之前相比更值得關注的是「非配合」，俞凱談到，這三個字實際上是所有難點的源頭。

在整個系統的架構裡邊，要解決的無非就是兩大類問題，一類是感知，一類是認知。感知是以識別為代表的，認知則是以決策，包括知識處理為代表的。

GMIS 2017大會俞凱演講：邁向智能認知型對話交互

最先講到的是感知的語音識別。從精度的角度來看，去年微軟發布了一個重要突破，在著名的對電話語音識別的任務上，首次機器的系統達到了人的水平，達到了5.9，基本上逼近了人類的水平。而俞凱團隊在上海交通大學做到的另外一個突破是在抗噪語音識別上。在國際通用的測試集上，2015年、2016年在單系統上已經到了7.1。這個抗噪識別是比較低的。所以精度上，如果不考慮任何其他的條件，錄好的東西，切好了，讓機器去算，其水平其實已經快接近人類了。

從速度方面來看，如果這些系統不考慮是不是實時系統，即1秒鐘的語音可以花超過5倍、10倍的時候計算它，但真正做語音識別的時候不得不考慮實時的問題。

GMIS 2017大會俞凱演講：邁向智能認知型對話交互

兩三年前，業界提出了一種新的模型，叫做CTC。這種模型很重要的一個特點是，它會出現所謂的後驗處理的尖峰。俞凱教授表示，「這種尖峰給了一個啟示，在實際搜索中，右邊這個圖上面大家能看到，上面紅色的部分是以馬爾可夫鏈模型的結果，下面的是CTC的結果。最大的不同就是在大的識別點上面其實我們完全可以把這些體系徹底的拋棄。」

之前的語音識別辦法都是逐幀的進行搜索，現在能在監控上進行搜索，和以前的結果相比，這種辦法大概把語音識別的速度提升了3—4倍，所以在語音識別的速度上得到了很大的提升。

語音識別取得了巨大的進展，然而目前仍然存在著非常多的問題。目前最難解決的問題是「非配合」。

GMIS 2017大會俞凱演講：邁向智能認知型對話交互

在哪些方面的「非配合」呢？第一類是信號，實時的語音識別的轉寫系統，都有一個條件，需要環境是來進行配合。俞凱舉例說到，比如講話時麥克風放在講話者的嘴邊，但是如果去進行遠場的識別、去進行較大噪音情況下的語音識別，這時聲音定位遠場處理就變得非常重要。另外，語音識別過程中會涉及到語言範圍，假如在預先知道別人想要說什麼，在這種配合式的狀態之下，語言模型會非常好，語音識別的效果也非常好。通用的語音識別，轉寫效果可能非常好，但遇到很專業的東西時轉寫效果可能就會不佳。

俞凱認為，「對話交互的最大難點在於認知，認知最大的問題是，到底這個問題是什麼，我們並不確切的知道。」認知智能很難找到確切的方向，拿口語交互為例子。從對話分解的角度上來說，按照說話交互的倫次以及結構化語義引入的程度來分別，大概有四種，命令式的、線條式的、問答式的、任務式的。

線條式的，基本上一問一答，不太在乎背後的結構的語義是什麼，只要求看起來像是人說的就可以。任務式，主要解決具體的推介問題，比如任務型的東西需要尋找一個導航的結果、需要買一個咖啡，是任務型，必須解決多輪交互上的問題，需要把知識嵌入進去。所以幾種方式目前解決方案是不一樣的，目前還沒有完全的框架來解決它。認知過程中不單包括了靜態的理解，還包括了動態的交互控制，它要解決的事情就是決策的過程。

GMIS 2017大會俞凱演講：邁向智能認知型對話交互

現在大數據和深度學習能否把遇到的問題都解決掉？首先，在自然語言處理界，在做認知的過程當中，最廣泛應用的一種就是深度序列學習，尤其是基於注意力機制的這樣的深度序列學習，這種在機器翻譯包括問答上面已經取得了非常好的效果，但是它真的是通過了理解去做問答嗎？舉一個很著名的例子，微軟研究院提出的任務SQuAD，就是閱讀理解的任務，給一段話讓機器去讀，提問一些問題，機器需要在給定的閱讀材料中找到答案。一般想到這件事情聽起來是需要人理解的，看似在最好的系統裡面已經非常接近人的指標了，幾乎跟人找到的答案是非常一致的。但這是否證明已經達到了人的水平？

俞凱解釋說，「幾乎所有最好的模型，都會把這個問題建模成另外一件事，會建模成我根本不去理解你，我是要去預測，我把所有的文字編號，我預測我要回答的這個答案開始的這個編號，比如第5個詞，以及結束的編號，比如第7個號，通過機器學習的影射，通過一系列的演算法，通過給定的問題我們預測它的答案，開始的編號和結束的編號，這個東西沒有辦法解釋的，還是黑箱的東西。」俞凱希望做到這些事情可解釋，可解釋的最大好處是能夠控制它。

此外，在俞凱看來，強化學習是未來機器可以學的更好，非常重要的發展方向。其實強化學習在人機交互中已經被認為是一個大方向，但無論是研究機構還是工業機構，沒有任何一家有全強化學習的系統，能夠直接在線上服務，而都是一些混合一點的或者主要以規則為主的。在現實當中是存在問題的，第一個問題，冷啟動的問題。AlphaGo在第二個版本上面是通過隊列變得越來越好的，而對話能不能隊列，如果對話想要隊列的話，除了有回答的機器人，還有要有像用戶問題的機器人，需要造兩個機器人，難度是非常大的。所以很多強化學習訓練的離線系統，沒有辦法達到現在通過規則、通過其他的方式高度優化的在線商業系統的水平，要真上線就會影響用戶的體驗，所以冷啟動是特別大的問題。

第二個問題，在現有的強化系統裡面往往都是對特定領域的，如果換一個領域怎麼辦，如果深挖一些問題怎麼辦，對於語音識別相對好一點，對語音強化領域的策略需要解決策略進化的問題，這種進化在線上進化，又不影響用戶體驗，現在還處在摸索當中。

GMIS 2017大會俞凱演講：邁向智能認知型對話交互

除「深度學習+大數據」解決未來對話交互的問題，俞凱還認為交互的時機非常重要。他分析到，「當兩個人說話的時候，很多時候不用等你說完就知道你說什麼了，或者等你說了半句對方已經可以知道答案，就直接告訴你，我要打斷你。打斷你的時候不單單是語音識別的問題，我切斷了你的語義，並且還要預測你的語義才能去回答。」這個過程當中什麼時間切入最為自由，什麼時間切入最為恰當，就變成了交互時機的問題。「如果之前我們所研究的主要範疇是What to answer，現在我們要研究的範疇是When to answer」俞凱說。

另外一個問題是用戶異常的處理，在交互過程當中難免會有語音識別的錯誤、語音理解的錯誤，甚至交互策略的錯誤，這樣的事情在現有的深度學習的框架下面還沒有辦法解決。

除了「深度學習+大數據」是現在流行的東西，大數據之外還有什麼？就是小數據，這是未來研究發展和業界發展的趨勢。

GMIS 2017大會俞凱演講：邁向智能認知型對話交互

第一個比較熱的方面，就是所謂的自適應。

在這個裡面，尤其在對話交互當中，語義理解的自適應要遠比語音識別的自適應來得重要，而自適應當中對於一般被稱為Text這樣的自適應，不如對所謂的本體自適應，就是你想要理解的範圍它的擴充或者它的計劃這樣的自適應來的重要，所以這方面的遷移學習是最近在學界也比較熱、在產業界也是大家都盯著的一個非常重要的點。

另外，大數據不能解決所有的問題。人類的知識是在更多的大數據的基礎之上，經過了人類這種思考和沉澱積累所得的這樣的結晶，這樣的結晶就會變成我們來進行進一步處理的，尤其是在進行非結構化小數據處理的關鍵，所以如何去開發知識與數據聯合驅動這樣的模型，這是大數據之外我們所要去面臨的挑戰，也是真正未來能夠產生下一波最大紅利的一個挑戰。

俞凱整個演講提出這樣一個觀點，就是「智能的感知+認知的進化」，是未來人機口語對話系統發展的重要方向

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※GMIS 2017 簡仁賢演講：人機對話，從猜測、概率到理解
※GMIS 2017 第一天亮點全面盤點：從機器學習到交叉學科
※Stuart Russell：AI的過去、現在和未來
※GMIS 2017 大會胡郁演講：人工智慧+共創新世界

TAG:機器之心 |

您可能感興趣

※聯邦學習、AutoML、認知智能：市北·GMIS 2019帶你一覽AI前沿技術
※AAAI 2019論文解讀：機器人和認知學習
※阿里認知智能計算平台AliGraph獲WAIC2019先鋒獎
※「NCT」「分享」190424 關於年齡的認知，NCT DREAM為什麼變了這麼多？
※華為Mate 20 Pro評測：刷新你對手機的認知
※2018國際CMF設計獎，一起開啟CMF認知之路
※「TFBOYS」「新聞」190604 王俊凱迷之自我認知，咱也不敢說咱也不敢問
※顛覆傳統認知 ALIENWARE AREA51 R5 評測
※OPPO MWC 2019實力爆表 4月新系列刷新認知
※刷新你的認知：華為Mate 20亮點功能早知道
※W3C 的認知
※顛覆認知的7款手機，來自MWC2019
※午夜表情 | 2018 SIHH：對腕錶美學的重新認知和解讀。（第197期視頻）
※2018CES Asia影創科技新品齊上陣，智能黑科技顛覆傳統認知
※順豐豐修刷新售後認知驚艷亮相CES Asia 2019
※IDC：全球認知和AI開支今年將增長54.2％達191億美元
※華為MateBook13打破性能認知誰說i3是弱點？
※顛覆傳統認知創維OLED電視65W8深度評測
※噪！躁！造！TEDxFactory798 2018年秋季大會「ZAO」，打破認知，重構自己
※8000mAh的國產「續航怪獸」，刷新你對手機電容量的認知！