劉鐵岩團隊ICML論文提出機器學習的新範式：對偶監督學習

最新 07-07

300 + 明星創業公司，3000 + 行業人士齊聚全球人工智慧與機器人峰會 GAIR 2017，一同見證 AI 浪潮之巔，大會明天開幕！目前僅剩少量余票，有需要的朋友抓緊最後的機會！

AI 科技評論消息，微軟亞洲研究院（MSRA）劉鐵岩團隊近日在arXiv上傳了一篇論文，論文標題為「Dual Supervised Learning」（對偶監督學習）。據了解，這篇論文已經被即將於今年8月舉行的ICML接受。論文中展示了對偶監督學習的機器學習範式在機器雙語翻譯、圖像分類與生成、情感分析與分析三組任務中都可以為原模型帶來明顯的提升。

ICML2017論文：對偶監督學習

另一方面，去年微軟亞研有一篇NIPS論文「Dual Learning for Machine Translation」（用於機器翻譯的對偶學習），雷鋒網硬創公開課也曾邀請到論文作者之一的微軟亞研主管研究員秦濤博士給大家做了詳細的分享(微軟亞洲研究院秦濤：對偶學習的對稱之美 - AI科技評論，秦濤博士同樣也是今年新論文的作者之一）。

秦濤博士作客雷鋒網硬創公開課

那麼，NIPS2016論文的「對偶學習」與今年ICML2017論文的「對偶監督學習」有何異同點？對沒有接觸過的讀者，對偶學習又是怎樣的一種範式？AI 科技評論在本文中會先介紹和回顧對偶學習，然後再講解對偶監督學習的新特點。

NIPS2016論文介紹的新範式——「對偶學習」

在 AI 發展面臨的關於數據、時間、解釋性、協作性的眾多挑戰中，對偶學習的提出主要是為了解決依賴大量數據的問題。相比標籤傳播（Label Propagation）、多任務學習（Multi-task Learning）、遷移學習（Transfer Learning）這樣利用數據相似性的解決方法，對偶學習（Dual Learning）利用的是 AI 任務中自然出現的對稱性。比如：

機器翻譯，有英翻中和中翻英的對稱；

語音處理，需要語音轉文字（語音識別），也有文本轉語音（語音合成）的任務；

圖像理解，圖像描述（image captioning）與圖像生成（image generation）是一個對稱的過程；

對話任務，問題回答（Question answering）與問題生成（Question generation）；

搜索引擎，文本匹配查詢（Query-document matching）與廣告關鍵詞推薦服務（Query/keyword suggestion）

如上這些任務以往都是單獨訓練的，而且要利用大量的有標籤數據才能訓練。那麼如果考慮到任務的對稱性，一個英文句子被翻譯成英文，再從中文翻譯成英文，還能跟一開始的句子非常相近的話，就可以認為「英翻中」和「中翻英」兩個翻譯器都表現很好；而且所用的句子還可以是無標籤的。

NIPS2016對偶學習論文的模型示意圖

如圖就是對偶學習的模型示意圖，主任務 f 把無標註英文句子 x 翻譯為中文 y，對偶任務 g 把中文 y 翻譯回中文 x 。模型從過程中得到兩個反饋，一個部分反饋是來自懂中文的智能體，評價中文 y 的翻譯質量如何；另一個反饋是來自懂英文的智能體，比較 x 和 x 獲得反饋。這樣，一個流程結束以後，模型就可以獲得完整反饋。

NIPS2016對偶學習論文的策略梯度示意圖

有了反饋，就可以把強化學習的一些方法直接用於訓練更新模型 f 和 g 。論文中所用的方法為策略梯度 policy gradient，對主任務 f 和對偶任務 g 求梯度，增加好的行為出現的概率，降低不好的行為出現的概率。

另一方面，由於只有單一輸入，由兩個智能體自己產生反饋，不需要把翻譯結果與輸入對應的標籤對比，所以這是一種無監督學習方法。

對偶學習的效果如何呢？在使用了1200萬個雙語標註句的英法翻譯實驗中，相比於2016年時效果最好的基於深度神經網路的機器翻譯演算法（Neural Machine Translation），對偶學習只需要其中10%的雙語數據就可以達到NMT採用了全部數據進行訓練的準確度。訓練所需數據量可以減少90%，很好地達成了預期效果。

NIPS對偶學習論文的訓練結果示意圖

根據秦濤博士介紹，對偶學習有一個問題是很難冷啟動，即需要先對主任務和對偶任務的兩個智能體進行一定的訓練後才能夠利用對偶學習進行聯合反饋訓練，否則模型收斂會變得很慢。

ICML2017新論文——對偶監督學習

既然以上的無監督對偶學習有這麼好的效果，要如何運用於監督學習中呢？

還是以翻譯為例，在監督學習中，當知道主任務 f 應該得到的正確翻譯為 y 之後，就可以用最大似然準則更新 f，使 y 出現的概率越大越好。

對於對偶監督學習，需要主任務 f 和對偶任務 g 都能出現正確翻譯 y 與 x，這樣就會存在一個聯合概率 P( x,y )。如果 f 與 g 的更新是同步的，通過 f 和 g 都可以單獨計算出這個聯合概率。但如果 f 和 g 是根據監督學習分開訓練的，就不能保證單獨計算出的聯合概率相同。

為了解決這個問題，論文中為對偶監督學習增加了一項正則化項。

ICML2017對偶監督學習論文的模型示意圖

這個正則化項的含義是將 f 得到正確結果 y 和 g 得到正確結果 x 兩個概率的差值最小化，從而通過結構的對稱性加強了監督學習過程，讓兩個互為對稱的任務共同進行學習。

在學習過程中共優化三個損失函數：

1）從帶標籤輸入 x 經主任務 f 得到 y 的對數似然

2）從對偶輸入 y 經對偶任務 g 得到 x 的對數似然

3）以上兩個對數似然的差值，即正則化項。

這與SVM正則化項的區別在於，SVM的正則化項與模型有關，與數據無關；但對偶監督學習中討論的正則化像還與數據相關。由於具有了這樣的正則化項，每個訓練數據都能夠參與到正則化項中，而且主任務、對偶任務的兩個模型可以互相影響。

根據優化過程的特點，論文中還一併指出了對偶監督學習的適用條件：

1）有兩個任務，它們之間具有對稱性

2）主任務和對偶任務都是可訓練的

3）模型出現理想結果的經驗概率是可求的

如文章開頭所述，圖像、文本、語音相關的許多任務是滿足這些條件的。

對偶監督學習的效果

論文中在機器翻譯、圖像分類、情感分析三種任務測試了對偶監督學習的效果，都證明了可以帶來顯著的提升。

機器翻譯

論文中先分別對主任務、對偶任務的模型進行一定訓練後，用對偶監督學習的方法進行聯合訓練。與目前翻譯效果最好的NMT與MRT神經網路機器翻譯相比，BLEU分數得到了進一步提升。

圖像分類

與機器翻譯不同，圖像分類與圖像生成的過程存在信息損失。這導致目前圖像生成的效果不盡如人意而且提高困難。根據對偶監督學習能夠減少兩個任務間概率差值的特點，我們可以期待對偶監督學習能夠更好地從標籤恢復圖像。

表現對比中選用的基準模型是PixelCNN++，不出意外地，基於CIFAR-10的bpd分數從2.94進步到了2.93，即便只有0.01的提高也非常難得。實際生成的圖像對比如下圖：

每一橫行的圖像是從同一個類別標籤生成的結果；左邊五個來自基準模型，右邊五個來自對偶監督學習模型。圖像質量有可見的提升，尤其對於第3、4、6行的鳥、貓、狗。

不止是生成，經過對偶監督學習訓練後的 ResNet-32 和 ResNet-110 兩種不同複雜度的網路識別效果也都得到了提升。

情感分析

對句子做正向/負向情感分析，或者根據給定的正向/負向情感反向生成句子，這個過程中的信息損失非常嚴重，只留下了1bit的信息而已。論文中認為對句子做情感分析的結果提升比較微小，這是其中的原因之一。基準模型選用的是LSTM。

不過到了反向生成句子的時候，經過對偶監督學習的模型展現出了強大的表現力，對簡單短句的使用變少了，並且選用的單詞、詞語、句式表達出的情感更強烈、更具體。（加粗的為論文中認為精彩的句子）

後續研究目標

論文在結尾處表示，以上的例子已經可以說明對偶監督學習的提升效果，後續也會在更多任務中進行嘗試（比如文本/語音轉換）。同時，如何把無標籤對偶學習和對偶監督學習結合起來，利用無標籤數據繼續提升模型表現，以及嘗試把對偶監督學習與對偶推理（dual inference）結合起來以便利用結構對稱性來增強訓練和推理過程也是劉鐵岩團隊後續打算研究的方向。

論文地址：https://arxiv.org/abs/1707.00415， AI 科技評論編譯

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器學習 的精彩文章:

※2017 知乎·看山杯機器學習挑戰賽開始了！
※人工智慧的落地點—監督式機器學習
※機器學習演算法在自動駕駛領域的應用大盤點
※全球500強個性化學習平台EdCast收購機器學習技術公司Sociative
※GANs為何引爆機器學習？這是篇基於TensorFlow教程

TAG:機器學習 |

您可能感興趣

※斯坦福大學＆DeepMind聯合提出機器人控制新方法，RL＋IL端到端地學習視覺運動策略
※DeepMind提出新型SACX學習範式，從零開始訓練機器人解決複雜任務
※DeepMind提出「SACX」學習範式，訓練機器人解決稀疏獎勵任務
※NLP、機器學習在CRM前沿探索和實踐
※斯坦福聯合DeepMind提出將強化學習和模仿學習相結合
※新興技術：Senvol為美國海軍開發3D印表機學習軟體
※CMU、NYU與FAIR共同提出GLoMo：遷移學習新範式
※《中國大學MOOC》媒體輔助英語教學的學習過程
※美媒介紹IARPA機器學習研究現狀
※DeepMind新研究：使用強化對抗學習合成圖像程序
※GPU訓練機器學習模型哪家強？AWS、谷歌雲、IBM等6大平台對比
※華茂國際學校講座「如何在家庭教育中實踐IB主題式探究學習法」
※蘋果攜手IBM將機器學習引入企業iOS設備
※Python編程與機器學習研討會
※Google 發布官方中文版機器學習術語表
※系統學習PHP之API介面
※基於腦影像的機器學習工具包PRoNTo介紹
※DeepMind發布通用強化學習新範式，自主機器人可學會任何任務
※重磅：DeepMind發布通用強化學習新範式，機器人可學會任何任務
※資策會打造ALL＋智慧學習實驗室結合 EduAI 人工智慧