「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

新聞 06-29

新智元報道

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

北美計算機華人學者協會（Association of Chinese Scholars in Computing，ACSIC）的使命是通過協助和促進成員對社會的貢獻，推進計算科學技術和教育。

ACSIC 通過提供成員之間的信息交流和協作機會，提高會員的知名度和獎學金，組織社會和技術活動，以及與其他科技機構和企業合作來實現其使命。

第一屆北美計算機華人學者年會暨計算技術前沿研討會（The First ACSIC Symposium on Frontiers in Computing，SOFC）於 2017 年 6 月 9-10日在芝加哥舉行。會議旨在：（1）探討計算技術的前沿問題；（2）促進華人計算機學者的交流與合作；（3）凝聚華人計算機學者的共識。

在本次會議上，以下華人計算機學者發表了主旨演講：

Ming Li，滑鐵盧大學（ACM Fellow, IEEE Fellow）
Bing Liu，伊利諾伊大學芝加哥分校（ACM Fellow, AAAI Fellow, IEEE Fellow）
Yuan Xie，加州大學聖巴巴拉分校（IEEE Fellow）
Lixia Zhang，加州大學洛杉磯分校（ACM Fellow, IEEE Fellow）
Xiaodong Zhang，俄亥俄州立大學（ACM Fellow, IEEE Fellow）
Yuanyuan Zhou，加州大學聖地亞哥分校（ACM Fellow, IEEE Fellow）

主旨演講話題覆蓋了計算機系統、網路、體系結構、演算法、人工智慧等計算機科學的幾個大方向。會議還就「計算前沿技術」（Frontiers in Computing）舉辦了論壇。

其中，伊利諾伊大學芝加哥分校的劉兵教授，演講題目為《打造終身學習的機器》，涉及「終身機器學習」（Lifelong Machine Learning，LML）的概念與機器學習密切相關。

下面就是劉兵教授的 PPT 全文。

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

終身機器學習

劉兵

伊利諾伊大學芝加哥分校計算機科學系

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

經典學習範式（ML1.0）

孤立的單任務學習：給定一個數據集，運行一個ML演算法，然後構建一個模型。

沒有考慮任何以前學的知識

「孤立學習」的弱點：學到的知識沒有保留或積累，也就是說，沒有記憶。

需要大量的訓練示例。
適用於限制環境中有明確定義的狹義任務。
不能自我激勵和自我學習

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

機器學習：ML 2.0

人類從來不是孤立地學習的：人類是連續學習

積累過去學到的知識，並利用它們去學習更多知識；
高效地從少量示例學習，並自我激勵。

終身機器學習（LML）：

模仿人類的這種學習能力

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

人類不是孤立地學習的

沒有人會給我1000個正面的和1000個負面的汽車評論，然後讓我建一個分類器去給汽車評論分類。
我可以不需要任何評論來訓練就可以做到這些，因為我已經知道人們是如何讚美和貶損事物。
如果我沒有積累的知識，我不可能做到這些。比如說，我完全不懂阿拉伯語，即使有人給我2000個用阿拉伯語寫的正面/負面評論來訓練，我也不可能學會。

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

大綱

終身學習的定義
基於全局知識的終身學習
基於局部知識的終身學習
自我意識和自我激勵的學習
利用圖形的終身學習
測試或執行中的學習
總結

終身學習的定義

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

LML的定義

學習者從1到N完成一系列任務的學習。
在面對第（N + 1）個任務時，它使用知識庫（knowledge base，KB）中的相關知識來輔助學習第（N + 1）個任務。
在學會第（N + 1）個任務後，將第（N + 1）個任務的學習結果更新到知識庫。

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

終身機器學習系統（示意圖）

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

LML的主要特徵

連續學習過程：不僅在訓練過程學習，而且在模型使用或執行中學習
知識被保留和積累在知識庫：具有更多的知識
使用並適應過去學習的知識，以幫助未來的學習和解決問題

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

遷移學習，多任務學習 →終身學習

遷移學習 vs. LML

遷移學習是不連續的
遷移學習不保留或積累知識
遷移學習只有一個方向：幫助目標領域

多任務學習vs. LML

多任務學習除了保留數據外，不保留知識
當任務有很多時，很難重新學習

在線的多任務學習就是LML

基於全局知識的終身學習

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

共享知識的兩種類型

全局知識（Global knowledge）：許多現有的LML方法假設在共享的任務中存在一個全局的潛在結構（global latent structure）。

這種全局結構可以在新任務的學習過程中學到和利用。
這些方法來自多任務學習。
任務應該來自同一領域。

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

ELLA：有效的終身學習演算法

ELLA基於GO-MTL，一種批處理多任務學習方法。
ELLA是在線多任務學習方法，更高效並能處理大量任務。ELLA是一種終身學習方法，可以高效地添加新任務的模型，每個過去任務的模型都可以快速更新。

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

方法：共享的全局知識

每個模型的參數向量「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）是權重向量和基本模型參數L的線性組合，公式如：（Kumar et al.，2012）。

初始目標函數如PPT上所示。

基於局部知識的終身學習

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

兩種類型的知識

局部知識（Localknowledge）：其他的許多方法不具有任務之間的全局潛在結構。
在學習新任務時，它們根據新任務的需要選擇要使用的先驗知識。這些只是被稱為局部知識，不具有連續的全局結構。
局部知識可以跨領域共享。

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

終身情感分類

目標：將文檔或句子分類為+或-。需要人工對每個領域的大量訓練數據進行標記，這是很大的勞動量。

那麼，我們可以不必為每個領域的數據進行標記，或至少減少要標記的文檔/句子數量嗎？

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

一種簡單的LML方法

假設我們已經為大量過去的領域知識的所有數據D提供了標記：

使用D創建分類器，在新領域上測試（注意：由於遷移學習不能很好地工作，只使用一個過去域/源域）
在許多情況下，準確率可以提高多達19％（= 80％-61％）。為什麼？
在其他情況下，結果不太好，例如，對於玩具的評論效果不好。為什麼呢？

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

目標函數（見圖）

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

通過懲罰開拓知識

兩種類型的懲罰項分別是：

文檔級的知識；
領域級的知識

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

結果之一：

左圖：在自然的類分布中具有#past域的LSC的負級F1分數。
右圖：在均衡的類分布中具有#past域的LSC的準確率。

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

終身主題建模（LTM）

語句「電池很好，但拍照很差」，其中的主題項是：電池，拍照

提取主題實際上包含兩個任務：

提取主題項：「圖片」，「照片」，「電池」，「電源」
聚類（同義詞分組）：同樣的aspects：{「圖片」，「照片」}，{「電池」，「電源」}

好的模型（Blei et al 2003）同時執行這兩個任務。主題就是一個aspect，例如，{價格，成本，便宜，昂貴，...}

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

產品評論中的重點觀察

在不同產品領域的評論中，相當多的主題重疊。
每個產品評論都有的aspect：價格；
大多數電子產品共享的aspect：電池性能；
其中很多產品也共享的aspect：屏幕。
這種跨領域的概念/知識共享是普遍的。
在學習中不利用這種共享就顯得有點silly。

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

哪些知識？

屬於同一個aspect/topic => Must-Links：e.g., {picture，photo}
不屬於同一aspect/topic => Cannot-Links：e.g., {battery，picture}

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

LTM：終身主題建模

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

方法：共享局部知識

來自先前任務/領域的一些知識可用於新任務，例如，{price，cost}和{price，expensive}應屬於同一主題。

自我意識和自我激勵的學習

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

自覺積累的學習

傳統的監督學習是一種封閉世界假說：測試中的類是訓練中已經見過的，也就是說，測試數據里沒有新的類。
這在許多動態環境中都是不真實的，新數據中可能包含新的文檔類別。
我們需要在開放世界中進行分類，檢測到新的文檔類別，也就是說，既要記住已經知道的知識，也要探索未知的。

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

累積學習LML

利用圖形的終身學習

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

在標籤傳播（labelpropagation）中的終身學習

鬆弛標記法（RelaxationLabeling, RL）是一種無監督的基於圖的標籤傳播演算法，它可以通過終身學習進行擴展（Lifelong-RL），以利用在以前的任務中學到的知識。

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

鬆弛標記法（RL）

圖由節點（node）和邊緣（edge）組成。
Node：要標記的對象
Edge：兩個節點之間的二進位關係。

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

終身鬆弛標記法（Lifelong-RL）

Lifelong-RL使用兩種形式的知識

先前的edge：圖通常不是給定或固定的，而是基於文本數據構建的。如果數據很少，可能會丟失很多邊緣，但這些邊緣可能存在於以前的某些任務的圖中。
先前的label：初始的P0(L(ni))很難設置，但是可以使用先前任務的結果更準確地進行設置。

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

從Lifelong-RL到SA任務

問題：觀點目標標籤

將entity和aspect分離，例如在「Although the engine is slightly weak, this car is great.」這個觀點中，entity是「car」，aspect是「engine」。
目標提取（target extract）常常無法區分兩者。

這個問題適合使用終身學習的方法：共享edge，entity和aspect，以及共享他們跨領域的label。

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

Lifelong-RL的架構（見圖）

Relation modifier表示edge，Typemodifier和先前的label有助於的設置。

在測試或執行中學習

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

在執行中改進模型

在沒用人工標記的標籤的訓練下，模型的性能可以提升嗎？
本文提出了一種利用CRF信息提取的上下文中改進模型的技術。
它利用相依性特性，隨著模型得到更多的數據，能有更多的特徵被識別出來。這些特徵有助於在新的領域使用相同的模型產生更好的結果。

總結

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

本講座簡要介紹了在一些NLP應用中的LML
LML的研究現在還處於起步階段，對LML的了解非常有限，目前的研究主要集中在只有一種類型任務的系統。LML需要大量數據，以學習大量不同類型的知識。

「首屆北美計算機華人學者年會」伊利諾伊大學劉兵：終身機器學習（45PPT）

LML存在許多挑戰，例如：

知識的正確性
知識的適用性
知識表達和推理
學習多種類型的任務
自我激勵的學習
組合學習
在人與系統的交互中學習

（感謝施巍松、盧山兩位老師在報道中提供的幫助！）

點擊閱讀原文查看新智元招聘信息

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※DeepMind突破：DNN具有人類行為，認知心理學破解黑箱
※「一圖讀懂」你不得不知道的10個影響人類社會的演算法
※張鋒，崔屹榮獲2017Blavatnik大獎，百度開源中文主題建模工具；谷歌自動駕駛卡車龐然大物首次曝光
※CMU成立最大AI研究團體，培訓綜合AI技能幫助學生找工作
※「AI TOP 10」吳恩達加入Drive.ai董事會，二輪募資5000萬刀；印度IT大量裁員；讀AI名校CMU四年要花多少錢？

TAG:新智元 |

您可能感興趣

※劉國梁PK郎平PK劉翔恩師，國際奧委會終身教練獎群星薈萃
※Wesleyan王敖教授實名揭發：UIUC終身教授徐鋼長期性侵女學生近20年
※江振誠榮獲2018年DINERS CLUB終身成就獎
※米其林主廚江振誠榮獲2018年 The Diners Club 亞洲終身成就獎
※《轉》訪大連理工大學高端特聘教授、美國克瑞頓大學終身教授肖桂山｜創辦Science子刊，打造影響因子10分以上的科研期刊！
※DARPA正在開發終身學習機器
※DOTA2中國戰隊Rock.Y和Ulrica假賽，多名隊員被終身禁賽
※UIUC終身華裔教授長期性侵女學生近20年, 被實名揭發！
※駐英大使夫人胡平華榮獲英國48家集團俱樂部「女性破冰者終身成就獎」
※MIFFest第二屆盛大回歸導演許鞍華獲金環獎終身成就獎
※人工智慧教育為學生終身學習打基礎 DaDaBaby運用智能技術賦能啟
※八旬老漢自學俄語57年，嫌女人影響「學業」終身不娶
※著名科學家許田放棄耶魯大學終身教職，全職加入西湖大學！
※DARPA「終身學習機器」項目取得重大進展
※極客邦科技終身首席記者楊賽榮獲2050青年獎
※《轉》訪大連理工大學高端特聘教授、美國克瑞頓大學終身教授肖桂山
※丹澤爾·華盛頓獲美國電影學院終身成就獎
※浙江首評「醫師終身榮譽」獲獎者平均年齡83.6歲
※終身質保怕不怕微星MEG Z390 GODLIKE評測
※2018年全民終身學習活動周全國總開幕式舉行