CMU、NYU與FAIR共同提出GLoMo:遷移學習新範式
選自arXiv
作者:楊植麟、Junbo Zhao等
機器之心編譯
參與:王淑婷
近日,由卡耐基梅隆大學、紐約大學和 Facebook 的研究者楊植麟、Junbo Zhao 等人提交的論文將遷移學習向前推進了一步。研究人員稱,其提出的 GLoMo 可以無監督地學習並遷移數據單元對之間的依賴關係和圖形表徵,並在自然語言處理和計算機視覺任務中取得了很好的效果。值得一提的是,該論文作者還包括何愷明、Ruslan Salakhutdinov 和 Yann LeCun 等人。
深度學習的最新進展很大程度上依賴於諸如卷積網路(CNN)[ 18 ] 和循環網路(RNN)[ 14 ] 之類的架構及注意力機制 [ 1 ]。這些架構雖然具有較高的表徵能力,但由於其內置的「先天優勢」,它們主要在網格狀或順序結構上運行。因此,CNN 和 RNN 在很大程度上依賴高表達能力來模擬複雜的結構現象,抵消了它們沒有明確利用結構和圖形表徵的事實。
這種範式導致了遷移學習和預處理的標準化規範——在有監督或無監督的大數據集上擬合表達函數,然後將該函數應用到下游任務數據中進行特徵提取。值得重視的例子包括預處理的 ImageNet 特徵 [ 13 ] 和預處理的單詞嵌入 [ 23,28 ]。
相比之下,現實世界中的各種數據顯示出比簡單的網格狀或順序結構更豐富的關係圖結構。最近的其他類似研究也強調了這一點 [3]。例如在語言領域,語言學家使用解析樹來表示單詞之間的句法依賴性;信息檢索系統利用知識圖形反映實體關係;共指消解被設計成連接相同實體的不同表達式。因此,不管目標任務如何,這些示例性結構普遍存在於幾乎任何自然語言數據中,這意味著跨任務遷移的可能性。這些觀察也可以推廣到其他領域,如計算機視覺。在 CV 領域裡,像素之間關係的建模被證明是有用的 [ 27,49,43 ]。然而,還存在一個障礙,許多通用結構基本上是人為策劃的,並且大規模獲取成本高昂,而自動誘發的結構大多限於一項任務。
圖 1:傳統遷移學習與新遷移學習框架的對比。GLoMo 不是遷移特徵,而是遷移網路輸出的圖形。圖形與任務特定的特徵(例如嵌入或隱藏狀態)相乘,以產生結構感知特徵。
在本文中,我們試圖解決兩個挑戰: 1)打破基於特徵的深度遷移學習的標準化規範;2)以數據驅動的方式學習數據中的通用結構。我們對學習可遷移隱藏關係圖感興趣,其中隱藏圖的節點是輸入單元,例如句子中的所有單詞。隱藏關係圖學習的任務是學習一個相似矩陣,其中權重(可能為零)捕獲任意一對輸入單元之間的依賴關係。
為了實現上述目標,我們提出了一種新的無監督隱藏圖學習框架,稱之為 GLoMo(Graphs from LOw-level unit MOdeling,低級單位建模圖)。具體來說,我們從大規模的未標記數據中訓練一個神經網路來輸出隱藏圖型,並將該網路遷移到提取下游任務的圖結構來加強對它的訓練。這種方法可以讓我們把表示每個單元語義含義的特徵和反映單元如何交互的圖形分開。理想情況下,圖形捕捉數據背後的任務無關結構,從而適用於不同的功能集。圖 1 突出了傳統的基於特徵的遷移學習和新框架之間的差異。
實驗結果表明,GLoMo 提高了問答、自然語言推理和情感分析等各種語言任務的性能。我們還證實,學習到的圖形是通用的,可以用於未經過圖形訓練的各種特徵集任務,包括 GloVe 嵌入 [28]、ELMo 嵌入 [ 29 ] 和任務特定的 RNN 狀態。我們還確定了學習成功通用圖的關鍵因素:解耦圖和特徵、分層圖表徵、稀疏性、單位級目標和序列預測。為了證明該框架的通用性,我們應用 GLoMo 來建模像素之間的關係依賴性,結果表明圖像分類任務的性能獲得改進。
圖 2:GLoMo 方法概述。
在無監督學習階段,特徵預測器和圖形預測器被一起訓練以執行上下文預測。在遷移階段,圖形預測器被凍結並用於提取下游任務的圖形。RNN 解碼器應用於特徵預測器中的所有位置,但是簡單起見,我們僅指出了位置「A」處的一個。「Select one」表示圖形可以遷移到下游任務模型中的任何層。「FF」指前饋網路。圖形預測器輸出的圖用作「weighted sum」操作中的權重(參見等式 2)。
表 2:自然語言處理任務中的模型簡化測試。
表 3:計算機視覺任務:CIFAR - 10 的分類結果。我們採用一個 42000 / 8000 的訓練/驗證拆分——一旦根據驗證誤差選擇了最佳模型,我們就直接將其轉發到測試集,而不進行任何驗證集退回再訓練。我們僅使用水平翻轉來增加數據。上表中的結果是 5 輪實驗的平均結果。
論文:GLoMo: Unsupervisedly Learned Relational Graphs as Transferable Representations
論文鏈接:https://arxiv.org/abs/1806.05662
摘要:現代深度遷移學習方法主要側重於從一個任務中學習可遷移到其他任務的通用特徵向量,例如語言中的單詞嵌入和視覺中的預訓練卷積特徵。然而,這些方法通常遷移一元特徵,卻很大程度上忽略了更結構化的圖形表徵。本論文探索了從大規模未標記數據中學習捕獲數據單元對(例如單詞或像素)之間依賴關係的通用隱藏關係圖,並將這些圖傳遞給下游任務的可能性。我們提出的遷移學習框架提高了各種任務的性能,包括問答、自然語言推理、情感分析和圖像分類。我們的測試還表明,學習到的圖形是通用的,可以遷移到未經過圖形訓練的不同嵌入(包括 GloVe 嵌入、ELMo 嵌入和任務特定的 RNN 隱藏單元)或無嵌入單元(如圖形像素)。
本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。
------------------------------------------------


※TensorFlow的動態圖工具Eager怎麼用?這是一篇極簡教程
※擔心面部識別泄露隱私?多倫多大學圖像「隱私過濾器」了解一下
TAG:機器之心 |