Google提出新型學習範式Deep Memory,或將徹底改變機器學習領域
圖源:pixabay
原文來源:arXiv
作者:Sylvain Gelly、Karol Kurach、Marcin Michalski、Xiaohua Zhai
「雷克世界」編譯:嗯~是阿童木呀、KABUDA
導語:最近,Google提出了一種稱之為Deep Memory的新型學習範式,並在生成式建模任務上使用MenGEN演算法將此範式得以實現,經過一系列實驗表明,科學家們發現,要想儘可能多地保留樣本中的信息,最好方法是將它們完全存儲起來,即Memory is All You Need。
最近,我們提出了一種新型的學習範式,我們將其稱之為Deep Memory。它有可能徹底革新機器學習領域。令人驚奇的是,與深度學習不同,這種範式還沒有被重新加以改造。這種方法的核心是「Learning By Heart」原則,而這一原則在全世界的小學中得到了充分研究。受到詩歌朗誦或π小數記憶的啟發,我們提出了一種模仿人類行為的具體演算法。我們在生成式建模任務上實現了這個範式,並將其應用於圖像、自然語言,甚至π小數,只要人們能夠將它們列印成文本。我們所提出的演算法甚至在獨熱學習環境中生成了本篇論文。通過精心設計的實驗,我們表明,通過任何統計測試或度量進行衡量,所生成的樣本都無法與訓練樣本相區分。
我們遵循LaLoudouana和Tarare於2003年所開啟,後來又被Albanie等人於2017年、Garfinkel等人於2017年所延伸的基本科學研究路線。受這些方法的啟發,我們將著重點放在生成式建模的最終目標上:就像輸入分布那樣輸出相同的分布。一直以來,Garbage In,Garbage Out在機器學習中都是一個被廣泛研究的諺語,而我們的主要貢獻在於真正地將其付諸實現。
在我們詳細介紹這個理論和實驗之前,不妨退一步思考,想一想我們為什麼要進行生成式建模?會議結束後我們可以仔細想一下,因為就目前來看,距下一次會議還有一段時間。
眾所周知,生成式模型和蛋糕一樣好,試問有誰不喜歡蛋糕呢?但現在,我們假設蛋糕是一個謊言。生成式模型從給定的數據分布中抽取樣本,並從中學習一個模型。然後,我們希望我們可以利用這一模型解決其他任務。通過仔細研究Shannon於1948發表的論文,人們可以注意到,從樣本中儘可能多地保留信息的最好方法是將它們完全存儲起來。畢竟,信息不丟失,我們就沒有什麼可失去的。
可惜的是,僅有想法是不夠的。一個重要的新想法是利用先進的數據結構,例如利用列表,甚至哈稀圖來進行生成式建模。據我們所知,使用那些最新的尖端技術(Knuth於1997年,Cormen於2009年提出),我們能夠超越那些在80年代被稱為是神經網路的舊技術(這些技術不過是簡單的加法和乘法而已)。
我們的貢獻
?我們提出了一種全新穎的學習範式。對於一個具體應用而言,我們展示了如何推導出最終的生成式建模演算法,該演算法證明了輸出與輸入具有相同的分布。
?得益於CPU出色的演算法效率,GPUs可以再次免費地應用於遊戲。計算效率的主要缺點是,博士生目前可以與大型組織展開競爭,而大型組織卻不能利用他們更先進的基礎設施,這顯然是不公平的,因為在建設基礎設施的過程中要克服重重困難。
?從統計數據來看,我們難以區分生成式樣本與真實樣本。因此我們提出了Rademacher擲硬幣度量(Rademacher Coin Flipping),它可以更可靠地給出相似的結果,從而結束了關於生成式建模度量的長期爭論。
演算法
有關更多細節都在演算法1中體現。我們始終在強調該演算法是靈活的,並且可以應用更為複雜的數據結構,如哈希圖。
演算法1:MemGEN
實證評估
為了展示我們的研究結果,我們將演示這種簡單的方法是如何優於當前最先進的技術的。目前用於評估生成式模型的最佳度量指標是基於兩個樣本之間的距離,以及人為評估。我們對這兩個操作都加以執行以量化我們演算法的性能。
?定量結果
兩個樣本之間的距離:給定一個來自真實分布的樣本,以及一個來自生成式分布的樣本,我們測量兩個基本分布之間的相似程度。顯然,我們使用測試集來表示真實的分布,因為採用訓練集不會揭示可能存在的過度擬合問題。實驗結果表明,我們的結果比實施在所有距離度量標準中的任何最先進的結果要好得多。圖1說明了這些結果。
圖1:使用我們的演算法所實現的結果。優點是這個數據可以重複用於其他論文。
人為評估:評估者顯示了兩張圖像,一張是從模型中抽樣獲得的的,另一張則是從一個保留組中抽樣獲得的,他們必須做出決定:哪一張看起來更好。圖2顯示了人為評估的結果,表明人類無法區分真實的樣本和虛假的樣本。事實上,我們無法使用無偏差擲硬幣的結果對這些結果進行區分。因此,我們現在提出使用投幣替代模型評估,從而解決這個長期存在的問題,並節省大量資源。我們稱之為Rademacher擲硬幣度量。
圖2:人為評估,來自測試集和生成式模型的樣本並排顯示,以供人類評估員校準。
?文本
對於文本建模,我們考慮了一個自回歸--雙向長短期記憶網路--注意力--循環神經網路(autoregressive-bilstm-attention-cnn)模型。最後,我們通過恆等函數(identity function)解決了這個問題,因為它是自動可逆的,這很好。
?生成的圖像
在圖3中,我們展示了一些具有代表性的,在互聯網圖像上進行訓練後生成的MemGEN圖像。在那些未經訓練的人們看來,模型似乎崩潰了,只能生成貓的照片。也許互聯網上充滿了貓的圖像?對於在網上發現的自然圖像的快速估計似乎證實了這一假設,但需要進一步調查。
圖3:從隨機互聯網圖像中進行學習後,MemGEN所生成的隨機圖片。這證明,生成的數據分布代表學習分布。
我們提出了一種全新的生成式建模演算法,該演算法具有獨特的優點、很好的屬性,並且在一系列重要指標上表現出優異的性能。與LaLoudouana和Tarare在2003年提出的結論相比,我們甚至不需要選擇數據集,只需要確定度量即可。本文是依照最嚴格的科學原則撰寫的,因此文中顯露出的任何瑕疵都只是單純的巧合。


※伯克利最新無模型深度強化學習研究:從零開始訓練機器人玩樂高
※CatBoost、LightGBM、XGBoost,這些演算法你都了解嗎?
TAG:雷克世界 |