當前位置:
首頁 > 新聞 > 在工程領域中,機器學習的數學理論基礎尤為重要

在工程領域中,機器學習的數學理論基礎尤為重要

選自arXiv,作者:Paul J. Atzberger,機器之心編譯,參與:路、思。


數學在機器學習中非常重要,但我們通常只是藉助它理解具體演算法的理論與實際運算過程。近日加州大學聖巴巴拉分校的 Paul J. Atzberger 回顧了機器學習中的經驗風險與泛化誤差邊界,他認為在科學和工程領域中,我們需要從基本理論與數學出發高效使用現有方法,或開發新方法來整合特定領域與任務所需要的先驗知識。

在工程領域中,機器學習的數學理論基礎尤為重要

近期研究人員越來越多地關注將機器學習方法應用到科學、工程應用中。這主要是受自然語言處理(NLP)和圖像分類(IC)[3] 領域近期發展的影響。但是,科學和工程問題有其獨特的特性和要求,對高效設計和部署機器學習方法帶來了新挑戰。這就對機器學習方法的數學基礎,以及其進一步的發展產生了強大需求,以此來提高所使用方法的嚴密性,並保證更可靠、可解釋的結果。正如近期當前最優結果和統計學習理論中「沒有免費的午餐」定理所述,結合某種形式的歸納偏置和領域知識是成功的必要因素 [3 , 6]。因此,即使是現有廣泛應用的方法,也對進一步的數學研究有強需求,以促進將科學知識和相關歸納偏置整合進學習框架和演算法中。本論文簡單討論了這些話題,以及此方向的一些思路 [1 , 4 , 5]。

在構建機器學習方法的理論前,簡要介紹開發和部署機器學習方法的多種模態是非常重要的。監督學習感興趣的是在不完美條件下找出輸入數據 x 的標註與輸出數據之間的函數關係 f,即 y = f ( x) + ξ,不完美條件包括數據有限、雜訊 ξ 不等於 0、維度空間過大或其他不確定因素。其他模態包括旨在發現數據內在結構、找到簡潔表徵的無監督學習,使用部分標註數據的半監督學習,以及強化學習。本文聚焦監督學習,不過類似的挑戰對於其他模態也會存在。

應該強調近期很多機器學習演算法的成功(如 NLP、IC),都取決於合理利用與數據信號特質相關的先驗知識。例如,NLP 中的 Word2Vec 用於在預訓練步驟中獲取詞標識符的詞嵌入表示,這種表示編碼了語義相似性 [3]。在 IC 中,卷積神經網路(CNN)的使用非常普遍,CNN 通過在不同位置共享卷積核權重而整合自然圖像的先驗知識,從而獲得平移不變性這一重要的屬性 [3]。先驗知識的整合甚至包括對這些問題中數據信號的內在層級和構造本質的感知,這促進了深層架構這一浪潮的興起,深層架構可以利用分散式表徵高效捕捉相關信息。

在科學和工程領域中,需要類似的思考才能獲取對該領域的洞察。同時我們需要對機器學習演算法進行調整和利用社區近期進展,以便高效使用這些演算法。為了準確起見,本文對監督學習進行了簡要描述。與傳統的逼近理論(approximation theory)相反,監督學習的目的不僅是根據已知數據逼近最優解 f,還要對抗不確定因素,使模型在未見過的數據上也能獲得很好的泛化性能。這可以通過最小化損失函數 L 來獲得,其中 L 的期望定義了真實風險

在工程領域中,機器學習的數學理論基礎尤為重要

。L 有很多不同的度量方法,如最小二乘法中的 ? (x, y, f) = (f (x) ? y)^2,或最大似然方法 ? (x, y, f) = ? log(p (y|x, f))。但是,R (f) 在實踐中是無法計算的,因為模型從數據中獲得的關於分布 D 的信息有限,這促進我們在實踐中使用替代誤差(surrogate error),如經驗風險

在工程領域中,機器學習的數學理論基礎尤為重要

。從統計學上來說,使用經驗風險也有很大的成本,因為當數據量不夠大時 R hat 可能不會均勻地收斂至真實風險 R(f)。但是,因為 f 來自離散假設空間 H,且 H 在任意選擇的複雜度 c(f) 下可能都是無限空間,若 c (f) 滿足

在工程領域中,機器學習的數學理論基礎尤為重要

時,你可以在 m 個樣本上推出泛化誤差邊界:

在工程領域中,機器學習的數學理論基礎尤為重要

其中,概率 1 ? δ 適用於隨機數據集 [2]。類似的邊界也可以從具備其他複雜度(如 VC 維或 Rademacher 複雜度)的連續假設空間中推導出。這在數學層面上捕捉了當前很多對應 RHS 優化的訓練方法和學習演算法。常見的選擇是適用於有限空間的經驗風險最小化,使用 c(f) = log(|H|),其中 c 不再在正則化中發揮作用。

我們可以了解到如何通過對假設空間 H 和 c(f) 的謹慎選擇來實現更好的泛化與更優的性能。對於科學和工程應用而言,這可能包括通過設計 c(f) 或限制空間 H 來整合先驗信息。例如限制 H 僅保持符合物理對稱性的函數、滿足不可壓縮等限制、滿足守恆定律,或者限制 H 滿足更常見的線性或非線性 PDE 的類別 [1,4,5]。這可以更好地對齊優秀的 c(f) 和 R hat,並確保更小的真實風險 R(f)。儘管傳統上這是機器學習的重點,但這不是唯一策略。

正如近期深度學習方法所展示的那樣,你可以使用複雜的假設空間,但不再依賴於隨機梯度下降等訓練方法,而是支持更低複雜度的模型以僅保留與預測 Y 相關的輸入信號 X。類似的機會也存在於科學和工程應用中,這些應用可獲得關於輸入信號相關部分的大量先驗知識。例如,作為限制假設空間的替代方法,訓練過程中你可以在輸入數據上執行隨機旋轉,以確保選擇的模型可以在對稱情況下保持預測結果不變。還有很多利用對輸入數據和最終目標的洞察來結合這些方法的可能性。

我們看到即使在本文提到的泛化邊界類型方面也可以獲取大量新觀點。針對改進邊界和訓練方法做進一步的數學研究,可能對高效使用現有方法或開發新方法來整合先驗知識方面大有裨益。我們希望本文可以作為在一般理論和當前訓練演算法中進行數學研究的開端,開發出更多框架和方法來更好地適應科學和工程應用。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

同步SGD等現有分散式訓練方式將過時,Yoshua Bengio談邁向硬體友好的深度學習
當前訓練神經網路最快的方式:AdamW優化演算法+超級收斂

TAG:機器之心 |