當前位置:
首頁 > 最新 > 乾貨預警——語憶淺析 Frank-Wolfe 演算法

乾貨預警——語憶淺析 Frank-Wolfe 演算法

1956年,Frank和Wolfe提出了一種求解constrainted convex optimization的演算法,屬於first-order method中的一種。其基本思想是將目標函數作線性近似(linear approximation),將問題轉化成求解線性方程的最優解,並由此計算遞降方向。

這次我們探討的話題是便是Frank-Wolfe演算法。(大體內容是基於[Jaggi13]這篇論文,具體信息請參考備註)。

首先交代問題背景,Frank-Wolfe演算法屬於某種gradient decent演算法。這類演算法主要用於以下求極值問題(optimization problem):

min_x L(x)

其中L稱為損失函數(loss function)或者目標函數(objective function)。如果L過於複雜,極值解 x*=argmin_x L(x) 無法直接表達的時候,通過獲得導數?L(x)(gradient)相關信息而逼近極值點x*。Frank-Wolfe 演算法則用於處理以下更特殊一點的情況:

min_(x∈C) L(x)

其中C是一個凸集(convex set)並且L是凸函數(convex function)(也有非convex版本的Frank-Wolfe,這次先不做討論)。

對於L被限制在一個凸集C上取值這樣的問題,可以與Frank-Wolfe演算法作比較的同類演算法有proximal method 或者 projected gradient decent。那麼Frank-Wolfe比同類演算法到底有什麼優勢呢?我們先來看下同類演算法。

如果沒有L必須在C上取值的限制,那麼通常的gradient decent演算法有如下形式:

x^(t+1)=x^t-α^t ?L(x^t ),t=0,1,2,?

即在每一個循環t中,我們只要通過計算?L(x^t),取定步長α^t就能沿著梯度(gradient)向極值x*逼近。現在L必須在C上取值,一般的同類演算法就會在循環中將到C的距離考慮進去。比如projected gradient decent就是將每次獲得的新的取值點x^(t+1)投影到C上,即

y^t=x^t-α^t?L(x^t )

x^(t+1)=argmin_(x∈C) y^t-x2_2

而proximal method則是在L上增加一個到C距離的懲罰項,即

x^(t+1)=prox(x^t-α^t ?L(x^t ),γ^t)

其中prox()(proxy operator)的定義如下:

prox(x,γ)=argmin_u L(u)+1/2γu-x2_2

還有的演算法則是直接先將導數空間投影到C上,再求新的取值點。總之這些演算法都涉及到二次方程求極值點的問題。Frank-Wolfe在這方面進行突破,只需要涉及到線性方程求極值點的問題即

s=argmin_(s∈C) s,?L(x^t)

x^(t+1)=t/(t+2)*x^t+2/(t+2)*s

同時在L是凸函數(convex function)的條件下,其收斂速度(即所需循環個數)又和不加限制條件C的gradient decent演算法理論最優收斂速度同階(都是O(1/t)),所以理論上Frank-Wolfe是一種比較快速的演算法。

直覺上,求解線性問題應該比求解二次方程問題簡單一些,但也需要看具體的問題以及限制條件。因為我們是在一個凸集上找尋極值點,極值點可以被邊界上點或端點線性表示,所以在Frank-Wolfe演算法中每次求解的線性問題(求s的那一步)其實都是通過導數來找到一個較好的邊界點,並與之前找到的邊界點線性組合(求x^(t+1)的那一步)去逼近極值點。所以邊界點或端點好求將加快Frank-Wolfe的速度,反之則可能還不如其他同類演算法。 比如,如果凸集的端點是sparse的(向量只有少數非零分量),那麼每個循環的求解速度就快,同時如果極值點也是sparse的,那麼總循環個數也會比較少,同時運行需要的儲存也較少(只需存取非零項)。

另一方面,Frank-Wolfe 其實是一個1956年就已經提出的演算法,在過去數據集不大的情況下,該演算法並不突出。而如今因為大數據的緣故,往往總體維度高但有用的信息維度並不高(即sparse的情況),所以Frank-Wolfe演算法在最近幾年再次煥發第二春。

論文還給出了如何在不知道真實極值點x*的情況下,如何估算誤差L(x^t)-L(x*)。

最後再列舉一些演算法可以在此之上有較好表現的凸集C供參考:Sparse Vectors, l_1 ball, Simplex, l_p ball, Structured Atomic Norms, Schatten Matrix Norms, Orthonormal Matrices and the Operator Norm Ball, Permutation Matrices, Rotation Matrices 和 Trace。

Reference

[Jaggi13] Martin Jaggi, Revisiting Frank-Wolfe: Projection-FreeSparse Convex Optimization, ICML, 2013.

—— 專註於大數據人工智慧yuyidata.com

更多資訊,歡迎關注語憶科技官方公眾號

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 語憶情感實驗室 的精彩文章:

TAG:語憶情感實驗室 |

您可能感興趣

Air Jordan 1「Not For Resale」無預警補貨上架
Kanye West 無預警釋出神秘網站「We Got Love」
Intel CPU Spoiler漏洞預警
高能預警!NikeLab Air VaporMax X Off-White 純白配色正式預約!
漏洞預警信息:Verifications.io和Facebook Messenger均發生致命漏洞
Windows RDP服務蠕蟲級漏洞預警 堪比WannaCry
Kanye West 再一次無預警刪除 Instagram 帳號
Off-White? x Dover Street Market 聯名別注系列無預警上架
高溫預警!adidas Ultra Boost 中國限定即將來襲
毫無預警!OFF-WHITE x Converse Chuck Taylor All Star全新設計曝光!
發售預警!Air Jordan XX8 「Locked and Loaded」 明早迎來發售!
KindEditor上傳漏洞預警
Converse x J.W.Anderson 聯名系列發售預警
發售預警!Nike Air Force 1 Low』07 Roc-A-Fella 上腳近賞圖釋出
攻擊預警!GreenFlashSundown Exploit Kit攻擊國內多家大型站點
高能預警!THE TEN:NikeLab Air VaporMax X Off-White 純白配色正式預約!
iPhone X Fold摺疊概念機:不輸華為 果粉真香預警
#新勢力無預警發售# Nike M2K Tekno | Xsneaker
Nike Blazer Mid 77 Vintage再加碼!黑白配色搶手預警!
「塑料」大風藍色預警,PUMA x Shantell Martin 全新聯名系列