從最大似然估計解釋最小二乘
新年第一次分享,山貓小組給大家拜個晚年。
今天介紹下最小二乘法。
在優化問題中經常用到最小二乘法。例如我們熟悉的從若干個二維點中擬合出一條直線,當只有一個點時,可以有無數條直線經過這個點,當有兩個點時(兩個點不重合),只能找到一條直線過這兩個點,但當點的數量超過三個時(假設三點不共線),就無法找到一條直線同時過這三個點,這個時候我們就需要求其最小二乘解了。
舉個實際點的例子,假設現在有一個勻速運動的物體,我們並不知道其速度。現在我們想要通過測量該物體在一段時間內的位移來求出這個物體的速度。根據位移和速度的關係有y=vt,理想情況下測量絕對精確,我們只要測量出一對y和t,然後根據v=y/t,即可求出速度v。但現實世界中測量總是有誤差的,所以可以多測量幾次,求一個最優解。
假設現在有n個測量,即n對y和t,放在二維坐標系中就是n個點。根據物理知識,
我們知道這n個點是滿足這樣一個關係y=vt, 所以現在的任務就是找到這個參數v,反應在幾何上就是擬合出一條直線。
即要求:
這個最小,其中為每個測量的誤差平方。這是最小二乘的一個特例,現在推廣至一般形式如下:
為待求參數(對應上面的實際問題,就為速度v),找到一個值使得上式最小。下面從最大似然的角度推導出這個最小二乘形式。為簡單起見,現在假設輸入、輸出都是一維的,即:
其中未知。現在用
去逼近目標映射.
目標映射雖然未知,但可以通過給定x值,觀測其y值。假設現在我們通過觀測得到一組數據,。由於是觀測數據,故必然有誤差,所以(下面所有出現的i = 1,2,3,..,n)有:
假設誤差項為,則有:
對於同樣也要考慮該誤差項:
現在假設,誤差項服從均值為0,方差為的高斯分布(根據大數定律,大量無關隨機變數之和服從高斯分布。當然並不是所有的情況下都可以假設為高斯分布,要具體問題具體分析,但絕大部分情況下是滿足的), 且獨立同分布(因為是獨立觀測而得),即:。故有:
依據高斯分布的性質,有在條件下,服從均值為,方差為的高斯分布,即:故有:
其中稱之為似然函數。那麼為了得到參數,可用最大似然估計。即出現這樣一組觀測數據的概率為:
把θ當做變數,最大化這個概率,等價於最大會這個概率的對數,則有:
最大化,等價於最小化
其中與無關,捨去即得:
上面這個式子即為一般的最小二乘形式。這裡的x是一個一維標量,將x推廣至多維變數結果也是一樣的。
山貓,一個專註於高級計算機技術分享的團隊。
如果大家有什麼問題或技術需求,可以後台留言或加山貓小墨的微信(二維碼在頁面底部)。
小墨簡介:資深白帽,國內某互聯網公司研發負責人,現從事機器學習、神經網路相關演算法研究。
※美文悅讀:趙大磊《一隻野雞》
※一蓑煙雨任平生——解讀《蘇東坡傳》
TAG:全球大搜羅 |