概率與隨機過程基礎
概率,是分析我們的主觀偏差、衡量事情的不確定性的精確方式。直覺上,每個人都明白「(某件事)發生的可能性有多大?」的問題是什麼意思。隨機過程則是考慮隨「時間」(或者「位置」之類)變化的事件的概率問題的。有大量經典的或者優秀的教材討論概率與隨機過程。依我之見,概率和隨機過程,對於一個應用數學家或者工程師而言,是需要最先學會的;這些知識,也是我對這一類學生進行口頭測驗最偏愛的內容。
當然,以我的經驗,對很多學生來說,這也是最讓人迷惑的課程。
拋開理論的重要程度和嚴謹性,讓我們從實用的觀點出發,引入一個使理論簡化的假設:有限性假設。
有限性假設(Finiteness Assumption ,簡記為FA):我們假定,不存在無限大的數。
雖然不是無限大,但可以存在非常大的數,比如10^100(這個數比整個我們所在的宇宙的原子的數目總和還要大)。如果一個人只是用數字計算機做計算,那麼在這個領域,是碰不到「無限大」的,所以這個假設是自動滿足的。引入這個假設以後,我們就可以避開眾多相關文獻中的測度論術語,不至於讓初學者迷惑。
在有限性假設下,我們現在定義什麼是隨機變數。
隨機變數(random variable,簡記為r.v.):
隨機變數是這樣的一個變數,當我們觀察它的取值情況或者對它的值進行抽樣檢查的時候,發現它可以是某個有限範圍的任意數值。我們可以用直方圖(histogram)來描述隨機變數。比如圖1
圖1. 博文(2009-2013)點擊率的直方圖: x坐標是點擊數, y坐標是在某個點擊數範圍內的文章數。
注意在直方圖中每個豎條表示的是位於此點擊率的博文數目占整個四年所有博文數量的百分比,這個百分比正好是被稱為「博文點擊率」的隨機變數取某個點擊率值的概率。因為使用了有限性假設(FA),這個隨機變數的取值範圍是可以確定下來的。當然,這個範圍可以是個非常大的數,可以容納非常大量的數據。(事實上,我用了三個小時來完成我四年來的博客點擊率的統計。數據量太大,我沒有足夠精力來處理五年多的數據-那是我從開博到現在的時段。)用直方圖做計算很不方便,所以我們提出了兩個粗略的參數來簡化對隨機變數的描述:
一個隨機變數的均值(mean)
從直覺上講,你可以想像將一個紙卡片剪成直方圖的形狀。如果紙卡片質地是均勻的,你在一個刀口上放置紙卡片,讓刀口與x軸垂直,這個時候紙卡片放置後正好平衡而不掉落,那麼刀口對應的x值就是隨機變數x的均值。從數學上講,這個x的均值就是每篇博文點擊率的平均值。科學網事實上計算了所有博主的每篇博文的平均點擊率,即每個博主的每篇博文點擊率的均值,並顯示了前100位博主的每篇博文平均點擊率。圖中的平均點擊率是4130次/博文,排在名單上的第26位。
一個隨機變數的方差(variance)
方差是直方圖的豎條的分散程度的衡量。一個小的方差大致意味著隨機變數主要分布在在期望附近一個小的區域;而大的方差則意味著隨機變數以期望為中心分布得很開。方差是一個隨機變數的變動性的衡量。以股票市場的術語論,一隻股票的b值就是一支股票每日變化值的方差,是對其容易變化的程度的衡量。數學上,方差稱為一個直方圖的二階中心矩(second central moment)。
當然我們可以採用更高階的中心矩,以更粗略的方式來描述直方圖的特徵,比如採用直方圖的偏度(skewness),就是三階中心距。但是在實際應用中,這樣的高階矩是很少用的。
對於單個的隨機變數,我們就說這麼多。但是,我們時常碰到不止一個隨機變數的情況。比如我們考慮一下有兩個隨機變數x和y的情況。現在我們畫一個關於兩個隨機變數的三維直方圖。從圖像上看,直方圖看起來像個有多個峰的地形圖。(想像一下廣西桂林的風景或者紐約曼哈頓島的高樓)但是這裡加入了新概念。這個概念包括「聯合概率」(joint probability),以及x與y的「相關係數/協方差」(correlation/covariance) (視大致情形不同而使用「相關係數」或者「協方差」的概念)。這些參數刻畫了隨機變數間的關係。我們都知道「龍生龍,鳳生鳳,老鼠兒子打地洞。」如果我們用隨機變數x代表家長的智力,用隨機變數y代表子女的智力,數學上,我們就說,y與x正相關。如果俯瞰x與y構成的3維直方圖,我們就可以看見「山峰」們沿東北-西南向座落,如圖2。
圖2. x與y的相關性的俯視圖
換言之,取不同的x值,則取不同y值的概率會受影響。更一般的講法,是說,x和y不獨立(NOT independent) ,彼此相關(correlated)。數學上,我們用一個三維的函數,即聯合概率p(x,y)(這就是直方圖的函數表達)來表達x和y的相關性。我們還可以定義條件概率來表達x和y的相關性。在給定y的某個取值的情況下,x取某個值的條件概率是:
p(x|y)=p(x,y)/p(y)p(x|y)=p(x,y)/p(y)
或者,在給定x的某個取值的情況下,y取某個值的條件概率是:
p(y|x)=p(x,y)/p(x)p(y|x)=p(x,y)/p(x)
這裡,p(y)和p(x)叫做邊際概率,相當於將三維的直方圖在py平面或者px平面上擠扁而得到的二維直方圖。而從圖像上看,條件概率p(x|y)相當於在3維直方圖上沿某個y值切開一個剖面,這個剖面對應的2維直方圖。數學上,我們要用p(x,y)除以p(y)來計算p(x|y),所以我們將p(x|y)的直方圖歸一化,也就是將其面積歸一化為1(或者100%),以滿足直方圖的定義。
現在可以考慮一種可能性,就是圖2的俯視圖形不是現在的樣子,而是邊分別與x和y軸平行的矩形。這時,不論y取何值,總是有p(x|y)=p(x)。這樣的話,p(x,y)=p(x)p(y)。因此我們說x和y是相互獨立的。直覺上,我們知道了y的取值,對x取某值的概率沒有任何影響;同樣,知道了x,也影響不了y取某值的概率。從計算的角度講,將一個有兩個自變數的函數轉化兩個只有單自變數的函數的乘積,將簡化計算;而對於有n個隨機變數的聯合概率,在這些變數彼此獨立的情況下,將大大減少計算量。
對於有兩個隨機變數的情況的性質的粗略描述,我們可以採用一個均值矢量[Ex,Ey]來描述;也可以用一個協方差矩陣來描述其方差性質:
其中矩陣對角上的元素分別是x和y的方差,而反對角上的兩個元素是對稱的協方差。
小結一下我們講的概念:
1.由直方圖描述的隨機變數;
2.初略描述直方圖性質的均值和方差;
3.兩個隨機變數的聯合概率(3維直方圖);
4.獨立性和條件概率;
5.協方差矩陣。
再討論一下n個隨機變數 [ x1 , x2 , . . . , xn ],當然仍然使用我剛才談論的方式。那麼,其概率可以用n+1維直方圖表示,其均值可以用n維矢量表示,而其協方差矩陣將是n乘n方陣。其聯合概率可以記為 p(x1 , x2 , . . . , xn),如果這些隨機變數彼此獨立,那麼p(x1 , x2 , . . . , xn )=p(x1) p(x2). . . p(xn)。這裡沒有新概念出現。
譯者:徐曉
早學早用——期貨量化實戰培訓班(二期)登錄上海
期貨量化入門與體系
交易系統詳解與實戰
量化投資理論進階
量化投資進階實踐
2016年6月25-26日 上海 兩天



※崩壞3概率公布 隨機抽取類玩法概率公示說明
※劍橋研究學者為基因突變過程「建模」,或將推翻達爾文的隨機突變理論
※隨機機器學習演算法需要試驗多少次,才足以客觀有效的反映模型性能?
※真實世界研究與隨機對照試驗的比較
※人類隨機行為首次成量子物理實驗關鍵因素
※常用編程模塊(二):隨機數與串口-專用擴展板實現隨機亮燈
※隨機應變,變不利為有利
※有監督學習選擇深度學習還是隨機森林或支持向量機?
※隨機之美,隨機森林
※測試:看你隨機應變的能力
※戰場瞬息萬變,如何學會基本的隨機應變?
※適者生存,適應不是關鍵,關鍵是隨機應變
※人類有什麼用?不過是一種隨機數生成器罷了
※現實世界就是如此混亂而隨機
※打麻將杠與不杠需隨機應變,你做到了嗎?
※建立隨機為主指定為輔分案機制
※紙基陶瓷可製成隨機激光器
※「隨機」的腸道菌落
※隨機應變,巧打圓場