當前位置:
首頁 > 最新 > 巴曙松教授主持,李葉主講:超越線性回歸—大數據時代的量化金融

巴曙松教授主持,李葉主講:超越線性回歸—大數據時代的量化金融

編者語:

本次會議的主題為「超越線性回歸——大數據時代下的量化金融」,敬請閱讀!

主持人/巴曙松;主講人/李葉

主講人簡介

李葉:物理學博士,CFA,最早從事大數據領域的華人,隨後在多家頂尖華爾街金融機構擔任要職,歸國後建立廣發證券的數據治理中心及產品中心。

會議紀要

今天,我主講的題目是超越線性回歸——在大數據時代下的量化金融,選這個標題的主要原因是華人在華爾街一般都是從事量化的工作,且在當前形勢之下,大數據云技術是一個非常熱門的話題。

一.關鍵詞

圖1 關鍵詞

首先講一些關鍵詞,這些關鍵詞代表著一個很大時間尺度下的公共環境和哲學思維,其實這些思維已經在技術實施當中逐漸體現了。從個人來看,最重要的關鍵詞應該是虛擬化。虛擬化從幾千年以前就開始了,即貨幣。當貨幣發明之後,這個交易就某種程度上虛擬化。但是近來技術突飛猛進加速了虛擬化的過程,虛擬化發展到今天出現了趨中心化的趨勢,這是因為虛擬化使得相關性無限的延伸。而這樣的效果就使得中心化的弊端就慢慢的凸顯出來。虛擬化還帶來了一個結果,即容易產生贏者通吃的結果。虛擬化使得財富的積累,社會影響等產生兩極分化,而且越來越重。其實這種思路也在技術上體現,比如說雲技術、虛擬機。技術上的基礎設施就是代碼,而代碼就是基礎設施。趨中心化也就在技術上有些體現,比如說,我們現在有一種技術叫做集裝箱。用多年前的舊思路來看,我們應用的開發時間非常長;在使用中我們希望有個中心的系統,一個修正可以惠及整個系統,使得我們所做的改變可以惠及整個公司或者整個行業。新的思路是什麼?現在我們需要做的軟體和應用大幅增多,使用壽命縮短,出錯概率高,但我們要做的是讓一個錯誤不要出現大面積的災害。

二.量化金融

圖2 量化金融

量化金融是數學在金融市場應用的一個領域。常見的例子就是衍生品定價,包括期權、期貨與合約。量化金融在資產或者財務管理上也有一些例子,比如資產配置:Black-Littleman模型,其次是智能投顧。因為它的應用可能就在附近管理上需要用到許多量化金融。此外,量化金融也用在交易策略上,比如說如何去做事;如何尋找絕佳的交易途徑;如何在高頻、中高頻、中頻等交易中尋找逃離的機會。我們也用量化來預測宏觀形勢,預測消費者的行為等。量化金融關注的不是必然聯繫,而是隨機過程和概率分布。從金融本質上來講,如果沒有不確定性就沒有風險,如果沒有風險就沒有超額收益。生態化金融當中數據和數據分析是根本。

三.ABC浪潮

圖3 ABC浪潮

下面簡單介紹一下大數據及大數據技術。我們常常說到ABC浪潮,即計算機程序所能模仿的人類智能,包括學習、感知、自然語言處理等。

大數據一般指的是由於量大、種類多、增長速度很快等特性,使得傳統的工具無法處理。比如說採集、存儲、分析、分享,查詢、傳輸、保密等這類數據。它可以用配置的方式來快速實施系統資源共享模式,即基於基礎設施就是代碼,代碼就是基礎設施。雲計算是現在通用大數據處理基礎設施;人工智則是有效實現大數據價值的重要的途徑。就機器學習而言,其高端部分主要歸屬於人工智慧;其低端部分,比如回歸,是傳統的量化金融的一個重要組成部分。大數據往往是特指傳統的結構化此外的數據,比如文本、圖像、語音等,存儲資源佔用大,很有可能產生贏者通吃的效果,而這種贏者只需要比其他人強一點,早一點。

四.機器學習與量化金融

圖4 機器學習與量化金融

下面再介紹一下機器學習和量化金融之間的關係。上圖是講了機器學習的三個階段。第一個階段就是經典機器學習,跟我們的傳統的量化金融有很大的重疊。這裡有輸入、輸出,輸入就是它的自變數,根據這些變數能得出什麼樣的結論。在建模型的時候,我們往往需要手工設置一些特徵象,即需求。例如,我們欲知道消費者對利率的感應情況,找到其誘因,需要提前設計一些函數形式,把特徵設計完後,映射到需要預測的變數。機器學習比較高端的部分為表達學習,其不需要手工設計特徵項目,直接輸入後就自動產生特徵,特徵在映射到模型當中去。

圖5 深度學習案例

深度學習是把特徵變成多個層級,從一開始簡單的特徵到多層次的成像的特徵,再進行特徵映射的激勵模型。深度學習最經典的例子就是圖像,我們的初始特徵為像素。每個像素為一個不同顏色的點,不同的顏色使它產生邊界,這種邊界就會產生一些拐角並形成輪廓。這些輪廓可以產生一些部件,部件的組合就是個問題。這是用來往往需要解決人的直覺很容易解決的問題,但是用固化的邏輯程序解決難題。因此在我們在設計深度學習的時候,需要做大概念的提煉,這是非常艱難的。但是建立起來之後,我們只需要輸給程序一道學習樣本,表明哪些樣本是我們的目標物體即可。

五.傳統量化演算法

現在與大家介紹一下傳統量化演算法,在傳統的量化當中量化技術用了兩個演算法,一是logistics回歸。關於logistics回歸有幾個重要概念,廣義線性模型、關聯函數和正則關聯函數。logistics回歸是假定事情的發生,服從伯努利分布,每個數據點輸入變數,輸出一個時間發生的預期概率。但是我們在使用logistics回歸的時候往往會遇到一些困擾,其中一個巨大的困擾就是模型變數都是手工設計的,它需要很強的業務洞察力,而效果卻沒有保障。此外,不同變數的交叉作用項很難模擬。Logistics函數本身的特徵(比如零點的斜率最大)產生出一些表象,卻被很多從業者誤以為是資產真正的行為。

第二個比較傳統的一個演算法叫主成份分析(PCA:Principle Component Analysis)。解讀為抓住主要矛盾,放掉次要矛盾。針對所有的風險因子,根據歷史數據或預測等,求出相關矩陣;求出相關矩陣的所有特徵及相應的特徵向量,並按特徵值由小到大排列;特徵值越大的特徵向量也就是越重要的主要成分。以下使用幾個案例進行輔助說明。例如研究房價指數,我們把房價分成一線城市、二線城市等;在量化投資中,我們可以用趨勢跟蹤,找到一個組合放大的波動性;文件壓縮,例如我有一個較大的圖像文件、語音文件或視頻文件,如何在少量信息遺失的情況之下壓縮文件大小,那麼就可以使用主成份分析來來儲存這些信息。

六.超越線性回歸——現有著力點

在大數據的情形下如何將傳統量化金融抬高一個台階?以下是我的幾點看法。第一,引入新的數據。傳統的量化金融局限在傳統數據上,還未引進新的數據。第二,創立全新的Feature Engineering的模式,避免手工設計變數。第三,提高現有模型的預測能力。第四,縮短模型開發周期。

圖6 引入更多數據-1

這個產品是信用掛鉤票據,在這個結構裡面分了四個層級,A、M1、M2和B。以前看過的研究報紙往往是用一些非常傳統的方式研究產品即使用行為模型,對其違約、早償進行預測,根據結果估算M1、M2的定價。在業內不同公司的模型預測結果差距並不大,這種細微的差距都在模型誤差之內,所以這種分析對模型定價沒有任何指導意義。

圖7 引入更多數據-2

上圖是我在產品剛剛銷售剛發起時所做的分析。根據市場交易的價格,反推出市場認為哪些貸款是房貸,它的預期的損失有多少。假定A沒有損失,B損失100%,M1和M2額外收益抵消掉有可能產生的損失,這樣可以大致算出這個產品的損失。再結合當時兩房的擔保費用(Guarantee Fee),可以得出若房貸不進行證券化將高出1.5%。從此處可看出兩房是在獲取暴利。這個結論引出幾個疑問。第一,市場上有無套利原則,但它是明顯的套利機會,為什麼市場不去實現?在兩房可以獲得暴利的市場情況下,為什麼Non-Agency MBS不能復活?第二,Basel III是否對信用風險和利率風險一視同仁?第三,銀行的風險資本的計提方法對Non-Agency MBS有什麼影響?第四,需要哪些數據來進行這些研究?

這就是超越線性回歸需要引入更多數據的案例。

多數據都是非結構化數據,需要大數據手段,第二個可超越的點就是Feature Engineering,即如何能夠用更好的框架來設計變數。Feature Engineering的目標是第一,減少甚至消滅人工設計以減少負擔;第二,解決高階項和交互項的難點,減弱甚至消滅極端情形下的illusion;第三,識別市場上的結構型變化。

第三個可超越點是提升現有模型的預測能力。Adaboost用中國的古話可理解為:三個臭皮匠賽過諸葛亮。即將一組預測能力較弱的模型組合成預測能力強的模型。其基本思路如下。首先,原先被預測錯的樣本在後續模型的訓練中占更高的比重。其次,預測能力較強的模型話語權越高。Adaboost在分類演算法中有較多的使用例子,但是如何運用到回歸演算法中去,是我們需要繼續思考的問題。

第四個可超越點是縮短模型開發周期。利用雲技術,例如Cloudera、spark,達到流程自動化,把人力用到更有意義的研究中。此外,不讓存儲、查詢等能力的欠缺拖後腿。

本篇編輯:薛瑤

?

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 金融讀書會 的精彩文章:

巴曙松等:為什麼亞太地區資產管理行業增長領先全球?

TAG:金融讀書會 |