李靖：人工智慧技術高速發展環境下量化投資的新視角

最新 08-30

人工智慧技術高速發展環境下量化投資的新視角

李靖進化論資產管理有限公司CTO

今天，我給大家演講的題目是《人工智慧技術高速發展環境下量化投資的新視角》。

大家都知道人工智慧是一門研究自然語言處理、知識表示、規劃、推理、機器學習等問題的科學。然而這門科學的發展歷程並不是一帆風順，在經歷了幾番高潮和低潮之後才形成如今的快速發展局面。拿模式識別模型來說，學術產業界從最開始的單層感知器到後來的多層BP神經網路，再到2012年的深度學習模型Alexnet，經歷了半個世紀的時間。正是Alexnet這個深度學習演算法，在2012年ImageNet這個圖像識別的比賽中獲得冠軍的同時，遠遠甩開了其它的非深度學習的演算法，人工智慧才正式開始了全面快速的發展。

下圖是2012年AlexNet之後，截止到2016年的Inception V4，各種模式識別演算法在ImageNet上的準確率柱狀圖，可見5年的時間內，從最開始的55%左右到最近的80%，進步非常明顯而且迅速。

然而，AlexNet的出現只是人工智慧如今快速發展的催化劑，究其本質原因，我們認為有三方面：首先，計算機硬體設備的快速發展導致神經網路的運算速度得到巨大提升，之前需要訓練幾周的模型，如今可能只需要半天就訓練完畢；其次，互聯網的興起為機器模型模仿人類提供了豐富的數據；最後，也是最重要的，演算法模型變得更加像人類或者超越人類了。當這三方面形成共振的時候，人工智慧自然迎來了大爆發。

著眼於當前的人工智慧技術，主要沿著以下幾個研究方向拓展延伸：（1）生成對抗網路，用於數據、圖像、語音、對話，甚至於文學音樂藝術作品的創作；（2）深度強化學習，用於自動控制和多步決策；（3）模仿學習，用於機器從人類給出的指導中學習；（4）視頻遊戲，研究怎麼讓計算機玩Atari，dota2，星際爭霸這些遊戲，達到超人的效果；（5）遷移學習，研究怎麼讓訓練好的模型只經過少量學習應用到新的場景；（6）讓機器學習如何學習；（7）序列到序列的學習，比如機器翻譯、對話生成等；（8）解釋機器學習內部的黑箱模型。

下面我們講下，與量化投資息息相關的人工智慧技術，主要講深度強化學習。

深度強化學習，顧名思義，是深度學習和強化學習的結合產物。

當我們需要用到序列決策和表徵學習的時候，我們就會用到深度強化學習。比如下面的左圖，是Atari裡面的名為Breakout的遊戲，玩家要使用球拍左右移動擊打紅色的小球儘可能地消滅上面的磚塊，消滅得越多得分越高。顯然，我們遇到了下面右圖所示的問題，S代表的操作者觀察到的狀態，a代表著操作者在當前狀態下可以採取的操作，有向箭頭上的值代表著當前操作產生下一步不同狀態的概率，黃色的波浪箭頭代表著這步操作的得分。那麼如何取得儘可能的得分，這是一個馬爾科夫決策過程，不是分類回歸模型能夠解決的。在處理這個問題上，我們使用深度強化學習可以做得很好，大家可以看到左圖就是機器使用深度強化學習的結果，非常厲害，超越了人類的表現。

深度強化學習，除了要用到連續決策，還要用到深度學習作為表徵學習的方法。比如說在無人駕駛這個領域中，人可以通過自己聽到的看見的信息輕鬆來駕駛汽車，但是人類如何讓機器知道圖片所示的——這是條馬路，中間是黃線，你要沿著黃線右側行駛，人無法直接讓機器知道，但是可以使用深度學習讓機器學習到，這是馬路，這是黃線，以及這是馬路右邊。

總而言之，深度強化學習就是：讓機器搞清楚什麼是什麼的前提下，自動學習到在什麼狀態下選擇什麼行為，獲得累計最高的獎勵。也就是這裡的公式。

下面列出的是深度強化強化的一些演算法，主要是model free的，可以看到演算法的迭代速度是非常快的，當然效果是越來越好。

下面列出的是深度強化學習的一些應用，其中最著名的是AlphaGo。

回到量化投資這個話題上，量化投資的本質也可以看作一個馬爾科夫決策過程。每時每刻我們可以觀察到市場的狀態，包括宏觀面、基本面、情緒面、事件面以及資金賬戶狀態等。根據觀察到的市場狀態，我們可以採取買賣加減倉等操作。目的是使得利潤最大化或者夏普比率最大化。

量化投資這個問題的特點是：（1）擁有多重信息來源：有數字、圖像、文本、時間序列等；（2）需要做出一系列的決策；（3）擁有龐大的數據集合

那麼我們應該怎麼解決這個問題呢？

傳統量化給出的方案是：首先人工觀察市場運行的邏輯，發現可以預測未來收益的規律或者因子，計算出這個因子的歷史數值，接著對因子的歷史表現進行檢驗，包括IC IR測試、單調性經驗、多空檢驗等，當檢驗通過之後，拿新因子與已有因子進行對比，主要是信息重合度的對比，如果信息重合度比較低，那麼根據IC均值以及IC方差賦予新因子權重，並與已有因子線性疊加使用，預測未來收益，最後根據回測結果，尋找固定的買入賣出閾值，用來指導買賣操作。

舉一個具體例子：比如說我們可能發現20日動量因子有效，然後根據回測結果決定，當20日動量因子滑出200名時賣出，同時買入一隻排名靠前的股票；接著我們可能又發現250日動量因子同樣有效，並且與20日動量因子信息重合度比較低，於是我們根據兩個因子IC均值歸一化分別賦予兩個因子權重，比如分別是0.5, 0.5，這些都沒有問題；但是後來我們可能又發現60日動量因子也有效，只是可能與20日動量因子、250日動量因子都有部分信息重合，也有增量信息，那麼這個因子能不能直接拿過來一起使用呢？如果一起使用，那麼分別賦予0.3，0.3，0.3的權重嗎？這顯然是不合理的。這說明了傳統量化難以處理因子與因子之間既存在重合信息，又存在增量信息的情況。

再舉一個例子，比如說我們可能覺得股價未來的走勢與量價有著難以描述的關係，我們可能覺得股價溫和放量上漲是好事，但是萬一某一天突然放大量上漲對於股價短期來說卻是壞事，這些關係怎麼使用傳統量化因子描述呢？很難，為什麼？因為這種量化關係是多維度的非線性關係，難以用一個式子表示出來。這說明了傳統量化難以處理不同特徵或者維度之間的非線性關係。

鑒於傳統量化的這些缺點，我們有了基於機器學習的量化。在步驟上，主要在兩個方面改進了傳統量化。一方面，我們只需要少量的經驗，發現市場上可能影響股價未來走勢的維度，這些維度很少有著傳統量化中因子的單調性特徵。儘管可能有成百上千個維度，但是沒關係，全部扔給機器，讓機器自動發現哪些維度或者特徵起著決定性作用。另一方面，使用隨機森林、BP神經網路或者支持向量機，將這些維度使用非線性的方法結合起來構成一個強有力的具有嚴格單調性的新因子。

可以看到，基於機器學習的量化縮短了新因子的開發周期，比較好地處理不同因子或者特徵之間的信息重疊，同時那些單獨看來比較弱有效甚至無效的因子結合成一個強有效的因子。

基於機器學習的量化已經做得很好了，但是還是有缺陷，其中一個就是不能有效的把多來源的信息組合起來，因為它缺乏表徵學習的能力。

這時候就輪到深度學習登場了。下圖就是深度學習下量化投資的做法，它可以把不同來源的信息：傳統因子（數字）、技術走勢圖（圖像）、一系列事件（文字以及文字的時間序列）以向量表示的方法結合起來，最終形成一個價值網路。別看這個網路很複雜，其實訓練起來沒那麼難，我們只需要把每個模塊（傳統因子、技術圖形、事件驅動）單獨訓練，然後使用層層微調的方式就可以很快形成一個結合了傳統因子、技術圖形、事件驅動的大的價值網路。

綜合以上的傳統量化、機器學習量化、深度學習量化，我們可以發現同一個問題，也就是這些方法都沒有直接決定如何買賣，而是使用統一的買賣閾值。使用統一的買賣閾值在實際過程中過於機械，同時會造成不小細節上的損失，本來應該早點賣出的股票多拿了幾天，本來可以晚點賣出的股票很早賣出了。

為了解決這個問題，我們引入深度強化學習，在深度學習獲得的價值網路的基礎之上訓練一個策略網路，如下圖所示。具體訓練的方法也類似於之前的深度學習裡面提到的方法，只不過疊加了策略網路的梯度。同時為了關聯前後狀態或者行為，我們額外使用長短記憶網路將狀態行為的隱藏向量聯繫起來，增加模型的記憶能力。

講到這裡，有人可能覺得：既然人工智慧模型做得這麼複雜難以理解，那麼我們在實盤中憑什麼敢把資金交給模型？這裡涉及到兩個問題：（1）憑什麼相信模型的預測結果？（2）憑什麼相信模型的訓練結果？有兩篇論文分別解決這兩個問題：第一篇論文解決第一個問題，第二篇論文解決第二個問題，它是今年ICML會議裡面的最佳論文，講的是當前的訓練出來的模型由訓練集裡面的哪些樣本造成的。這裡我們主要展開的是第一個思路，怎麼樣解決你預測樣本的可靠性。具體的方法在圖片裡面顯示，當中的最大的紅色的加號是我們要預測的樣本，這個藍色和紅色的間隔曲面是我們訓練模型的決策曲面，可以看到這個決策曲面是非線性的。怎麼樣解釋這個「+」被預測到紅色區域裡面呢？第一步要做的是把這個樣品裡面所具有的特徵進行微調，比如股票裡面一隻標的市值20億，我們把它變成40億或者60億或者80億，還有它的20日反轉，我們改變一下在市場裡面的排序，形成「+」周圍的點，這些點可能在紅色區域裡面也有可能在藍色區域裡面，到底是這個維度裡面的哪些東西來決定紅色「+」在紅色區域裡面呢？我們根據微調生成的樣本做一個線性分類器，比如Lasso，線性分類器裡面的每個X是它樣本的特徵。X所對應的權重就是該特徵的貢獻度。

再舉一個圖象識別的例子，比如樹蛙，機器判斷樹蛙的概率是0.54，為什麼機器這麼想呢？我們先把樹蛙圖片裡面的一部分隱蔽，比較頭部以下遮掩，發現機器預測是0.85，把大部分區域抹掉，機器預測是樹蛙的概率很小。接著把整張圖片給他，他預測為樹蛙的概率反而下降了，為什麼？可能是因為他覺得它沒有見過站著的樹蛙，站立著的樹蛙，並且拿著一個桃心。這樣我們就發現機器之所以把它預測為樹蛙的原因，主要的貢獻度是上面的頭部。

關於量化投資的未來，儘管深度強化學習替我們做了很多工作，但是還有一些沒有解決的問題，比如在不重新訓練模型的情況下，怎麼讓機器自動學習有效期比較短的阿爾法因子，往往一些有效期比較短的阿爾法因子是比較強力的。比如2014年、2015年牛市末期的開板次新股因子，次新股只要開盤就不斷漲停，儘管這個因子持續時間短，但是當時特別有效。還有2015年股災後期的證金持股因子，當時的特力A、梅雁吉祥等等。這些因子怎麼讓機器理所當然的學習到呢？是否能讓機器進行借鑒人工智慧裡面的learning to learn的思路。還有怎麼讓原有模型快速適應新的市場風格，甚至於新的市場？比如A股裡面的阿爾法模型遷移到港股市場，這都是有待解決的問題。

前不久AlphaGo的創造者DeepMind宣布和暴雪公司公開了星際爭霸2的人工智慧研究環境，這個事件決定了星際爭霸2會是今後幾年很多新的人工智慧演算法的試驗平台。量化投資與星際爭霸2有不少共同之處。兩者都是信息不完全的問題，兩者都是屬於多智能體的問題。還有兩者的決策空間都很大。或許未來星際爭霸2的攻克能給我們不少啟示。

大概的內容就是這些。謝謝大家！

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量化投資討論組 的精彩文章:

TAG:量化投資討論組 |

您可能感興趣

※捷越王曉婷：人工智慧是金融科技發展的新引擎
※毛金明：深度挖掘人工智慧新技術引領教育科技創新發展
※徐州工業園區聚力創新驅動轉向高質量發展
※高科技照明企業歐司朗向智慧出行、智慧城市和智能設備重點發展
※中國信通院王志勤：推動人工智慧技術發展的三大要素
※人工智慧快速發展智能晶元成中國經濟新引擎
※港媒：人工智慧技術的發展或令中國核潛艇取得革命性進步
※人工智慧與智能製造推動下的新經濟發展
※中國領跑全球清潔能源發展：釩液流電池、光伏創新與煤資源化利用
※淺談人工智慧技術的發展歷史，人工智慧潛移默化地感染著人們的生活
※新興技術與產業發展變化
※人工智慧技術發展的三生三世
※劉世錦：推動高質量發展必須防範金融風險
※科技創新發展的五大環節
※人工智慧助力工程設計創新發展
※李曉楓：科技金融創新與發展趨勢
※發力科技創新推動高質量發展
※李彥宏：人工智慧將對中國工業發展產生顛覆性影響
※科技創新，提升傳染病防控能力｜中國衛生與健康科技創新發展高峰論壇
※人工智慧發展新生態推論——機器人三定律、電車難題、雙縫實驗、人性的距離感、人類的創新基因