大數據和 AI 策略——面向投資的機器學習和另類數據方法

最新 05-28

近日，微軟 AI 首席科學家鄧力加盟對沖基金公司 Citadel 再次引發了人們對於機器學習技術應用於金融投資領域的關注。J.P.摩根最新的280 頁研究報告《大數據和 AI 策略——面向投資的機器學習和另類數據方法》，極為詳盡地梳理、評述、預測了對沖基金和投資者使用機器學習技術利用、分析另類數據的現狀與未來，對於一切關注這一新興大趨勢的人們、一切投資者都有重要的借鑒意義。

大數據，特別是另類數據集的構建和利用，已經極大地改變了投資領域的面貌。對沖基金和其他經驗豐富的投資者日益增加了對「另類數據」(alternative data)的消費。只要可能影響投資決策但又不屬於市場統計數據和公司財報這類傳統信息的數據都稱為「另類數據」。

不過，如果沒有內行的數據科學家，這類數據就難以使用，而且有時候並不可靠。對沖基金只是在最近才能獲得衛星圖像分析之類的數據，所以沒有多少歷史數據用來核實其價值。部分批評者認為，如此複雜的公司和經濟分析方法的好處被誇大了。

就在前不久，微軟AI首席科學家、IEEE Fellow 鄧力離開微軟，加盟對沖基金公司 Citadel，擔任首席人工智慧官（Chief Artificial-Intelligence Officer）。這條消息再次引發了人們對於 AI 技術、尤其是機器學習技術在金融投資領域應用的關注。

J.P.摩根最新的280 頁研究報告《大數據和 AI 策略——面向投資的機器學習和另類數據方法》，極為詳盡地梳理、評述、預測了對沖基金和投資者使用機器學習技術利用、分析另類數據的現狀與未來，對於一切關注這一新興大趨勢的人們、一切投資者都有重要的借鑒意義。我們節選了這一長篇報告非常小的一部分介紹給讀者朋友們。

一、另類數據的可用以及分析這些數據的新定量技術——機器學習，正在成為競爭優勢的新來源

大數據和機器學習「革命」：目前，聯網設備以電子方式獲得了大多數的記錄和觀察。這原則上允許投資者實時訪問廣泛的市場相關數據。例如，可用於評估通貨膨脹數百萬項目的在線價格，可以實時估計銷售量的商店訪問和交易的客戶數量，可以評估石油鑽井平台或農業活動產量的衛星圖像。歷史上，類似的數據只能以低頻率（例如每月CPI、每周鑽機數量、美國農業部作物報告、零售銷售報告和季度收入等）提供。鑒於可用的數據量，有經驗的量化投資者在理論上可以接近獲得實時的某公司特定的數據，而這些數據不能從傳統的數據源獲得。在實踐中，有用的數據不容易獲得，需要購買，需要組織和分析另類數據集以提取可交易信號。大型或非結構化數據集的分析通常使用機器學習來完成。在設計定量策略方面，成功應用機器學習技術需要一定的理論知識和很多實踐經驗。

在苦苦追尋 Alpha （對於非金融領域的讀者，可以簡單地將 Alpha 理解為超額回報）的過程中，基金經理越來越多地採用量化策略。另類數據的可用以及分析這些數據的新定量技術——機器學習，正在成為競爭優勢的新來源。這種「數據的工業革命」旨在通過信息優勢和發現新的不相關信號的能力來提供 Alpha。大數據信息優勢來自手機、衛星、社交媒體等新技術創造的數據。大數據的信息優勢與專家、行業網路甚至企業管理能力不直接相關，更多體現的是收集大量數據並實時分析數據的能力。在這方面，大數據有能力深刻改變投資環境，進一步將投資行業趨勢從自由決定性轉變為量化投資風格。

有三個趨勢使大數據革命成為可能：

1）可用數據量的指數增加；

2）提高計算能力和數據存儲容量的成本降低；

3）分析複雜數據集的機器學習方法取得了進展。

有許多經常使用的概念可以用於描述大數據，這裡我們給出最簡明的用來描述大數據的維度：

大數據有三個重要的特徵維度：

體量：通過記錄、公報、圖表、文件等等收集並存儲的數據的規模，大數據的「大」的下限正在持續升高；

速度：數據的發送和接收速度經常被作為大數據的顯著特徵。大數據能夠批量傳送；大數據的獲取是實時的，或是接近實時的。

多樣性：大數據經常具有多樣性的形式——結構化的（如SQL 表格或 CSV 文件），半結構化的（如 JSON 或 HTML），非結構化的（如博客或視頻信息）。

二、另類數據集的分類

在投資管理中，大數據革命的核心在於能夠提供具有信息優勢的數據資源。另類數據帶來的優勢可能是在於發現傳統的信息源中沒有包含的新信息，或者發現的是相同的信息，但是速度更快，時間更早。例如，礦井或者土地的衛星圖片能夠在媒體或者官方報告前，揭示供應短缺。

我們旨在提供大數據的框架或分類。首先，我們根據數據的生成方式對數據進行分類。然後，我們考慮的是數據集的屬性，也就是與投資專業直接相關的，例如將數據集映射到資產類別或投資風格，alpha內容，數據質量，技術規格等。

我們首先在高水平上對數據來源進行分類，指出它們到底是由個人（如社交媒體帖子）生成，還是通過業務流程（如電子商務或信用卡交易數據）生成，或由感測器（比如衛星圖片、雷達等等）生成。

上圖展示了這一分類。這種一方法擴展了Kitchin（2015年）和聯合國報告（2015年）在非財務文本中早期的嘗試。雖然這種分類法在某種程度上只是理論上的，但是，在分析這三個類型的數據時，確實存在共同特徵，分析方法和共同的挑戰。例如，個人生成的數據通常是非結構化的文本格式，需要自然語言處理。感測器生成的數據往往是非結構化的，並且可能需要分析技術，例如計數對象，或消除天氣/雲從衛星圖像的影響。許多商業上生成的數據集，如信用卡交易和公司的「廢棄」數據都面臨共同的法律和隱私問題。

在根據數據來源對數據進行分類之後，我們還要提供另一個投資人士可能更為感興趣的分類方法。一個零售版塊的投資組合經理可能更關心的是特定的銷售數據，而無所謂它們是衛星生成的還是消費者志願填寫的。高頻交易者關心每天產生的數據，比如推特、最新發布等等，但不太關心有明顯延遲的信息，比如信用卡數據。在下圖這個「投資分類」中，我們為各種另類數據標示了不同的屬性，這些屬性和投資專業人士比如 CIO、投資組合經理等高度相關。

三、機器學習技術的分類：怎樣才算是人工智慧

大型和較少結構化的數據集通常不能用簡單的電子表格工作和散點圖進行分析。我們需要新的方法來解決新數據集的複雜性和規模。例如，使用金融分析師的標準工具不可能對非結構化數據（如圖像，社交媒體和新聞稿）進行自動分析。即使在大型傳統數據集上，使用簡單的線性回歸往往會導致過度擬合或不一致的結果。機器學習方法可用於分析大數據，以及更有效地分析傳統數據集。

毫無疑問，機器學習技術在應用於圖像識別，模式識別，自然語言處理以及自動駕駛汽車等複雜任務時，產生了一些驚人的成果。那麼，機器學習在金融中的應用是什麼，這些方法相互之間有何不同？

首先需要強調，任務的自動化不是機器學習。我們可以指示計算機根據固定的規則執行某些操作。例如，如果資產價格下降了一定量（止損），我們可以指示電腦出售資產。即使給機器（也稱為「符號人工智慧」）大量複雜的規則，並不意味著就是機器學習，這只能說是任務的自動化。使用這個「符號人工智慧」，機器在遇到與此前預編程的規則不匹配的情況時，只會選擇自我「凍結」。

在機器學習中，給予計算機一個輸入（一組變數和數據集），輸出是輸入變數的結果。該機器然後發現或「學習」在輸入和輸出之間起到鏈接作用的規則。

最終，這個學習任務的成功會被進行「樣本外測試」，也就是，在未知的情景下，測試它所獲得的這種連接變數和可能的預測結果之間的關係能力。

機器學習可以是監督的或無監督的。在監督學習中，我們試圖找到一個規則，一個可以用來預測變數的「方程式」。例如，我們可能想要尋找一種能夠預測未來市場表現的能力（趨勢跟蹤）信號。這可以通過運行先進的回歸模型來評估哪一個具有較高的預測能力，並且對於regime變化最為穩定。

在無監督學習中，我們發現了數據的結構。例如，我們可能獲得了市場回報，現在嘗試確定回報的主要驅動力。例如，一個成功的模式可能會揭示，在某個時間點，市場受動量因素、能源價格、美元水平以及與流動性有關的新因素的驅動。深度學習是一種機器學習方法，可以分析在多個層級上學習數據（因此「深度」）。我們經常說的自動化的目標是執行易於定義但執行起來乏味的任務，而深度學習 AI 系統的目標是執行難以定義但易於執行的任務。深度學習本質上與人們學習的方式更相似，因此是人為重建人類智慧的真正嘗試。

深度學慣用於非結構化大數據集的預處理（例如，它用於計算衛星圖像中的汽車，識別新聞稿中的情緒等）。在假設的財務時間序列示例中，深度學習預測（或估計）了市場修正的概率。我們可以將大量的數據集輸入到深度學習模型中。該模型可能首先確定一些對市場產生負面影響的簡單特徵，例如動量崩潰，波動性增加，流動性下降等。這些因素單提出來可能不會導致市場糾正（market correction）。此外，演算法可以識別這些簡單特徵之間的模式和它們之間的非線性關係。從這些模型中，它可以構建更複雜的特徵，如EM 驅動災難（EM driven crises），財務壓力，這些最終可能導致更為顯著的市場糾正（market correction）甚至衰退。

上圖顯示了交易策略中各種機器學習/人工智慧及其潛在應用。最初，先提供灰框中的步驟給演算法（作為訓練集的一部分），然後由機器學習演算法生成綠色框中的步驟。

四、在另類數據中實施機器學習的主要步驟

鑒於風險和不確定的回報，許多投資者都在思考何時應該採用更具量化性的、數據驅動型的投資方法。首先我們簡要概述實施過程中的主要步驟（例如有多少需要外包、內部構建大數據/機器學習所需的人才、典型的技術設置等等）。如下圖所示：

首先需要識別和獲取數據。數據採集團隊可以直接通過數據所有者/供應商或聚合第三方數據的專業公司（並與供應商和最終用戶相匹配）來獲取新數據源的使用權。一旦許可協議到位，數據需要存儲和預處理。大數據很少呈現出乾淨的形式，一般都無法直接提供給機器學習演算法使用。需要專門的團隊預處理數據（例如檢測異常值、缺失值等）。數據科學團隊由量化研究人員組成，藉助機器學習、反向測試策略和可視化技術分析數據，根據數據推導出可交易信號或見解。最後，信號由投資組合經理實施，或者在某些情況下以自動化方式執行（這將涉及到系統的另一層和將信號鏈接到執行系統的軟體專家）。

我們認為，大數據與機器學習革命將深刻改變投資環境。隨著越來越多的投資者採用大數據，市場的反應將更快，並將越來越多地期待傳統或「舊」數據源。這將為量化經理和願意採用和了解新數據集和分析方法的人們提供優勢。那些不學習、拒絕進化的人將面臨過時的風險。不管這些變化的時間表如何，我們認為，分析師，投資組合經理、交易者和首席信息官最終將不得不熟悉大數據和機器學習的發展和相關的交易策略。

本文來源：新智元

產品簡介

政務大數據基因系統是按照國家、行業和地方標準，通過政務數據元、元數據標準化和數據模板化實現數據規範編輯、智能管理、關聯應用和共享開放，以提升全域或行業的數據資源活化和管理能級。它是實現數據跨系統共享交換、創新應用的底層邏輯和關鍵規則體系，是解決（大）數據混雜、提升數據質量、促進數據創新應用的前提，也是集成信息資源目錄體系、交換體系和開放體系三合一的管理平台，為優化政務數據體系、探索數據關係、驅動數據服務奠定基礎。是城市和行業數據中心的必備管理工具，實現從管網路、系統到管用數據的躍遷。

大數據價值構建師

DT時代組織轉型的方案服務商

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器學習 的精彩文章:

※機器學習演算法究竟需要試驗多少次，才能有效反映模型性能？
※機器學習，AI進階之匙
※很污的機器學習：從xhamster網站找到喜歡的片子
※微軟Contana智能語音套件介紹＆微軟機器學習介紹

TAG:機器學習 |

您可能感興趣

※機器學習探索性數據分析的數據類型
※數據科學、機器學習和AI的區別
※大數據和機器學習促進包容性金融科技
※最新調查：Python 成數據分析、數據科學與機器學習的第一大語言
※機器學習演算法相關的數據結構
※AI視野：讓數據科學家做人類該做的事、人工智慧和機器學習對交易和投資的影響、人工智慧大幅降低機場行李處理費
※機器學習面試指南，非AI領域也可借鑒的方法論
※AI 和機器學習中暗含的演算法偏見
※九章雲極獲億元B輪融資，用機器學習和AI演算法打造數據科學平台
※人工智慧、機器學習、模式識別、數據挖掘關係
※淺析數據標準化和歸一化，優化機器學習演算法輸出結果
※特徵選取演算法-機器學習與數據分析常用術語（二）
※每一位數據科學家都應掌握的5大機器學習演算法
※人工智慧和大數據中重要的機器學習環節
※大數據潮流下的機器學習及應用場景
※python轉型數據分析、機器學習、人工智慧學習路線
※大數據研究項目中數據科學家需要掌握遷移學習
※大數據分析等技術預計將給在線學習領域帶來革命性變化
※Evans Data顯示：人工智慧和機器學習方面的開發人員數量巨大
※互聯網項目中關於大數據分析之路的學習和拓展領域