如何用人工智慧進行電子交易？摩根大通說要解決這些難題

知識 01-05

選自arXiv

作者：Vangelis Bacoyannis等

機器之心編譯

J.P. Morgan（摩根大通）一直是銀行金融行業中積極應用大數據和人工智慧技術的典範和先行者。他們的 NeurIPS 2018 論文《數據驅動的學習在電子交易中的特質和難題（Idiosyncrasies and challenges of data driven learning in electronic trading）》探討了演算法交易中機器學習等技術的應用情況，也分享了摩根大通的最新經驗。機器之心對該論文進行了全文編譯，對該論文的介紹也可參閱機器之能的文章《如何在演算法交易中使用 AI？摩根大通發布新版指南》。

1 引言

由養老基金和其它資產管理機構持有的金融工具投資組合會經歷周期性的再平衡，有時候這個過程會很劇烈。代理電子交易（agency electronic trading）是大銀行和專業經紀公司等經紀商所提供的一種服務，可幫助提升這些交易的效率。高效的投資組合轉換能幫助客戶節省很多東西，進而又能助益這些投資組合的最終受益人——教師、醫生、消防員、政府公務員、工人、對沖基金運營人等。

資產交易的全球化、超快速信息技術的蓬勃以及快如閃電的通信技術已讓人類無力從事例行的低層決策過程。如今，股票和電子期貨合約的大多數微觀交易決策都是由演算法制定的：它們定義在何處以什麼價格交易多少數量。圖 1 給出了這種演算法的一個示例。

圖 1：工作中的體量百分比（PoV/Percentage of Volume）演算法：深藍色表示被動訂單，淺藍色和橙色分別表示買入市價和賣出市價，圓圈表示訂單成交量。

根據自己的總體投資量和執行目標，客戶通常會向執行經紀商下達帶有特定限制條件和偏好的指令。舉幾個例子，客戶可能希望保證他們的投資組合轉換中的貨幣中立性，這樣賣出的數量就大致等於買入的數量。客戶也可能表達他們的風險偏好並指示被執行的證券籃子以一種受控的方式暴露給特定的企業、國家或行業。對於單個訂單執行，客戶可能希望控制該訂單執行影響市場價格的方式（控制市場影響），或控制訂單受市場波動性的影響方式（控制風險），或指定一種緊急程度以在市場影響和風險之間取得最優的平衡。

為了滿足這些多方面的且有時候互相衝突的目標，電子交易演算法會運行在多種粒度層級上。市場分析和量化模型可以為每個層級的決策提供信息。傳統上，電子交易演算法是科學的量化模型的一種混合體，能從量化角度表達世界的運作方式以及規則和啟發性知識，這些來自於人類交易員和演算法用戶的實際經驗、觀察和偏好。傳統交易演算法以及伴隨它的模型通常會被封裝成數以萬計行數的代碼，這些代碼是人工編寫的，難以維護和修改。為了應對不同客戶的目標以及金融市場的變化，人工編寫的演算法往往會遭遇「特徵蔓延（feature creep）」問題，並最終會累積很多用於處理特殊情況的邏輯層、參數和修改調整。

金融服務業是一個受到嚴格監管的行業。在某些地區，參與者會面臨非常特定的要求，比如 ESMA（歐洲證券和市場管理局，2014）有「最優執行（best execution）」的概念。在符合這些要求的同時實現演算法交易的效率是很有難度的：不斷變化的市場條件和市場結構、監管限制以及客戶的多種目標和偏好讓設計開發電子交易演算法的任務步履維艱。使用以數據為中心的方法、神經處理和機器學習帶來了一個很有吸引力的機會，即有可能通過這些方法簡化電子交易業務中應用的開發並提升其效率。

在這篇短論文中，我們試圖搭建學術界和金融業的已有方法之間的橋樑。我們給出了電子交易領域出現的實際難題和特質，我們希望這能為學術研究者帶來一些靈感。

2 量化金融領域中三大類以數據為中心的應用

在這一章節，我們首先會介紹 Peter Norvig 在 Norvig [2011] 中提出的論點並會做進一步的延展。下面的三大類方法與該領域連續三代研究者浪潮緊密相關。

2.1 數據建模方法

這類方法的特點是相信自然（以及金融市場）可被描述成一個黑箱（black box），其中有實際生成觀察數據的相對簡單的模型。量化金融的任務是為這個數據生成過程找到一種合理的函數近似，即一種量化模型，並從數據中提取出它的參數。然後，該模型的輸出會被送入量化決策過程。市場和市場參與者的行為的複雜性是數據建模方法所面臨的主要難題：簡單模型不一定能得到環境的所有本質屬性。可以認為簡單模型往往會讓人感到錯誤的確定性，並由此容易造成慘重的損失。

2.2 機器學習方法

對於自然和金融市場是否簡單的問題，機器學習方法走向了一條不可知論的道路。我們確實有很好的理由認為它們並不簡單：從實踐中看，金融世界更像是達爾文式的，而非牛頓式的；也就是說在不斷演進，我們觀察到的包括電子市場中交易在內的過程最好被描述為湧現出的行為，而不是生成數據的機器。機器學習方法會使用複雜且有時含混不清的函數來建模這些觀察。研究者並不會宣稱這些函數能揭示其基本過程的本質。與在數據建模方法中類似，機器學習模型建立後，其輸出會被送入決策過程。複雜的模型也容易出現故障：模型故障的風險會隨模型複雜度的增長而增大。

2.3 演算法決策方法

我們在這裡關注的重點是決策，而不是建模。我們繞過學習「世界如何運作」的階段，而是直接訓練電子經紀人/智能體（agent）來分辨好的決策和壞的決策。這種方法的難題是我們是否有能力理解和解釋演算法經紀人的決策、理解它的策略以及確保它能在所有（包括假設的）環境中都能有合理的行為。在演算法決策方法中，智能體會學習到特定的動作是差的，因為它們會導致出現負面結果（固有差錯）。但我們仍然必須注入值和規則以及約束，以讓智能體不會採取我們認為禁止的行為（非法行為），畢竟智能體無法從其環境和歷史中學到這些。

在這篇論文中，我們將展示一種強化學習的實際應用中智能體的約束和獎勵之間的相互作用。我們還將概述特定的難題以及我們使用計算資源解決它們的方法，還將介紹多個行業與學術界中其它團隊取得的許多成果。

3 從低維到高維再回到低維

3.1 高層面決策

從非常高層面的角度看，很顯然每個訂單都有一個最優的執行速率或執行時間表，也就是說，訂單在市場中以怎樣的速度執行或執行的持續時間如何。

首先，幾乎任何規模的訂單都可以即時執行——只要客戶不在意執行成本並願意付費。在正常情況下，這種執行方式無疑是不合理的、低效的而且有可能成本極其高昂。這樣的執行有很高的可能性會影響市場價格。

另一方面，如果父訂單（parent order）通過其子訂單（child order）以無限慢的速度執行，則其幾乎不會給市場帶來壓力。這樣的執行也是不合理的，因為沒有任何客戶不在意不受干擾的市場價格與該訂單相悖的可能性（買單時上漲，賣單時下跌）。執行時間越長，市場價格違背客戶的最佳利益的可能性就會越高，也就是說會有更高的風險。

通過簡單考慮這兩種極端情況，很容易就能看出必然存在一個最優的執行速度或最優的執行時間安排。我們還能輕鬆看出客戶的偏好和容忍度也會帶來影響：有效速度是由客戶對市場價格的容忍度和對風險的偏好決定的。這種高層面決策案例的不確定性來自高層面的分析和量化模型。

這也表明了一個我們常常會在電子交易以及其它量化金融領域發現和重新發現的重要事實：沒有解決方案，只有權衡取捨。

3.2 低層面決策

一旦找到了大致的最優速度或時間表，下一級的決策就是實現這個時間表。為了按照時間錶行事，經紀人通常會嘗試與市場的其它部分融合到一起：特立獨行對自己有害，因為這會揭示出該經紀人的意圖。經紀人會在規模和價格上模仿其他參與者的訂單來創建市場訂單。

正是在這裡，我們發現了維度爆炸的問題。

描述限價訂單簿（limit order book）的市場狀態是一種維度可變且維度很高的問題。每個價格層級都有一些來自不同市場參與者的不同規模的訂單隊列。這些隊列可能任意長，也可能為空。在任意特定時間，最重要的價格層級是對應當前主要買價和賣價的層級。但是，在更深的層級以及投機性的距離很遠的層級也會存在顯著的訂單量。隨著交易發生以及訂單的接收和撤銷，訂單簿一直處於變化之中。觀察中的任何市場狀態都有可能演化成其它市場狀態，而這些市場狀態的數量近乎無限多。

在這樣的環境中，即使只考慮訂單時間、價格、規模和持續時間的最基本層級，可行決策集也會非常龐大和密集。經紀人必須決定以怎樣的價格和數量下單，而且如有需要，還會以不同的價格下多個訂單或者在我們已有訂單的地方以不同價格增加額外下單。如果一個訂單的價格不是市場價格，那麼該訂單會一直留在訂單簿中，直到市場價格觸及訂單價格（如果能觸及到的話）。其動作空間必須是動態且複雜的，因為為了改善價格，按深度下單是必需的；而且訂單會根據訂單簿中的價格-時間優先順序逐漸履行。根據可行的執行時機，最終的情況可能很複雜——可能存在多個合適的交易時機和訂單類型。

一局國際象棋大約要下 40 步。一局圍棋大約是 200 步。如果一個中頻電子交易演算法每秒鐘重新考慮一次其選擇，那麼就相當於每小時 3600 步。對於國際象棋或圍棋，每一步都是操控一個符合條件的棋子，並且要操作的也只有棋子。

對於電子交易，每個動作都是操作子訂單的集合：它由具有不同特徵（價格、規模、訂單類型等）的多個並發訂單構成。比如，一個動作可能會同時提交一個被動買單和一個攻擊性買單。其中的被動子訂單會以指定的價格留存在訂單簿中，由此能為其他市場參與者提供流動性。提供流動性可能最終會在交易發生時通過獲得價差（spread）來獲利：相對於在同一交易中獲取流動性的參與者，能以更好的價格完成交易。而攻擊性子訂單可用於取得參與一次價格變動的機會。兩者可構成一個動作。最終得到的動作空間會非常大，而且會隨組合的特徵數量而指數增長。

我們還不完全清楚如何定義每個動作的有效性。有人認為，對於電子交易智能體，決策的有效性和最優性可體現在檢測和把握機會（「好」交易）以及避開陷阱（「壞」交易）上。這種細粒度的定義的問題不僅在於很多機會的持續時間很短，而且可能都只存在微秒級的尺度上。更重要的是，事實上只有在交易執行（或避開）之後，我們才能確定該交易究竟是好是壞。

這樣的後果是局部最優性不一定能轉化成全局最優性：現在被認為是糟糕的交易到那天結束時可能會被證明是一個出色的交易。在這種情況下，我們感興趣的既有探索和重新定義「什麼是機會」，而且還有定義「如何採取行動」。我們將電子交易的這一獨特方面稱為「非局部最優性（non-local optimality）」。

對於電子交易智能體而言，還有一個可能的目標（但並不一定是特有的或最好的），即要能與市場的其他部分融合到一起。如果需要這一目標，可以使用一個獎勵函數來實現相對於交易量加權的平均價格的最優執行價格。這一策略必須找到一個平衡，以兼顧交易過快和價格變動造成的市場影響以及因交易過慢而遭受外部因素影響價格的市場風險。這一問題的一大重要部分是以某種方式整合狀態信息和動作空間，使之適用於擬合模型以及使用機器學習方法。這涉及到歸總市場狀態，其中可能包括巨大的可變且常變的維度和訂單狀態，而且父訂單和子訂單都會被納入模型輸入中。然後從可變數量的動作中選出一個作為響應。

3.3 之前的工作

這一領域之前的研究工作覆蓋了很廣的範圍，但基本上都針對的是這一問題的單個方面。某些研究包括在小維度環境中為強化學習進行預先設置，另一些則考慮以一種簡明且固定維度的方式來表徵數據。Akbarzadeh et al. [2018] 則研究了通過執行在線學習來驅動演算法。但是，因為只能下市場訂單，其性能很受限。

Nevmyvaka et al. [2006] 定義了一整個強化學習問題，但受到了動作空間的嚴格限制——只承認單個訂單，新訂單會取消掉舊訂單。Zhang et al. [2018] 將限價訂單簿總結成了 40 維的向量，其中包含來自價差任一側的 10 個價格層級的價格和交易量信息。這些信息基於前一天的交易進行了歸一化，並被用於預測市場波動。Doering et al. [2017] 更進一步，設計了 4 個包含訂單簿、交易、新訂單和訂單取消情況的矩陣，代價是維度增大了 4 倍且要使用非常稀疏的數據。

未來的研究方向主要面向基於強化學習方法的交易智能體的繼續研究和開發。這方面的核心是有效的降維方法，以便整合儘可能多的有關當前市場和已有訂單狀態的信息，這兩者都需要對高度可變的維度數據進行固定維度的表徵。現有的方法是通過假設存在固定數量的特定價格的未完成子訂單來簡化訂單管理流程；相比於人類交易員可採用的動作，這類方法有太大的局限性。

3.4 簡要描述我們的方法

我們現在正在運行我們的基於強化學習的限價下單引擎。我們成功使用一個有限定的動作空間訓練了一個策略。為了解決前面描述的問題，我們使用了利用領域知識的分層學習和多智能體訓練。我們在多個局部短期目標上訓練了局部策略（比如如何提交攻擊性訂單與如何提交被動訂單），這些局部短期目標在獎勵、步驟和時間範圍特徵上各有不同。然後我們將這些局部策略組合起來，然後更長期的策略是學習如何組合這些局部策略。

我們還相信逆向強化學習很有發展潛力：利用人類和演算法策略在金融市場上的行為的大規模歷史來構建局部獎勵是一個很活躍的研究領域。

4 在開發電子交易 AI 方面超越策略學習

4.1 策略學習演算法

強化學習的核心目標是最大化總和獎勵，這類似於真實的商業目標。根據該目標優化一個參數化動作策略的策略學習演算法一直都是強化學習研究領域內一個研究焦點。近期已有一些研究將著名的策略學習演算法用到了電子交易業務上 [Akbarzadeh et al., 2018] [Nevmyvaka et al., 2006]。我們將介紹除了策略學習演算法的能力之外的強化學習的其它方面。

4.2 分層決策

AI 在電子交易中的真實應用通常都有較長的時間範圍。客戶訂單需要很多分鐘甚至幾個小時（有時需要數天）才能成交，而智能體需要每幾秒一次甚至更快速地做出決策。這種時間範圍問題極大地限制了智能體的採樣頻率，使其遠低於完全整合所有可用的市場動態信息所需的頻率。

此外，智能體做決策的時間並不均勻。它做決策不根據時間，而是響應自己的動作的影響以及環境的顯著變化。

因此，強化學習中的時間抽象就變成了應對長時間範圍和時間不均勻性的關鍵問題。在這裡將其比作是跳幀可能並不合適——即只每隔一些時間步驟做一次決策。Semi-MDP（sMDP/半馬爾可夫決策過程）一直以來都是用於發現強化學習智能體的時間抽象行為的突出場景 Sutton et al., 1999]。但是，針對何時採取行動以及做何種決定訓練單個策略仍然具有很低的樣本效率。將 sMDP 與分層強化學習（HRL）結合到一起是一種可能的解決方案。在 HRL 方法中，決策模型由具有不同決策頻率（從元策略到原始策略）的策略層構成。

我們的電子交易智能體構建方案主要基於 Kulkarni 對基於規則的深度 HRL 的解釋 [Kulkarni et al., 2016]，因為我們能夠制定出合理的規則來構建基於領域經驗的元策略。我們也注意到了端到端（無規則）分層強化學習的進展，其中元策略的時間抽象屬性源自原始策略的行為或目標的聚類 [Bacon et al., 2017][Fox et al., 2017][Vezhnevets et al., 2017]。

但是，AI 智能體使用時間抽象的能力方面的核心問題仍未得到解決：智能體在總體目標的背景中對子目標和內在獎勵的解釋、時間抽象在收斂時的崩潰、在需要重度探索的環境中的樣本效率和深度的層次結構。

4.3 演算法、監管和計算難題

電子交易智能體運行在複雜的、不斷演進且快速變化的環境中。複雜度得到提升的智能體能得到更好的決策和效果，這是個加分項，但這也可能影響智能體的計算性能，並最終讓其無法實際部署。

另一個限制經紀商電子交易智能體的複雜度的約束是對理解、預測和解釋其決策的需求——從最高層面的決策到最低層面的決策都需要。

某些地區要求交易演算法的行為是可預測的、可控制的和可解釋的：這些智能體必須不能擾亂所謂的「有序的市場條件」，智能體的運營者必須要能解釋其智能體如何能為其客戶得到最佳的可能結果。

分層方法在這裡很有幫助：人們觀察到智能體的決策可以被分成不同的組別，這些組別所需的採樣頻率和粒度都不相同。我們在前面已經提到，分層式架構和 HRL 讓我們有可能分隔智能體模塊之間的職責。我們仍然可以在它們各自之中使用神經處理和強化學習，同時我們也會有能力管理智能體的整體複雜度，我們也能更好地理解智能體的行為以及如此行為的原因。

5 分層強化學習方案

5.1 在需要重度模擬的學習任務上對元策略進行基於搜索的優化

訓練強化學習智能體需要很多情節展開，而由於智能體與其環境之間的反饋循環，其中每一段情節展開都不能並行。基於梯度的智能體訓練會遇到大量經歷對（experience pairs）佔滿內存的情況，而這些經歷對往往很冗餘且充滿雜訊。除非學習演算法有強大的離策略，否則優良的行為會在訓練過程中被遺忘，同時涉及到一個變動目標的梯度優化又很難確保成功。因為這個原因，雖然近期在策略學習演算法方面出現了一些進展，但使用參數搜索演算法實現無梯度優化仍然是一個實用的選擇。

通過完全控制情節效用（episodic utility），應用超參數優化技術來訓練參數化的智能體，我們已經贏得了顯著的時間效率 [Osborne et al., 2009][Bergstra et al., 2011]，這也提升了整體的執行表現，同時無需應對獎勵的設計問題。這裡我們也強調一下參數搜索演算法的學習效率。

計算的局限性限制了對全序列優化方法的使用。我們緩解這一問題的方法是探索在每次試驗中使用具有更少採樣情節的確定性更低的優化，但以並行的方式運行它。無關路徑的早停是在兩者之間的很好妥協。但是，我們希望使用一種貝葉斯的早停方法繼續這方面的開發。

5.2 用於低層面決策過程的可擴展深度強化學習

前面我們提到了一些我們在開發電子交易智能體方面所面臨的難題：環境是部分可觀察的、細粒度的市場動態、智能體的觀察及其整體業務目標之間存在可能的時間範圍的不可通約性（incommensurability）、巨大的狀態空間、有延遲且可能錯開的獎勵。

和每個市場參與者一樣，我們的智能體也會改變它們運作其中的環境。我們在一個結構化的模擬環境中訓練了我們的智能體，該環境試圖重現真實市場的某些屬性，但目前還無法重現其所有屬性。尤其需要指出的是，我們想要構建的是一個能夠模擬真實市場對智能體行為的響應的環境。

初步證明，這需要一種支持可擴展模擬和可擴展強化學習演算法的架構。Gorila 架構 [Nair et al., 2015] 表明 DQN 演算法 [Mnih et al., 2013] 可以大規模部署，實現更優的結果。對於 A3C [Mnih et al., 2016]，IMPALA 演算法 [Espeholt et al., 2018] 最近也取得了相似的成績。一般而言，人們有興趣研究其它強化學習演算法方案能否以及如何得到擴展以利用大規模集群計算，從而得到更好的執行策略。對於想要利用可用的計算資源針對自己的用例使用特定演算法的從業者而言，基於證據的引導會非常有用。

開源強化學習框架的出現是一個激動人心的進展，其中包括 OpenAI baselines [Dhariwal et al., 2017]、ELF [Tian et al., 2017]、Horizon [Gauci et al., 2018]、dopamine [Bellemare et al., 2018]、 TRFL [Deepmind, 2018] 和 Ray RLlib [Moritz et al., 2017]。這些框架和工具讓更多人都能用上當前最先進的強化學習演算法。但是，前面提到的強化學習框架都還很早期，遠不夠成熟，還沒有達到 Google TensorFlow、PyTorch 或 Caffe 等常用的深度學習庫那樣的「生產可用」的程度。如果圍繞強化學習框架有類似深度學習領域那樣的強大生態系統和社區，那將會極大地促進強化學習方法的更廣泛應用。

我們發現 Ray RLlib 非常有用。這是基於分散式強化學習思想從頭構建起來的。它基於一種堅實的基礎設施，其利用了任務並行以及行為者（actor）模型 [Agha and Hewitt, 1987] 編程模式，這種編程範式已被證明在設計高效的大規模分散式計算系統方面非常成功 [Armstrong, 2010]。

強化學習實驗可能非常耗時，而且往往需要完成一系列子實驗，有時候還會因錯誤而中斷。Ray 的設計 [Moritz et al., 2017] 還解決了容錯問題。一般來說，強化學習實驗必需一些多功能和高效的工具來提升生產力，比如易用且低開銷的監控和分析強化學習訓練的工具。

從計算性能的角度看，強化學習演算法的另一大難題是基於可用的計算資源為任務選擇合適的實現方式，從而確保演算法有最快的全局收斂速度。以最優的方式利用多核 CPU、GPU 和 TPU 等資源是很困難的。Ray 通過其資源感知型調度器而部分地解決了這一問題。它允許用戶以代碼注釋方式聲明資源需求，比如 CPU、GPU 或自定義資源的數量。這能在高層面上調整任務的計算性能，而無需用戶理解或干預任務調度。

6 經典強化學習理論的不足和結果的不確定性

大多數標準的強化學習應用都假設智能體的獎勵是確定性的。但與這個假設相反，在電子交易智能體的運作環境中，結果通常具有內在的不確定性。人們傾向於將這種不確定性聲明為「雜訊」，來自一個隱含的數據生成過程，這確實也是默認的近似方法。在數據驅動機器學習方法和演算法方法中，結果的不確定性不是「雜訊」，這就是它的工作方式。我們不能簡單地就將市場的不確定性排除在外，因為它有重要的用途。

正如我們在本論文其它章節談到的，電子交易的結果的值是多維度的，且這些維度往往是不可通約的。在監管建議和限制以及客戶的指示面前，我們還需要一種穩健的方法來整合軟性限制和禁止行為的層次結構。

結果的固有不確定性和獎勵的豐富多維度結構給標準強化學習理論帶來了挑戰；在標準強化學習理論中，智能體學習能得到平均更好的標量值結果的動作。在金融領域，我們也很重視總體結果，但我們還重視結果分布的細節。我們需要一種能將這兩者結合起來的方法。

已有研究者提出了一種對標準強化學習方法的輕度擴展：整合了用於評估多維度和不確定結果的價值的效用函數。和在投資組合構建等其它金融應用中一樣，智能體會在一種確定性等效的意義上學習優良的動作：不確定的結果和它們聚合的總體結果通過取結果的效用函數在它們的未來分布上的期望來進行排序。

考慮一個例子：一個有限過程（為了讓我們忽略折扣因子）有一個標量的不確定的獎勵，而該過程的全局獎勵是局部獎勵的總和。這個案例反映了一種經典的電子交易設置：為了在交易資產的每股基礎上得到最好的可能結果。獎勵的整體總和仍然是不確定的。這種標準強化學習公式的確定性等效（CE）的修正如下（參見 Bühler et al. [2018] 和 Mihatsch and Neuneier [2002]）：

其中 U 和是效用函數及其倒數，E 表示期望，CE 表示確定性等效：是在狀態 s_i 的策略 π 動作，是其不確定的獎勵。

相比於傳統的強化學習，效用函數和確定性等效的動作排序的使用能帶來更加豐富的智能體結構：在 CERL 中，智能體需要一種基於其風險偏好和限制（但很初級）的特性，還需要由其整體業務目標確定的目標。如果客戶反對風險，則一個動作的增大的結果不確定性會降低其確定性等效的獎勵。這帶來的結果是折扣因子 γ 的出現。經典強化學習通常將其用作是無限或近乎無限過程的一個外部參數。在 CERL 中，它則是自然衍生出來的，是在我們展望未來時擴大結果分布（等效於風險增大）所得到的結果。

7 總結

仍有很多問題有待解決。我們希望它們能為難題的解決提供一些新角度：

是否存在一種用於考慮多維度獎勵的嚴格方法？

如何將不確定持續時間的概念整合進 MDP 範式中？

如何解決結果/獎勵不確定的問題？

如何為在市場中運作的智能體創建接近真實的訓練環境？一種可能的解決方案是開發全規模的人工環境，能夠根據多個異構智能體的基於規則的行為，接近真實地將市場重現為湧現出的現象。模擬的多智能體市場既有實用價值，也有學術價值。

如何嚴格地將有衝突的/互補的局部和全局獎勵結合到一起？

除了使用領域知識來分割不同時間尺度的過程和使用分層訓練，是否有設計在多個時間尺度運作的智能體的嚴格方法？

可擴展性：在電子交易中，在相似但最終不同的環境中訓練許多智能體在計算上似乎是高效的，而不是訓練一個用於處理所有環境的智能體。是否有一種方法能讓智能體針對不同的環境進行訓練，以讓它們從彼此的技能中受益？除了測試它們的功能之外，是否有辦法知曉兩個訓練後的智能體在本質上是否相似？

不管是在經典強化學習中，還是在 CERL 中，都沒有以貝爾曼方程為基礎，並且最終似乎僅適用於全局獎勵是局部獎勵的連續聚合的過程。可以開發出一種整合了上述特徵的更通用的序列決策方法嗎？

是否存在一種平衡的且系統性的方法，其一方面允許強化學習訓練的智能體解決越來越複雜的問題，另一方面又仍能保持我們理解它們的行為以及解釋它們的動作的能力？

論文：Idiosyncrasies and challenges of data driven learning in electronic trading