如果你對機器學習和人工智慧在銀行和金融領域的應用感興趣,你可能已經對摩根大通( J.P. Morgan) 2017 年底在大數據和人工智慧方面的優秀指南了如指掌了。摩根大通最近發布的「把數據驅動學習應用到演算法交易「問題的報告你就更加不能錯過了。

去年的巨幅報告由摩根大通宏觀定量研究團隊的負責人被譽為「半人半神」的 MarkoKolanovic 在 2018 年 4 月份跳槽到美銀美林(Bank of America Merrill Lynch)的量化策略師 RajeshKrishnamachari 協助下完成編寫。 本月較短的報告由五位不同的摩根大通員工撰寫—— VacslavGlukhov(EMEA 電子交易量化研究負責人),VangelisBacoyannis(eTrading 量化研究副總裁),TomJin(量化分析師),Jonathan Kochems(量化研究員),和Doo Re Song(量化研究員)。

這篇新報告在 2018 年 5 月的 NIPS 會議 上發布,但直到近期才得到公開。對於想要了解數據驅動學習如何和演算法交易相互作用的人來說,這份報告乾貨十足。

演算法現在可以在客戶設置的幾個參數內控制關鍵交易決策

金融控制中的演算法控制股票和電子期貨合約的「微觀」交易決策:它們定義交易的位置,價格和數量。

然而,演算法並不能隨心所欲。摩根大通指出,客戶通常會向執行經紀人發送帶有約束和偏好的特定指令。例如,客戶可能希望在其投資組合轉換中保持貨幣中立性,好讓銷售量大致等於購買量。 他們還可能指出已執行的一攬子證券以受控方式暴露給某些部門,國家或行業。

當客戶下單時,他們可能想要控制訂單的執行如何影響市場價格(控制市場影響),或控制訂單如何暴露於市場波動(控制風險),或指定緊急程度以平衡市場影響和風險。

交易委託賬本(order book)中包含的數據非常複雜

編寫電子交易演算法是一項非常複雜的工作。

舉例來說,摩根大通分析員指出國際象棋的長度約為 40 步,圍棋的長度約為 200 步。 然而,即使只是使用中頻電子交易演算法每秒重新考慮其選項,每小時也會有 3,600 步。

這還不是唯一的問題。當你在國際象棋和圍棋中映射數據,這是一個考慮如何在所有符合條件的棋子中移動一個棋子以及它們接下來可能如何移動的問題。但是,一個電子交易行為就包含多個動作。 摩根大通分析師表示,它是「子訂單的集合」。

子訂單是什麼?摩根大通指出一個單獨的動作可能是,提交被動購買訂單和積極的購買訂單。被動子訂單將以指定的價格保留在委託賬本中,從而為其他市場參與者提供流動性。提供流動性最終可能是通過本地捕獲價差在交易時獲得回報:以更好的價格進行交易,與通過獲取流動性進行相同交易的人進行交易。另一方面,積極的子訂單在預測價格波動的時候可以被發出以捕獲機會,兩者形成同一個行為。由此產生的行動空間非常大,並且隨著我們想要在某個時刻使用的特徵組合的數量呈指數增長。

人類寫的交易演算法往往變得冗餘

人類寫電子交易演算法,事情很快變複雜。

摩根大通分析員指出過去的電子交易演算法是科學定量表述世界如何運作的模型的融合,它們包含規則和啟發法,表達了人類交易者和演算法用戶的實踐經驗,觀察和偏好。

嘗試封裝所有這些是非常困難的。大多數人工編譯的演算法是數萬行手寫的、難以維護和修改的代碼,當客戶反對、市場變化的時候,這些演算法在功能蔓延中苦苦掙扎。夜以繼日,它們都堆積了用來處理特殊情況的無數層邏輯、參數和微調。

監管使人工演算法愈發複雜

交易演算法還需要符合 MiFID II 等規則和「最佳執行(bestexecution)」的概念。

因此演算法編寫還需要考慮到變化的市場環境和市場結構、監管限制和客戶的多重目標和偏好。

如果寫演算法可以自動化並且考慮到上述限制,生活該多簡單。

在編寫交易演算法時,使用數據的三種文化視角(culturalapproaches)

摩根大通稱在編寫交易演算法時有三種文化視角:數據建模文化,機器學習文化和演算法決策文化。

數據建模文化基於這樣的假設:金融市場就像一個內部有簡單模型的黑匣子。你需要做的就是建立一個近似黑匣子的定量模型。鑒於金融市場行為的複雜性,這可能過於簡單化了。

機器學習文化試圖使用更複雜且有時不透明的函數來模擬觀察。它並不要求這些函數揭示潛在過程的本質。

演算法決策文化是關於決策而不是建模。這種文化不是試圖映射世界的運作方式,而是試圖培養電子代理(即演算法)來區分好的決策和壞的決策。問題於是變成試圖理解為什麼演算法做出那樣的決策,並注入規則,值和約束以確保決策是可接受的。

演算法必須在最佳執行速率和期望交易的最佳執行計劃之間找到平衡

一旦有了演算法,就需要做出權衡。它可以冒著影響市場價格的風險快速執行交易,也冒著價格變得不利訂單的風險緩慢執行交易。

構成成功交易的要素仍不明確

要定義成功的演算法交易並不容易。它可能是在快速執行交易(效率)和以價格不變的方式執行交易(最優性)之間的權衡——取決於客戶的優先順序。

例如,演算法的目標可能是與市場的其他部分融合。這意味著平衡交易過快帶來的市場衝擊和交易過慢帶來的價格不利。演算法作者需要找到一種以適合模型和機器學習方法的方式表示信息和行為的方法。市場狀態必須被總結出來,儘管其巨大、可變且變化頻繁的維度和訂單狀態,父訂單和子訂單都難以作為模型輸入。

許多機會「短暫存在並且可能僅以微秒級存在」並沒有幫助。此外,摩根大通表示,在執行或避免交易之前,交易是好還是壞並不總是顯而易見:局部最優並不一定意味著全局最優:現在可能被認為是不良交易的在一天結束時很可能變成一個優秀交易。


儘管有潛在的問題,但摩根大通任致力於使用強化學習演算法來進行交易

摩根大通正全力投入運用動態規劃及獎懲機制的各種強化學習(RL,reinforcementlearning)演算法。

交易員說:「我們目前使用第二代基於強化學習的限價委託引擎,於有界行為空間內訓練演算法,選擇具備差異化獎勵、步長及時程特徵的短期目標。」然而,演算法訓練十分複雜──如果你嘗試通過在多重處理設備上同時執行演算法以實現演算法的平行訓練,由於演算法與環境之間的閉環反饋,你會得到錯誤結果。但如果你不這麼做,而是嘗試基於梯度的訓練,最終只會得到大量無關經驗而忘卻好的交易行為。

摩根大通試圖通過「應用超參數優化技術」來避免這種情況。這意味著每次訓練都有多個抽樣事件,並會儘早停止無意義的優化路徑。超參數優化技術的應用使得銀行能夠通過運行平行訓練項目訓練演算法。

摩根大通表示,研究的重點已經轉變為「策略學習演算法」:通過在固定參數條件下匹配特定商業目標以最大化累積報酬。分層強化學習可用於要求交易演算法必須生成可預測、可控及可解釋行為的領域。

在分層方法下,演算法決策被分成具有不同抽樣頻率和不同粒度級別的組。這樣使得演算法模塊化,並且更容易看出目前的工作狀態。

摩根大通開發了可處理長尾的強化學習演算法

摩根大通指出大多強化學習場景都是靠演算法學習行為來達成平均更佳結果。然而,在金融領域,過分關注平均結果很可能是錯的——長尾效應也很重要。因此,摩根大通的量化分析員一直致力於打造「重視多維和不確定結果」的演算法。

為了達到這一目的,摩根大通通過查看與未來分配相比將實現的預期效用,對不確定結果(長尾)進行排名。這被稱為確定性等效強化學習(CERL, Certainty Equivalent ReinforcementLearning)。

在 CERL 下,摩根大通指出該演算法根據其風險偏好有效地獲取一個特性。 「如果客戶厭惡風險,結果的不確定性增加會降低某一行為的確定等價獎勵。」 這導致貼現因子 γ 隨著風險的增加,結果分布擴大,演算法看到了更遠的未來而自然出現。

一些有用的開源強化學習框架

如果你想打造你自己的交易演算法,摩根大通的研究員們推薦了一些好的起步資源。

有用的早期開源強化學習框架包括OpenAIbaselines, dopamine,deepmind/trfl 和Ray RLlib。

作者:Sarah Butcher 編譯&圖片漢化:佑銘

原文鏈接:news.efinancialcareers.com

知乎機構號:來自矽谷的終身學習平台——優達學城(Udacity.com),專註於技能提升和求職法則,讓你在家能追隨 Google、Facebook、IBM 等行業大佬,從零開始掌握數據分析、機器學習、深度學習、人工智慧、無人駕駛等前沿技術,激發未來無限可能!

優達學城(Udacity)?

www.zhihu.com
圖標

知乎專欄:優達技術流,每天分享來自行業大牛、工程師必讀的技術乾貨

優達技術流?

zhuanlan.zhihu.com
圖標

推薦閱讀:
相关文章