本文是公眾號編輯部針對報告做的獨家解讀,原報告請點擊閱讀原文

摘要

機器學習對資產管理有用嗎?如果有用,將有何用?資本市場與機器學習在取得成功的環境方面有著根本的不同,而對機器學慣用於資產管理的研究才剛剛開始。早期的證據表明,機器學習可能會改善投資組合。機器學習的應用是投資研究的一種自然演變,並將繼續得到探索。

從機器編程到機器學習

報告從一個簡單的例子開始,來說明機器學習是如何改變解決問題的方式的。

報告比較了傳統編程與機器學習的區別。

它舉了一個例子:

確定一個Email是否有效

意思就是你可以用此Email進行正常的收發郵件。那麼,我們要確保我們的Email有效,它必須滿足一組基本的標準。例如,它應該包含一個「@」符號。 @後面應該是一個少於254個字元的web(如aqr.comyale.edu),只由字母、數字、連字元組成等等。

傳統編程解決方案是編寫一系列if/then語句如下圖:

如果滿足所有必要條件,程序返回有效;如果違反了至少一個條件,則返回無效。

圖:AQR

那麼使用機器學習會是怎樣呢?

計算機能夠提出自己的規則來對地址進行排序嗎?為了做到這一點,我們需要計算機使用統計數據來從數據中推斷出規則。例如,我們向機器提供數以百萬計的有效和無效的Email,在這些數據集中,機器可能會發現「@」符號是一個重要的區別特徵,從而得出自己的規則。這是一個非結構化機器學習的例子,研究人員只提供數據。有了足夠的數據,機器最終可以找到有用的規則。另一種方法是提供一些規則,然後讓機器對這些規則進行改進。例如,可以預先指定重要的變數,例如「@」符號、有效的web域等等。第二種方法更加結構化,以幫助引導機器更快、更有效地學習。

圖:AQR

總結一下,傳統的編程方式是人類自己積累經驗,並將這些經驗轉換為規則或數學公式,然後就是用編程語言去表示這些規則和公式。而機器學習可以被看作一種全新的編程方式。在進行機器學習時,人類不需要總結具體的規則或公式,只需制訂學習的步驟,然後將大量的數據輸入給計算機。後者可以根據數據和人類提供的學習步驟自己總結經驗,自動升級。計算機「學習」完成之後會得到一個模型程序,而這個由程序生成的程序可以達到甚至超過人類自身的水平。

傳統編程的公式:規則+數據=答案

機器學習的公式:答案+數據=規則

核心都是規則,最終目標是答案。

世界都在數字化,能用傳統編程方式模擬的規則都是一些簡單的規則,而機器學習提供了一種探究複雜規則得途徑。可以解決傳統編程無法解決的一些問題。所以機器學習只是特定領域的一種解決方案。而現實中的解決方案大部分還是由傳統編程解決的。

世界上的任何東西都是有規則的,都可以用數學表示。

機器學習通過窮舉的方式使規則接近完美(監督學習),大數據的出現更加增強了這個效果。

更多關於機器學習與傳統編程的案例,大家閱讀原報告和上網進行搜尋。

數據、算力和統計

機器學習中的「學習」僅僅意味著統計和模型選擇。新技術的創新之處在於,通過生成大量的數據和強大的算力,使大規模統計模型變得切實可行。

對於機器學習與統計學的區別,有很多論述:

1、論文 STATISTICAL MODELING: THE TWO CULTURES,這是Leo Breiman大神2001年發表在Statistical Science上的一篇老文,他將統計科學分為兩個分支:Data Modeling和Algorithm Modeling。Data Model直接假設數據服從一定的分佈和隨機雜訊,數據均是由這些分佈產生。而Algorithm Modeling認為框架內部非常複雜,他們只是尋找一個函數f(x),用x做輸入來預測y。文章認為統計學過分依賴了Data Modeling,而機器學習主要依賴模型預測精度(predictive accuracy of models),從而取得了更多進步。

2、Brendan O』Connor的博文 Statistics vs. Machine Learning, fight!,初稿是08年寫的,或許和作者的機器學習背景有關,他在初稿中主要是貶低了統計學,思想和1有點類似,認為機器學習比統計學多了些Algorithm Modeling方面內容,比如SVM的Max-margin,決策樹等,此外他認為機器學習更偏實際。但09年十月的時候他轉而放棄自己原來的觀點,認為統計纔是real deal: Statistics, not machine learning, is the real deal, but unfortunately suffers from bad marketing.

他的博文中還引用了大神Robert Tibshiriani的一張對比表:

3、與人們的普遍認識相反,機器學習實際上已經有數十年的歷史了。受模型計算需求和早期算力限制的影響,這一領域之前並未興起。然而,得力於近年來信息爆炸所帶來的海量數據優勢,機器學習正方興未艾。

我們常常聽到與這一問題有關的一些模糊陳述:

「機器學習與統計學之間的區別在於其目的不同。機器學習旨在進行精確預測。而統計學模型則用於推斷變數之間的關係。」

從技術角度看,這一陳述是正確的,然而卻並非令人滿意且明確的答案。可以肯定的是,目的確實是機器學習與統計學之間的主要區別,但關於機器學習的精確預測與統計學的關係推斷這一論斷則沒有什麼意義,除非你精通這些概念。

《Nature Methods》雜誌上發表了一篇論文,概述了統計學和機器學習的不同。這個想法看起來可笑,但是卻證明瞭在這一層次探討的必要性。

Points of Significance: Statistics versus machine learning

Statistics draws population inferences from a sample, and machine learning finds generalizable predictive patterns. Two…

nature.com

機器學習建立在統計學基礎上。這是因為機器學習涉及數據,而數據則必須使用統計學框架進行描述。然而,被擴展為大量粒子熱力學的統計力學同樣也建立在統計學框架之上。壓強的概念實際上也是一個統計量,溫度也是如此。如果你覺得很可笑,沒關係,但事實如此。這就是為什麼你不能描述一個分子的溫度或壓力。溫度實際上是分子間碰撞產生平均能量的表現。對於足夠多的分子,比如房子或戶外環境來說,描述其溫度才具有實際意義。

你會承認熱力學和統計學是一樣的嗎?不會的,實際上熱力學是用統計學來幫助我們理解功和熱相互作用產生的輸運現象。

事實上,除統計學外,熱力學的建立還以很多其他學科為基礎。同理,機器學習(ML)的建立也要以數學和計算機科學等領域為基礎,比如:

  • ML理論源於數學和統計學
  • ML演算法源於優化、接矩陣代數、微積分
  • ML的實現要依靠計算機科學和工程概念(如內核技巧、特性哈希)

當我們用Python編程,引入sklearn庫並開始使用演算法時,很多概念都被抽象了,所以很難看到它們的區別。因此,這種抽象導致了對機器學習內涵的不瞭解。

公眾號編輯部也認為:

機器學習 != 統計學

AQR報告舉例了:決策樹和神經網路

因為樹模型通常是我們形成投資組合的方式:

圖:AQR

在上圖中:假設觀察結果是股票收益,兩個「排序」變數是公司的市場權益(ME)和賬面市值比(B/M)。首先根據公司規模對股票進行排序,形成幾個在規模上最相似的組。然後在每個組中,股票進一步按B/M排序。樹的最終「葉」只是由在這些特徵上彼此最相似的一組股票組成,這些股票可以形成一個股票組合。樹模型對「large value」股票的回報預測就是large value投資組合的平均回報。學術金融幾十年來一直使用投資組合排序(Fama和French, 1992),而這本質上就是決策樹的作用。

下圖左邊顯示了兩個簡單的神經網路。第一個例子展示了一個單一「輸入層」和「輸出層」的神經網路。從左到右影響一個方向的流動,這使得這是一個簡單的「前饋」網路。輸入是簡單的預測因子/回歸因子/獨立變數x,輸出是因變數或結果y。目標是瞭解輸入如何影響輸出並使用它來進行預測。

圖:AQR

右圖增加了「隱藏層」。在統計學的術語中,它是變數x的一個變換,在這種情況下,它取x的正值,然後將負值歸零。正是這些隱藏層使得神經網路如此強大。

隱藏層增加了模型的複雜性,但基本思想是相同的。 模型首先將它們處理為z1和z2,然後測量y與z的關係,而不是對x1,x2和x3進行回歸。在資產管理研究中,在回歸前使用轉換自變數(例如,通過波動率進行縮放)是常見的。神經網路只是將這個步驟帶入模型中,而不是預先選擇數據轉換。它使用統計信息搜索許多潛在的轉換,以學習y的最佳預測。它需要強大的處理能力和大量的數據能才能進行可靠地估算。

大數據,高速處理器

下圖給出了「深度」神經網路的示例,這些類型的神經網路已被證明在地震建模、計算機視覺和自動駕駛車輛等各種應用中取得了成功。通過將成千上萬個小網路疊加在一起,你最終得到了一個非常靈活的模型,可以捕捉到一系列的結果和變數之間的相互作用,這些變數是描述現實世界現象複雜性所必需的。如果沒有大量的數據和強大的計算能力來計算所有的網路路徑,這一切都不可能實現。因此,機器學習應用的巨大創新飛躍更多地是由技術而不是技術驅動的。

圖:AQR

此外,計算能力與我們現在擁有的大量信息源密切相關。我們獲取和存儲數據的能力遠遠超過我們分析和理解數據的能力,而這正是機器學習能夠幫助彌合這一鴻溝的地方——儘管還有很長的路要走。

金融是不同的

機器學習可以完成很多事情,但它在金融中的應用並不明顯,也沒有得到研究的支持,至少目前還沒有。

具體有哪些不同,論文給出了以下幾點:

1、低信噪比

在金融領域,尤其是收益預測。信噪比不僅很弱,而且總是會趨向於0。

首先,信噪比較低的一個原因是金融市場極度嘈雜。世界上最好的股票或投資組合,在任何一天、一季度或一年中,都會因為意料之外的消息而經歷劇烈的波動。

其次,金融市場的信號預計會很低,而且將保持在低位。低信噪比並非市場的不幸巧合。相反,它是一種通過利潤最大化和競爭這種簡單的經濟力量來確保並不斷加強的特徵。如果交易員有一些可靠的信息可以預測未來價格上漲,這是一個強烈的信號,他們就不會被動地依賴這些信息。他們開始進行交易。正是這種利用預測信息的行為推高了價格,從而從市場中吸收了一些可預測性。而他們不會在價格上漲一點點後就停止。他們會繼續購買,直到用盡他們的信息,直到價格完全調整到他們的信息預測水平。通過利用信息進行以利潤為導向的交易,投資者將可預測性降到最低。由於市場的可預測性已經體現在價格中,唯一能推動市場的是意料之外的消息——噪音。這個觀點並不新鮮。也正是這個想法支撐著諾貝爾獎得主關於有效市場假說的研究(Fama,1970)。

在有效市場中,回報不一定完全缺乏可預測性。例如,如果需要承擔太多風險、面臨交易成本,或者像內幕交易那樣受到法律限制,投資者可能會停止使用他們的信息。剩下的可預測性應該很小,而且很難把握,因為任何容易獲得的利潤都會很快被有競爭力的交易員抓住。

樣本較少和非結構化數據

結構化數據 vs. 非結構化數據:結構化數據由明確定義的數據類型組成,其模式可以使其易於搜索。而非結構化數據通常由不容易搜索的數據組成,其中包括音頻、視頻和社交媒體發布等格式。

非結構化數據介紹與解讀,可見公眾號文章:

重磅來襲 | AFML系列開啟,我們相信會成為經典~?

mp.weixin.qq.com
圖標

另類數據解讀,可見公眾號文章:

人工智慧和另類數據:誇大其詞 or 確有其用??

mp.weixin.qq.com
圖標

對於大多數非結構化數據集,數據歷史很短。例如,使用社交媒體,你可能有十年的數據要處理。有限時間序列對有意義的回測提出了挑戰。由於歷史較短,對策略表現形成準確的估計就更加困難,這最終意味著,即使是非常強烈的信號,在投資組閤中也可能只會謹慎地獲得很小的權重。

另類數據更多的應用於偏股票型的量化對沖基金。近於實時的另類數據流有助資產管理公司提前獲得大量股票買入或賣出的信號。除此之外,傳統資產管理公司也已經開始使用另類數據來幫助提升人工制定長期投資決策的質量。例如,英國資產管理公司Schroders在2014年推出了一個「數據洞察部門」(Data Insights Unit,以下簡稱「DIU」)。DIU擁有30名數據科學家,他們分析各種另類數據,幫助投資組合管理團隊制定中長期投資決策。

歐美市場也正在形成包括使用另類數據的資產管理經理、數據所有者和供應商的另類數據生態系統。例如,Orbital Insights和Prattle兩家另類數據供應商,前者利用衛星圖像估計原油庫存,後者根據文本數據定量分析主要國家貨幣政策情緒。

投資機構為了獲得超額收益,不斷尋找新的市場阿爾法,但主動型基金在尋找市場阿爾法這個核心競爭力上的優勢越來越弱:

1、因為市場有效性不斷增強,基金經理很難找到被錯誤定價的資產;

2、因為大部分基金經理能得到的信息同質化,導致很難找到獨特的信息優勢和額外信息;

3、因為調研高度人工化導致人才的費用越來越高。

目前國內使用另類數據的多為對沖基金、二級市場基金及部分一級市場基金。另類數據可以給基金經理帶來五點優勢:

  • 更大體量的數據和信息
  • 新的洞察力
  • 競爭優勢
  • 可靠性
  • 效率

雖然基金經理使用另類數據尋找到新的阿爾法只是時間問題,但並不是所有另類數據都有潛力可以幫助基金公司獲取市場阿爾法,因此另類數據公司在收集、清洗數據的同時,需要基金經理來評判數據是否有價值,同時高效的處理和應用將是降低成本和提升效率的關鍵,因此另類數據公司應當具備機器學習等技術開發能力和高效的產品策略

另類數據 (Alternative Data) 包括傳統數據之外的新的數據,主要成分如下圖。

個人數據

個人數據 (Individual Data) 是由個人網上行為產生的,它還可細分為

  • 社交網路數據 (social media data): Twitter, LinkedIn, 微信
  • 新聞輿論數據 (news & reviews data): 新聞、產品輿論
  • 網頁搜索數據 (web search data): 谷歌搜索、百度搜索、郵件

案例:

  • iSentium 提供交易股票時用到的 Twitter 上的情緒數據指標
  • RavenPack 提供交易債券、外匯和股票時用到的新聞情緒數據指標

商業數據

商業數據 (Business Process Data) 是由商業流程產生的,它還可細分為

  • 交易數據 (transcation data): 主要是消費者交易數據 (Square,Intuit, Xero 等)
  • 公司數據 (corporate data): 主要是行業數據 (AROQ, Edmunds, SNL Financial, Smith Travel 等)
  • 政府機構數據 (government agency data): 國際級別(IMF, WTO, World Bank),國家級別(美聯儲, 人民央行)

案例

  • Eagle Alpha 提供交易個股時用到的用戶電子郵件收據。

感測數據

感測數據 (Sensor Data) 是由手機、無人機、衛星上的感測器產生的,它還可細分為

  • 衛星圖像數據 (satellites images data): 衛星、無人機
  • 地理定位數據 (geolocation data): GPS、手機 APP
  • 天氣數據 (weather data)

案例:

  • Advan Research 提供交易個股時用手機記錄的地理位置數據 (根據人流量預測零售)
  • RSMetrics 提供交易個股時用無人機拍的停車場和倉庫圖像數據 (根據車位佔滿率預測員工)

使用「另類數據」有利有弊

  • 優點是沒被處理過,也沒有為其他使用者提供,因此有很高的價值等待發掘,深度學習裏的「計算機視覺」和「自然語言處理」的技術可以用來處理圖像和文本數據
  • 缺點是「獲取昂貴」和「隱私憂患」

另類數據並非神祕的、完全新生的事物,而是人類擴展信息邊界的漫漫過程中的又一次量變性突破。之所以這麼說,是因為另類數據完全是一個具有相對性與變化性的概念。將歷史拉長來看能更好理解:兩百年前,地緣政治事件是另類數據;一百年前,股票價格數據是另類數據;五十年前,路透社公司首次將公司報表數字化之前,公司財務報表數據是另類數據。當時的這些數據和當今的網頁數據等等很相似,都對於投資決策有重要意義,但其獲取成本還未降低到足以使其普及。隨著後來技術的不斷進步,這些數據逐步被正式納入投資決策數據,構成了今天的我們所認為的傳統數據。而隨著今天和未來技術的發展迭代,越來越多之前無法利用的有效信息、當下我們所稱的「另類信息」也將逐步常規化,成為未來的傳統數據。

這一觀點帶給我們的啟示是,數據的內涵與外延在不斷變化,分析人員的思維不能停留在傳統數據的舒適圈中,必須與時俱進,保持開放。而目前,我們的時代也許正處於這一輪變革浪潮的高潮。

需要可解釋性

部分機器學習模型是眾所周知的黑箱。

模型的內部工作方式是資產管理中的一個重要的問題。資產管理者有責任去和客戶溝通投資組閤中的風險,這使得他們特彆強調模型的可解釋性。

機器學習模型的「可解釋性」到底有多重要?

雖然有些人說,知道模型性能好就行了,為什麼還要知道它背後的原理呢? 然而,作為人類,大多數決策基於邏輯和推理。 因此,人工智慧(AI)作出決策的模式無疑會受到懷疑。 在很多現實情況下,有偏差的模型可能會產生真正的負面影響。 這包括預測潛在的犯罪、司法量刑、信用評分、欺詐發現、健康評估、貸款借款、自動駕駛等,其中模型的理解和解釋是最重要的。 數據科學家、作家Cathy O』 Neil在她的著名著作《Weapons of Math Destruction》中也強調了這一點。

著名學者和作家凱特克勞福德在NIPS 2017主題演講《The Trouble with Bias》中談到了偏差在機器學習中的影響以及它對社會的影響。如果我們想利用機器學習來解決這些問題,所有這些真實世界的場景都在告訴我們模型解釋是多麼的重要。

隨著時間的推移,由於環境中各種因素造成的模型概念漂移,性能可能會發生變化。因此,瞭解什麼促使模型作出某些決定是極為重要的。論文《Why Should I Trust You?》由MT Ribeiro,S. Singh和C. Guestrin在SIGKDD 2016上介紹了LIME(Local Interpretable Model-Agnostic Explanations)介紹了這些概念。

然而,理解預測背後的原因在評估信任方面非常重要,如果計劃基於預測採取行動,或者選擇是否部署新模型,則對模型的信任是至關重要的。 無論人類是直接使用機器學習分類器作為工具還是在其他產品中部署模型,仍然存在一個至關重要的問題:如果用戶不信任模型或預測,他們將不會使用它。

同時大家可以看看這篇文章:

地址:arxiv.org/pdf/1802.0193

可解釋性成為機器學習研究中一個優先考慮的問題。不過有許多有趣的潛在研究途徑可以從金融機器學習模型中得出更有意義和更直觀的結論。具體論述詳見論文。

前沿研究

論文最後列舉了一寫機器學習在未來改進金融方面的方向:

1、Analysis, Not Anecdotes

當人們討論金融領域的機器學習時:「我聽別人說,關於某某經理是如何應用機器學習做到這一點的「。機器學習對資產管理的系統性研究還處於起步階段。而且從經濟上和統計上看,它的輔助作用是漸進的,但絕不是革命性的。

2、Combining Economic Theory

在資產管理中,人們可以通過引入經濟理論來描述數據的某些方面,並輔以機器學習工具來捕獲理論不涉及的數據的某些方面,從而解決低信噪比問題。

3、Beyond Return Prediction

雖然我們強調回報預測(由於其低信噪比和非平穩特性)對機器學習提出了一個特別困難的挑戰,但也必須認識到,一些金融問題可以從機器學習中獲益。與回報預測不同,投資者行為沒有明顯的趨勢去消除這種可預測性,這使得機器學習可能更適合風險和交易成本建模。

大多數關於機器學習應用於金融領域的討論,都集中在Alpha的創建上。使用新的數據和機器學習來構建Alpha。隨著越來越多的投資者帶著類似的數據和工具進入市場,錯誤定價就會糾正,Alpha就會減小為零。相比之下,一個有前途的資產管理研究領域,可以使用機器學習來改善投資的其他方面。

總結

機器學習在金融領域的應用有可能成為量化投資的下一個飛躍。在資產管理實踐中,理解機器學習當前狀態的兩個關鍵點是至關重要的。首先,研究剛剛起步,許多重要問題尚待解決。利用機器學習在投資組合上的改善是漸進的,而不是革命性的

機器學習提供了一種系統化的投資方法,使管理機制化,允許管理者更快地消化來自更多新資源的信息,包括以前未開發的非結構化數據,並提供工具來搜索越來越靈活的經濟模型,讓這些模型更好地捕捉金融市場的複雜問題。機器學習在金融領域的發展才剛剛開始。

論文:

AQR最新研究 | 機器能「學習」金融嗎??

mp.weixin.qq.com
圖標

—End—

量化投資與機器學習微信公眾號,是業內垂直於QuantMFECST等專業的主流量化自媒體。公眾號擁有來自公募、私募、券商、銀行、海外等眾多圈內10W+關注者。每日發布行業前沿研究成果和最新資訊。


推薦閱讀:
相關文章