人工智能的投資神話:零風險,日結賬,高回報?

最近幾年,“人工智能”和“機器學習”成爲金融投資圈中的一個熱門詞。

舉例來說,2017年年底,創新工場創始人李開復在其主題演講《人工智能四波浪潮與機會》中說道:

有了人工智能以後,它可以去計算哪些中國股票搭配起來跟哪些歐洲、美國股票應該是可以對衝的,它可以判斷任何市場有任何不平衡的地方,它可以利用現在人民幣換美金的交易障礙,來做更好的對衝,或者它可以判斷怎麼樣能夠最優化你該買什麼樣的股票。

過去兩年其實我已經沒有做任何的個人投資了,我也不把錢交給人了,我現在所有新生產出來的錢都交給機器處理,人已經不能再管理我的錢了,因爲人打不過機器,這是非常明確的事情,我們個人投資的這些基金不太好意思分享回報率,回報是不低的,然後是零風險的,它每一天晚上結帳,我可以看到錢全部都賣掉回來了。

李開復的意思,是他投到了一個以人工智能算法爲核心的基金,零風險,日結賬,高回報。作爲一名投資行業的“老兵”,說實話,我還沒見過這樣的基金。即使是對衝基金行業那些全球最頂尖的大牌:Bridgewater, Citadel, AQR, Quantum, Renaissance等, 也沒聽任何人敢自稱零風險,而且每天都能賺。

但是我相信,很多讀者一定還有這個疑問:人工智能,到底能不能用在投資領域?在金融市場上有哪些應用?我們應該如何認識人工智能和機器學習的價值?今天這篇文章,就來講講這些問題。

首先,讓我們來簡單介紹一下什麼叫機器學習。

在本人和量化交易員和金融作家,Rob Carver的對話中,我們曾經談到過這個問題。

大致來講,機器學習可以被分爲兩種:有人管的機器學習(Supervised Machine Learning)和沒人管的機器學習(Unsupervised Machine Learning)。

人工智能的投資神話:零風險,日結賬,高回報?

有人管的機器學習,是指工程師定義研究的變量。這種“機器學習”,其實和傳統意義上的量化交易策略研究沒有多大區別。很多這樣的機器學習,用的還是最小二乘法(OLS)和主成分分析(PCA)這樣的統計方法,而這些統計方法至少已經被用了幾十年。一些機構放上“機器學習”和“人工智能”的標籤,主要就是爲了追求一個噱頭,在營銷上讓人產生“高大上”的錯覺。

這些“掛羊頭賣狗肉”的人工智能,值得我們投資者警惕。本來可以用一些比較簡單的傳統量化手段實現的交易策略,披上了“人工智能”的外衣,反而增加了投資成本和沒有必要的複雜之處,效果也不見得更好,對投資者來說沒有什麼價值。

真正有技術含量的,開復博士上面提到的人工智能,是沒人管的機器學習。在這種機器學習中,電腦程序自己選擇最優的變量進行分析和計算。這是真正尖端的人工智能領域,對數據處理和計算能力要求非常高,目前僅在高頻交易領域有一些嘗試性的應用。

爲什麼僅在高頻交易領域有初步的應用呢?這是因爲,人工智能在任何領域應用的一大前提,就是有海量數據。

在同一個演講中,李開復談到:

AI其實特別關鍵的就是大量的數據,有了數據...就都可以做了,沒有數據是不可能的。

爲什麼需要海量數據?

這是因爲,人工智能和機器學習的本質,就是數據挖掘。數據挖掘的意思,就是基於海量的數據,去找出一些不爲大家所知的規律,並且期望該規律在未來繼續管用。大家可以想一下,如果沒有海量的數據,你還去挖掘什麼?沒東西可挖呀。

用科學的語言來講,如果數據量不夠,那麼總結出來的任何規律,都是基於小樣本的特殊情況,未來繼續重複管用的可能性不大。

和其他行業相比,金融市場的數據量,恰恰少的可憐。以全世界數據量最豐富的美國市場爲例。比較高質量的美國股市價格歷史數據,也就50~60年左右,再往前推,數據質量就開始有問題了。一般的金融研究,以月回報爲單位。5、60年曆史,一共就700個數據樣本。基於700個樣本去做人工智能?Are you kidding me?

我們再看上市公司的財報數據。美國有差不多4000個上市公司。假設每個公司都有高質量的季報,往回走50年,數據量大約是 4000 X 50 X 4 = 80萬。這樣的樣本量,顯然離人工智能的要求差遠了。

美國尚且如此,中國的股市數據就更不用提了,相信讀者朋友們都有自己的認識。

當然,有些人說,我可以拿每天/每小時/每分鐘的數據,這樣數據量就大了。或者我在橫向增加測試的變量,這樣也能增加樣本量。話雖不錯,但問題在於數據的頻度越高,噪音也越大。變量之間的交叉度越高,相關係數也越高,因此得出的結論,也有更大存疑。

在量化金融研究中,碼農最容易犯的錯誤,就是忽略經濟邏輯去做數據挖掘。在一大堆沒有意義的數據中,你不斷折騰,總能找出個貌似有用的投資策略來。但如果背後沒有符合邏輯的經濟原因去支撐,那這種發現就毫無意義。

人工智能的投資神話:零風險,日結賬,高回報?

舉例來說,上圖來自於Robert Arnott, Campbell Harvey和Harry Markowitz合寫的A Backtesting Protocol in the Era of Machine Learning (Arnott, et al, 2018)。它顯示的是一個股票多空投資策略的歷史回報。

我們可以看到,該投資策略,看上去非常誘人。因爲:

第一、無論在1963~1988年的樣本內測試,還是1989~2015年的樣本外測試,該策略的表現都非常出色。

第二、即使在最近幾年(比如2013年以後),該策略的投資回報還是非常出色,顯示並沒有很多人模仿,因此這個“祕密”還相當管用。

第三、該策略在2008年金融危機期間,得到的投資回報爲+50%左右,秒殺市場上絕大多數的各種投資策略。

第四、該策略和其他主要資產(比如股票、債券等)之間的相關係數很低,從資產配置的角度,能夠提高投資組合的風險調整後收益。

很多人看到這樣的投資策略,可能已經迫不及待想要進行投資了。但事實上,該投資策略很簡單,就是買入美國股票代碼前三個字母中含有S的股票,並且做空股票代碼前三個字母中含有U的股票。

爲什麼會想出這麼一個奇怪的投資方法,去買入首三個字母中帶有S的股票,並且做空首三個字母中帶有U的股票?原因在於,這是基於大數據機器學習的方法,在成千上萬種不同的投資策略中,甄選出來的表現最好的策略之一。我們可以想象一下,英語裏有26個字母,從股票代碼的第一個字母開始,然後前兩個,前三個,這樣不停的兩兩組合,買賣對配試下去。只要可能的組合夠多,即使完全源於運氣,也可能找出幾個看上去非常牛逼的投資策略。

這個例子,點出了基於數據挖掘的人工智能用於投資管理的命門。那就是:如果反覆“折磨”你的數據,對它“嚴刑拷打”,總有一天它會屈服,給出你想要的結果。但是,這個結果,對投資者來說未必有任何價值。

有美國學者(Chordia et al, 2017)在檢驗了210萬個不同的股票投資策略後,發現其中只有17個策略通過了統計和經濟標準,顯示其可能有效。在這個例子中,發現真正有效的投資策略的概率,爲17/210萬=0.0008%!換句話說,在210萬個投資策略中,超過209萬個都是無效的。

這些例子告訴我們:

1)要想把人工智能運用到金融市場,一個最基本的前提,是我們有海量的高質量數據。如果一個市場中本來高質量數據就很有限,那人工智能寫的算法再高級,也是“巧婦難爲無米之炊”。

2)如果通過一些方法獲得海量數據,並基於一些數據挖掘的方法去尋找規律,那麼我們就需要十分提防“隨機假規律”的陷阱。

隨機假規律的意思,是隻要我們做足夠多的嘗試,總能發現一些貌似管用的規律,在統計上顯示出顯著的結果(T值大於2)。但事實上,這只是一種假象而已。

在AHM(Arnott et al, 2018)一文中,作者提到這麼一個有趣的例子。有學者(Bem, 2011)在頂級期刊上發表了一項研究結果。該研究結果來自於一個長達10年,覆蓋1000個樣本量的詳細實驗。從統計上來說,該實驗結果不可靠的概率,爲740億分之一。但最後顯示,該實驗結果無法複製,因此從其中發現的規律,也不管用。

在所有的金融量化研究中,一個非常重要的原則,是“理論先行”。就是說,我們首先得有一套適用的,符合邏輯的經濟理論,去預測基於某些條件,會導致某種結果。然後,再用數據去進行實證檢驗。而很多扯着“人工智能”大旗的交易策略,恰恰反着來:不管三七二十一,先從數據回測中找出表現好的,然後再動腦筋去解釋其表現。這樣的研究方法,本末倒置,對職業素養不高的投資者有很強的迷惑性,值得廣大投資者警惕。

“理論先行”,有金融行業的特殊性,和其他一些行業很不相同。舉例來說,在醫學界,你可以先試藥,試下來發現管用後,再去研究爲什麼管用,是裏面某種成分管用,還是對人的某個基因管用。先實踐,後理論,在醫學界是可行的。

但這種做法,在金融投資裏,不管用。這其中有一個非常重要的原因,那就是,金融市場是由人組成的,其本質是人的心理和行爲。金融市場上的那些數字,只是一個表象,反映的無非就是股權/房地產/債務類資產的期望回報。所以說到底,金融市場反映的是人的期望。

因此對於金融市場的預測,本質上是對衆人行爲和心理的預測。而人的行爲模式,恰恰在於不可預測。這是因爲,人不是機器,有情緒波動,容易健忘,好喫懶做,貪生怕死,上漲時貪婪,下跌時害怕。說到底,人遠不如機器自律。用機器思維去預測人,就好像讓你猜3歲的孩子啥時候哭一樣,成功率能有多高?

當然,值得指出的是,電腦程序在投資方面的用途還是很廣泛的。現在最老派的基本面基金經理,也會大量用到量化模型和數據。但這和完全擺脫人,讓機器做所有的投資決策,甚至宣揚能夠做到零風險和高回報是兩回事,值得我們大家思考。

希望對大家有所幫助。

人工智能的投資神話:零風險,日結賬,高回報?

參考資料:

https://36kr.com/p/5108355.html

Robert Arnott, Campbell Harvey, and Harry Markowitz, A Backtesting Protocol in the Era of Machine Learning, Nov 2018

Robert Carver (Trader and Writer):How to become a systematic trader?

Chordia, Tarun, Amit Goyal, and Alessio Saretto, p-Hacking: Evidence from Two Million Trading Strategies. Swiss Finance Institute Research Paper No. 17-37.

Bem, Daryl.“Feeling the Future: Experimental Evidence for Anomalous Retroactive Influences on Cognition and Affect.” Journal of Personality and Social Psychology, vol. 100, no. 3 (March 2011): 407–425.

相關文章