首先談談什麼是alpha,什麼是beta。
在MIT MFE的某個課上有一堂課:
一個Portfolio 的收益如果對於市場因素做回歸的話,比如:
我們定義beta為市場的部分,而alpha定義為與市場無關的部分。
這個「強詞奪理」的定義其實已經用到了線性回歸的思想。回歸不僅僅是一次函數y=kx+b這麼簡單膚淺,以線性代數的視角去看的話,一個量對另一個量作線性回歸本質上探討「解釋關係」,但注意兩點,這種「解釋關係」
1.只是數量上的解釋關係,沒有內在的邏輯。
就像神經網路的「解釋關係」似乎很好,但內在的原因很難被說明白。又比如,某商店的店主發現泳衣的銷量和雪糕的銷量具有非常好的線性相關關係,但實際上只是因為都是夏天產品的緣故,這種線性相關的例子,和長得帥的程度正相關於追求他的女孩子的數目是完全不同的。說簡單點,一個量能預測另一個量,並不存在一定的因果邏輯,當然也有隱變數的說法(例如夏天),當然了,再深奧點,量子力學的某些學派甚至要聲稱,一切以數據來評判的話,這個世界本來就不存在邏輯因果。
2.得到的係數和關係都是線性相關關係。
舉個例子,(x,y)滿足 ,假設有很多樣本點(xi,yi),Pearson線性相關係數應該肯定是接近零的,但很顯然,y嚴格且僅僅與x相關。
現在聊回來,線性代數中講究Hilbert空間,萬事萬物都可以視作向量。
談到向量自然會想到平面向量基本定理啊,有這個思想的數學那就太多了啊,Taylor展開,Fourier展開,Laplace展開,以及各種回歸了,隨便哪一個拿出來對理科生來說都是如雷貫耳。
這裡面有個最簡單的展開就是多遠線性回歸了。如開頭最簡單的例子所說,公募基金經理們關注資產組合的收益率與市場的相對值,就算虧了,但是比大盤虧得少,這也是可以接受的。所以自然就希望 不能嚴格與市場掛鉤,一定要有alpha的那一部分。
這個公式實際上是在說,資產組合的一部分會受到市場X的影響,影響的程度用beta來衡量,MD聽說同事的老婆也想來中金公司,開玩笑說,那不好啊,你們家的財產跟中金的beta又變大了,說的就是這個意思。
我們當然希望能找到一些有效的alpha,並幫助我們有效的預測資產組合的收益率 .
於是乎,多因子模型粉墨登場。
因為多一個公式,少一個觀眾的理論,我們無法避免公式,但可以簡化公式,把理論力學課中的張量(tensor)計算符號我們可以借鑒過來:
可以簡記為 ,也即有相同的下標表示要求和。
這下我們來寫公式就方便多了:
,i=1,2,...,n. n 是 number of assets. 通常是股票的數目。
資產組合的收益, 是每個asset的權重, 是每個asset的收益率。
,j=1,2,...,k k是number of factors. 通常是選取的因子數。
以多元回歸的視角來說, 是回歸係數,代表了 可被 解釋的程度,行裏話講名字就多了去了,比如風險暴露。(這裡吐槽一下這眾多的名稱,做學問請不要隨意取名,要取就要取得恰如其分且統一沿用)。
於是乎,
可能有人已經明白,張量計算符號的好處不僅僅是為了省掉一個sigma而已。
然而我看過太多的券商的金工文章抄來抄去都沒抄明白一件事,總是在大談同方差性和異方差性的問題,讓人糊裡糊塗。依我看,喜歡說專業術語的矇混過關的,基本都是抄別人的。
這裡面要談隨機誤差和系統誤差。也即方差(variance)與偏差(bias)的關係。
這個詞,我高中的時候物理課本上接觸過,很可惜那個時候老師自己也搞不明白,我也就一直沒搞懂。
我來舉個例子吧。對於一個預測模型,y=sin(x)。實際的樣本觀測值由於誤差的原因肯定不會是這樣的: