台湾 || 语言: 大陆简体港澳繁體台灣正體

多因子模型中的多元线性回归思想探讨

雪花台湾 2019-04-18 00:02

首先谈谈什么是alpha,什么是beta。

在MIT MFE的某个课上有一堂课：

一个Portfolio 的收益如果对于市场因素做回归的话，比如：

我们定义beta为市场的部分，而alpha定义为与市场无关的部分。

这个「强词夺理」的定义其实已经用到了线性回归的思想。回归不仅仅是一次函数y=kx+b这么简单肤浅，以线性代数的视角去看的话，一个量对另一个量作线性回归本质上探讨「解释关系」，但注意两点，这种「解释关系」

1.只是数量上的解释关系，没有内在的逻辑。

就像神经网路的「解释关系」似乎很好，但内在的原因很难被说明白。又比如，某商店的店主发现泳衣的销量和雪糕的销量具有非常好的线性相关关系，但实际上只是因为都是夏天产品的缘故，这种线性相关的例子，和长得帅的程度正相关于追求他的女孩子的数目是完全不同的。说简单点，一个量能预测另一个量，并不存在一定的因果逻辑，当然也有隐变数的说法（例如夏天），当然了，再深奥点，量子力学的某些学派甚至要声称，一切以数据来评判的话，这个世界本来就不存在逻辑因果。

2.得到的系数和关系都是线性相关关系。

举个例子，（x,y）满足 ,假设有很多样本点（xi,yi），Pearson线性相关系数应该肯定是接近零的，但很显然，y严格且仅仅与x相关。

现在聊回来，线性代数中讲究Hilbert空间，万事万物都可以视作向量。

谈到向量自然会想到平面向量基本定理啊，有这个思想的数学那就太多了啊，Taylor展开，Fourier展开，Laplace展开，以及各种回归了，随便哪一个拿出来对理科生来说都是如雷贯耳。

这里面有个最简单的展开就是多远线性回归了。如开头最简单的例子所说，公募基金经理们关注资产组合的收益率与市场的相对值，就算亏了，但是比大盘亏得少，这也是可以接受的。所以自然就希望不能严格与市场挂钩，一定要有alpha的那一部分。

这个公式实际上是在说，资产组合的一部分会受到市场X的影响，影响的程度用beta来衡量，MD听说同事的老婆也想来中金公司，开玩笑说，那不好啊，你们家的财产跟中金的beta又变大了，说的就是这个意思。

我们当然希望能找到一些有效的alpha，并帮助我们有效的预测资产组合的收益率 .

于是乎，多因子模型粉墨登场。

因为多一个公式，少一个观众的理论，我们无法避免公式，但可以简化公式，把理论力学课中的张量（tensor）计算符号我们可以借鉴过来：

$sum_{i}{a_i}{b_i}$ 可以简记为，也即有相同的下标表示要求和。

这下我们来写公式就方便多了：

，i=1,2,...,n. n 是 number of assets. 通常是股票的数目。

资产组合的收益，是每个asset的权重，是每个asset的收益率。

$r_i=X_{ij}f_j+u_i$ ,j=1,2,...,k k是number of factors. 通常是选取的因子数。

以多元回归的视角来说， $X_{ij}$ 是回归系数，代表了可被解释的程度，行里话讲名字就多了去了，比如风险暴露。（这里吐槽一下这众多的名称，做学问请不要随意取名，要取就要取得恰如其分且统一沿用）。

于是乎，

$R_p=w_ir_i=w_i(X_{ij}f_j+u_i)=w_iX_{ij}f_j+w_iu_i=X_j^Pf_j+w_iu_i$

可能有人已经明白，张量计算符号的好处不仅仅是为了省掉一个sigma而已。

然而我看过太多的券商的金工文章抄来抄去都没抄明白一件事，总是在大谈同方差性和异方差性的问题，让人糊里糊涂。依我看，喜欢说专业术语的蒙混过关的，基本都是抄别人的。

这里面要谈随机误差和系统误差。也即方差（variance）与偏差（bias）的关系。

这个词，我高中的时候物理课本上接触过，很可惜那个时候老师自己也搞不明白，我也就一直没搞懂。

我来举个例子吧。对于一个预测模型，y=sin(x)。实际的样本观测值由于误差的原因肯定不会是这样的：

error=np.random.norm(size=1000,loc=0.0,scale=1.0),

error=np.random.norm(size=1000,loc=0.0,scale=1.0),

相关文章