初谈线性回归的三个问题
线性回归是比较简单的机器学习演算法,很多机器学习的书籍介绍的第一种演算法就是线性回归,但大多数的机器学习书籍都是给出线性回归的表达式,然后讲解怎么求参数最优化。但本文主要先介绍线性回归中的三个问题,以此引出线性回归的讲解。本文讲解目录:(1) 线性回归的理论依据 (2) 过拟合意味著什么 (3) 模型优化的方向
(4) 对上述的总结
线性回归的理论依据
泰勒公式
若函数f(x)在包含x0的某个区间[a,b]上具有n阶导数,且在开区间(a,b)上具有(n+1)阶导数,则对闭区间[a,b]上任意一点x,有下式成立:令
其中
令$ $
即:
结论:对于区间[a,b]上任意一点,函数值都可以用两个向量内积的表达式近似,其中 是基函数(basis function), 是相应的系数。高阶表达式 表示两者值的误差。
傅里叶级数
对于周期为T的函数,频率 ,函数f(x)的表达式如下:当 时,f(t)收敛,则:
令 ,
其中
则:
周期函数f(x)可以用内向量内积近似,
线性回归
由泰勒公式和傅里叶级数可知,当基函数的数量足够多时,向量内积无限接近于函数值。线性回归的向量内积表达式如下:
若令 除了多了方差 这一项,f(x)的表达式就是最为常见的线性回归表达式。
过拟合问题
过拟合定义
构建模型的训练误差很小或为0,测试误差很大,这一现象称为过拟合。高斯杂讯数据模型
我们采集的样本数据其实包含了杂讯,假设该杂讯的高斯杂讯模型均值为0,方差为 。若样本数据的标记为y1,理论标记为y,杂讯为 ,则有:
上节的线性回归表达式的方差 表示的意义是杂讯高斯分布的随机抽样,书本的线性回归表达式把方差 也包含进去了。
过拟合原因
数学术语:当基函数的个数足够大时,线性回归表达式的方程恒相等。如下图:
机器学习术语:模型太过复杂以致于把无关紧要的杂讯也学进去了。
当线性回归的系数向量间差异比较大时,则大概率设计的模型处于过拟合了。用数学角度去考虑,若某个系数很大,对于相差很近的x值,结果会有较大的差异,这是明显的过拟合现象。
过拟合的解决办法是降低复杂度。
模型的优化方向
模型的不同主要体现在参数个数,参数大小以及正则化参数 ,优化模型的方法是调节上面三个参数(但不仅限于此,如核函数),目的是找到最优模型。
总结
本文通过泰勒公式和傅里叶级数的例子说明线性回归的合理性,线性回归表达式包含了方差项,该方差是高斯杂讯模型的随机采样,若训练数据在线性回归的表达式恒相等,那么就要考虑过拟合问题了。回归系数间差异比较大也是判断过拟合的一种方式。模型优化的方法有很多种,比较常见的方法是调节参数个数,参数大小以及正则化参数 。
推荐阅读: