数据预处理是个有意思的问题,因为它让线性模型变得可以」工作「了。
别急,我不是说我们之前讲的什么用都没有,只是它只能在比较小的范围内工作。今天,让我讲一些可以扩大线性模型威力的方法!
首先,我们可以对一些数据评估,来判断这个数据和我们想要的结果是否是线性关系的。
比如,你收集了别墅距离市中心的位置(你可能已经厌倦了这个例子,在讲下一个模型时,我尽可能换一个例子)。但实际上,别墅的价格很可能和距离的平方是线性关系,如果你不对距离提前处理,很可能让你最后训练出来的模型不够精确。怎么办呢?如果你是个高中生,正在饱受高考摧残的高中生,你应该知道该怎么做。如果你不知道的话,让我来给你补补数学。实际上,你只需要把之前代入公式的x换成x的平方就可以了。当然,我们也可以假设某些属性和数据的标记呈更复杂的关系。更一般的,我们假设所有的属性和标记的关系如下: