數據預處理是個有意思的問題,因為它讓線性模型變得可以」工作「了。
別急,我不是說我們之前講的什麼用都沒有,只是它只能在比較小的範圍內工作。今天,讓我講一些可以擴大線性模型威力的方法!
首先,我們可以對一些數據評估,來判斷這個數據和我們想要的結果是否是線性關係的。
比如,你收集了別墅距離市中心的位置(你可能已經厭倦了這個例子,在講下一個模型時,我儘可能換一個例子)。但實際上,別墅的價格很可能和距離的平方是線性關係,如果你不對距離提前處理,很可能讓你最後訓練出來的模型不夠精確。怎麼辦呢?如果你是個高中生,正在飽受高考摧殘的高中生,你應該知道該怎麼做。如果你不知道的話,讓我來給你補補數學。實際上,你只需要把之前代入公式的x換成x的平方就可以了。當然,我們也可以假設某些屬性和數據的標記呈更複雜的關係。更一般的,我們假設所有的屬性和標記的關係如下: