用cart樹回歸演算法預測女朋友給你多少零花錢

假設你有一個女朋友，你每個月都會把工資上交給她，然後她會你一些零花錢；但是令你苦惱的是，每次的零花錢金額都不等，這直接決定了你下個月的煎餅果子里能不能加個蛋的嚴重問題；

於是，你打算提前預測下個月的零花錢是多少

能不能用我們上一節介紹的《用決策樹演算法分析女朋友為什麼會生氣》中的決策樹演算法呢？我們試一下：

第一步，收集數據

圖表1

第二步，計算熵

。。。。。

有沒有發現什麼問題？

問題在於「零花錢」列的每個值都不一樣，此時再算熵已經沒有什麼意義，因為後續已經無法通過某一特徵來降熵，我們稱這種類型的變數為連續型變數；與此相對應的，上一節介紹的「是否生氣」只有少數幾個值，這種變數稱為離散型變數。

那怎麼辦呢？

我們之所以在預測離散型變數時引入「熵」，是因為「熵」可以反映不確定的程度。

可怎麼反映連續型變數的不確定程度呢？此時我們可以引入「方差」

方差是什麼？

方差是一系列數據減去均值的平方和再除以數據個數（如果不除以數據個數，我們姑且叫它「方差和」）這反映了數據的分散程度，還是舉例說話：

觀察下面兩組數據有什麼不同：

【1,2,3,4,5,6,7,8,9】

【1,4,4,5,5,5,6,6,9】

第一組數據分布很分散，第二組則比較集中在5的附近，我們說第一組數據比第二組方差大。

直覺上，如果方差越小，說明我們對數據的結果越有信心，所以應該想辦法減少方差。

前戲介紹完畢，現在我們正式介紹一個新的演算法：cart樹

Cart樹的全稱是分類回歸樹（分類指預測變數是離散的，回歸指預測變數是連續的）

與決策樹的共同點是都是建立樹結構，用葉子節點的值來進行預測。

不同點有兩個：

在決策樹中，一個類型變數建立多少個子樹，是根據離散值的個數決定的（比如天氣類型有三個值：晴，陰，多雲，則對應建立三個子樹）；cart樹則不管是離散型還是連續型變數，都是固定建立兩個子樹（遍歷所有特徵的所有可能取值，得到一個使方差和最小的值，小於這個值的為一個分支，大於等於這個值的為另外一個分支）
在決策樹中，評價不確定程度的只有一個指標：熵；在cart樹評價不確定性有兩個指標：方差（連續性）和gini指數（離散型），gini指數的形式和熵差不多，比較容易理解，本文只對方差進行展開。

下面我們就用cart樹對你下個月的生活質量情況進行預測，一共分四步

第一步、收集數據

和圖表1的內容一樣；

第二步、尋找最佳拆分點

這一步驟是最關鍵也是最麻煩的，我們先用文字大致描述一下，然後通過例子來展示該怎麼做。

步驟：對表格中每一列每一行的值，都進行如下計算：