核心:划分点选择 + 输出值确定。

一、概述

决策树是一种基本的分类与回归方法,本文叙述的是回归部分。回归决策树主要指CART(classification and regression tree)演算法,内部结点特征的取值为「是」和「否」, 为二叉树结构。

所谓回归,就是根据特征向量来决定对应的输出值。回归树就是将特征空间划分成若干单元,每一个划分单元有一个特定的输出。因为每个结点都是「是」和「否」的判断,所以划分的边界是平行于坐标轴的。对于测试数据,我们只要按照特征将其归到某个单元,便得到对应的输出值。

】左边为对二维平面划分的决策树,右边为对应的划分示意图,其中c1,c2,c3,c4,c5是对应每个划分单元的输出。

如现在对一个新的向量(6,6)决定它对应的输出。第一维分量6介于5和8之间,第二维分量6小于8,根据此决策树很容易判断(6,6)所在的划分单元,其对应的输出值为c3.

划分的过程也就是建立树的过程,每划分一次,随即确定划分单元对应的输出,也就多了一个结点。当根据停止条件划分终止的时候,最终每个单元的输出也就确定了,也就是叶结点。

二、回归树建立

既然要划分,切分点怎么找?输出值又怎么确定?这两个问题也就是回归决策树的核心。

[切分点选择:最小二乘法]; [输出值:单元内均值].

1.原理

假设X和Y分别为输入和输出变数,并且Y是连续变数,给定训练数据集为 D=left { (x_1,y_1 ),(x_2,y_2 ),...,(x_N,y_N) 
ight } ,其中 x_i=(x_{i}^{(1)},x_{i}^{(2)},...,x_{i}^{(n)}) 为输入实例(特征向量),n为特征个数,i=1,2,...,N, N为样本容量。

对特征空间的划分采用启发式方法,每次划分逐一考察当前集合中所有特征的所有取值,根据平方误差最小化准则选择其中最优的一个作为切分点。如对训练集中第j个特征变数 x^{(j)} 和它的取值s,作为切分变数和切分点,并定义两个区域 R_1(j,s)=left { x|x^{(j)}leqslant s 
ight }R_2(j,s)=left { x | x^{(j)}> s<br />
ight } ,为找出最优的 js ,对下式求解

min_{j,s}left [ min_{c_1}sum_{x_iin R_1(j,s)}(y_i-c_1)^{2}+min_{c_2}sum_{x_iin R_2(j,s)}(y_i-c_2)^{2} 
ight ] (1.1)

也就是找出使要划分的两个区域平方误差和最小的 js .

其中, c_1 , c_2 为划分后两个区域内固定的输出值,方括弧内的两个min意为使用的是最优的 c_1c_2 ,也就是使各自区域内平方误差最小的c_1c_2 ,易知这两个最优的输出值就是各自对应区域内Y的均值,所以上式可写为

min_{j,s}left [sum_{x_iin R_1(j,s)}(y_i-hat{c_1})^{2}+sum_{x_iin R_2(j,s)}(y_i-hat{c_2})^{2} 
ight ] (1.2)

其中 hat{c_1}=frac{1}{N_1}sum_{x_iin R_1(j,s)}y_ihat{c_2}=frac{1}{N_2}sum_{x_iin R_2(j,s)}y_i .

现证明一维空间中样本均值是最优的输出值(平方误差最小):

给定一个随机数列 left { x_1,x_2,...,x_n 
ight } ,设该空间中最优的输出值为 a ,根据最小平方误差准则,构造 a 的函数如下:

F(a)=(x_1-a)^2+(x_2-a)^2+...+(x_n-a)^2 考察其单调性, F(a)=-2(x_1-a)-2(x_2-a)+...-2(x_n-a)=2na-2sum_{i=1}^{n}x_iF(a)=0 得, a=frac{1}{n}sum_{i=1}^{n}x_i 根据其单调性,易知 hat{a}=frac{1}{n}sum_{i=1}^{n}x_i 为最小值点。证毕。

找到最优的切分点(j,s)后,依次将输入空间划分为两个区域,接著对每个区域重复上述划分过程,直到满足停止条件为止。这样就生成了一棵回归树,这样的回归树通常称为最小二乘回归树

2. 演算法叙述

输入:训练数据集D;

输出:回归树f(x).

在训练数据集所在的输入空间中,递归地将每个区域划分为两个子区域并决定每个子区域上的输出值,构建二叉决策树:

(1) 选择最优切分变数j与切分点s,求解

min_{j,s}left [ min_{c_1}sum_{x_iin R_1(j,s)}(y_i-c_1)^{2}+min_{c_2}sum_{x_iin R_2(j,s)}(y_i-c_2)^{2} 
ight ] (1.3)

遍历变数 j ,对固定的切分变数 j 扫描切分点 s ,选择使上式达到最小值的对 (j,s) .

(2) 用选定的对 (j,s) 划分区域并决定相应的输出值:

hat{c_m}=frac{1}{N_m}sum_{x_iin R_m(j,s)}y_ixin R_m,m=1,2 (1.4)

其中, R_1(j,s)=left {x|x^{(j)}leqslant s 
ight }R_2(j,s)=left {x|x^{(j)}> s<br />
ight } .

(3) 继续对两个子区域调用步骤(1),(2),直至满足停止条件.

(4) 将输入空间划分为M个区域 R_1,R_2,...,R_M ,生成决策树:

f(x)=sum_{m=1}^{M}hat{c_m}I(xin R_m) (1.5)

其中 I 为指示函数, I=left{egin{matrix} 1 &if(xin R_m) \ 0 &if(x
otin R_m) end{matrix}
ight. .

三、示例

(参考:blog.csdn.net/weixin_40)

下表为训练数据集,特征向量只有一维,根据此数据表建立回归决策树。 ?

(1) 选择最优切分变数j与最优切分点s:

在本数据集中,只有一个特征变数,最优切分变数自然是x。接下来考虑9个切分点 left { 1.5,2.5,3.5,4.5,5.5,6.5,7.5,8.5,9.5 
ight } (切分变数两个相邻取值区间 [a^i,a^{i+1}) 内任一点均可),根据式(1.2)计算每个待切分点的损失函数值:

损失函数为(同式(1.2))

L(j,s)=sum_{x_iin R_1(j,s)}(y_i-hat{c_1})^{2}+sum_{x_iin R_2(j,s)}(y_i-hat{c_2})^{2}

其中 hat{c_1}=frac{1}{N_1}sum_{x_iin R_1(j,s)}y_ihat{c_2}=frac{1}{N_2}sum_{x_iin R_2(j,s)}y_i .

a. 计运算元区域输出值

当s=1.5时,两个子区域 R_1=left { 1 
ight }R_2=left { 2,3,4,5,6,7,8,9,10 
ight }

c_1=5.56c_2=frac{1}{9}(5.7+5.91+6.4+6.8+7.05+8.9+8.7+9+9.05)=7.5

同理,得到其他各切分点的子区域输出值,列表如下

b. 计算损失函数值,找到最优切分点

当s=1.5时, L(1.5)=(5.56-5.56)^2+[(5.7-7.5)^2+(5.91-7.5)^2+...+(9.05-7.5)^2 ]=0+15.72=15.72

同理,计算得到其他各切分点的损失函数值,列表如下

易知,取s=6.5时,损失函数值最小。因此,第一个划分点为(j=x,s=6.5).

(2) 用选定的对 (j,s) 划分区域并决定相应的输出值:

划分区域为: R_1=left { 1,2,3,4,5,6 
ight }R_2=left { 7,8,9,10 
ight }

对应输出值: c_1=6.24c_2=8.91

(3) 调用步骤(1),(2),继续划分:

R_1 ,取切分点 left { 1.5,2.5,3.5,4.5,5.5 
ight } ,计算得到单元输出值为

损失函数值为

L(3.5)最小,取s=3.5为划分点。

后面同理。

(4) 生成回归树:

假设两次划分后即停止,则最终生成的回归树为:

T=left{egin{matrix} 5.72 &xleqslant 3.5 \ 6.75&3.5< xleqslant 6.5 \ 8.91 & x> 6.5 end{matrix}<br />
ight.

四、Python实现??

对第三部分例子的python实现及与线性回归对比。

(来自github.com/KARL13YAN/le)

import numpy as np
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeRegressor
from sklearn import linear_model

# Data set
x = np.array(list(range(1, 11))).reshape(-1, 1)
y = np.array([5.56, 5.70, 5.91, 6.40, 6.80, 7.05, 8.90, 8.70, 9.00, 9.05]).ravel()

# Fit regression model
model1 = DecisionTreeRegressor(max_depth=1)
model2 = DecisionTreeRegressor(max_depth=3)
model3 = linear_model.LinearRegression()
model1.fit(x, y)
model2.fit(x, y)
model3.fit(x, y)

# Predict
X_test = np.arange(0.0, 10.0, 0.01)[:, np.newaxis]
y_1 = model1.predict(X_test)
y_2 = model2.predict(X_test)
y_3 = model3.predict(X_test)

# Plot the results
plt.figure()
plt.scatter(x, y, s=20, edgecolor="black",
c="darkorange", label="data")
plt.plot(X_test, y_1, color="cornflowerblue",
label="max_depth=1", linewidth=2)
plt.plot(X_test, y_2, color="yellowgreen", label="max_depth=3", linewidth=2)
plt.plot(X_test, y_3, color=red, label=liner regression, linewidth=2)
plt.xlabel("data")
plt.ylabel("target")
plt.title("Decision Tree Regression")
plt.legend()
plt.show()

运行结果:

pdf下载

参考

  1. 李航.《统计学习方法》.清华大学出版社.
  2. CSDN. blog.csdn.net/weixin_40

推荐阅读:

相关文章