台湾 || 语言: 大陆简体港澳繁體台灣正體

Sklearn中分類決策樹的重要參數詳解

雪花台灣 2019-07-01 13:36

學習機器學習童鞋們應該都知道決策樹是一個非常好用的演算法，因為它的運算速度快，準確性高，方便理解，可以處理連續或種類的欄位，並且適合高維的數據而被人們喜愛，而Sklearn也是學習Python實現機器學習的一個非常好用的庫，也是被廣大學習機器學習們的童鞋們所喜愛的，那麼一個被人們喜愛的演算法和一個被人們喜愛的庫結合到一起會是什麼樣子的呢，下面就是在Sklearn庫中的分類決策樹的函數以及所包含的參數。

classsklearn.tree.DecisionTreeClassifier(criterion=』gini』, splitter=』best』, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)

為什麼會變成這樣呢……第一次有了喜歡的演算法，又有了支持這個演算法的一個非常好的庫。兩件快樂事情重合在一起。而這兩份快樂，又給我帶來更多的快樂。得到的，本該是像夢境一般幸福的結合……但是，為什麼，會變成這樣呢。為什麼會變得這麼複雜呢。

是不是感覺兩個結合起來的演算法的參數有好多，不知道每個參數應該怎麼使用，那麼下面我們就對演算法的一些關鍵參數進行分析，相信看完這些參數，你應該會明白如何使用Sklearn中的分類決策樹。

1. 重要參數：criterion

為了要將表格轉化為一棵樹，決策樹需要找出最佳節點和最佳的分枝方法，對分類樹來說，衡量這個「最佳」的指標叫做「不純度」。通常來說，不純度越低，決策樹對訓練集的擬合越好。現在使用的決策樹演算法在分枝方法上的核心大多是圍繞在對某個不純度相關指標的最優化上。

不純度基於節點來計算，樹中的每個節點都會有一個不純度，並且子節點的不純度一定是低於父節點的，也就是說，在同一棵決策樹上，葉子節點的不純度一定是最低的。

Criterion這個參數正是用來決定不純度的計算方法的。sklearn提供了兩種選擇：

1）輸入」entropy「，使用信息熵（Entropy）

2）輸入」gini「，使用基尼係數（Gini Impurity）

相关文章