機器學習中有沒有可以分析特徵重要性的python工具？

現在在做一個機器學習的特徵選擇，有沒有什麼工具可以分析各項特徵的重要性以剔除分類中沒用的特徵

哈哈，請參考我前幾天剛寫的日誌：

Young：kaggle | Machine Learning for Insights Challenge?

zhuanlan.zhihu.com

我這個日誌的主要內容從kaggle的一個教學帖子學來的，這裡分析特徵重要性有關的三個python工具庫：eli5, pdpbox, shap

這幾個工具可以方便的表達出：Permuation Importance，Partial Dependence Plots，SHAP Values，Summary Plots

1.樹模型，建立好模型以後，看那個屬性里根節點越近則越重要。模型會自帶一些輸出重要屬性的方法。

2.線性模型，模型一般可以直接輸出參數，參數越大越重要。

3.利用互信息等類似的方法可以做，sklearn有，scipy裡面也有。

4. l1正則，可以觀察訓練完畢後參數為零的特徵，刪除掉就可以。模型自帶。

5. sklearn有一個feature_select模塊可以做特徵選擇。sklearn庫裡面其實基本的都可以搞定。

6.xgb，lightgbm 這些開源庫也可以做。

線性回歸模型中的ANOVA方法。
來自sklearn里的 RandomForestClassifier，自帶 feature_importances_ 功能。返回特徵向量的重要性。

from sklearn.model_selection import cross_val_score

from sklearn.datasets import make_blobsfrom sklearn.ensemble import RandomForestClassifier

clf = RandomForestClassifier(n_estimators=10, max_depth=None,min_samples_split=2, random_state=0)

clf.fit(x_train, Y_train)

importances = clf.feature_importances_

std = np.std([tree.feature_importances_ for tree in clf.estimators_], axis=0)indices = np.argsort(importances)[::-1]

# Print the feature ranking

print("Feature ranking:")

for f in range(min(20,x_train.shape[1])):

print("%d. feature %d %s (%f)" % (f + 1, indices[f], importances[indices[f]]))

# Plot the feature importances of the forest

plt.figure()

plt.title("Feature importances")

plt.bar(range(x_train.shape[1]), importances[indices],

color="r", yerr=std[indices], align="center")

plt.xticks(range(x_train.shape[1]), indices)

plt.xlim([-1, x_train.shape[1]])

plt.show()

#%% =====

Out:=

機器學習中有沒有可以分析特徵重要性的python工具？

热门新闻

周热门

機器學習中有沒有可以分析特徵重要性的python工具？

大數據怎麼就突然火了起來？

為什麼softmax很少會出現[0.5，0.5]？

人工智慧領域裡的Interpretability和Explainability有什麼區別嗎？

如何自學《模式識別與機器學習》這本書？

有哪些非黑箱的機器學習模型，或者預測演算法？

ACL 2019將會有哪些值得關注的論文？

如果不從事機器學習，人工智慧，大數據這塊，未來還有機會在互聯網賺錢養家嗎？本人三本院校軟體專業。？

新手如何上手機器學習？

本人碩一小白，最近找課題，想問問深度學習GAN這個方向有哪些具有實際應用價值還好發文章的課題?

為什麼batch_size 增大會增加每一步的運算時間？

經典Python入門書籍都是python2.x, 先學這些再轉3.x難不難？

深度學習如何解決低信噪比下的檢測識別問題？

在2019年，使用AMD顯卡是否相當於告別深度學習，未來CUDA在機器學習領域的壟斷有可能被打破嗎？

在深度學習領域，預訓練有一定作用的本質原因是什麼？

小領域知識圖譜應該怎麼構建？

热门新闻

周热门