比如兩個特徵,一個佔60,另一個佔40


LR之後 看係數。

樹模型有特徵重要性,一般某分裂特徵越在樹上方,特徵重要性越大。

線性模型有係數權重和方差貢獻率可以使用。

一般,你要做特徵重要性比較的時候,可能遇到兩種情況。

情況1:一共10個特徵,我在該模型中運用了特徵2467。我要比較這4個的重要性。並排序它。

情況2:一共10個特徵,我要挑5個特徵來構建模型。怎麼給這10個特徵排序,然後選出5個。


我覺得可能有這麼幾個思路可以考慮:

  1. 如果是線性模型的化,可以看標準化以後的係數;線性回歸中,自變數的係數表示自變數變化一個單位時,因變數變化的大小;係數越大,自變數對因變數的影響越大,也就越重要。但是必須是標準化以後的係數——比如你用作為質量的單位,和用千克作為質量的單位,回歸出來的係數差了1000倍,但是你不能說前者所代表的變數更重要
  2. 也可以看每一個變數對 [公式] 的影響;比如,先剔除第1個變數,擬合一個模型,得到一個 [公式] 值;然後再把第1個變數加入到模型中重新擬合,得到一個新的 [公式] ;對所有的自變數都做一遍;看看哪個變數對 [公式] 的影響最大——對 [公式] 的影響越大,說明這個變數越重要
  3. XGBoost或者LGBM模型中自帶的feature importance 功能

請各位大牛們再補充...


算出了具體權重的,權重就是重要性排序。

沒有算出具體權重的,可以把其他特徵都去掉,只留下一個特徵去用LR做訓練、算訓練集的AUC。每個特徵都這樣做一次,比較auc的大小排序,就能知道該特徵的特徵重要性排序。


舉個例子,對於線性回歸

fit& 使用R語言,查看模型的詳細信息

summary(fit) 查看每一個自變數(就是x1,x2,x3)產生的偏差佔總體偏差的比例,即單個自變數的R^2,值越大,說明對因變數y的影響越大。 至於模型解釋原始數據效果的好壞,用總的R^2來評價,越接近1,說明模型解釋性越好。


方法太多了,比如隨機森林可以給出量化的每個特徵的重要性,邏輯回歸也行。但一切的一切取決於模型是否契合你的數據,比如如果隨機森林適合你的數據,那你能相信他的結果;如果線性分類器適合,你也能相信他的結果;反之,如果不適合,那你不能相信


推薦閱讀:
相關文章