特徵選擇入門

工欲善其事，必先利其器

機器學習煉丹爐要想練出好模型，除了要有好的學習方法外，好的調料（特徵）也是必不可少的。

「維度災難」大家都不陌生，它的外文名叫「The Curse of Dimensionality」。我覺得翻譯成為維度詛咒，更為貼切。隨著訓練樣本特徵數的由少到多，機器學習模型的準確率會先顯著提升，但是當特徵數繼續增加，模型訓練時間大幅上升，準確率不但不會上升，反而會下降，並且無可避免地陷入「過擬合」的泥潭，更為嚴重的是當某些無關特徵加入學習器時，會對模型的準確度造成極大影響。