台湾 || 语言: 大陆简体港澳繁體台灣正體

基於Python的自動特徵工程：教你如何自動創建機器學習特徵

雪花臺灣 2019-05-06 20:48

作者 | William Koehrsen

譯者 | 王天宇

編輯 | Jane

出品 | AI科技大本營

【導讀】如今機器學習正在從人工設計模型更多地轉移到自動優化工作流中，如 H20、TPOT 和 auto-sklearn 等工具已被廣泛使用。這些庫以及隨機搜索等方法都致力於尋找最適合數據集的模型，以此簡化模型篩選與調優過程，而不需要任何人工幹預。然而，特徵工程作為機器學習過程中最有價值的一個環節，卻幾乎一直由人工來完成。

在本文中，我們通過引用一個數據集作為例子來給大家介紹基礎知識，並給大家介紹一個基於 Featuretools Python 庫來實現特徵工程自動化的實例。

前言

特徵工程也可以稱作特徵構造，是基於現有數據構造新特徵來訓練機器學習模型的過程。可以說這個環節比我們具體使用什麼模型更重要，因為機器學習演算法只會基於我們提供給它的數據進行學習，所以構造與目標任務相關的特徵是極其重要的（詳見論文「A Few Useful Things to Know about Machine Learning」）。

論文鏈接：
https://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf

一般來說，特徵工程是一個漫長的人工過程，依賴於領域知識、直覺及數據操作。這一過程是極其單調的，而且最終的特徵結果會受人的主觀性和時間所限制。自動特徵工程旨在幫助數據科學家基於數據集自動地構造候選特徵，並從中挑選出最適合於訓練的特徵。

特徵工程基礎知識

特徵工程意味著基於現有數據構造額外的特徵，這些待分析的數據往往分佈在多張相關聯的表中。特徵工程需要從數據中提取信息，然後將其整合成一張單獨的表用來訓練機器學習模型。

特徵構造是一個非常耗時的過程，因為每個新特徵都需要經過幾個步驟去構造，特別是那些需要用到多張表信息的特徵。我們可以把這些特徵構造的操作合起來，分成兩個類：「轉換（transformation）」和「聚合（aggregation）」。下面我們通過幾個例子來理解一下這些概念。

「轉換」適用於單張表格，這個環節基於一個或多個現有數據列構造新的特徵。例如，現在我們有下面這張客戶數據表：

相關文章