數據是所有機器學習管道的第一步。數據科學家先收集所有相關數據,再進行整平操作,添加、聚合不同數據源,從中提取可能有助於預測的原始信號。這之後,提取得到的信號會被放進靈活的數據結構中,也就是DataFrame,方便後續操作。雖然這些數據結構簡單且易於操作,但其中還是存在一些錯誤,可能會對下游造成影響,比如存在類型錯誤和空值錯誤。
TransmogrifAI可以幫助解決這類問題。它允許用戶為其數據指定類型,自動把原始預測變數和響應信號提取為「特徵」。除了原始類型,TransmogrifAI的支持面更豐富、更細化,地理位置、電話號碼、郵政編碼……凡是數據科學家可能頻繁遇到的,它都能進行區分。
事實上,即便用戶沒有指定,TransmogrifAI也可以自行推斷。例如,當它檢測到數據中的文本特徵其實是分類特徵時,它會記錄這個錯誤並進行適當處理。不用等到運行時再報錯,數據科學家在編譯時就能找出大多數錯誤。