特徵編碼方法總結—part1

最近又碰到了高基數類別特徵的處理問題，正好也要把相關的解決方案添加到現有的線上機器學習系統裏，這裡總結一下以後免得又忘記了。

在特徵工程裏，特徵編碼是佔比很重的一塊，在kaggle的結構化數據比賽中，最終幫助選手勝利的關鍵因素之一往往是高級特徵的構造和特徵編碼（很多時候特徵編碼也是在構造高級的特徵），下面就來總結一下吧。

1、labelencoder 標籤編碼

如果是無序的非數值離散特徵，一般直接用onehot獨熱編碼了，有序的非數值離散特徵才會用到標籤編碼，因為大部分演算法是沒有內置自動識別類別特徵的功能的，所以需要做這麼一步簡單的轉換，原理很easy了不用廢話了，為了文章看起來完整才寫的，使用labelencoder或者自己用字典來做映射即可。

2、onehotencoder 獨熱編碼

針對類別特徵，例如【男人，女人】，【晴天，雨天，陰天】，類別型特徵，無序，最簡單快捷的方式是通過獨熱編碼轉化為【0，1】或者【0，0，1】這樣的形式，模型才能識別，同時也起到了擴充特徵的作用（例如邏輯在特徵進行onehot展開之後表達能力一般能夠得到較好的提高）。sklearn的onehot，pandas的get_dummies或者自己用字典映射均可。

優點：獨熱編碼解決了分類器不好處理屬性數據的問題，在一定程度上也起到了擴充特徵的作用。它的值只有0和1，不同的類型存儲在垂直的空間。
缺點：1、當類別的數量很多時，特徵空間會變得非常大。2、對於特定任務，例如詞向量化，直接使用onehot的方式是無法考慮到詞之間的交互關係的，onehot之後損失了部分信息。推而廣之，如果特徵之間是非獨立的（比如上下文的詞之間是存在交互關係，時間序列數據之間存在某些內在關係），就不能簡單的使用onehot功能

3、label_binarize 二值化編碼

舉個例子就知道是幹嘛用的了，比如特徵為【晴天，雨天，陰天，雷暴】則特徵轉化為【是否晴天，是否雨天，是否陰天，是否雷暴】，用數字來表示【雷暴】就是[0,0,0,1]，和onthot看起來很類似，很多時候不那麼嚴格界定，其實等同於onehot，一般來說獨熱編碼的結果是多個0和1個1組成的比如類別特徵的處理，但是也存在處理之後出現多個1和多個0的情況，比如文本問題，whatever，不做嚴格區分，因為很多文章都不劃分那麼細，反正自己心裡有數就行了，實現使用sklearn的label_binarize或者自己用字典來實現。

4、直方圖編碼

直方圖編碼，主要針對類別型特徵與類別型標籤的一種編碼方式，還是舉個例子來說明什麼是直方圖編碼吧，最好理解了：

假設類別特徵f1=【A，A，B，B，B，C，C】，對應的二分類標籤為【0，1，0，1，1，0，0】，則我們是這樣來計算類別特徵f1中對應的類別的編碼值的：

以A為例，類別特徵f1的值為A的樣本有兩個，這兩個樣本的標籤分別為【0，1】，則A被直方圖編碼為【1/2,1/2】=【0.5，0.5】（A的樣本一共有2個所以分母為2，其中一個樣本標籤為1，一個樣本標籤為0），實際上就是計算取值為A的樣本中，不同類別樣本的比例，然後用這個比例來替換原始的類別標籤，這裡需要強調的是，無論是直方圖編碼還是我們後面要介紹的target encoding，本質上都是用類別特徵的統計量來代替原來的類別值的，沒什麼神祕的地方，很好理解。

如法炮製，我們來對B進行類別編碼，f1值為B的一共3個樣本，其中一個樣本標籤為0，兩個樣本標籤為1，所以B被編碼為【1/3,2/3】，很好理解了。同樣對於C，一共兩個樣本，並且兩個樣本標籤均為0，則編碼為【2/2,0】。

直方圖編碼實際上存在著比較多的問題，我們目前針對高基類特徵的常用的目標編碼或者均值編碼實際上可以看作是在直方圖編碼之上的問題改進。

直方圖編碼存在以下問題：

1、沒有考慮到類別特徵中不同類別的數量的影響，舉個例子，假設樣本的某個類別特徵為【A,A,A,A,A,A,B】，對應的標籤為【0，0，0，1，1，1，0】，則根據直方圖編碼的公式得到的結果為A：【1/2,1/2】，B：【1,0】，然而這實際上對於A來說是很不公平的，因為B的樣本數量太少，計算出來的結果根本不能算是明顯的統計特徵，而很可能是一種噪音，這實際上是一種非常「過擬合」的計算方式，因為一旦測試集中的樣本有多個B之後，B的直方圖編碼的結果很可能發生非常大的變化；

2、假設沒有1中出現的情況，所有的類別A，B的數量都比較均勻，直方圖編碼還是存在著一個潛在的隱患，直方圖編碼的計算非常依賴於訓練集中的樣本標籤的分佈情況，以f1特徵的那個例子為例，實際上直方圖這麼計算的隱含的假設是潛在的所有的數據的在類別f1上的每一個類別計算出來的結果可以用訓練集的結果來近似代替，簡單說比如我在訓練集中算出來A的直方圖編碼為【1/2,1/2】，即類別為A的樣本中有一半標籤0的樣本，一半標籤1的樣本，那麼一旦測試集的分佈情況發生改變，或者是訓練集本身的採樣過程就是有偏的，則直方圖編碼的結果就是完全錯誤的，（比如全樣本中，類別為A的樣本其實只有10%是標籤為0的，90%標籤為1的，則這個時候A的直方圖編碼為【1/10,9/10】，訓練集的產生可能是有偏的）；

所以在可用的資料和kaggle比賽中很少有人會用到直方圖編碼，更多的使用target encoding和mean encoding。下面是簡單的直方圖編碼的實現，因為不怎麼用就懶得優化了。

def histogram_encoding(X,y): category=list(set(X)) labels=list(set(y)) data=pd.concat([X,pd.DataFrame(y)],axis=1) data.columns=[data,labels] dictionary={} for item in category: temp=data[data[data]==item] tp=temp[labels].value_counts() if tp.shape[0]<len(labels): for label in labels: if label not in tp.index: tp[label]=0 nums=tp.tolist() sums=sum(nums) nums=[items*1.0/sums for items in nums] ### 這裡sums如果-1就是one leave out的分類問題形式 ##其實問題差別不是很大，數據量一般都是至少幾十萬的級別的這麼一個數據點的刪除與否沒什麼大影響 dictionary[item]=nums hs_enc=X.copy() hs_enc=hs_enc.values.tolist() for i in range(len(hs_enc)): hs_enc[i]=dictionary[hs_enc[i]] return hs_enc,dictionary