特徵交叉

特徵組合的意義就不多多贅述了。在這裡主要介紹2種流行的特徵組合手段：FM和DCN

FM

$sum_{i=1}^n sum_{j=i+1}^n langle mathbf{v}_i, mathbf{v}_j angle x_i x_j = frac{1}{2} sum_{f=1}^k left(left( sum_{i=1}^n v_{i, f} x_i ight)^2 - sum_{i=1}^n v_{i, f}^2 x_i^2 ight)$

推導： $ab=frac{1}{2}[(a+b)^2-(a^2+b^2)]$

舉例說明：

設 a=(2,3) , b=(1,2)，則 ab=(2,6)用上面的公式推導：

$frac{1}{2}[(a+b)^2-(a^2+b^2)]=frac{1}{2}[(9-4-1=4,25-9-4=12)]=(2,6)$

tesorlfow很容易實現：

def cross(self,x,share_EmbedWeights): """ 先x的每個特徵進行embedding得到vi，然後 xi*vi ,然後再求內積目標：[batch, n] * [n,k] =[batch,n,k] 轉化為： [n*[batch, 1]] * [n*[batch,k]] =[batch,n,k], x的每一行要轉化成一個對角矩陣 """ n=x.shape[1].value #feature nums k=self.k # embeds = [] for i in range(n): xi = x[:,i] # shape=[batch] vi = tf.nn.embedding_lookup(share_EmbedWeights, i) #shape=[k] # 直接 xi*vi 報錯 # xi*v_i=[batch,1] * [1,k]=[batch,k] embed_i = tf.expand_dims(xi,1) * tf.expand_dims(vi ,0) embeds.append(embed_i)

embed = tf.reshape(tf.concat(embeds, 1),[-1,n,k]) # shape=[-1,n,k]
#
# sum_square 表示先sum後square. sum是axis=1，而不是axis=2
sum_square = tf.square(tf.reduce_sum(embed, axis=1))
square_sum = tf.reduce_sum(tf.square(embed), axis=1)
y_v = 0.5 * tf.reduce_sum(sum_square - square_sum, axis=1)

return y_v

DCN

核心部分是cross layer

FM

DCN

FM VS DCN

熱門新聞

週熱門

特徵交叉

FM

DCN

FM VS DCN

如何計算決策樹的各特徵重要程度？

CTR預估：(標籤-權重)列表類特徵怎麼輸入到模型？

高緯度的onehot向量怎麼降維為embedding向量？

高維組合特徵在處理時，如何將高維特徵用低維的k維向量表示？

機器學習，特徵值A的取值大部分是a，極少數是b，應該怎麼處理？

數據挖掘/機器學習模型怎麼逐步構建構建有效的特徵呢？

【特徵工程】數值變數的處理技術

【特徵工程】分類變數的處理技術

特徵編碼方法總結—part1

Kaggle如何快速拿牌

CSV轉換LibFFM格式

數據清洗與多個特徵提取-Kaggle和泰坦尼克號預測

特徵融合 筆記

特徵工程與特徵選擇

特徵選擇與特徵工程初探

熱門新聞

週熱門

特徵融合筆記