Paper-領域因子分解機(FFM)模型
Absract
- 在本文中,我們建立了FFM作為一種有效的方法來分類大型稀疏數據,包括來自CTR預測的數據。
- 首先,我們提出了有效的FFM訓練方法。 然後我們全面分析FFM並將此方法與競爭模型(competing models)進行比較。 實驗表明,FFM對於某些分類問題非常有用。 最後,我們發布了一套供公眾使用的FFM。
1.Introduction
- 如論文例子所示,關聯特徵對CTR預測至關重要,然而線性模型難以學習這些信息。
- 基於FM的PITF方法被提出來用於個性化標籤推薦。在2012年KDD杯中,PITF的輪廓(被稱為「因子模型」)由「Team Opera Solutions」提出。 由於該術語過於籠統並且很容易與因子機混淆,因此本文將其稱為「場感知因子機」(FFM)。
- PITF考慮三個特殊欄位:user、item、tag,FFM更加通用。PITF中有以下幾個結論:
- 用SGD來優化,為避免過擬合,之訓練一個epoch
- FFM在他們嘗試的六種模型中最好。
- 本文成果
- 將FFM與Poly2和FM進行比較,首先進行概念性的比較,再做實驗查看準確性和訓練時間的差異。
- 提出了訓練FFM的計數,用於FFM的有效並行化演算法以及使用early stop來避免過擬合。
- 發布了一個開源軟體。
2. POLY2 AND FM
- POLY2:d=2的多項式映射通常可以有效地捕獲特徵組合連接信息。通過在d=2的顯式映射上使用線性模型,訓練和測試時間都比用核方法快得多。poly2模型會為每一個特徵對學習一個權重: