台湾 || 语言: 大陆简体港澳繁體台灣正體

FM+FTRL演算法原理以及工程化實現

雪花臺灣 2019-03-24 01:36

$large{<--------收藏別忘記點贊-------->} ag{^_^}$

前言

上一篇文章講了LR+FTRL演算法原理以及工程化實現。在實際的項目開發中，常常使用的是LR+組合特徵+FTRL的方式進行建模。這種方式需要人工組合特徵，非常考驗經驗，而且存在線下組合的有效特徵線上不一定有效、當前有效的特徵未來也不一定有效，所以逐漸被其它的可以自動組合特徵的模型取代。業界常用的兩種組合特徵的方式是：FM系列以及Tree系列。本文主要講解FM系列裡面的基本款：Factor Machine模型。

特徵組合

我們採用多項式模型表述組合特徵的作用。在多項式模型中，特徵與的組合用表示。為了簡單起見，我們討論二階多項式模型。具體的模型表達式如下：

$y=w_{0} + sum_{i=1}^{N}w_{i}x_{i} + sum_{i=1}^{N}sum_{j=i+1}^{N}w_{i,j}x_{i}x_{j} ag1$

公式1的前兩個屬於標準的線性模型，第三個部分對應的就是特徵組合。傳統的多項式模型中，係數 $w_{i,j}?$ 是相互獨立的，需要組合特徵 $x_{i}$ 和 $x_{j}?$ 出現足夠置信的情況下才能學習出有效的值，而實際的推薦、廣告系統數據中訓練數據往往非常的稀疏，因此簡單的多項式組合特徵獲得的模型往往失效，比如高階kernel的SVM模型。

那麼如何解決二次項參數的訓練問題？矩陣分解提供了一種解決思路。在model-based的協同過濾中，一個rating矩陣可以分解為user矩陣和item矩陣，每個user和item都可以用一個隱向量表示。如下圖所示，我們把每一個user表示成一個二維向量，同時把每個item表示成一個二維向量，兩個向量的乘積就是就是矩陣中user對item的打分。

w_{i,j}->W?

相關文章