LR+FTRL演算法原理以及工程化實現

前言

在實際項目或者刷競賽的時候，經常會遇到訓練數據非常大導致一些演算法實際上不能操作的問題。比如在廣告行業中，因為DSP的請求數據量特別大，一個星期的數據往往有上百G，這種級別的數據在訓練的時候，直接套用一些演算法框架是沒辦法訓練的，基本上在特徵工程的階段就一籌莫展。通常採用採樣、截斷的方式獲取更小的數據集，或者使用大數據集群的方式進行訓練，但是這兩種方式在作者看來目前存在兩個問題：

採樣數據或者截斷數據的方式，非常的依賴前期的數據分析以及經驗。
大數據集群的方式，目前spark原生支持的機器學習模型比較少；使用第三方的演算法模型的話，需要spark集群的2.3以上；而且spark訓練出來的模型往往比較複雜，實際線上運行的時候，對內存以及QPS的壓力比較大。

我自己以前在刷競賽的時候，看到別人使用過FM+FTRL的模型實現了一個CTR演算法，印象很深。自己使用的是DNN+Embedding的方式做的一個演算法模型，從理論上看embedding肯定比one-hot encoder的方式更加先進且能真實反饋特徵數據的相關性，但是實際效果看對方的FM_FRTL得到的AUC比我高近一個百分點，而且可以在10G的數據上一個多小時跑完，而我的DNN+Embedding演算法，因為沒有GPU主機，跑一次需要十二個小時，嚴重影響了調參的積極性，這也是我非常想掌握FTRL的出發點。

更重要的是，考慮到刷競賽與實際演算法是否可工程化的的角度，FTRL結合LR或者FM是一個非常好的方向，比Top1開源的代碼使用了PCA、NLP處理特徵以及多個模型stacking的技巧，更具有學習或者借鑒的價值。

本文主要根據谷歌給出的FTRL理論論文，以及FTRL+LR的工程化實現論文，從理論到工程化實現LR+FTRL的開發，任一後端開發人員都能根據文末給出的python代碼，簡單的開發就能實現一個簡單、高性能、高可靠的CTR預測模型。