最近模型增加了一些新feature(模型完全一樣,NN相關模型),離線auc有較大的提升,線上的auc也有較大提升,但是實際的CTR(還有CPM)卻沒什麼變化,因為auc反映的是整體樣本間的一個排序能力,而在計算廣告領域,我們實際要衡量的是不同用戶對不同廣告之間的排序能力,實際上更關注的是同一個用戶對不同廣告間的排序能力,也有用之前阿里提出的gauc(用戶auc加權),顯示gauc也有較大提升, 特徵確定是沒有出現穿越,而且線上線下特徵不一致這種情況幾乎可以忽略不記。 不知道這種情況有什麼好的方法沒? 歡迎討論!


1. 是否校驗過相同pv,線上預估值與離線預估值之間的差異性。(用來check各種因素最終造成的不一致影響面,可能是模型,特徵,或者其它bug)

2. nn model ctr分佈相比上一版本(LR?)分佈的變化,可以用一天的數據,繪製ctr的概率分佈圖,分析模型預估值的分佈變化情況。(一般情況下線上都採樣了和模型耦合的一些ctr calibration、截斷、以及某些出價邏輯,如果nn ctr分佈產生較大變化,而對應的策略沒進行調整,最後得到的效果是可能出現一些奇葩情況)。

我碰到過的一般都可以歸為這兩塊。題主可以試試。


線上純ctr排序嗎?如果不是,用最後排序的綜合分數來計算AUC看看,畢竟pctr計算的AUC僅能衡量CTR模型自身的性能,衡量不了整個排序系統的性能(排序系統還有其他超參存在)


離線指標和線上指標不一致是個常見的問題,但首先要排除不是低級錯誤引起的。

第一,你們的業務場景是怎麼樣的,訓練樣本和測試樣本的分割標準是什麼。比如你用了用戶的特徵,就一定要注意樣本切分時候的時間因素。不要有樣本泄漏了。

第二,你提到了auc提升很大,具體在什麼量級,線上線下不一致一般在大幅提升auc的指標時不會出現。

第三,試過做些切片分析嗎,以前寫過一篇更加複雜情況下的分析,參考:https://zhuanlan.zhihu.com/p/42521586

第四,既然是廣告場景,不能只看ctr ,其他指標如何,ppc等,然後校正做的怎麼樣?

還有可能是樣本偏置帶來的,新模型學的舊模型給答案,有偏置,要做點無偏樣本,手機答題,先這麼多吧


而在計算廣告領域,我們實際要衡量的是不同用戶對不同廣告之間的排序能力,實際上更關注的是同一個用戶對不同廣告間的排序能力

如果你覺得是這個問題的,是不是可以通過把 point-wise 轉化為 pair-wise 來解決?


推薦閱讀:
查看原文 >>
相關文章