由於廣告有很多的利益方,經常會遇到欺騙性的展示與點擊行為。這個行為稱之為作弊。廣告活動是由廣告主、媒體、用戶之間三方交互的行為。

  • 機器作弊:機器刷量、任務分發、流量劫持
  • 人為作弊:QQ群/水軍、直接人工、誘導
  • 電商:刷單,刷信譽,刷好評,職業差評師
  • 廣告:數據造假、刷流量 (引流—廣告展示—廣告點擊—轉化)
  • 搜索:seo使用作弊手段刷排名(案例:2015蜻蜓FM 「普羅米修斯」、「宙斯」函數,修改轉化量、流量在前端展現欺騙投資人,被對手反編譯識破)
  • 自媒體、社交軟體:刷粉絲、刷點擊、閱讀量
  • 支付平台:洗錢,詐騙
  • 媒體:為了獲得更高的受益
  • 平台作弊:為了獲得更高的分成
  • 競爭對手:為了消耗競爭對手的預算,降低競爭對手的廣告效果
  • 誤點:不是以找商品為目的,例如內部人員點擊,需要識別出來
  • 無效點擊:沒有形成轉化的意願,僅僅瀏覽
  • 惡意點擊:必須識別出來
  • 轉化點擊:真實意願點擊
  • 數據層:滑鼠軌跡行為、指紋數據、案例庫、行為數據
  • 特徵層:離散指標、連續指標
  • 行為識別層:點擊識別模型、異常監測模型、流量識別模型、關係圖模型、人群識別模型
  • 策略應對層:規則
  • 運營指標監控:投訴率、轉化率、撞線速率/頻率、消耗速率、通過率
  • 規則監控指標:攔截率、準確率、覆蓋率
  • 異常監控指標:IP維度、Cookie維度、計費名維度、廣告維度、設備維度、滑鼠軌跡維度
  • 監控響應:針對監控情況、採用分級響應機制,例如,紅色:非常嚴重,需要自動化採取短期策略應對,橙色:較為嚴重,簡訊舉報,要求4h內完成分析和短平快策略壓制,後續進一步處理等。

反作弊業務流程

反作弊演算法架構@淘寶

賬號網:主要是從各種註冊信息或登陸信息中來全方位真實了解賬號的真實性和平台特性,通過挖掘用戶行為的變化情況來有效發現賬號行為的異常性

交易網:主要通過挖掘用戶具體的購買行為路徑來跟蹤是否有異常,這涉及到「售前」(搜索詞,點擊瀏覽,詳情頁等)「售中」(收藏夾,購物車,支付等)「售後」(物流,評論,退貨等)資金網:主要是通過挖掘資金流的行為來識別一些異常交易或者洗錢,盜號,套現等高危行為

物流網:主要是通過挖掘交易和物流環節的關聯性來識別一些虛假運單和空包等作弊行為

整個反作弊演算法框架融合了「賬號網、交易網、資金網、物流網」四網大數據,並覆蓋了電商「購物前-購物中-購物後」多個業務環節,演算法模型是一種流式計算框架,數據日誌經過實時和離線兩大計算模塊後會加工成一些交易屬性特徵作為識別演算法的基礎,其中實時計算主要是對一些異常的在線數據(比如商品銷量異常或者賣家信譽增長異常)進行快速分析並轉化為相應的特徵,而離線計算是對全鏈路數據的特徵加工和處理,結合在線和離線的計算可以將行為變化的長期和短期因素的影響在模型計算中綜合考慮,從而進一步提高識別的時效性和精度。

淘寶反作弊演算法框架主要覆蓋了阿里電商兩大場景:日常反作弊和大促反作弊。演算法主要是以大規模圖挖掘(Graph Mining)和在線學習(online learning)為核心,在線學習可以對一些規則性的演算法做到實時更新模型用來防範「試探性」地作弊手段,主要是基於規則的的模型(決策樹和LR邏輯回歸模型),根據一些交易特徵建立強規則來進行識別計算,對那種明顯的商品作弊模式的識別非常高效。

而大規模圖挖掘則是通過跳出行為「局部性」的方法考慮行為的「全局性」來深挖「精刷」類型的作弊手段。比如概率圖模型對用戶行為路徑進行時間序列建模(假設正常用戶的行為軌跡的時間序列是服從某種概率分布,異常的行為軌跡在某些點上服從其他概率分布),對那種機器刷單或者固定模式刷單能非常有效地識別;圖標籤傳播模型可以來做團伙刷單的識別,對炒信平台隱蔽性高組織性強的「精刷」模式的識別非常高效準確。為了進一步驗證演算法模型的精準性,反作弊體系也增加了實時干預模塊來做交叉驗證和分析,主要包括專家知識、人工舉報、異常監控和人工評測,這些外部數據源加工處理後可以作為驗證數據動態幫助模型進一步優化。

大規模圖搜索技術在反作弊中的應用主要體現在下面四類核心演算法:

  • 標籤圖模型:在大規模屬性圖結構上做社區和團伙挖掘。和以往的分類等機器學習演算法不同的是,在屬性圖上有效地利用標籤傳播演算法分析用戶的行為可以挖掘出很多其他演算法識別不到的同機團伙和協同炒作團伙
  • 概率圖模型:在大規模圖結構上挖掘變數之間的關係。利用概率圖模型可以有效分析用戶信息的風險程度(比如預防用戶地址泄密)和用戶購物行為鏈路之間的關聯(比如識別賬號異常行為)
  • 數據流圖模型:在大規模數據流上挖掘頻繁子圖,利用數據流挖掘我們在資金流網路中首次發現了由「殭屍賬號」通過炒信行為產生的「坍縮網路」,同時構建了一套「轉賬首活網路」能有效識別這些炒信用戶,準確率達到了99.9%
  • 大規模圖鏈接模型:在大規模圖數據基礎上做排序和權重挖掘,通過這種圖鏈接方法我們有效地發現了重複運單和虛假運單的行為。我們的圖演算法能並行處理1億以上節點5億條邊的圖數據。在 3千萬個節點,2.2億條邊的圖數據上調用圖鏈接演算法時間僅需要14分鐘。同時整個演算法框架也包含了實時計算模塊,使得對時效性要求高的業務場景下(比如雙11)部分演算法識別可以實現0秒延遲並可以每15分鐘動態調整並跟新所有其他的模型。

淘寶反作弊體系已經建立並完善了一套完整的包括「賬號網」、「交易網」、「資金網」、「物流網」的大數據分析體系,和覆蓋「售前」、「售中」和「售後」的電商全鏈路的在線學習(Online Learning)和大規模圖挖掘(Graph Mining)演算法識別系統。同時還建立了完整的「平台化」風險管控系統-「蟲洞」,通過系統監控預警以及在線分析的方式將模型演算法和人工運營有效結合起來,不僅能高效識別作弊行為並進行了有效地干預,同時還可以有效控制各種風險。經過日常和大促的洗禮,淘寶反作弊演算法體系無論在準確率、覆蓋率、反彈率上都能經受任何形式的考驗。

推薦閱讀:

相关文章