一、寫在前面

關於標題所承載的話題,一直有計劃寫個總結,沒料到各種耽擱,從17年底拖到了19年的今天。不過這也帶來了一點額外的收穫,18年呈現的新挑戰讓我對技術的發展脈絡和關鍵點有了更深刻的認知。因此在這個時間點,在深度學習(Deep Learning,下文簡稱DL)落地互聯網、驅動業界技術的輪子旋轉了差不多第一圈的時候,系統地把我們的實踐經驗做個梳理和盤點,跟大夥聊聊,對業界、對不少還在這條路上折騰的同行們,權當一個可做粗淺參考的路標。此外,既然踩在了第二圈即將轉動的交叉點附近,也鬥膽對下一階段技術的發展拋些板磚,談談我們看到的挑戰和趨勢。

能力有限, 本文主要以點擊率(Click-Through Rate, CTR)預估技術這個戰場來展開敘述: 1) 這是我熟悉的主場,下文敘述也主要以我負責的阿里定向廣告點擊率預估技術發展過程為藍本; 2) 我常把CTR預估技術類比為數學領域的黎曼猜想,它是鑲嵌在互聯網應用技術上的一顆閃亮的明珠,它的技術前進既是業界技術的真實寫照、很多時候也是引領和驅動互聯網應用技術發展的原力(廣告領域的性價比因素)。當然資深的從業者們應該都清楚,互聯網一大批覈心技術都跟CTR預估有著千絲萬縷的聯繫,因此這裡技術的探討足夠典型。

為了不引起誤解,提前交代一下,本文主要是基於我們團隊公開發表的論文,探討技術為主,不宜披露的數字都隱去了。這些技術絕大部分都已經在實際生產系統中落地、服務著阿里典型業務(如定向廣告、信息流廣告等)的主流量,且取得了顯著的收益。一個可以公開的數字是,基於DL的CTR技術迭代已經帶來了超過百億人民幣規模的直接廣告收入增長。目前在國內,阿里媽媽的廣告市場份額是無可爭議的第一。因此讀者可以放心,這些技術不是華而不實的炫技,而是真正經受過工業級規模洗禮的實戰利器。此外,本文不是詳細地給大家解讀paper,而是跳出結果、回歸技術思考,探討DL驅動這個領域技術發展的過往、現在和未來。

倡導:技術的封閉性在open-source時代已經不堪一擊。業界頂尖團隊的領先優勢最多保持半年到一年,擁抱開放、共同推進行業技術的發展是不可阻擋的洪流,也是我們行為背後的驅動力。

二、深度學習驅動的CTR預估技術演化

0. 淺層模型時代:以MLR為例

2005-2015這十年間,大規模機器學習模型(特指淺層模型)一度統治著CTR預估領域,以G/B兩家為代表的」大規模離散特徵+特徵工程+分散式線性LR模型」解法幾乎成為了那個時代的標準解。相關的工作相信讀者們耳熟能詳,甚至據我所知今天業界的不少團隊依然採用這樣的技術。

阿里在2011-2012年左右由@蓋坤同學創新性地提出了MLR(Mixed Logistic Regression)模型並實際部署到線上系統,同時期也有如FM模型等工作出現。這些模型試圖打破線性LR模型的侷限性,向非線性方向推進了一大步。

我在2014年加入阿里定向廣告團隊,不久負責了Ranking方向,推進CTR技術的持續迭代是我工作的主航道之一。作為MLR模型的誕生團隊,顯然我們對它有著強烈的偏愛。最初MLR模型的主要使用方式是」低維統計反饋特徵+MLR」,這是受阿里技術發展初期的軌道限制,讀者不用太驚訝。我們做的第一個工作,就是試圖將MLR模型推向大規模離散特徵體系,核心思考是細粒度的特徵刻畫攜帶的信息量要遠比統計平均特徵的解析度高,這種特徵體系至今在整個業界都是最先進的。要完成這樣一個升級,背後有巨大的挑戰(在DL時代啟動初期,我們也遇到了類似的挑戰),具體包括:

  • 從數百維統計特徵到數十億離散特徵,訓練程序要做重大升級,從數據並行模式要升級到模型並行方式,且非線性模型複雜度高,需要充分利用數據的結構化特點進行加速;
  • 」大規模離散特徵+分散式非線性MLR模型」解法直接從原始離散特徵端到端地進行數據模式學習,至少在初期時我們沒有做任何的特徵組合,完全依賴模型的非線性能力。在這種互聯網尺度(百億參數&樣本)的數據上,模型能不能學習到兼具擬合能力與泛化能力的範式?
  • 這種超大規模數據上的非凸優化(MLR加入正則後進一步變成非光滑)學術界鮮有先例。它的收斂性是一個巨大的問號。

當然,結果是我們成功了。15年初的時候成為了新的技術架構,在定向廣告的所有場景都生產化落地,取得了巨大的成功。但是我們不得不承認,」大規模離散特徵+分散式非線性MLR模型」的解法在業界並沒有大規模地被採納,有多種原因,技術上來講MLR模型的實現細節我們直到17年才正式地寫了一篇論文掛在了arxiv上,代碼也沒有開源,大家想要快速嘗試MLR也不太方便;其次LR+特徵工程的解法深深影響了很多技術團隊的思考方式和組織結構,我們後面會談到,這種對特徵工程的依賴直到DL時代還大量保留著,一個重要的因素也是因為特徵工程比較符合人的直觀認知,可以靠快速試錯並行迭代,MLR這類非線性端到端的解法需要比較強的模型信仰和建模能力。

大約從14年到16年,我們在基礎MLR架構上做了大量的優化,後來以MLR的論文公佈為契機,我在阿里技術官微裡面寫了一篇介紹文章,裡面披露了大量的改進細節,大家有興趣可以翻閱翻閱,算是致敬MLR時代:MLR深度優化細節

1. 技術拐點:端到端深度學習網路的突破

15年的時候,基於MLR的演算法迭代進入瓶頸。當時認識到,要想進一步發揮MLR模型的非線性能力,需要提高模型的分片數——模型的參數相應地會線性增長,需要的訓練樣本量同樣要大幅度增加,這不太現實。期間我們做了些妥協,從特徵的角度進行優化,比如設計了一些直觀的複合特徵,典型的如」hit類特徵」:用戶歷史瀏覽過商品A/B/C,要預估的廣告是商品C,通過集合的」與」操作獲得」用戶歷史上瀏覽過廣告商品」這個特徵。細心的讀者應該很容易聯想到後來我們進一步發展出來的DIN模型,通過類似attention的技巧拓展了這一方法。後來進一步引入一些高階泛化特徵,如user-item的PLSA分解向量、w2v embedding等。但這些特徵引入的代價大、收益低、工程架構複雜。

15年底16年初的時候我們開始認真地思考突破MLR演算法架構的限制,向DL方向邁進。這個時間在業界不算最早的,原因如前所述,MLR是DL之前我們對大規模非線性建模思路的一個可行解,它助力了業務巨大的騰飛,因此當時夠用了——能解決實際問題就是好武器,這很重要。在那個時間點,業界已經有了一些零散的DL建模思路出現,最典型的是B家早期的兩階段建模解法——先用LR/FM等把高維離散特徵投影為數千規模的稠密向量,然後再訓練一個MLP模型。我們最初也做過類似的嘗試如w2v+MLR/DNN,但是效果不太顯著,看不到打敗MLR的希望(不少團隊從LR發展過來,這種兩階段建模打敗LR應該是可行的)。這裡面關鍵點我們認為是端到端的建模範式。

圖1:從MLR到第一代端到端深度CTR模型GwEN

實踐和思考不久催生了突破。16年5-6月份我構思出了第一代端到端深度CTR模型網路架構(內部代號GwEN, group-wise embedding network),如圖1所示。對於這個網路有多種解釋,它也幾乎成為了目前業界各個團隊使用深度CTR模型最基礎和內核的版本。圖1給出了思考過程,應該說GwEN網路脫胎換骨於MLR模型,是我們對互聯網尺度離散數據上端到端進行非線性建模的第二次演算法嘗試。當然跟大規模MLR時期一樣,我們再一次遭遇了那三個關鍵挑戰,這裡不再贅述。有個真實的段子: 16年6月份我們啟動了研發項目組,大約7月份的時候有同學發現G在arxiv上掛出了WDL(wide and deep)那篇文章,網路主體結構與GwEN如出一轍,一下子澆滅了我們當時想搞個大新聞的幻想。客觀地講當時技術圈普遍蔓延著核心技術保密的氛圍,因此很多工作都在重複造輪子。16年8月份左右我們驗證了GwEN模型大幅度超越線上重度優化的MLR,後來成為了我們第一代生產化deep CTR model。因為WDL的出現我們沒對外主推GwEN模型,只作為DIN論文裏的base model亮了相。不過我在多次分享時強調,GwEN模型雖看起來簡單直接,但是背後對於group-wise embedding的思考非常重要,去年我受邀的一個公開直播中對這一點講得比較透,感興趣的同學可以翻閱:GwEN分享資料

2. 技術拐點:模型工程奠基

GwEN引爆了我們在互聯網場景探索DL技術的浪潮,並進而催生了這個領域全新的技術方法論。以阿里定向廣告為例,16-17年我們大刀闊斧地完成了全面DL化的變革,取得了巨大的技術和業務收益。如果給這個變革的起點加一個註腳,我認為用」模型工程」比較貼切。這個詞是我17年在內部分享時提出來的(不確定是不是業界第一個這麼提的人),後來我看大家都普遍接受了這個觀點。

如果說大規模淺層機器學習時代的特徵工程(feature engineering, FE)是經驗驅動,那麼大規模深度學習時代的模型工程(model engineering, ME)則是數據驅動,這是一次飛躍。當然ME時代不代表不關注特徵,大家熟悉的FE依然可以進行,WDL式模型本來就有著調和feature派和model派的潛臺詞(聽過不同渠道的朋友類似表述,G家的同學可以證實下)不過我要強調的是,傳統FE大都是在幫助模型人工預設一些特徵交叉關係先驗,ME時代特徵有更重要的迭代方式:給模型喂更多的、以前淺層模型難以端到端建模的signal(下一節細說),DL model自帶複雜模式學習的能力。

說到這,先交代下GwEN/WDL端到端deep CTR model成功後業界的情況:很多技術團隊奉WDL為寶典,畢竟G背書的威力非常大。隨後沿著「把特徵工程的經驗搬上DL模型」這個視角相繼出了多個工作,如PNN/DeepFM/DCN/xDeepFM等。這些模型可以總結為一脈相承的思路:用人工構造的代數式先驗來幫助模型建立對某種認知模式的預設,如LR模型時代對原始離散特徵的交叉組合(笛卡爾乘積),今天的DL時代演變為在embedding後的投影空間用內積、外積甚至多項式乘積等方式組合。理論上這比MLP直接學習特徵的任意組合關係是有效的——"No Free Lunch"定理。但我經常看到業界有團隊把這些模型逐個試一遍然後報告說難有明顯收益,本質是沒有真正理解這些模型的作用點。

16年底的時候,在第一代GwEN模型研發成功後我們啟動了另一條模型創新的道路。業界絕大部分技術團隊都已跨入了個性化時代,尤其在以推薦為主的信息獲取方式逐漸超越了以搜索為主的信息獲取方式時更是明顯,因此在互聯網尺度數據上對用戶的個性化行為偏好進行研究、建模、預測,變成了這個時期建模技術的主旋律之一。具體來說,我們關注的問題是:定向廣告/推薦及個性化行為豐富的搜索場景中,共性的建模挑戰都是互聯網尺度個性化用戶行為理解,那麼適合這種數據的網路結構單元是什麼?圖像/語音領域有CNN/RNN等基礎單元,這種蘊含著高度非線性的大規模離散用戶行為數據上該設計什麼樣的網路結構?顯然特徵工程式的人工代數先驗是無法給出滿意的解答的,這種先驗太底層太低效。這個問題我們還沒有徹底的認知,探索還在繼續進行中,但至少在這條路上我們目前已經給出了兩個階段性成果:

  • DIN模型(Deep Interest Network,KDD』18),知乎@王喆同學有一篇實踐性較強的解讀,推薦參閱:DIN解讀
  • DIEN模型(Deep Interest Evolution Network,AAAI』19),知乎@楊鎰銘同學寫過詳細的解讀,推薦閱讀:DIEN解讀
圖2:從第一代深度CTR模型GwEN(左)到深度興趣網路DIN(右)

DIN/DIEN都是圍繞著用戶興趣建模進行的探索,切入點是從我們在阿里電商場景觀察到的數據特點並針對性地進行了網路結構設計,這是比人工代數先驗更高階的學習範式:DIN捕捉了用戶興趣的多樣性以及與預測目標的局部相關性;DIEN進一步強化了興趣的演化性以及興趣在不同域之間的投影關係。DIN/DIEN是我們團隊生產使用的兩代主力模型,至今依然服務著很大一部分流量。這方面我們還在繼續探索,後續進展會進一步跟大家分享。

當然,模型工程除了上述」套路派」之外,還興起了大一堆」DL調結構工程師」。可以想像很多人開始結合著各種論文裡面的基本模塊FM、Product、Attention等組合嘗試,昏天暗地堆結構+調參。效果肯定會有,但是這種沒有方法論的盲目嘗試,建議大家做一做掙點快錢就好,莫要上癮。

3. 技術拐點:超越單體模型的建模套路

模型工程還有另外一個重要延伸,我稱之為」超越單體模型」的建模思路,這裡統一來介紹下。事實上前面關於模型工程的描述裡面已經提到,因為DL模型強大的刻畫能力,我們可以真正端到端地引入很多在大規模淺層模型時代很難引入的信號,比如淘寶用戶每一個行為對應的商品原圖/詳情介紹等。

圖3:深度CTR模型演化雙軌道

圖3給出了我們團隊建模演算法的整體視圖。主模型結構在上一節已經介紹,與其正交的是一個全新的建模套路:跳出上一時代固化的建模信號域,開闢新的賽道——引入多模態/多目標/多場景/多模塊信號,端到端地聯合建模。注意這裡面關鍵詞依然是端到端。兩篇工作我們正式對外發表了,包括:

  • ESMM模型(Entire-Space Multi-task Model, SIGIR』18),知乎@楊旭東同學寫過詳細的解讀並給出了代碼實現,推薦參閱: ESMM解讀
  • CrossMedia模型(論文裡面叫DICM, Deep Image CTR Model, CIKM』18),這個工作結合了離散ID特徵與用戶行為圖像兩種模態聯合學習,模型主體採用的是DIN結構。最大的挑戰是工程架構,因此論文詳細剖析了我們剛剛開源的X-DeepLearning框架中,超越PS的AMS組件設計。不過目前好像沒看到有人解讀過,感興趣的同學可以讀一讀寫個分析。
圖4:深度學習時代Multi-Task Learning建模範式

關於ESMM模型多說兩句,我們展示了對同態的CTR和CVR任務聯合建模,幫助CVR子任務解決樣本偏差與稀疏兩個挑戰。事實上這篇文章是我們總結DL時代Multi-Task Learning建模方法的一個具體示例。圖4給出了更為一般的網路架構。據我所知這個工作在這個領域是最早的一批,但不唯一。今天很多團隊都吸收了MTL的思路來進行建模優化,不過大部分都集中在傳統的MTL體系,如研究怎麼對參數進行共享、多個Loss之間怎麼加權或者自動學習、哪些Task可以用來聯合學習等等。ESMM模型的特別之處在於我們額外關注了任務的Label域信息,通過展現>點擊>購買所構成的行為鏈,巧妙地構建了multi-target概率連乘通路。傳統MTL中多個task大都是隱式地共享信息、任務本身獨立建模,ESMM細膩地捕捉了契合領域問題的任務間顯式關係,從feature到label全面利用起來。這個角度對互聯網行為建模是一個比較有效的模式,後續我們還會有進一步的工作來推進。

應該要指出MTL的應用範圍極廣,如圖3中我們的過往工作。它尤其適合多場景、多模塊的聯動,典型的例子是數據量較大的場景可以極大地幫助小場景優化。此外MTL這類模型工程解法與上一節介紹的單模型結構設計可以互補和疊加,兩者的發展沒有先後關係、可以並行推進。

4. 技術拐點:嵌入工程系統的演算法設計

實際的工業系統,除了上面抽象出來的CTR預估問題,還有很多獨立的話題。介紹下我們在既有系統架構中演算法層面的一些實踐。以廣告系統為例,從演算法視角來看至少包括以下環節:匹配>召回>海選>粗排>精排>策略調控,這些演算法散落在各個工程模塊中。現在讓我們保持聚焦在CTR相關任務,看看在系統中不同的階段都可以有哪些新的變化。幾個典型的系統瓶頸:海選/粗排所在的檢索引擎,精排所在的在線預估引擎,以及這些演算法離線所依賴的模型生產鏈路。在DL時代以前,技術已經迭代形成了一些既有的共識,如檢索引擎性能關鍵不宜涉及複雜的模型計算。但是跨入DL時代後,既有的共識可以被打破、新的共識逐漸形成。

4.1 海選/粗排的複雜模型化升級

在我們原有的系統中,檢索過程中涉及到的排序是用一個靜態的、非個性化的質量分來完成,可以簡單理解為廣告粒度的一個統計分數,顯然跟精排裡面我們採用的各種各樣複雜精細的模型技術(前幾節的內容)相比它很粗糙。據我瞭解業界也有團隊用了一些簡化版的模型,如低配版LR模型來完成這個過程。背後的核心問題是檢索時候選集太大,計算必須精簡否則延遲太長。圖5給出了我們升級後的深度個性化質量分模型,約束最終的輸出是最簡單的向量內積。這種設計既迎合了檢索引擎的性能約束,同時實測跟不受限DL模型(如DIN)在離線auc指標上差距不太顯著,但比靜態模型提升巨大。

圖5:深度個性化質量分模型DQM

這裡有兩個延伸: 1) 海選/粗排DQM模型只幫助縮減候選集規模,不作為最終廣告的排序分,因此它的精度可以不像精排模型那樣追求極致,相應地多考慮系統性能和數據循環擾動;2) DQM模型對於檢索匹配召回等模塊同樣適用,例如現在很多團隊已經普通接受的向量化召回架構,跟DQM在模型架構上完全吻合。只不過作用在召回模塊,其建模信號和訓練樣本有很大的不同,更多地要考慮用戶興趣泛化。提到向量化高效計算,F/M兩家都開源了優秀的架構,推薦大家參閱:faiss 和 SPTAG

4.2 面向在線預估引擎的模型壓縮

在LR/MLR時代在線預估引擎的計算相對簡單、壓力不大。但當複雜的DL模型層出不窮後,在線引擎的算力瓶頸凸顯。為了緩解這個問題,我們在17年試水了一個工作:輕量級模型壓縮演算法(Rocket Training, AAAI18),形象地稱之為無極調速模式。知乎上沒看到到位的解讀,這裡放出一作@周國瑞同學自己的文章:Rocket Training解讀

圖6:輕量級模型壓縮演算法Rocket Training

DL模型的over-parameterization使得我們可以通過不同的優化方法尋找更好的解路徑,Rocket只是一條,未來在這個方向上我們還會有更多的工作。但有可以肯定模型DL化帶來的在線預估引擎的算力瓶頸是一個新常態,這個方向上會引起更大的關注並演化成新一代系統架構。

4.3 打破資源依賴的增量/實時化演算法架構

DL模型的複雜化除了帶來在線預估引擎的性能挑戰外,對離線生產鏈路的資源挑戰也急劇放大。容易理解的是全量模型的訓練時間及佔用機器規模肯定會逐步增加,同時模型的並行研發規模也會大增,即:」模型個數x模型時長x機器規模」全面膨脹。在這種情況下增量/實時模型訓練架構就成為了勝負手。雖然業界很多時效性強的場景(如信息流)online模型的效果收益是巨大和關鍵的,但這裡我不想過多地強調效果層面的收益,而更願意從資源架構層面做探討。雖然DL模型採用了sgd-based優化演算法,直覺來看batch訓練和incremental或online訓練應該同構。然而ODL(Online Deep Learning)所存在的問題和挑戰絕不止於此,且它跟LR時代的Online Learning有很多的差異性。目前同時完成了全面DL並進而ODL化的團隊不太多。當然也有團隊是從OL系統直接向ODL升級的,這個路徑固然看似更快捷,但也許錯過了DL模型盛宴的不少美妙菜餚——batch訓練是純模型探索的更優土壤。我們從17年底開始從DL到ODL升級,18年初落地、經歷了18年雙十一大促,我認為只是剛剛走完了ODL的最基礎階段,這方面我們還在持續推進,19年會有新工作跟大家分享。

5. 一些Tips

到這裡為止,差不多是我開篇所述的DL技術輪子旋轉的第一圈位置。洋洋灑灑地寫了一大堆,如果堅持看到這裡的讀者,那一定是極有耐心。此處給大家總結一些實踐原則建議。

  • 大廠為追求最高的收益可以選用複雜的技術,尤其是像廣告這樣的部門,資源和人力投入的性價比超值。但對於小廠技術儲備和投入相對不足,上面介紹的大量精細工作其實很難實施。模型架構層面一個可行的建議是:採用DQM式結構,把user/ad/query或上下文統一嵌入到vector空間,然後用向量計算架構進行在線服務。好處是在線預估系統可以極簡,從而可以集中精力到離線的特徵/模型調優,rocket/MTL等協同網路架構都是可以嘗試的點,這可以保障輕鬆拿到業務效果的第一桶金;
  • 如果是規模化的演算法團隊,願意投入DL演算法的設計,建議: 參考而絕不要盲信現有paper裡面的架構,不要再把WDL/DIN等這類已有工作當成寶典。我的觀點是,DL時代model這個詞已經虛化了,像淺層模型時代LR/MLR等固定的模型已經不存在。模型是死的,場景是活的,遵循一定的規律、充分了解你的領域數據特點,吸收DIN/DIEN/ESMM這類方法的思考套路,定製適合具體問題的網路結構;
  • 再進一步,如果是中大型有較強的實力掌控技術大盤的團隊,建議牢記」演算法-系統-架構」一體化的理念和方法論,DL對廣告/推薦/搜索這類典型互聯網應用系統的技術改造是全面而徹底的,現今的系統和架構大都是淺層模型時代遺留的產物,今天面臨著複雜演算法、異構硬體的多重沖刷,是時候打破舊規則,建立全新的基礎設施;
  • 特別聚焦到CTR預估技術上,離散特徵的豐富性跟DL模型的效果密切相關,如果本身是容量很低的特徵表達,模型是很難發揮的。例如我知道不少團隊拿大量的低維統計特徵為主的數據餵給DL模型,結果發現沒什麼效果,這顯然是不得要領。「特徵-模型-樣本」是機器學習三要素,要時刻牢記。建議有實力有需求的團隊,盡量充分地拓展更豐富的特徵表達和樣本信息容量,給模型創造更大的發揮空間;
  • 以上所有建議都有一個重要的前提——自動化的演算法迭代和生產鏈路。這件事在LR模型時代還沒那麼突出,因為演算法迭代速度快不起來,但是在DL模型時代演算法的開發和試錯成本很低,完整的自動化鏈路才能真正發揮演算法的威力,否則陷入各種在/離線手工膠水代碼、人肉debug的汪洋大海,只能望洋興嘆了。
  • 少重複造輪子,多擁抱開源。貢獻開源或者從開源技術中吸取最新成果高起點迭代。打個硬廣,我們最近剛把上述大部分技術統一整理集成為阿里開源項目X-DeepLearning(XDL)。XDL項目包含了我們對大規模分散式DL訓練框架、各種實戰自研模型(囊括了前述大部分模型)、高性能在線serving引擎為一體的工業級深度學習解決方案,感興趣的同學可以瞭解下,開源項目地址:github.com/alibaba/x-de

三、小趨勢

DL技術的興起,給這個領域的演算法工程師創造了巨大的施展空間,集結了信號迭代(特徵+樣本)的模型工程是升維攻擊,技術演化如脫韁的駿馬盡情馳騁——這是DL驅動的技術變革。有個量化的指標:DL以前我們團隊專業的機器學習平臺小組要花費好幾個月時間才研發出大規模分散式MLR模型,今天我們剛入職的新同學分分鐘能夠寫出跑在同樣規模數據上的各種模型,並可以根據靈感隨時進行演算法創作,這就是DL工具化所帶來的生產力巨大飛躍。這個階段我稱之為深度學習1.0時代。在互聯網領域DL-1.0時代的起點是從15-16年左右開始,目前第一梯隊的團隊大都完成或即將完成1.0的全面DL化。我們團隊在17年底18年初已經大致完成了這個過程,上面介紹的工作大都是17年就已經完成的。

凡是過往,皆為序曲。DL-1.0引發的技術飛躍,演算法創新出現了數量級式的爆炸增長,一方面極大地推進了業務效果的提升速度和高度,另一方面帶來了立體化的全棧技術挑戰。如前面所述,我們已經試圖迎合DL演算法對依賴的系統和架構做了一些改造,但這還不足以完全抵禦演算法爆炸所帶來的衝擊。18年我們開始面臨了一些新瓶頸、加上對DL技術本身有了更多的實踐認知,這些輸入兵合一處,推動著我們向新的階段邁進。這個新階段我稱之為深度學習2.0時代。套用賣中年保健品的羅胖對未來的預測,談談我們看到的小趨勢

  • DL模型本身更精細化的解剖。16年端到端DL剛起步的時候,我們常把DL是實驗科學掛在嘴邊。但是經歷了2年的高速發展,我們對DL模型的常見性態已經有了基本的掌握。下一階段,對DL模型內在結構更精細的認知,將成為推動DL-2.0階段演算法架構升級的起點;
  • Data-driven的方法論缺陷。互聯網用戶行為理解是非完全信息建模問題,當演算法發展到一定高度時,信息容量本身的固有不足將成為制約。今年學術界不少大佬開始討論」物理世界模型」,我認為也是在反思Data-driven的不足。我也考慮過能否構建這個領域的物理世界模型,如最近又火了的Knowledge Graph,確實有助於幫助建立一些common sense的認知,但互聯網領域是」人-信息-系統」的有機結合體,世界上最睿智的人恐怕也很難理清楚大數據裏個人行為背後的動機,換句話說完全的」物理世界模型」應該不可行。歪一下樓,關於推薦系統的可解釋性現在也有很多的討論,我認為真正能夠大規模工業應用的充分可解釋模型是不現實的,因為訓練模型的數據本身都很難有完全合理的解釋,當然部分的因果或者關聯解釋應該是行得通的。回到主題,既然Data-driven方法受data制約,我們認為DL-2.0階段對更完備連貫的用戶行為數據串聯,將有助於演算法的進一步提升;
  • 演算法複雜度持續指數級增長,資源&算力全面告急,algo-system的co-design從口號變成勝負手。DL-2.0階段ODL架構將全面串聯」演算法建模-離線系統-在線引擎」,形成標配解法。這個階段技術性價比將納入嚴肅討論的範疇。回歸技術的本源:什麼叫做創新?用簡潔低成本的方式優雅地解決問題,取得最好的效果。
  • DL本身從1.0階段fancy的明星技術變成2.0階段的基礎設施。DL-2.0將更多地聚焦到領域問題本身,除了持續的效果提升外,工具的順手將帶來新的業務可能性,諸如冷啟動、數據循環、推薦新穎性等硬核問題將會有新的思考和實踐。

四、結束語

DL是對以用戶個性化建模為代表的互聯網應用技術的一次全新洗禮:從建模思路,訓練系統,到服務引擎,短時間內進行了一次徹底的全棧升級,複雜度遠大於歷史上的技術變化。2015年以前的10多年時間,大規模機器學習統治著業界;2016年後大規模深度學習技術成為了主旋律,且短短2年多時間就取得了顯著的成就。跟媒體熱炒、難落地的AI潮不同,在這個領域中以DL為首的技術升級已經實實在在帶來了真金白銀。DL已經從最初的特定model升級為一種methodology。model易舊,套路永存。如前文反覆強調,DL時代沒有固定的模型,只有可借鑒的建模範式。

DL-1.0時代,由演算法的代差式升級驅動了全局變化。拋開紛繁複雜的演算法或者系統架構,這個階段有一個核心的關鍵詞:端到端

DL-2.0時代,我預判由演算法的可迭代性驅動。聰明的讀者們,這個階段關鍵詞是什麼呢?

五、參考文獻

1. MLR: "Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction"

2. WDL: "Wide and Deep Learning for Recommender Systems」3. DeepFM: 「DeepFM: A Factorization-Machine based Neural Network for CTR Prediction」4. PNN: 「Product-based Neural Network for User Response Prediction」5. DCN: 」Deep & Cross Network for Ad Click Prediction」 6. xDeepFM: 「xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems」7. DIN: 「Deep Interest Network for Click-Through Rate Prediction」8. DIEN: 「Deep Interest Evolution Network for Click-Through Rate Prediction」9. ESMM: 「Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate」10. Rocket Training: 「Rocket Launching: A Universal and Efficient Framework for Training Well-performing Light Net」

推薦閱讀:

相關文章