機器學習的趨勢：半監督學習

這一波深度學習

的發展，以2006年Hinton發表Deep Belief Networks的論文為起點，到今年已經超過了10年。從過往學術界和產業界對新技術的追捧週期，超過10年的是極少數。從深度學習所屬的機器學習領域來看，到底什麼樣的方向能夠支撐這個領域繼續蓬勃發展下去，讓學術界和產業界都能持續投入和產出，就目前來看，半監督學習是一個很有潛力的方向。

機器學習範式的發展

傳統機器學習的解決路徑可以表示為：

ML Solution = ML expertise + Computation + Data

其中ML expertise是機器學習專家，負責特徵工程、機器學習模型設計和最終的訓練，是整個機器學習解決方案效果的關鍵因素。Computation是計算能力，代表具體選擇什麼的硬體去承載專家設計的優化方案。這個部分一般來說窮有窮的打法，富有富的策略：以CTR預估為例，小廠設備不多，資源不足，那麼可能GBDT就是一個不錯的選擇；大廠的話，資源相對富裕，那麼各種DNN就上來了。Data無論做什麼業務，或多或少也都有一些，C端產品的話，上線後總會有用戶反饋可以做為label；B端產品的話，以我曾經搞過的圖片識別為例，定向爬蟲

和人工標註也能弄到有標籤樣本。Data總會有，無外乎多少的區別。

這裡就存在一個問題，Computation和Data即便有了，也不一定有很匹配的人來把整個事情串聯運用起來，發揮最終的價值。21世紀，最貴的是人才；為什麼貴？因為稀缺。於是大家就在想，能不能把機器學習問題的解決路徑改為：

New ML Solution = 100x Computation + 100x Data

簡而言之，就是用更多地Computation和Data代替人的作用。100x Computation替代人工模型設計，這兩年也得到了長足的發展，這就是AutoML。狹義的來看AutoML，NAS和Meta Learning在學術界工業界都有不錯的進展。尤其是NAS，2017年Zoph和Le發表的Neural Architecture Search with Reinforcement Learning作為引爆點，快速形成了一個火爆的研究領域，主要思路是通過RNN controller來sample神經網路結構，訓練這個網路結構，以這個網路結構的指標作為RL的reward優化這個controller，讓這個controller能夠sample出更有效的網路結構。