原作:Vincent Vanhoucke

銅靈 栗子 郭一璞 翻譯 量子位 出品 | 公眾號 QbitAI

沒有大量的標註數據怎麼辦?

谷歌首席科學家,谷歌大腦技術負責人Vincent Vanhoucke說,半監督學習革命已經來了。

他用一篇博客,細數了半監督學習的進展,以及這類方法會為機器學習領域帶來怎樣的變化,量子位已為大家翻譯如下:

機器學習工程師最熟悉的操作之一是搞到大量數據,但是拿到數據之後,需要不少資源來標註這些數據。

這是個難題,在這一步上左右為難的工程師們,往往都會這樣做:

既然這麼多數據都沒標註,那先想想用這點已標註的監督數據能幹點啥;然後去查文獻,發現不同的文獻都指向了同一個答案——半監督學習。

這就是通常會出錯的地方了。

半監督學習歷來是每個工程師走過的彎路,他們研究了半監督學習,然後就回到那些已有的標註過的數據上。每個人遇到的問題細節不一樣,但大體上說,都是這些問題:

在數據少的時候,半監督學習的確能提高模型表現,但實際操作中你卻發現:

這種提高只是從「太爛,沒法用」提高到「不太爛,但還是沒法用」。

基本上,如果你的數據體繫有利於半監督學習,那基本意味著你的分類器訓練的很爛,而且完全沒法用(手動狗頭)。

另外,半監督學習可不是白來的,而且用半監督學習的方法往往不能像監督學習那樣給出一個趨向同樣的漸進,比如未標記的數據可能會引起偏差。MIT的《半監督學習(Semi-Supervised Learning)》第四章裏曾經提過一個早期很流行的半監督學習方法,先為未標記數據創造一個自動編碼器,然後根據標記數據進行微調。

幾乎沒人這麼操作,因為通過自動編碼器學習的表現完全受限於微調的漸進表現。有趣的是,即使現代的生成模型大大提高,也沒有改變這種狀況,可能是因為一個好的生成模型並不等於好的分類器吧。

最後,當你現在看到工程師們微調模型的時候,基本都是從有監督數據中學到的表徵開始的,嗯,自我監督數據都是為了語言建模。

在任何可行的情況下,從其他預訓練模型遷移學習是一個更強大的起點,半監督方法難以超越。

因此,一個典型的機器學習工程師在遇到半監督學習的困境時的處理過程是這樣的:

  1. 一切都很糟糕,我們不如試試半監督學習。(畢竟這是一個工程師的工作,比數據標註有趣多了吧)
  2. 看數字增加了,但看起來還是很恐怖。看來我們還是要給數據先貼上標籤了。
  3. 雖然說數據越多越好,但你試過拋棄半監督機制會怎樣麼?
  4. 越簡單的效果可能就是最好的,我們可以省略掉上述的2和3步驟,節省大量時間,也不用給自己找這麼多麻煩。

如果你是幸運兒,你的困難可能有這樣一個表徵:

在這種情況下,有一個苛刻的數據規範,可怕的不是半監督學習的方法,甚至半監督學習還提高了數據效率。

根據我的經驗,很少能達到這個最佳狀態。考慮到複雜性的額外成本,標籤數據的數量通常不會差開幾個數量級,所以訓練效果差距也不大。

這樣來看,這幾乎不值得這麼麻煩,除非你想搞的是一個學術基準上的競爭。

等等,這篇文章的標題不是「安靜的半監督革命」嗎?

一個有趣的趨勢是,半監督學習的前景可能正在改變,比如這樣:

首先,如果這些曲線和人們的心理模型相符,用半監督學習訓練的效果就是數據越多,效果越好。即使在監督學習效果良好的情況下,半監督學習與監督學習之間的差距也應該是確定的。

並且,這種情況發生的頻次也會越來越多,並且沒有任何代價,因此也不會那麼複雜。「神奇地帶」(magic zone)起點較低,它不受數據規範的限制同樣重要。

有哪些新東西呢?

首先,有些機智的方法,可以讓AI自己給數據加標籤,然後把損失函數用相應的方式來表達:把自動加標籤的噪音和可能的偏差都考慮進去。

最近有兩篇研究,都是這方面的例子:

一是MixMatch: A Holistic Approach to Semi-Supervised Learning

二是Unsupervised Data Augmentation

其次,有一個根本上的變化,是人類已經意識到半監督學習會在機器學習隱私中,扮演一個很重要的角色了。

比如,PATE (Arxiv碼:1610.05755) 方法裡面定假設有監督的數據是私有的。那在教師-學生網路里,學生型就有強大的隱私保障,可以只用未標記的數據 (公開數據) 進行訓練。

知識蒸餾 (Distilling Knowledge) 中,有些對隱私敏感的方法,成為了聯合學習 (Federated Learning) 的一個關鍵推動力:

因為這樣的方法,可以保障高效的分散式學習 (Distributed Learning) ,模型不需要訪問用戶數據,在數學上保障了隱私。

現在,可以在實際應用的設定下,重新考量半監督學習的價值,真是激動人心。

看到那些長期存在的假設,如今卻受到挑戰,這是非常好的現象,說明這個領域正在發生驚人的進步。

這趨勢是近期纔出現的,我們還要看看,這樣的方法能不能經受時間的考驗;

不過,機器學習工具的架構,很可能發生根本上的改變,這件事還是很誘人的,值得期待。

傳送門

原文:The Quiet Semi-Supervised Revolution

towardsdatascience.com/

MIT的《半監督學習(Semi-Supervised Learning)》

acad.bg/ebook/ml/MITPre

量子位 · QbitAI

?? ? 追蹤AI技術和產品新動態

戳右上角「+關注」獲取最新資訊↗↗

如果喜歡,請分享or點贊吧~比心?

推薦閱讀:

相關文章