3.1 感性認知監督學習

用數據挖掘領域大家韓家煒教授的觀點[1]來說,

所有的監督學習(Supervised Learning),基本上都是「分類(Classification)」的代名詞。

它從有標籤的訓練數據中學習模型,然後給定某個新數據,利用模型預測它的標籤。這裡的標籤,其實就是某個事物的分類。

比如,小時候父母告訴我們某個動物是貓、是狗或是豬,然後在我們的大腦里就會形成或貓或狗或豬的印象(相當於模型構建),然後面前來了一條「新」小狗,如果你能叫出來「這是一隻小狗」,那麼恭喜你,標籤分類成功!但如果你回答說「這是一頭小豬」。這時你的監護人就會糾正你的偏差,「乖,不對,這是一隻小狗」,這樣一來二去地進行訓練,不斷更新你大腦的認知體系,聰明如你,下次再遇到這類新的「貓、狗、豬」等,你就會天才般地給出正確的「預測」分類(示意圖如圖3-1所示)。

圖3-1 監督學習示意圖

事實上,整個機器學習的過程就是在干一件事,即通過訓練,學習得到某個模型,然後期望這個模型也能很好地適用於「新樣本」(即預測)。這種模型適用於新樣本的能力,也稱為「泛化能力」,它是機器學習演算法非常重要的性質。

在學習過程中,需要使用訓練數據,而訓練數據往往是人工給出的。在這個訓練集合中,系統的預期輸出(即標籤信息)已經給出,如果模型的實際輸出與預期不符(二者有差距),那麼預期輸出就有責任「監督」學習系統,重新調整模型參數,直至二者的誤差在可容忍的範圍之內。因此,預期輸出(標籤信息)也被稱為「教師信號」。


3.2 感性認識非監督學習

與監督學習相反的是,非監督學習(Unsupervised Learning)所處的學習環境,都是非標籤的數據。韓家煒教授接著說[1],

非監督學習,本質上就是『聚類(Cluster)』的近義詞。」

話說聚類的思想起源非常早,在中國,可追溯到《周易·繫辭上》中的「方以類聚,物以群分,吉凶生矣」。

但真正意義上的聚類演算法,卻是20世紀50年代前後才被提出的。

為何會如此滯後呢?原因在於,聚類演算法的成功與否,高度依賴於數據。數據量小了,聚類意義不大。數據量大了,人腦就不靈光了,只能交由計算機解決,而計算機1946年才開始出現。

如果說分類是指,根據數據的特徵或屬性,劃分到已有的類別當中。

那麼,聚類一開始並不知道數據會分為幾類,而是通過聚類分析將數據聚成幾個群。

簡單來說,給定數據,聚類從數據中學習,能學到什麼,就看數據本身具備什麼特性了(given data, learn about that data)。

對此,北京航空航天大學的於劍教授,對聚類有12字的精彩總結[2]:

「歸哪類,像哪類。像哪類,歸哪類。」

展開來說,給定N個對象,將其分成K個子集,使得每個子集內的對象相似,不同子集之間的對象不相似。

但這裡的「類」也好,「群」也罷,事先我們是並不知情的。一旦歸納出一系列「類」或「群」的特徵,如果再來一個新數據,我們就根據它距離哪個「類」或「群」較近,就預測它屬於哪個「類」或「群」,從而完成新數據的「分類」或「分群」功能(參見圖3-2)。

圖3-2 非監督學習示意圖


3.3半監督學習

半監督學習(Semi-supervised Learning)的方式,既用到了標籤數據,又用到了非標籤數據。有一句罵人的話,說某個人「有媽生,沒媽教」,拋開這句話罵人的含義,其實它說的是「無監督學習」。

但我們絕大多數人,不僅「有媽生,有媽教」,還有小學教、有中學教、有大學教,「有人教」的意思是,有人告訴我們事物的對與錯(即對事物打了標籤),然後我們可據此改善自己的性情,慢慢把自己調教得更有教養,這自然就屬於「監督學習」。

但總有那麼一天,我們會長大。而長大的標誌之一,就是自立。何謂自立呢?就是遠離父母、走出校園後,沒有人告訴你對與錯,一切都要基於自己早期已獲取的知識,從社會中學習,擴大並更新自己的認知體系,然後當遇到新事物時,我們能泰然自若地處理,而非六神無主。

從這個角度來看,現代人類成長學習的最佳方式當屬「半監督學習」!它既不是純粹的「監督學習」(因為如果完全是這樣,就會扼殺我們的創造力和認知體系,也就永遠不可能超越我們的父輩和師輩),也不屬於完全的「非監督學習」,因為如果完全這樣,我們會如無根之浮萍,會花很多時間重造輪子。前人的思考,我們的階梯。

圖3-3 半監督示意圖

下面我們列舉一個現實生活中的例子來輔助說明這個概念。假設我們已經學習到:

(a)馬曉雲同學(數據1)是一個牛人(標籤:牛人)。

(b)馬曉騰同學(數據2)是一個牛人(標籤:牛人)。

(c)假設我們並不知道李曉宏同學(數據3)是誰,也不知道他牛不牛,但考慮他經常和二馬同學共同出入高規格大會,都經常會被達官貴人接見(也就是說他們雖獨立,但同分布),我們很容易根據「物以類聚,人以群分」的思想,把李曉宏同學打上標籤:他也是一個很牛的人!

這樣一來,我們的已知領域(標籤數據)就擴大了(由兩個擴大到三個),這也就完成了半監督學習。事實上,半監督學習就是以「已知之認知(標籤化的分類信息)」,擴大「未知之領域(通過聚類思想將未知事物歸類為已知事物)」。

但這裡隱含了一個基本假設—聚類假設(Cluster Assumption),其核心要義就是:相似的樣本,擁有相似的輸出。

【參考文獻】

[1] Han J. Data Mining: Concepts and Techniques[M]. Morgan Kaufmann Publishers Inc. 2005.

[2] 於劍. 機器學習—從公理到演算法[M]. 北京: 清華大學出版社, 2017.

本文部分節選自《深度學習之美:AI時代的數據處理與最佳實踐》(張玉宏著,電子工業出版社,2018年7月出版)。

(連載待續)

推薦閱讀:

查看原文 >>
相关文章