監督式學習、無監督式學習、半監督式學習和增強學習之間有何區別

15 人贊了文章

宜家家具有多種不同的組裝方法。在理想情況下,每種方法都可以組裝出完整的沙發或椅子。但是,根據細節的不同,每種產品的組裝都有最適用的方法。如果拿到說明手冊和所有正確的零件,就只需按照指示操作即可。如果你已經找到了竅門,不妨把手冊扔到一邊,試試獨自操作。

深度學習也是如此。基於可用數據的類型和正在研究的問題,科學家將選擇特定的學習模型來訓練演算法。

在監督式學習模型(supervised learning model)中,演算法基於有標記的數據集進行學習,同時數據集提供答案,演算法可利用該答案來評估其在訓練數據方面的準確性。相比之下,無監督式模型(unsupervised learning model)使用的是無標記數據,演算法需要自行提取特徵和規律來理解這些數據。半監督式學習(semi-supervised learning)居於二者之間。這種方法使用少量有標記的數據來支持大量無標記數據。

增強學習模型(reinforcement learning model)一般用來訓練帶有獎勵系統的演算法。在特定情況下,如果AI Agent執行了最佳的操作,增強學習模型會提供一定反饋。

下面我們來了解一下適用於每種學習模式的數據集和問題類型。

什麼是監督式學習?

如果您在別人的監督之下學習,有人會當場評判您是否得出了正確答案。同樣,在監督式學習中,訓練演算法時同樣需要一整套帶有標記的數據。

完全標記意味著訓練數據集中的每個示例都標記相對應的答案。因此,一個由花朵圖像組成的有標記數據集會告知模型哪些圖片是玫瑰、哪些圖片是雛菊或者水仙。在「看到」新圖像時,模型會將其與訓練示例進行比較,以給出正確的標記。

在監督式機器學習中,演算法需要通過有標記的數據進行學習。

監督式學習有兩個主要的應用領域:分類問題和回歸問題。

分類問題要求演算法可以預測離散值,將輸入數據標識為特定類或組的成員。在由動物圖像組成的訓練數據集中,這意味著每張照片已被預先標記為貓、考拉或海龜等。然後,演算法的評估標準為,演算法對其他考拉和海龜的新圖像進行分類的準確程度。

上圖顯示的是貓、考拉還是海龜?分類演算法可以區分差異。

回歸問題則要求演算法基於連續數據。比如線性回歸:給出一個特定的x值,求y變數的值。

更貼近現實的機器學習示例涉及許多變數,例如根據建築面積、位置和距離公共交通的遠近來預測舊金山公寓價格的演算法。

因此,監督式學習最適合具有一系列可用參考點或真實值來訓練演算法的問題。但那些數據並不總是現成可用的。

什麼是無監督式學習?

清晰、完美標記的數據集並不容易獲得。有時,研究人員會向演算法詢問一些他們未知的問題。而這正是無監督式學習可以發揮作用的地方。

在無監督式學習中,深度學習模型會收到某個數據集,但對於如何處理該數據集卻未獲得明確的指示。訓練數據集是沒有特定預期結果或正確答案的示例的集合。然後,神經網路嘗試通過提取有用的特徵並分析其結構來自動發現數據結構。

無監督式學習模型自動提取特徵並在數據中找到規律。

根據所研究的問題,無監督式學習模型可以用不同的方式組織數據。

  • 聚類:即使不是專業的鳥類學家,我們也可以觀察一系列鳥類照片,並根據其羽毛的顏色、體態的大小或喙形等線索,對照片進行粗略的對比分類。這正是聚類這一無監督式學習的最常見應用類型的運作方式:深度學習模型尋找相似的訓練數據並將它們分為一組。
  • 異常檢測:銀行通過尋找客戶購買行為中不尋常的模式來偵查欺詐交易。例如,如果同一張信用卡於同一天在加利福尼亞和丹麥使用,那就會引起懷疑。同理,無監督式學習還可用來標記數據集中的異常值。
  • 關聯:如果您的網上購物車裡有尿布、蘋果醬和吸管杯,網站可能會建議您在訂單中添加圍嘴和嬰兒監視器。這是一個關聯示例,其中數據樣本的某些特徵與其他特徵相關聯。通過查看某個數據的幾個關鍵屬性,無監督式學習模型可以預測它們通常關聯的其他屬性。
  • 自動編碼器:自動編碼器會接收輸入數據,將其壓縮為代碼,然後設法使用這些匯總結的代碼重新創建輸入數據。這就像從《白鯨記》開始,創建SparkNotes版本,然後設法使用SparkNotes重寫原始故事,並作為參考。雖然這是一項簡便易行的深度學習技巧,但讓簡單的自動編碼器發揮作用的現實用例卻很少。但是,如果增添一層複雜性,自動編碼器的使用效果就會成倍增加:通過在訓練期間同時使用雜亂版本和整潔版本的圖像,自動編碼器可以消除圖像、視頻或醫學掃描圖等視覺數據中的雜點,從而提高圖像質量。

由於數據中不存在「真值」元素,因此很難衡量使用無監督式學習訓練的演算法的準確性。但在許多研究領域中,有標記數據要麼難以獲得,要麼過於昂貴。在這些情況下,允許深度學習模型完全自由地尋找相關規律,可以產生高質量的結果。

什麼是半監督式學習?

可以將半監督式學習視為一種折衷辦法。

在很大程度上,半監督式學習的含義正如其名:同時含有標記數據和無標記數據的訓練數據集。在從數據中提取相關特徵存在困難以及標記示例對專家來說非常耗時的情況下,這種方法特別有用。

半監督式學習對於醫學影像尤其有用,在此類影像中,少量有標記數據可以顯著提高準確性。

這類學習的常見應用情境是CT掃描或核磁共振成像 (MRI) 等醫學影像。受過培訓的放射科醫生可以檢查並標記腫瘤或疾病的一小部分掃描結果。但是,手動標記所有掃描結果會花費大量的時間和成本。不過與完全無監督式模型相比,半監督式學習中的深度學習網路仍然可以從小比例的有標記數據中受益,並提高其數據的準確性。

一種熱門的訓練方法是從一小組有標記數據開始訓練,並使用生成式對抗網路 (GAN)

處於競爭狀態的兩個深度學習網路都試圖超越對方,這就是 GAN。其中一個網路名為生成器(generator),試圖創建新數據點來模擬訓練數據。另一個網路名為鑒別器(discriminator),它會接收這些新生成的數據,並評估它們是訓練數據的一部分還是虛假數據。由於鑒別器可越來越準確地區分虛假數據和原始數據,生成器則提高了其生成令人信服的虛假數據的能力,兩種網路在正反饋迴路中得到改善。

這就是 GAN 的工作原理:標記為「D」的鑒別器顯示來自生成器「G」和訓練數據集的圖像。鑒別器的任務是確定哪些來自生成器的圖像是真實的、哪些是虛假的。

什麼是增強學習?

視頻遊戲中充滿了增強提示:通過一關即可獲得一個徽章;使用一定數量的動作擊敗壞人即可贏得獎金;倘若不慎落入陷阱,則遊戲結束。

這些提示可幫助玩家學習如何在下一局遊戲中有更好的表現。如果沒有這些反饋,他們只會在遊戲環境中採取隨機行動。

增強學習的運作原理與此相同,而視頻遊戲則是這類研究的日常測試環境。

在這種機器學習中,AI Agent試圖找到實現特定目標的最佳方式或改進特定任務的最優方法。當Agent採取的行動有助實現目標時,它會獲得獎勵。總體目標是預測下一步要採取的最佳措施以獲得最終大獎。

Agent可以從過去的反饋中吸取教訓,並探索可能帶來更大收益的新策略,從而做出選擇。當然,正如國際象棋比賽中短期的移動可能無法助您長遠獲得勝利一樣,Agent也會制定長期戰略計劃,最大限度地提高累積的獎勵。

這是一個迭代的過程:反饋次數越多,Agent制定的策略就會越好。這種技術對於訓練機器人特別有用,機器人要在諸如控制自動駕駛汽車或管理倉庫中的庫存等任務中做出一系列決策。

其實每種演算法都有不同的學習方式,您只需選擇最佳方式來幫助神經網路掌握訣竅即可。


推薦閱讀:
相关文章