不完全監督學習(一)
背景
監督學習通過學習大量訓練樣本來構建預測模型,但是在現實場景中只有小部分正樣本和大量沒有標記的樣本,直接餵給模型訓練的話,由於類別不平衡,且負樣本里還有沒被發現的正樣本,將使模型的精度變得不準確。除此以外,由於數據標註成本過高,很多任務難以獲取真實標籤。如何使用弱監督甚至無監督的方法進行學習,是學術界也是工業界面臨的新挑戰。
南京大學周志華教授關於弱監督方法的綜述性論文[1]提出,弱監督學習可以分為三類,如下所示。
(1) 不完全監督:只有訓練集的一個子集是有標籤的,其它數據沒有標籤;
(2) 不確切監督:數據只有粗粒度的標籤;
(3) 不準確的監督:標籤不總是真實的,可能會有錯誤。
針對數據只有部分子集有標籤的情況,數據挖掘領域已經有學者做了相關研究,提出了很多半監督方法[2][3][4]。還有學者認為,這是一個典型的Positive and unlabeled Learning,日本理化研究所的杉山將 (Masashi Sugiyama) 對PU learning有較深研究,在ICML、NIPS等頂級會議上發表了很多關於PU learning的論文[5][6][7][8]。除此之外,伊利諾伊大學計算機學院的劉冰 (Bing Liu) 也有很多關於PU learning的研究文章,他的主頁地址是https://www.cs.uic.edu/~liub/NSF/PSC-IIS-0307239.html。
弱監督學習
論文[9]提出了一種方法,只對帶有置信度的正樣本進行訓練 (positive-confidence data),其效果要好於監督模型。論文認為傳統的半監督方法,像One-class SVM,其泛化能力較弱,因為模型學習到的是現有數據的邊界,並且模型的目標不是將正負樣本分開。而帶有置信度的正向樣本卻攜帶著負樣本的信息,使得模型更好的學習正負樣本的邊界。
假設輸入數據 ,它的類別標籤是 ,符合一個未知的分布 。現在要訓練一個分類器模型,要求經驗損失 最小化。