不完全監督學習(一)裏提到了杉山將的弱監督學習,接下來看看從Positive and Unlabeled的角度觀察不完全監督。
Bojak:不完全監督學習(一)?zhuanlan.zhihu.comPU Learning最開始的應用場景是對文本分類。已知某部分文檔屬於ci 類,要從大量沒有標記的文檔中找出 ci 類的樣本。本文將對解決PU Learning的常見演算法進行總結,主要敘述策略思路。
目前的方法可以歸結到以下幾類。
(1) 樣本標記:先在未標記數據中識別出一些可靠負樣本,然後在正樣本和這些可靠負樣本上進行監督學習;
(2) 樣本賦權:對正樣本和未標記樣本賦予權重,並給出樣本屬於正標籤的條件概率估計;
(3) 雜訊處理:把未標記樣本當作雜訊很大的負樣本進行處理。
樣本標記
樣本標記的思路是通過一定手段得到可靠負樣本,然後與正樣本組成數據集供模型訓練和測試,得到負樣本的常見方法如下所示。
Rocchio演算法
該演算法屬於較早的文本分類方法之一,基本思想是先計算正樣本集合P和未標記樣本集合U的一個原型向量,計算公式如下所示。