不完全監督學習（二）

不完全監督學習（一）裏提到了杉山將的弱監督學習，接下來看看從Positive and Unlabeled的角度觀察不完全監督。

Bojak：不完全監督學習（一）?

zhuanlan.zhihu.com

PU Learning最開始的應用場景是對文本分類。已知某部分文檔屬於ci 類，要從大量沒有標記的文檔中找出 ci 類的樣本。本文將對解決PU Learning的常見演算法進行總結，主要敘述策略思路。

目前的方法可以歸結到以下幾類。

(1) 樣本標記：先在未標記數據中識別出一些可靠負樣本，然後在正樣本和這些可靠負樣本上進行監督學習；

(2) 樣本賦權：對正樣本和未標記樣本賦予權重，並給出樣本屬於正標籤的條件概率估計；

(3) 雜訊處理：把未標記樣本當作雜訊很大的負樣本進行處理。

樣本標記

樣本標記的思路是通過一定手段得到可靠負樣本，然後與正樣本組成數據集供模型訓練和測試，得到負樣本的常見方法如下所示。

該演算法屬於較早的文本分類方法之一，基本思想是先計算正樣本集合P和未標記樣本集合U的一個原型向量，計算公式如下所示。