不完全監督學習(一)裏提到了杉山將的弱監督學習,接下來看看從Positive and Unlabeled的角度觀察不完全監督。

Bojak:不完全監督學習(一)?

zhuanlan.zhihu.com
圖標

PU Learning最開始的應用場景是對文本分類。已知某部分文檔屬於ci 類,要從大量沒有標記的文檔中找出 ci 類的樣本。本文將對解決PU Learning的常見演算法進行總結,主要敘述策略思路。

目前的方法可以歸結到以下幾類。

(1) 樣本標記:先在未標記數據中識別出一些可靠負樣本,然後在正樣本和這些可靠負樣本上進行監督學習;

(2) 樣本賦權:對正樣本和未標記樣本賦予權重,並給出樣本屬於正標籤的條件概率估計;

(3) 雜訊處理:把未標記樣本當作雜訊很大的負樣本進行處理。

樣本標記

樣本標記的思路是通過一定手段得到可靠負樣本,然後與正樣本組成數據集供模型訓練和測試,得到負樣本的常見方法如下所示。

Rocchio演算法

該演算法屬於較早的文本分類方法之一,基本思想是先計算正樣本集合P和未標記樣本集合U的一個原型向量,計算公式如下所示。

C_{j} 表示文檔類別的第 j 類, alphaeta 表示對正樣本和未標記樣本的權重,D 表示樣本集合,d表示某個樣本, c_{j} 即原型向量 (prototype vector)。

然後再求每個文檔與以上兩個向量的相似性,如果某個文檔與未標記樣本的相似性遠遠大於它與正樣本的相似性,那麼就認為該文檔是可靠的負樣本。

貝葉斯方法

利用貝葉斯方法找到可靠負樣本的步驟如下。

(1) 將所有正樣本標記為+1,所有未標記樣本當作-1;

(2) 利用正樣本和未標記樣本訓練一個貝葉斯分類器;

(3) 用分類器來預測未標記樣本,被預測為負樣本的就是可靠負樣本。

間諜法

基本思路是從正樣本里抽取一部分樣本(間諜)放進未標記樣本,然後將未標記樣本都記為-1,正樣本記為+1,然後利用貝葉斯進行分類,求出「間諜樣本」的分類概率閾值,小於該閾值的記為可靠負樣本。具體步驟如下。

樣本賦權

通過對正負樣本加權處理,權重類似於弱監督學習裏的置信度,來標記不同樣本,模型訓練時根據權重來調整分類面[1]。

雜訊處理

論文[2]提出了一種改進的SVM方法,把未標記樣本當作雜訊很大的負樣本進行學習,優化目標如下所示。

C 用來在訓練中控制正負樣本的誤差,值越大,表示模型容忍較大的誤差。對於Positive-Unlabeled data,一般對正樣本設置較大的C,負樣本設置較小的C

參考文獻

[1] Lee W S , Liu B . Learning with Positive and Unlabeled Examples Using Weighted Logistic Regression[C]// Machine Learning, Twentieth International Conference. DBLP, 2003.?

www-new.comp.nus.edu.sg

[2] Liu B , Dai Y , Li X , et al. Building Text Classifiers Using Positive and Unlabeled Examples[C]// null. IEEE Computer Society, 2003.?

static.aminer.org


推薦閱讀:

相關文章