對於低維數據可以用概率統計中假設檢驗的方法來解決。給定符合同一概率分佈的樣本,擬合分佈參數,確定概率函數。遇到新樣本後,可以利用已確定的概率函數計算該樣本屬於該分佈的概率。以一定的置信區間可判斷新樣本是否屬於當前概率分佈。該方法的缺點是僅能處理低維數據,而且需要較強的先驗,假設已獲得樣本滿足某一概率分佈,如果該假設不成立,效果會比較差。

對於高維數據,比如圖像,這種方法可稱為異常檢測。這在工業領域或醫學領域中是非常實用的技術。因為工業或醫學應用中一般只能獲取大量的正常圖像,異常圖像,如缺陷圖像、某種疾病的影像等,是十分難以獲取的,而且類型也難以收集完全。圖像的異常檢測大體分為兩類:異常特徵識別和圖像重構。異常特徵識別方法訓練網路學習缺陷樣本和正常樣本的差異化特徵,通過判斷特徵間的差距識別缺陷圖像。圖像重構方法訓練網路學習正常樣本的分佈,使網路能夠實現正常樣本的重建。測試過程中,當輸入是正常樣本時,原圖和重構圖差異較小;當輸入是缺陷樣本時,原圖和重構圖差異較大。通過對比原圖和重構圖的殘差特徵可有效識別缺陷圖像。

我認為,圖像的異常檢測方法,僅利用正常樣本訓練是無法達到滿意的精度的,因為無法讓網路聚焦至異常區域,學習到差異化特徵。目前有一些方法使用少量的異常樣本來進行異常檢測能夠大幅提升檢測效果,這其實也是一種實用方法。目前此類方法大多還停留在實驗室階段,其性能還不足以滿足實用要求。

發佈於 02-22繼續瀏覽內容知乎發現更大的世界打開Chrome繼續李浩李浩一個工業推薦系統的流水線工人

正負樣本只是標註的不同,從某種程度上講正負樣本是等同的。當然也存在正樣本是演算法研究人員關心的領域正反饋,具有稀疏、標註成本等方面的約束,但是如果忽略這些diff,題注的問題可以反過來問

只有」正「 樣本,可以訓練出能夠預測正樣本和負樣本的模型嗎?

針對這個問題,其實在semi-supervised 領域存在一個小眾的研究方向PU-Learning(positive and unlabeled learning)。

Bing Liu教授給出PU Learning的完整定義:

Definition (PU Learning): Given a set of examples of an particular class P (called the positive class) and a set of unlabeled examples U, which contains both class P and non-class P (called the negative class) instances, the goal is to build a binary classifier to classify the test set T into two classes, positive and negative, where T can be U.

Bing Liu教授在ICML-2002的Partially Supervised Classification of Text Documents從理論上開拓了PU Learning的篇章。

Background

Given a set of documents of a particular topic or class [公式] , and a large set [公式] of mixed documents that contains documents from class [公式] and other types of documents, identify the documents from class [公式] in [公式]

PU Learning的一個重要的feature是標註樣本不含有非P的類別標籤:「The key feature of this problem is that there is no labeled non-P document」。無非-P類別標註和大量的無label數據集成為該場景下的技術瓶頸。

Paper work

gives the theoretical foundations of partially supervised classification

一些常見的變數定義:

針對分類問題,可以形式化描述為 [公式] :

由於 [公式] 是一個常量,在 [公式] 約束下,可以形式化表示為(近似解):

[公式]

在PU Learning問題下可以表示為,r 表示recall:

然後經過一長串證明,表明在一定size約束下,PU Learning問題是可以解的,具體去看一下原文。

文本分類的形式化表示:

完整的演算法流程

1. EM演算法進行求解樸素貝葉斯演算法參數:

2.S-EM演算法

2.1如何獲取negative樣本呢,這裡採取的是把正樣本作為「spy」混入M,然後將模型輸出小於spy的樣本劃分為負樣本集合U。

2.2根據確定P N U集合進行final 分類器的學習:

Result

具體可以看一下知乎鏈接

李浩:機器學習讀paper--Semi-Supervised--PU Learning?

zhuanlan.zhihu.com圖標

正負樣本只是標註的不同,從某種程度上講正負樣本是等同的。當然也存在正樣本是演算法研究人員關心的領域正反饋,具有稀疏、標註成本等方面的約束,但是如果忽略這些diff,題注的問題可以反過來問

只有」正「 樣本,可以訓練出能夠預測正樣本和負樣本的模型嗎?

針對這個問題,其實在semi-supervised 領域存在一個小眾的研究方向PU-Learning(positive and unlabeled learning)。

Bing Liu教授給出PU Learning的完整定義:

Definition (PU Learning): Given a set of examples of an particular class P (called the positive class) and a set of unlabeled examples U, which contains both class P and non-class P (called the negative class) instances, the goal is to build a binary classifier to classify the test set T into two classes, positive and negative, where T can be U.

Bing Liu教授在ICML-2002的Partially Supervised Classification of Text Documents從理論上開拓了PU Learning的篇章。

Background

Given a set of documents of a particular topic or class [公式] , and a large set [公式] of mixed documents that contains documents from class [公式] and other types of documents, identify the documents from class [公式] in [公式]

PU Learning的一個重要的feature是標註樣本不含有非P的類別標籤:「The key feature of this problem is that there is no labeled non-P document」。無非-P類別標註和大量的無label數據集成為該場景下的技術瓶頸。

Paper work

gives the theoretical foundations of partially supervised classification

一些常見的變數定義:

針對分類問題,可以形式化描述為 [公式] :

由於 [公式] 是一個常量,在 [公式] 約束下,可以形式化表示為(近似解):

[公式]

在PU Learning問題下可以表示為,r 表示recall:

然後經過一長串證明,表明在一定size約束下,PU Learning問題是可以解的,具體去看一下原文。

文本分類的形式化表示:

完整的演算法流程

1. EM演算法進行求解樸素貝葉斯演算法參數:

2.S-EM演算法

2.1如何獲取negative樣本呢,這裡採取的是把正樣本作為「spy」混入M,然後將模型輸出小於spy的樣本劃分為負樣本集合U。

2.2根據確定P N U集合進行final 分類器的學習:

Result

具體可以看一下知乎鏈接

李浩:機器學習讀paper--Semi-Supervised--PU Learning?

zhuanlan.zhihu.com圖標

一般常規分類演算法比較難處理這樣的場景,可考慮「異常檢測」演算法


這是個好問題

說實話,實操中沒有如此試過,但是有和它特別類似的場景

比如正負樣本的比例為1:200,這個時候負樣本的預測相比正樣本的預測準很多

這裡還有一個小問題是

模型能否預測得好正負樣本的標準是什麼?

這個問題可能存在三種情況(暫時能想到的)

1.簡單的偶爾的預測對正樣本

瞎貓碰上個s老鼠,這個概率還是有的,只不過比較低倒是真的也看模型最終概率值的閾值的選擇

2.只看模型總體AUC

一般來說,即便是正負樣本相差得比較大,但是特徵工程做得好,模型總體的AUC還是比較好看的;只不過只是在負樣本上的泛化能力比較好所以和上面的情況1的情形類似

3.比較嚴格的要求模型在正負樣本上的泛化能力都挺好

這個時候應該是不行的

事實上,工業界一般處於情況3的要求,但是經常遇到這種樣本不均衡的情況


可以的,但是這樣的模型預測相對沒那麼準。簡單的方式就是通過度量的方式,如果新樣本離你的負樣本很遠,其實就可以認為是一個正樣本。


推薦閱讀:
相關文章