機器學習-一個半監督演算法-CPLE-20181229
最近在看半監督學習演算法的時候看到一個比較新(15年發表)的演算法思想,叫做Contrastive Pessimistic Likelihood Estimation,論文地址:Contrastive Pessimistic Likelihood Estimation for Semi-Supervised Classification
由於很多半監督演算法的有效性建立在一定的前提假設上,但現實中的數據分佈往往較難滿足這樣的條件,比如s3vm,基於「低密度分隔」的假設。當數據不符合這樣的假設時,往往會使得半監督演算法的效果反而不如直接用少量的有標籤樣本建立的完全有監督模型。
基於此,該演算法提出了兩個原則,分別是contrast and pessimism,前者表示會將有標籤樣本的效果納入考慮,言外之意是首先要保證這部分樣本的效果不會比直接用有監督模型差;後者則是在給無標籤樣本賦值標籤時是悲觀的,在這種悲觀的情況下再去迭代,這樣不論無標籤樣本的真實標籤是如何分佈的,都能取得不差於原完全有監督模型的效果。
上面的說法有點繞,直接看幾個公式會更直覺,文章的公式其實很簡單,不需要新的知識。
先假設所有的樣本都拿到了真實標籤,則有全標籤的樣本: