不完全监督学习（二）

不完全监督学习（一）里提到了杉山将的弱监督学习，接下来看看从Positive and Unlabeled的角度观察不完全监督。

Bojak：不完全监督学习（一）?

zhuanlan.zhihu.com

PU Learning最开始的应用场景是对文本分类。已知某部分文档属于ci 类，要从大量没有标记的文档中找出 ci 类的样本。本文将对解决PU Learning的常见演算法进行总结，主要叙述策略思路。

目前的方法可以归结到以下几类。

(1) 样本标记：先在未标记数据中识别出一些可靠负样本，然后在正样本和这些可靠负样本上进行监督学习；

(2) 样本赋权：对正样本和未标记样本赋予权重，并给出样本属于正标签的条件概率估计；

(3) 杂讯处理：把未标记样本当作杂讯很大的负样本进行处理。

样本标记

样本标记的思路是通过一定手段得到可靠负样本，然后与正样本组成数据集供模型训练和测试，得到负样本的常见方法如下所示。

该演算法属于较早的文本分类方法之一，基本思想是先计算正样本集合P和未标记样本集合U的一个原型向量，计算公式如下所示。