不完全监督学习(一)里提到了杉山将的弱监督学习,接下来看看从Positive and Unlabeled的角度观察不完全监督。
Bojak:不完全监督学习(一)?zhuanlan.zhihu.comPU Learning最开始的应用场景是对文本分类。已知某部分文档属于ci 类,要从大量没有标记的文档中找出 ci 类的样本。本文将对解决PU Learning的常见演算法进行总结,主要叙述策略思路。
目前的方法可以归结到以下几类。
(1) 样本标记:先在未标记数据中识别出一些可靠负样本,然后在正样本和这些可靠负样本上进行监督学习;
(2) 样本赋权:对正样本和未标记样本赋予权重,并给出样本属于正标签的条件概率估计;
(3) 杂讯处理:把未标记样本当作杂讯很大的负样本进行处理。
样本标记
样本标记的思路是通过一定手段得到可靠负样本,然后与正样本组成数据集供模型训练和测试,得到负样本的常见方法如下所示。
Rocchio演算法
该演算法属于较早的文本分类方法之一,基本思想是先计算正样本集合P和未标记样本集合U的一个原型向量,计算公式如下所示。