对于低维数据可以用概率统计中假设检验的方法来解决。给定符合同一概率分布的样本,拟合分布参数,确定概率函数。遇到新样本后,可以利用已确定的概率函数计算该样本属于该分布的概率。以一定的置信区间可判断新样本是否属于当前概率分布。该方法的缺点是仅能处理低维数据,而且需要较强的先验,假设已获得样本满足某一概率分布,如果该假设不成立,效果会比较差。

对于高维数据,比如图像,这种方法可称为异常检测。这在工业领域或医学领域中是非常实用的技术。因为工业或医学应用中一般只能获取大量的正常图像,异常图像,如缺陷图像、某种疾病的影像等,是十分难以获取的,而且类型也难以收集完全。图像的异常检测大体分为两类:异常特征识别和图像重构。异常特征识别方法训练网路学习缺陷样本和正常样本的差异化特征,通过判断特征间的差距识别缺陷图像。图像重构方法训练网路学习正常样本的分布,使网路能够实现正常样本的重建。测试过程中,当输入是正常样本时,原图和重构图差异较小;当输入是缺陷样本时,原图和重构图差异较大。通过对比原图和重构图的残差特征可有效识别缺陷图像。

我认为,图像的异常检测方法,仅利用正常样本训练是无法达到满意的精度的,因为无法让网路聚焦至异常区域,学习到差异化特征。目前有一些方法使用少量的异常样本来进行异常检测能够大幅提升检测效果,这其实也是一种实用方法。目前此类方法大多还停留在实验室阶段,其性能还不足以满足实用要求。

发布于 02-22继续浏览内容知乎发现更大的世界打开Chrome继续李浩李浩一个工业推荐系统的流水线工人

正负样本只是标注的不同,从某种程度上讲正负样本是等同的。当然也存在正样本是演算法研究人员关心的领域正反馈,具有稀疏、标注成本等方面的约束,但是如果忽略这些diff,题注的问题可以反过来问

只有」正「 样本,可以训练出能够预测正样本和负样本的模型吗?

针对这个问题,其实在semi-supervised 领域存在一个小众的研究方向PU-Learning(positive and unlabeled learning)。

Bing Liu教授给出PU Learning的完整定义:

Definition (PU Learning): Given a set of examples of an particular class P (called the positive class) and a set of unlabeled examples U, which contains both class P and non-class P (called the negative class) instances, the goal is to build a binary classifier to classify the test set T into two classes, positive and negative, where T can be U.

Bing Liu教授在ICML-2002的Partially Supervised Classification of Text Documents从理论上开拓了PU Learning的篇章。

Background

Given a set of documents of a particular topic or class [公式] , and a large set [公式] of mixed documents that contains documents from class [公式] and other types of documents, identify the documents from class [公式] in [公式]

PU Learning的一个重要的feature是标注样本不含有非P的类别标签:「The key feature of this problem is that there is no labeled non-P document」。无非-P类别标注和大量的无label数据集成为该场景下的技术瓶颈。

Paper work

gives the theoretical foundations of partially supervised classification

一些常见的变数定义:

针对分类问题,可以形式化描述为 [公式] :

由于 [公式] 是一个常量,在 [公式] 约束下,可以形式化表示为(近似解):

[公式]

在PU Learning问题下可以表示为,r 表示recall:

然后经过一长串证明,表明在一定size约束下,PU Learning问题是可以解的,具体去看一下原文。

文本分类的形式化表示:

完整的演算法流程

1. EM演算法进行求解朴素贝叶斯演算法参数:

2.S-EM演算法

2.1如何获取negative样本呢,这里采取的是把正样本作为「spy」混入M,然后将模型输出小于spy的样本划分为负样本集合U。

2.2根据确定P N U集合进行final 分类器的学习:

Result

具体可以看一下知乎链接

李浩:机器学习读paper--Semi-Supervised--PU Learning?

zhuanlan.zhihu.com图标

正负样本只是标注的不同,从某种程度上讲正负样本是等同的。当然也存在正样本是演算法研究人员关心的领域正反馈,具有稀疏、标注成本等方面的约束,但是如果忽略这些diff,题注的问题可以反过来问

只有」正「 样本,可以训练出能够预测正样本和负样本的模型吗?

针对这个问题,其实在semi-supervised 领域存在一个小众的研究方向PU-Learning(positive and unlabeled learning)。

Bing Liu教授给出PU Learning的完整定义:

Definition (PU Learning): Given a set of examples of an particular class P (called the positive class) and a set of unlabeled examples U, which contains both class P and non-class P (called the negative class) instances, the goal is to build a binary classifier to classify the test set T into two classes, positive and negative, where T can be U.

Bing Liu教授在ICML-2002的Partially Supervised Classification of Text Documents从理论上开拓了PU Learning的篇章。

Background

Given a set of documents of a particular topic or class [公式] , and a large set [公式] of mixed documents that contains documents from class [公式] and other types of documents, identify the documents from class [公式] in [公式]

PU Learning的一个重要的feature是标注样本不含有非P的类别标签:「The key feature of this problem is that there is no labeled non-P document」。无非-P类别标注和大量的无label数据集成为该场景下的技术瓶颈。

Paper work

gives the theoretical foundations of partially supervised classification

一些常见的变数定义:

针对分类问题,可以形式化描述为 [公式] :

由于 [公式] 是一个常量,在 [公式] 约束下,可以形式化表示为(近似解):

[公式]

在PU Learning问题下可以表示为,r 表示recall:

然后经过一长串证明,表明在一定size约束下,PU Learning问题是可以解的,具体去看一下原文。

文本分类的形式化表示:

完整的演算法流程

1. EM演算法进行求解朴素贝叶斯演算法参数:

2.S-EM演算法

2.1如何获取negative样本呢,这里采取的是把正样本作为「spy」混入M,然后将模型输出小于spy的样本划分为负样本集合U。

2.2根据确定P N U集合进行final 分类器的学习:

Result

具体可以看一下知乎链接

李浩:机器学习读paper--Semi-Supervised--PU Learning?

zhuanlan.zhihu.com图标

一般常规分类演算法比较难处理这样的场景,可考虑「异常检测」演算法


这是个好问题

说实话,实操中没有如此试过,但是有和它特别类似的场景

比如正负样本的比例为1:200,这个时候负样本的预测相比正样本的预测准很多

这里还有一个小问题是

模型能否预测得好正负样本的标准是什么?

这个问题可能存在三种情况(暂时能想到的)

1.简单的偶尔的预测对正样本

瞎猫碰上个s老鼠,这个概率还是有的,只不过比较低倒是真的也看模型最终概率值的阈值的选择

2.只看模型总体AUC

一般来说,即便是正负样本相差得比较大,但是特征工程做得好,模型总体的AUC还是比较好看的;只不过只是在负样本上的泛化能力比较好所以和上面的情况1的情形类似

3.比较严格的要求模型在正负样本上的泛化能力都挺好

这个时候应该是不行的

事实上,工业界一般处于情况3的要求,但是经常遇到这种样本不均衡的情况


可以的,但是这样的模型预测相对没那么准。简单的方式就是通过度量的方式,如果新样本离你的负样本很远,其实就可以认为是一个正样本。


推荐阅读:
相关文章