极端类别不平衡数据下的分类问题S02：问题概述，模型选择及人生经验

不平衡学习是机器学习问题的一个重要子域，其主要关注于如何从类别分布不均衡的数据中学习数据的模式。在这篇文章中我们主要关注不平衡分类问题，特别地，我们主要关注类别极端不平衡场景下的二分类问题所面临的困难。

在这篇文章中我们将：

描述类别不平衡的定义与实际应用场景
给出不平衡场景下常用的评价指标
讨论不平衡场景下分类器学习困难的来源
概览已有的不平衡学习方法并分析其优劣
给出一些直觉的可视化来帮助理解不平衡学习过程
给出一些场景/模型选择中的个人经验

为简洁起见，文中出现的Min代表少数类样本（正类，positive，y=1），Maj代表多数类样本（负类，negative，y=0）

问题概述

当一个分类任务的数据集中来自不同类别的样本数目相差悬殊时，我们通常称该数据集为「类别不平衡」的。以一个现实任务为例：在点击率预估（click-through rate prediction）任务中，每条展示给用户的广告都产生一条新样本，而用户最终是否点击了这条广告决定了样本的标签。显然，只有很少一部分的用户会去点击网页里的嵌入广告，这就导致最终得到的训练数据集中正/负例样本的数量差距悬殊。同样的情况也发生在很多实际应用场景中，如金融欺诈检测（正常/欺诈），医疗辅助诊断（正常/患病），网路入侵检测（正常连接/攻击连接）等等[1,2,3]。需要注意的是，尽管少数类的样本个数更少，表示的质量也更差，但其通常会携带更重要的信息，因此一般我们更关注模型正确分类少数类样本的能力。

分类问题的一个underlying assumption是各个类别的数据都有自己的分布，当某类数据少到难以观察结构的时候，我们可以考虑抛弃该类数据，转而学习更为明显的多数类模式，而后将不符合多数类模式的样本判断为异常/少数类，某些时候会有更好的效果。此时该问题退化为异常检测（anomaly detection）问题。

有关异常检测 (Anomaly detection)
Anomaly detection 除数值分析类方法外，同样有一系列的经典方法；如One-class SVM 及其派生的One-class NN，Isolation Forest，以及一系列Auto Encoder-Decoder based methods (One class NN 某种意义上也属于此类)。由于只关心多数类的分布，这些方法一般为unsupervised / weakly-supervised，只使用单类别数据训练。

基本符号

在二元不平衡分类中，数据集中只存在两个类别：少数类，即样本数量较少的类，与多数类，即样本数量相对较多的类别。我们使用D来表示全部训练数据样本的集合，每一个样本用(x, y)表示，其中 y ∈ {0, 1}。在二分类条件下，y取值为1代表该样本属于正类（少数类），为0则代表该样本属于负类（多数类）。

由此我们可以定义少数类集合：

mathcal{P}={(x,y) | y=1}, (x,y)inmathcal{D}

及多数类集合：

mathcal{N}={(x,y) | y=0}, (x,y)inmathcal{D}

从而有：

mathcal{P}capmathcal{N}=emptyset, mathcal{P}cupmathcal{N}=mathcal{D}

由此，对于（高度）不平衡的数据集我们有。为了以统一的形式描述不同数据集的不平衡程度，我们定义不平衡比IR（Imbalance Ratio）为多数类样本数量与少数类样本数量的比值：

$ext{Imbalanced Ratio (IR)}=frac{n_{majority}}{n_{minority}}= frac{|mathcal{N}|}{|mathcal{P}|}$

模型评价准则

对于一般的机器学习方法，最常见的评价指标无疑是分类准确度ACC (accuracy)，ACC的含义非常直观并且在通常情况下都很有效。然而对于不平衡的分类任务，ACC并不能很好地反映分类器的性能。考虑以下情况：一个含有10000条样本的数据集，其中。此时一个将所有样本都判断成多数类样本的分类器能够获得99%的分类准确率，这是一个相当高的分数，但给一个完全无法区分出少数类样本的分类器如此高的分数显然是不合理的。由于ACC等传统评价指标的特性，在数据分布不平衡时其往往会导致分类器的输出倾向于在数据集中占多数的类别：输出多数类会带来更高的分类准确率，但在我们所关注的少数类中表现不佳。