半监督学习

主动学习

用已标记样本训练出一个模型，用模型对未标记样本进行预测，选出对改善性能有帮助（比如选出那些不太确定的未标记样本）的样本，向专家征求最终标记的意见，并将专家意见作为标记，将该样本加入训练集得出新模型，不断重复这个工作。

关键：外界因素，即专家经验；

让学习器不依赖外界交互、自动地利用未标记样本提升学习性能，就是半监督学习；当然也可以用这种方法给金融样本打标签，进行拒绝推断。

纯半监督学习，其实就是充分利用已标记样本与未标记样本，得到一个模型，具有相当好的预测性；而直推学习，其实就是利用已知与未知标记样本建模，最终得到未标记样本的标签的预测。前者是得到了高泛化能力的模型，后者是得到未知标记样本的最优预测；其实可以看做是一回事。

通常需要做出一些假设，即未标记样本的数据分布信息与已标记样本直接相联系。

生成式方法(generative methods)

假设所有的数据，不论标记与否都由同一个潜在的模型生成的；而未标记数据的标记看作是潜在模型的缺失参数。使用EM演算法（专门求解含有隐变数的参数解问题）进行求解，相当於潜在模型的缺失参数是隐变数，模型的假设不同，方法不同。

这种方法在有标记数据极少的情形下往往比其他方法性能更好。

关键：模型假设必须准确，否则会降低泛化性能；这需要充分可靠的领域知识。

模型假设：比如高斯混合模型、混合专家模型、朴素贝叶斯模型。

学习到：最终得到样本的概率（当然也看假设的模型是什么）。

半监督SVM

半监督支持向量机（semi-supervised support vector machine，简称为S3VM）。

在不考虑标记样本时，SVM试图找到最大间隔划分的超平面，而考虑未标记样本后，S3VM试图找到的，是能够将两类有标记样本分开，同时要穿过数据低密度区域的超平面。（之所以要穿过低密度区，是因为存在未标记样本，有一些聚类的思想）

半监督学习