半監督學習

主動學習

用已標記樣本訓練出一個模型，用模型對未標記樣本進行預測，選出對改善性能有幫助（比如選出那些不太確定的未標記樣本）的樣本，向專家徵求最終標記的意見，並將專家意見作為標記，將該樣本加入訓練集得出新模型，不斷重複這個工作。

關鍵：外界因素，即專家經驗；

讓學習器不依賴外界交互、自動地利用未標記樣本提升學習性能，就是半監督學習；當然也可以用這種方法給金融樣本打標籤，進行拒絕推斷。

純半監督學習，其實就是充分利用已標記樣本與未標記樣本，得到一個模型，具有相當好的預測性；而直推學習，其實就是利用已知與未知標記樣本建模，最終得到未標記樣本的標籤的預測。前者是得到了高泛化能力的模型，後者是得到未知標記樣本的最優預測；其實可以看做是一回事。

通常需要做出一些假設，即未標記樣本的數據分佈信息與已標記樣本直接相聯繫。

生成式方法(generative methods)

假設所有的數據，不論標記與否都由同一個潛在的模型生成的；而未標記數據的標記看作是潛在模型的缺失參數。使用EM演算法（專門求解含有隱變數的參數解問題）進行求解，相當於潛在模型的缺失參數是隱變數，模型的假設不同，方法不同。

這種方法在有標記數據極少的情形下往往比其他方法性能更好。

關鍵：模型假設必須準確，否則會降低泛化性能；這需要充分可靠的領域知識。

模型假設：比如高斯混合模型、混合專家模型、樸素貝葉斯模型。

學習到：最終得到樣本的概率（當然也看假設的模型是什麼）。

半監督SVM

半監督支持向量機（semi-supervised support vector machine，簡稱為S3VM）。

在不考慮標記樣本時，SVM試圖找到最大間隔劃分的超平面，而考慮未標記樣本後，S3VM試圖找到的，是能夠將兩類有標記樣本分開，同時要穿過數據低密度區域的超平面。（之所以要穿過低密度區，是因為存在未標記樣本，有一些聚類的思想）

半監督學習