先理清幾個概念:

TP:True Positive 真陽性:預測為正,實際為正

FP:False Positive 假陽性:預測為正,實際為負

FN:False Negative 假陰性:預測與負,實際為正

TN:True Negative 真陰性:預測為負,實際為負。

這些年用來做評估的指標:

「#」 表示 the number of

準確度 accuracy:正確的個數 / 總個數,結果中有多少結果是正確的。

由於我們並不知道,數據中到底有多少不符合我們評選標準的數據,所以單純的準確度一本沒有太大的殘奧價值。

精確度 precision:#true positive / # positive out,輸出為「正確」的結果中有多少結果是真實正確的

可以看作是,這麼演算法/模型的正確率有多少

召回率 recall:#true positive / # golden set,真實正確的結果中有多少個被找到了

* golden set 金標準數據集,可以默認是真實結果。看模型的預測覆蓋程度。

precision和recall 兩者之間有時候會相互呈負相關關係,嚴格篩選標準的時候,精確度提高了但是召回率卻降低了。所以有了 F1-score(又稱F1-measure)來綜合計算兩者。

F1 = 2(precision * recall)/(precision + recall)

敏感性 sensitivity = recall = ture positive rate,真陽性率TPR = TP/(TP +FN)

可以看作是對判斷的敏感程度(識別能力),敏感性越高,漏檢率越低。

特異性 specificity = 1 - false positive rate,真陰性率 FPR=FP/(FP+TN)

指被判斷為T或F的兩類數據的差異度,機器通過這些差異度來避免誤判,特異性越高,說明正確率越高

準確度(ACC)

ACC = (TP + TN) / (P + N) , 猜對的個數/總個數

假髮現率 (FDR)

FDR = FP / (FP + TP)

ROC曲線 (receiver operating characteristic curve,又稱為感受性曲線sensitivity curve),是反映sensitivity敏感性和specificity特異性連續變數的綜合指標。一般以sensitivity(即TPR)為縱坐標,(1-specificity)(即FPR)為橫坐標。在ROC曲線圖上,曲線下面積稱為AUC(area under curve)。AUC越大,預測/診斷/分類器準確性越高,在ROC曲線上,曲線越靠近左上角(TPR ≈1,FPR ≈0) 表示性能/結果越好

AUC值為ROC曲線下所覆蓋的區域面積,顯然,AUC越大,分類器分類效果越好。

AUC = 1,是完美分類器,採用這個預測模型時,不管設定什麼閾值都能得出完美預測。絕大多數預測的場合,不存在完美分類器。

0.5 < AUC < 1,優於隨機猜測。這個分類器(模型)妥善設定閾值的話,能有預測價值。

AUC = 0.5,跟隨機猜測一樣(例:丟銅板),模型沒有預測價值。

AUC < 0.5,比隨機猜測還差;但只要總是反預測而行,就優於隨機猜測。

相對應ROC曲線,還有一個PR curve,以precision 為縱軸,recall 為橫軸,同樣有AUC,曲線越靠近右上角越好。


推薦閱讀:
查看原文 >>
相关文章