一、ROC曲線的含義
ROC曲線的英文名稱為Receiver Operating Characteristic Curve,中文譯為受試者工作特征曲線。
ROC曲線是基于混淆矩陣發(fā)展而來的系統(tǒng)識別的性能度量。如表一所示,在混淆矩陣中,若系統(tǒng)的TP增加,則該系統(tǒng)FP增加,即若開發(fā)人員欲使機器學(xué)習(xí)系統(tǒng)將更多的正樣本識別為正樣本(TP增加),則該系統(tǒng)一定會將更多的負樣本識別為正樣本(FP增加)。
預(yù)測 | |||
實際 | 正樣本 | 負樣本 | |
正樣本 | True Positive(TP) | False Negative(FN) | |
負樣本 | False Positive(FP) | True Negative(TN) |
表一,內(nèi)容來源:中國慕課大學(xué)《機器學(xué)習(xí)概論》
對于支持向量機學(xué)習(xí)系統(tǒng),“若系統(tǒng)的TP增加,則該系統(tǒng)FP增加”的結(jié)論可基于支持向量機的判別公式理解。
支持向量機的判別公式為: 若∑αiyiK(Xi,X)+b≥0,則y=+1(判別為正樣本); 若∑αiyiK(Xi,X)+b<0,則y=-1(判別為負樣本)。
若將上述支持向量機的判別公式的閾值從“0”更改至“-1”為: 若∑αiyiK(Xi,X)+b≥-1,則y=+1(判別為正樣本); 若∑αiyiK(Xi,X)+b<-1,則y=-1(判別為負樣本)。
則不僅正樣本被判別為正樣本的數(shù)量增加,負樣本被判別為正樣本的數(shù)量也增加,即此機器向量機系統(tǒng)的TP和FP均增加。
因此,雖然支持向量機可通過改變判別式閾值增加TP,但此種方法也將導(dǎo)致FP增加,即簡單改變判別式閾值不能有效提高系統(tǒng)的性能??捎行岣呦到y(tǒng)性能的方式是設(shè)計更優(yōu)的算法。
基于此,人們可通過系統(tǒng)TP與FP之間的關(guān)系,即繪制TP與FP曲線(ROC曲線)判別系統(tǒng)性性能的優(yōu)劣。
二、ROC曲線的繪制
圖一中的四條曲線均為ROC曲線,ROC曲線的橫坐標為FP,縱坐標為TP。
ROC曲線的繪制步驟如下:
(1)將每個測試樣本的值帶入至∑αiyiK(Xi,X)+b中計算;
(2)將第(1)步所計算出的值從小到大排序;
(3)將第(2)步完成排序的值作為判別式的閾值,并計算每個閾值下的TP和FP的值;
(4)將同一閾值下TP和FP的值作為一個點的縱坐標和橫坐標,將所有點繪制于坐標系中,所有點連接繪制的曲線即為ROC曲線。
圖一,圖片來源:中國慕課大學(xué)《機器學(xué)習(xí)概論》
三、通過ROC曲線判別系統(tǒng)性能的方式
如圖一所示,坐標系中包含四種算法的ROC曲線。根據(jù)圖一ROC曲線,此四種算法中,藍色ROC曲線所對應(yīng)的算法最優(yōu),紫色ROC曲線所對應(yīng)的算法最差,即越貼近左上角的ROC曲線性能越好。
該結(jié)論可通過以下方式理解:對于相同的FP,ROC曲線越貼近左上角,所對應(yīng)的算法的TP越大,即算法性能越好。
根據(jù)ROC曲線可衍生出系統(tǒng)識別的性能度量包括:AUC(AREA UNDER CURVE)和EER(EQUAL ERROR RATE)
(1)AUC AUC是指ROC曲線下方的面積,該指標越大,系統(tǒng)性能越好。
圖片來源:中國慕課大學(xué)《機器學(xué)習(xí)概論》
(2)EER
EER的中文翻譯為等錯誤率,等錯誤率為坐標系中點(0,1)和點(1,0)的連線與ROC曲線交點的橫坐標,EER越小,系統(tǒng)性能越好。
圖片來源:中國慕課大學(xué)《機器學(xué)習(xí)概論》
審核編輯:劉清
-
向量機
+關(guān)注
關(guān)注
0文章
166瀏覽量
20833 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8353瀏覽量
132315
原文標題:機器學(xué)習(xí)相關(guān)介紹(19)——支持向量機(系統(tǒng)識別的性能度量之ROC曲線)
文章出處:【微信號:行業(yè)學(xué)習(xí)與研究,微信公眾號:行業(yè)學(xué)習(xí)與研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論