0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

分類問(wèn)題統(tǒng)計(jì)指標(biāo)入門(mén):混淆矩陣、召回、誤檢率、AUROC

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李建兵 ? 2018-03-17 10:37 ? 次閱讀

縮寫(xiě)

AUC曲線下面積(Area Under the Curve)

AUROC接受者操作特征曲線下面積(Area Under the Receiver Operating Characteristic curve)

大多數(shù)時(shí)候,AUC都是指AUROC,這是一個(gè)不好地做法,正如Marc Claesen指出的那樣,AUC有歧義(可能是任何曲線),而AUROC沒(méi)有歧義。

AUROC解釋

AUROC有一些等價(jià)的解釋:

均勻抽取的隨機(jī)陽(yáng)性樣本排名在均勻抽取的隨機(jī)陰性樣本之前的期望

陽(yáng)性樣本排名在均勻抽取的隨機(jī)陰性樣本之前的期望比例

若排名在一個(gè)隨機(jī)抽取的隨機(jī)陰性樣本前分割,期望的真陽(yáng)性率

陰性樣本排名在均勻抽取的隨機(jī)陽(yáng)性樣本之后和期望比例

若排名在一個(gè)均勻抽取的隨機(jī)陽(yáng)性樣本后分割,期望的假陽(yáng)性率

更多閱讀:如何推導(dǎo)AUROC的概率解釋(https://stats.stackexchange.com/questions/180638/how-to-derive-the-probabilistic-interpretation-of-the-auc/277721#277721)

AUROC計(jì)算

假設(shè)我們有一個(gè)概率二元分類器,比如邏輯回歸。

在討論ROC曲線(接受者操作特征曲線)之前,我們需要理解混淆矩陣(confusion matrix)的概念。一個(gè)二元預(yù)測(cè)可能有4個(gè)結(jié)果:

我們預(yù)測(cè)0,而真實(shí)類別是0:這被稱為真陰性(True Negative),即,我們正確預(yù)測(cè)類別為陰性(0)。比如,殺毒軟件沒(méi)有將一個(gè)無(wú)害的文件識(shí)別為病毒。

我們預(yù)測(cè)0,而真實(shí)類別是1:這被稱為假陰性(False Negative),即,我們錯(cuò)誤預(yù)測(cè)類別為陰性(0)。比如,殺毒軟件沒(méi)有識(shí)別出一個(gè)病毒。

我們預(yù)測(cè)1,而真實(shí)類別是0:這被稱為假陽(yáng)性(False Positive),即,我們錯(cuò)誤預(yù)測(cè)類別為陽(yáng)性(1)。比如,殺毒軟件將一個(gè)無(wú)害的文件識(shí)別為病毒。

我們預(yù)測(cè)1,而真實(shí)類別是1:這被稱為真陽(yáng)性(True Positive),即,我們正確預(yù)測(cè)類別為陽(yáng)性(1)。比如,殺毒軟件正確地識(shí)別出一個(gè)病毒。

我們統(tǒng)計(jì)模型做出的預(yù)測(cè),數(shù)一下這四種結(jié)果各自出現(xiàn)了多少次,可以得到混淆矩陣:

在上面的混淆矩陣示例中,在分類的50個(gè)數(shù)據(jù)點(diǎn)中,45個(gè)分類正確,5個(gè)分類錯(cuò)誤。

當(dāng)比較兩個(gè)不同模型的時(shí)候,使用單一指標(biāo)常常比使用多個(gè)指標(biāo)更方便,下面我們基于混淆矩陣計(jì)算兩個(gè)指標(biāo),之后我們會(huì)將這兩個(gè)指標(biāo)組合成一個(gè):

真陽(yáng)性率(TPR),即,靈敏度、命中率、召回,定義為T(mén)P/(TP+FN)。從直覺(jué)上說(shuō),這一指標(biāo)對(duì)應(yīng)被正確識(shí)別為陽(yáng)性的陽(yáng)性數(shù)據(jù)點(diǎn)占所有陽(yáng)性數(shù)據(jù)點(diǎn)的比例。換句話說(shuō),TPR越高,我們遺漏的陽(yáng)性數(shù)據(jù)點(diǎn)就越少。

假陽(yáng)性率(FPR),即,誤檢率,定義為FP/(FP+TN)。從直覺(jué)上說(shuō),這一指標(biāo)對(duì)應(yīng)被誤認(rèn)為陽(yáng)性的陰性數(shù)據(jù)點(diǎn)占所有陰性數(shù)據(jù)點(diǎn)的比例。換句話說(shuō),F(xiàn)PR越高,我們錯(cuò)誤分類的陰性數(shù)據(jù)點(diǎn)就越多。

為了將FPR和TPR組合成一個(gè)指標(biāo),我們首先基于不同的閾值(例如:0.00; 0.01, 0.02, …, 1.00)計(jì)算前兩個(gè)指標(biāo)的邏輯回歸,接著將它們繪制為一個(gè)圖像,其中FPR值為橫軸,TPR值為縱軸。得到的曲線為ROC曲線,我們考慮的指標(biāo)是該曲線的AUC,稱為AUROC。

下圖展示了AUROC的圖像:

在上圖中,藍(lán)色區(qū)域?qū)?yīng)接受者操作特征曲線(AUROC)。對(duì)角虛線為隨機(jī)預(yù)測(cè)器的ROC曲線:AUROC為0.5. 隨機(jī)預(yù)測(cè)器通常用作基線,以檢驗(yàn)?zāi)P褪欠裼杏谩?/p>

如果你希望得到一些第一手的經(jīng)驗(yàn):

Python:http://scikit-learn.org/stable/auto_examples/model_selection/plot_roc.html

MATLAB:http://www.mathworks.com/help/stats/perfcurve.html

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 矩陣
    +關(guān)注

    關(guān)注

    0

    文章

    417

    瀏覽量

    34413

原文標(biāo)題:分類問(wèn)題統(tǒng)計(jì)指標(biāo)入門(mén):混淆矩陣、召回、誤檢率、AUROC

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    什么是誤碼率和符號(hào) ?

    什么是誤碼率和符號(hào) ?它們用于衡量系統(tǒng)可靠性。誤碼率或比特(BER:bit error ratio)是指在經(jīng)過(guò)系統(tǒng)傳輸后,送給用戶的接收碼流中發(fā)生錯(cuò)誤的比特?cái)?shù)占信源發(fā)送的原始碼
    發(fā)表于 05-30 15:52

    電能質(zhì)量指標(biāo)運(yùn)行合格的標(biāo)準(zhǔn)

    以及用戶用電特性等因素,各項(xiàng)電能質(zhì)量指標(biāo)運(yùn)行合格標(biāo)準(zhǔn)為:(1)連續(xù)運(yùn)行統(tǒng)計(jì)期(年、季、月)內(nèi)電網(wǎng)頻率合格應(yīng)不低于99.5%(2)連續(xù)運(yùn)行統(tǒng)計(jì)
    發(fā)表于 10-22 16:34

    誰(shuí)有關(guān)于 memory用LDPC 的校矩陣

    請(qǐng)問(wèn)哪位好心人有 關(guān)于 memory用LDPC 的校矩陣,可以給一個(gè)嗎 或者 code rate 是15/16的 校矩陣?。。?!
    發(fā)表于 10-11 19:17

    使用單值評(píng)估指標(biāo)進(jìn)行優(yōu)化

    ,又譯作召回)的組合并不能作為單值評(píng)估指標(biāo),因?yàn)樗o出了兩個(gè)值來(lái)對(duì)你的分類器進(jìn)行評(píng)估。3多值評(píng)估指標(biāo)提高了在算法之間進(jìn)行優(yōu)劣比較的難度,假
    發(fā)表于 12-12 11:33

    清洗標(biāo)注的開(kāi)發(fā)集和測(cè)試集樣本

    ,則有可能在評(píng)估中引入偏差。假設(shè)你有 1000 個(gè)開(kāi)發(fā)集樣本,同時(shí)分類準(zhǔn)確為 98%,那么檢查20 個(gè)分類的樣本會(huì)比檢查 980 個(gè)正確分類
    發(fā)表于 12-19 09:48

    BPSK調(diào)制通信系統(tǒng)的比特仿真

    clc a=round(rand(1,1000))%生成消息碼f=2;%假設(shè)載波頻率為2for SNR=0:15%給出信噪比范圍,求比特 cp=[];%存儲(chǔ)BPSK映射后的消息序列 sigma
    發(fā)表于 10-15 15:47

    系統(tǒng)符號(hào)的變化(G)

    系統(tǒng)符號(hào)的變化(G):Model {  Name     "ofdm_gito"  Version   
    發(fā)表于 02-08 14:46 ?0次下載

    分類器的分類性能評(píng)價(jià)指標(biāo)

    通過(guò)具體應(yīng)用實(shí)例,指出目前普遍使用的正確和錯(cuò)誤評(píng)價(jià)指標(biāo)在不平衡數(shù)據(jù)集、語(yǔ)義相關(guān)多分、不同錯(cuò)分代價(jià)等分類問(wèn)題中評(píng)價(jià)分類器性能時(shí)存在的缺陷。
    發(fā)表于 05-03 16:51 ?0次下載

    機(jī)器學(xué)習(xí)實(shí)用指南——準(zhǔn)確召回

    受試者工作特征(ROC)曲線是另一個(gè)二分類器常用的工具。它非常類似與準(zhǔn)確/召回曲線,但不是畫(huà)出準(zhǔn)確對(duì)
    的頭像 發(fā)表于 06-19 15:20 ?2.1w次閱讀
    機(jī)器學(xué)習(xí)實(shí)用指南——準(zhǔn)確<b class='flag-5'>率</b>與<b class='flag-5'>召回</b><b class='flag-5'>率</b>

    AI垃圾分類的準(zhǔn)確召回達(dá)到99%

    這套邏輯和人類用眼睛、大腦、手臂工作的邏輯差不多,而且效率也足夠了。以塑料瓶為例,AI垃圾分類的準(zhǔn)確召回達(dá)到99%,單張圖片的識(shí)別時(shí)間不到半秒鐘。
    的頭像 發(fā)表于 06-16 15:10 ?3135次閱讀

    一文搞懂深度學(xué)習(xí)的精密召回

    這里,我們將討論兩個(gè)重要的度量指標(biāo),即精度和召回,它們被用于度量分類模型(即分類器)的性能。特別地,我們將討論如何用這兩個(gè)
    的頭像 發(fā)表于 07-06 09:54 ?4432次閱讀
    一文搞懂深度學(xué)習(xí)的精密<b class='flag-5'>率</b>和<b class='flag-5'>召回</b><b class='flag-5'>率</b>

    CCD視覺(jué)檢測(cè)外觀缺陷,漏檢如何評(píng)估

    CCD視覺(jué)檢測(cè)外觀缺陷,漏檢該怎么評(píng)估 機(jī)器視覺(jué)篩選機(jī)做缺陷檢測(cè)的用戶都希望篩選機(jī)設(shè)備的
    發(fā)表于 07-07 17:34 ?6450次閱讀

    如何識(shí)別指紋鎖的拒絕識(shí)別

    如何識(shí)別指紋鎖的拒收率和錯(cuò)誤識(shí)別? 指紋鎖是電子元件和機(jī)械部件的精確組合。安全、方便、時(shí)尚。指紋鎖的拒識(shí)識(shí)無(wú)疑是指紋鎖的重要指標(biāo)
    發(fā)表于 02-28 17:08 ?1144次閱讀

    矩陣鍵盤(pán)-單片機(jī)入門(mén)課件

    矩陣鍵盤(pán)-單片機(jī)入門(mén)課件
    發(fā)表于 03-18 11:12 ?0次下載

    模型任務(wù)的評(píng)價(jià)指標(biāo)體系

    全面了解一個(gè)任務(wù)的評(píng)價(jià)指標(biāo)體系。 在二分類任務(wù)評(píng)價(jià)指標(biāo)(上)中,我們已經(jīng)學(xué)習(xí)了如何利用混淆矩陣來(lái)計(jì)算二
    的頭像 發(fā)表于 01-11 10:10 ?752次閱讀