0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

模型任務(wù)的評(píng)價(jià)指標(biāo)體系

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:AI算法小喵 ? 2023-01-11 10:10 ? 次閱讀

1. 寫(xiě)在前面

模型“好”與“壞”的評(píng)價(jià)指標(biāo)直接由業(yè)務(wù)目標(biāo)/任務(wù)需求決定。我們需要做的是:根據(jù)具體的業(yè)務(wù)目標(biāo)/任務(wù)需求去選擇相應(yīng)的評(píng)價(jià)指標(biāo),繼而選出符合業(yè)務(wù)目標(biāo)/任務(wù)需求的好模型。在此之前,我們需要全面了解一個(gè)任務(wù)的評(píng)價(jià)指標(biāo)體系。

在二分類任務(wù)評(píng)價(jià)指標(biāo)(上)中,我們已經(jīng)學(xué)習(xí)了如何利用混淆矩陣來(lái)計(jì)算二分類的精度、錯(cuò)誤率指標(biāo)。今天,我們繼續(xù)來(lái)學(xué)習(xí)二分類任務(wù)的其他評(píng)價(jià)指標(biāo)。

2. 查準(zhǔn)率、查全率

2.1 精度、錯(cuò)誤率指標(biāo)的局限

acc(精度、準(zhǔn)確率)、error_rate(錯(cuò)誤率)是分類任務(wù)中最常用的性能評(píng)價(jià)指標(biāo),多數(shù)情況下使用精度、錯(cuò)誤率是合適的選擇。比如,在「好瓜壞瓜」的西瓜問(wèn)題中,如果我們關(guān)心的僅是“有多少西瓜被判別正確或錯(cuò)誤”,那么精度和錯(cuò)誤率就很適合。

但是,如果我們關(guān)心的是“被我們判別為好瓜的西瓜中有多少比例是真正的好瓜”或“所有真正的好瓜中有多少比例的西瓜被我們判斷為好瓜”時(shí),精度和錯(cuò)誤率就不適合了。

再比如,在工業(yè)生產(chǎn)的「機(jī)器故障」預(yù)測(cè)應(yīng)用中,業(yè)務(wù)目標(biāo)是希望模型能將機(jī)器所有發(fā)生故障的時(shí)間預(yù)測(cè)出來(lái),顯然精度指標(biāo)并不適合這樣的場(chǎng)景。為什么呢?

首先,我們知道精度衡量的是分類正確的樣本數(shù)占總樣本數(shù)的比例,然而通常來(lái)說(shuō)機(jī)器發(fā)生故障的次數(shù)是比較少的(比如只有2%的時(shí)間發(fā)生故障)。那么,即便每次機(jī)器發(fā)生故障時(shí)模型都預(yù)測(cè)錯(cuò)誤,它的精度也可高達(dá)到98%。這樣一個(gè)模型完全就是一個(gè)擺設(shè),在實(shí)際生產(chǎn)中毫無(wú)用處。

2.2 查準(zhǔn)率、查全率

在上面精度、錯(cuò)誤率不適用的場(chǎng)景中,查準(zhǔn)率(精確率,Precision,P)和查全率(召回率,recall,R)是更適合的模型評(píng)價(jià)指標(biāo)。

2.2.1 查準(zhǔn)率、查全率指標(biāo)定義

我們還是利用混淆矩陣來(lái)計(jì)算二分類任務(wù)的查準(zhǔn)率和查全率。

真實(shí)類別 預(yù)測(cè)類別
正例 負(fù)例
正例 TP(真正例) FN(假負(fù)例)
負(fù)例 FP(假正例) TN(真負(fù)例)

假設(shè)我們有如上混淆矩陣,那么查準(zhǔn)率的定義如下:

即查準(zhǔn)率是預(yù)測(cè)正確的正例(TP)占所有預(yù)測(cè)為正例的樣本(TP+FP)的比例。

查全率定義如下:

即查全率是預(yù)測(cè)正確的正例(TP)占總正例(TP+FN)的比例。

2.2.2 查準(zhǔn)率、查全率含義

在「好瓜壞瓜」西瓜問(wèn)題中:

查準(zhǔn)率:衡量了“被判別為好瓜的西瓜中有多少比例是真正的好瓜” ;

查全率:衡量了“所有真正的好瓜中有多少比例被判斷為好瓜” ;

在「機(jī)器故障預(yù)測(cè)」問(wèn)題中:

查準(zhǔn)率:衡量了“被預(yù)測(cè)發(fā)生故障的時(shí)間中有多少比例確實(shí)發(fā)生了故障” ;

查全率:衡量了“機(jī)器發(fā)生故障的所有時(shí)間中有多少比例被預(yù)測(cè)出來(lái)了” ;

類似的,在「信息檢索/web搜索」中:

查準(zhǔn)率:衡量了“檢索出的信息中有多少比例是用戶真正感興趣的”

查全率:衡量了“用戶感興趣的信息中有多少比例被檢索出來(lái)了”

在「垃圾郵件檢測(cè)」中:

查準(zhǔn)率:衡量了“被預(yù)測(cè)為垃圾郵件的所有郵件中有多少比例的確是垃圾郵件”

查全率:衡量了“所有垃圾郵件中有多少比例被檢測(cè)出來(lái)了”

在「詐騙電話檢測(cè)」中:

查準(zhǔn)率:衡量了“被預(yù)測(cè)為詐騙電話的來(lái)電中有多少比例是詐騙電話”

查全率:衡量了“所有詐騙電話中有多少比例被檢測(cè)出來(lái)了”

2.2.3 查準(zhǔn)率、查全率的矛盾

我們當(dāng)然希望模型不僅有高查準(zhǔn)率,也有高查全率。但事實(shí)上,查準(zhǔn)率與查全率通常情況下是相互矛盾的,或者說(shuō)查準(zhǔn)率、查全率是一對(duì)相互矛盾的指標(biāo)。

知乎上有個(gè)例子可以幫助我們直觀地理解這個(gè)“矛盾性”。假設(shè)我們的模型是找到人群中隱藏的壞人,那么:

看重查全率: “寧可錯(cuò)殺一千,不可漏過(guò)一個(gè)”。

看重查準(zhǔn)率: “寧可漏過(guò)壞人,不可錯(cuò)殺無(wú)辜的好人”。

更具體地,比如在「好瓜壞瓜」西瓜問(wèn)題中,假設(shè)“好瓜”和“壞瓜”并沒(méi)有那么容易區(qū)分(復(fù)雜問(wèn)題),這時(shí)要想獲得高查全率,就需要降低篩選標(biāo)準(zhǔn),極端一點(diǎn)我們將所有西瓜都預(yù)測(cè)為好瓜,那么查全率就是100%,但是查準(zhǔn)率就很低;而要想獲得高查準(zhǔn)率,就需要提高篩選標(biāo)準(zhǔn),極端一點(diǎn)我們只將一個(gè)最有把握的西瓜預(yù)測(cè)為好瓜,并且預(yù)測(cè)準(zhǔn)確了,那么查準(zhǔn)率就是100%,但是查全率就很低。

3.

既然查準(zhǔn)率、查全率是一對(duì)相互矛盾的指標(biāo),我們就需要明確在不同的業(yè)務(wù)目標(biāo)/任務(wù)需求中到底是希望查準(zhǔn)率比較高還是查全率比較高。

3.1

當(dāng)然,在二分類任務(wù)中,我們也有綜合考慮了查準(zhǔn)率和查全率的評(píng)價(jià)指標(biāo) F-Mesure(F-Score, ),它的定義如下:

其中 ()可視為權(quán)重參數(shù),它度量了查準(zhǔn)率和查全率的相對(duì)重要性。換句話說(shuō)是查準(zhǔn)率和查全率的加權(quán)調(diào)和平均。

由上式 的倒數(shù)的定義可知,當(dāng) 時(shí),相當(dāng)于查全率被放大了,所以查全率有更大的影響;當(dāng) 時(shí),相當(dāng)于查全率被縮小了,所以準(zhǔn)率有更大的影響。

也就是說(shuō):

:更看重查全率指標(biāo)。

:更看重查準(zhǔn)率指標(biāo)。

3.2 F1

在 中,當(dāng) 時(shí),也退化成了我們常見(jiàn)的 指標(biāo):

顯然,根據(jù)下面的等價(jià)形式,可以知道在F1指標(biāo)中,查準(zhǔn)率和查全率同樣重要:

編輯:何安

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 矩陣
    +關(guān)注

    關(guān)注

    0

    文章

    417

    瀏覽量

    34413
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3032

    瀏覽量

    48348

原文標(biāo)題:、

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    什么是數(shù)據(jù)指標(biāo)體系?如何設(shè)計(jì)指標(biāo)體系

    什么是數(shù)據(jù)指標(biāo)體系?為什么需要指標(biāo)體系?如何設(shè)計(jì)指標(biāo)體系?什么是數(shù)據(jù)分析?
    發(fā)表于 07-02 06:51

    什么是數(shù)據(jù)指標(biāo)體系?如何設(shè)計(jì)指標(biāo)體系

    什么是數(shù)據(jù)指標(biāo)體系?為什么需要指標(biāo)體系?如何去設(shè)計(jì)指標(biāo)體系?
    發(fā)表于 09-10 07:27

    AHP法在城市政府管理評(píng)估指標(biāo)體系中的應(yīng)用

    城市政府管理評(píng)估指標(biāo)體系對(duì)城市的定位、發(fā)展水平和發(fā)展方向至關(guān)重要,但是,目前國(guó)際上還沒(méi)有一套現(xiàn)成的評(píng)估指標(biāo)體系。該文引入AHP法,在眾多的城市政府管理評(píng)估指標(biāo)
    發(fā)表于 12-13 02:08 ?6次下載

    信息系統(tǒng)可生存性定量評(píng)估的指標(biāo)體系

    從內(nèi)容、攻擊階段、測(cè)定標(biāo)準(zhǔn)等不同角度綜合分析可生存性指標(biāo),提出一種能系統(tǒng)地反映可生存性的指標(biāo)體系,給出其形式化描述和數(shù)學(xué)模型。分析與驗(yàn)證結(jié)果表明,該指標(biāo)體系
    發(fā)表于 03-28 09:18 ?13次下載

    供需鏈仿真系統(tǒng)功能評(píng)價(jià)體系分析

    針對(duì)供需鏈仿真系統(tǒng)的需求分析與設(shè)計(jì)問(wèn)題,在綜述國(guó)內(nèi)外供需鏈仿真系統(tǒng)功能現(xiàn)狀的基礎(chǔ)上,給出評(píng)價(jià)系統(tǒng)性能的指標(biāo)體系,基于該套評(píng)價(jià)方法對(duì)現(xiàn)有主流供需鏈仿真系統(tǒng)的功能
    發(fā)表于 04-09 09:03 ?13次下載

    預(yù)警指標(biāo)體系的本體建模及其應(yīng)用

    借鑒多目標(biāo)決策樹(shù)中規(guī)范化的思想,提出將一般指標(biāo)體系結(jié)構(gòu)規(guī)范化為由一個(gè)根節(jié)點(diǎn)和若干葉子節(jié)點(diǎn)構(gòu)成的2層多叉樹(shù)。根據(jù)領(lǐng)域本體的建模方法論,建立基于描述邏輯的指標(biāo)體系
    發(fā)表于 04-11 09:59 ?16次下載

    知識(shí)型員工任務(wù)評(píng)價(jià)信息系統(tǒng)的指標(biāo)模型

    為解決企業(yè)人才評(píng)價(jià)和成長(zhǎng)問(wèn)題,以B/S模式構(gòu)建企業(yè)任務(wù)分派、評(píng)價(jià)及分析網(wǎng)絡(luò)信息系統(tǒng)。針對(duì)企業(yè)知識(shí)型員工的任務(wù)和創(chuàng)新業(yè)績(jī)管理構(gòu)建較為實(shí)用的評(píng)價(jià)
    發(fā)表于 04-11 10:05 ?24次下載

    公共部門(mén)績(jī)效評(píng)價(jià)軟件的指標(biāo)適應(yīng)性技術(shù)

    構(gòu)建績(jī)效評(píng)價(jià)指標(biāo)體系是公共部門(mén)績(jī)效評(píng)價(jià)的基礎(chǔ)工程之一,進(jìn)行績(jī)效評(píng)價(jià)前需要確立能適應(yīng)政府公共部門(mén)所處歷史時(shí)期和外部環(huán)境的績(jī)效評(píng)價(jià)
    發(fā)表于 04-14 09:14 ?7次下載

    基于標(biāo)準(zhǔn)的系統(tǒng)安全測(cè)試指標(biāo)體系的研究

    本文從操作系統(tǒng)的安全功能出發(fā),結(jié)合CC 標(biāo)準(zhǔn)的測(cè)評(píng)原理,按照威脅、安全目的、系統(tǒng)安全功能組件和具體指標(biāo)的順序,提出一套系統(tǒng)安全測(cè)試的全面的指標(biāo)體系,該指標(biāo)可根據(jù)需
    發(fā)表于 08-07 14:55 ?13次下載

    模糊理論與層次分析法的網(wǎng)絡(luò)學(xué)習(xí)評(píng)價(jià)

    為了更有效地評(píng)價(jià)網(wǎng)絡(luò)學(xué)習(xí)的效果,設(shè)計(jì)了一種基于層次結(jié)構(gòu)的網(wǎng)絡(luò)學(xué)習(xí)評(píng)價(jià)模型,根據(jù)模型建立了網(wǎng)絡(luò)學(xué)習(xí)評(píng)價(jià)指標(biāo)
    發(fā)表于 03-07 15:03 ?0次下載
    模糊理論與層次分析法的網(wǎng)絡(luò)學(xué)習(xí)<b class='flag-5'>評(píng)價(jià)</b>

    機(jī)械行業(yè)清潔生產(chǎn)評(píng)價(jià)指標(biāo)體系

    為了貫徹落實(shí)《中華人民共和國(guó)清潔生產(chǎn)促進(jìn)法》,指導(dǎo)和推動(dòng)機(jī)械行業(yè)企業(yè)依法實(shí)施清潔生產(chǎn),提高資源利用率,減少或避免污染物的產(chǎn)生,保護(hù)和改善環(huán)境,制定機(jī)械行業(yè)清潔生產(chǎn)評(píng)價(jià)指標(biāo)體系(試行)(以下簡(jiǎn)稱指標(biāo)體系)。 本
    發(fā)表于 03-16 15:19 ?36次下載

    網(wǎng)絡(luò)安全態(tài)勢(shì)要素指標(biāo)體系研究

    針對(duì)網(wǎng)絡(luò)安全態(tài)勢(shì)評(píng)估指標(biāo)體系的不完善和難以選取及構(gòu)建等問(wèn)題,以相關(guān)標(biāo)準(zhǔn)和規(guī)范為基礎(chǔ),從系統(tǒng)安全機(jī)制出發(fā),按照既定原則,提出一種網(wǎng)絡(luò)安全態(tài)勢(shì)要素指標(biāo)體系構(gòu)建方法,并
    發(fā)表于 07-06 16:55 ?33次下載

    指標(biāo)評(píng)價(jià)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

    針對(duì)具有不確定性的混合多指標(biāo)評(píng)價(jià)問(wèn)題,介紹了定性指標(biāo)和定量指標(biāo)的數(shù)據(jù)提取方法,結(jié)合證據(jù)推理法的基本理論,采用混合編程技術(shù),開(kāi)發(fā)了證據(jù)推理評(píng)價(jià)
    發(fā)表于 11-29 11:29 ?2次下載
    多<b class='flag-5'>指標(biāo)</b><b class='flag-5'>評(píng)價(jià)</b>系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

    基于數(shù)據(jù)挖掘的油藏經(jīng)營(yíng)指標(biāo)分析

    本文針對(duì)高效經(jīng)營(yíng)未開(kāi)發(fā)低品位油藏是我國(guó)石油行業(yè)即將面臨的迫切任務(wù)情況,綜合使用油藏經(jīng)營(yíng)思想、經(jīng)濟(jì)評(píng)價(jià)的分析方法和多種數(shù)據(jù)挖掘方法,提出了建立未開(kāi)發(fā)低品位不同油藏經(jīng)營(yíng)效益評(píng)價(jià)指標(biāo)體系
    發(fā)表于 01-03 16:45 ?0次下載

    指標(biāo)、建聯(lián)系、建用法,指標(biāo)體系就這樣做!

    進(jìn)而,體系的缺位會(huì)導(dǎo)致組織的“數(shù)據(jù)指南針”失效。越是在大型組織當(dāng)中,指標(biāo)體系越為重要,因?yàn)闆Q策者離一線業(yè)務(wù)較遠(yuǎn);公司的業(yè)務(wù)虛擬屬性越強(qiáng),指標(biāo)體系越為重要,因?yàn)楣九c客戶的距離較遠(yuǎn)。
    的頭像 發(fā)表于 02-06 16:45 ?615次閱讀