久久网站免费观看,免费国产a国产片高清网站

作者：努力的孔子

對模型進行評估時，可以選擇很多種指標，但不同的指標可能得到不同的結(jié)果，如何選擇合適的指標，需要取決于任務(wù)需求。

正確率與錯誤率

正確率：正確分類的樣本數(shù)/總樣本數(shù)，accuracy

錯誤率：錯誤分類的樣本數(shù)/總樣本數(shù)，error

正確率+錯誤率=1

這兩種指標最簡單，也最常用

缺點

不一定能反應模型的泛化能力，如類別不均衡問題。

不能滿足所有任務(wù)需求

如有一車西瓜，任務(wù)一：挑出的好瓜中有多少實際是好瓜，任務(wù)二：所有的好瓜有多少被挑出來了，顯然正確率和錯誤率不能解決這個問題。

查準率與查全率

先認識幾個概念

正樣本/正元組：目標元組，感興趣的元組

負樣本/負元組：其他元組

對于二分類問題，模型的預測結(jié)果可以劃分為：真正例 TP、假正例 FP、真負例 TN、假負例 FN,

真正例就是實際為正、預測為正，其他同理

顯然 TP+FP+TN+FN=總樣本數(shù)

混淆矩陣

把上面四種劃分用混淆矩陣來表示

從而得出如下概念

查準率：預測為正里多少實際為正，precision，也叫精度

查全率：實際為正里多少預測為正，recall，也叫召回率

查準率和查全率是一對矛盾的度量。通常來講，查準率高，查全率就低，反之亦然。

例如還是一車西瓜，我希望將所有好瓜盡可能選出來，如果我把所有瓜都選了，那自然所有好瓜都被選了，這就需要所有的瓜被識別為好瓜，此時查準率較低，而召回率是100%，

如果我希望選出的瓜都是好瓜，那就要慎重了，寧可不選，不能錯選，這就需要預測為正就必須是真正例，此時查準率是100%，查全率可能較低。

注意我說的是可能較低，通常如果樣本很好分，比如正的全分到正的，負的全分到負的，那查準率、查全率都是100%，不矛盾。

P-R曲線

既然矛盾，那兩者之間的關(guān)系應該如下圖

這條曲線叫 P-R曲線，即查準率-查全率曲線。

這條曲線怎么畫出來的呢？可以這么理解，假如我用某種方法得到樣本是正例的概率（如用模型對所有樣本進行預測），然后把樣本按概率排序，從高到低

如果模型把第一個預測為正，其余預測為負，此時查準率為1，查全率接近于0，

如果模型把前2個預測為正，其余預測為負，此時查準率稍微降低，查全率稍微增加，

依次...

如果模型把除最后一個外的樣本預測為正，最后一個預測為負，那么查準率很低，查全率很高。

此時我把數(shù)據(jù)順序打亂，畫出來的圖依然一樣，即上圖。

既然查準率和查全率互相矛盾，那用哪個作為評價指標呢？或者說同時用兩個指標怎么評價模型呢？

兩種情形

如果學習器A的P-R曲線能完全“包住”學習器C的P-R曲線，則A的性能優(yōu)于C

如果學習器A的P-R曲線與學習器B的P-R曲線相交，則難以判斷孰優(yōu)孰劣，此時通常的作法是，固定查準率，比較查全率，或者固定查全率，比較查準率。

通常情況下曲線會相交，但是人們?nèi)韵Ｍ褍蓚€學習器比出個高低，一個合理的方式是比較兩條P-R曲線下的面積。

但是這個面積不好計算，于是人們又設(shè)計了一些其他綜合考慮查準率查全率的方式，來替代面積計算。

平衡點：Break-Event Point，簡稱BEP，就是選擇查準率=查全率的點，即上圖，y=x直線與P-R曲線的交點

這種方法比較暴力

F1 與 Fβ 度量

更常用的方法是F1度量

即 F1 是 P 和 R 的調(diào)和平均數(shù)。

與算數(shù)平均數(shù) 和幾何平均數(shù)相比，調(diào)和平均數(shù)更重視較小值。

在一些應用中，對查準率和查全率的重視程度有所不同。

例如商品推薦系統(tǒng)，為了避免騷擾客戶，希望推薦的內(nèi)容都是客戶感興趣的，此時查準率比較重要，

又如資料查詢系統(tǒng)，為了不漏掉有用信息，希望把所有資料都取到，此時查全率比較重要。

此時需要對查準率和查全率進行加權(quán)

即 P 和 R 的加權(quán)調(diào)和平均數(shù)。

β>0，β度量了查全率對查準率的重要性，β=1時即為F1

β>1，查全率更重要，β<1，查準率更重要

多分類的F1

多分類沒有正例負例之說，那么可以轉(zhuǎn)化為多個二分類，即多個混淆矩陣，在這多個混淆矩陣上綜合考慮查準率和查全率，即多分類的F1

方法1

直接在每個混淆矩陣上計算出查準率和查全率，再求平均，這樣得到“宏查準率”，“宏查全率”和“宏F1”

方法2

把混淆矩陣中對應元素相加求平均，即 TP 的平均，TN 的平均，等，再計算查準率、查全率、F1，這樣得到“微查準率”，“微查全率”和“微F1”

ROC 與 AUC

很多學習器是為樣本生成一個概率，然后和設(shè)定閾值進行比較，大于閾值為正例，小于為負例，如邏輯回歸。

而模型的優(yōu)劣取決于兩點：

這個概率的計算準確與否

閾值的設(shè)定

我們把計算出的概率按從大到小排序，然后在某個點劃分開，這個點就是閾值，可以根據(jù)實際任務(wù)需求來確定這個閾值，比如更重視查準率，則閾值設(shè)大點，若更重視查全率，則閾值設(shè)小點，

這里體現(xiàn)了同一模型的優(yōu)化，

不同的模型計算出的概率是不一樣的，也就是說樣本按概率排序時順序不同，那切分時自然可能分到不同的類，

這里體現(xiàn)了不同模型之間的差異，

所以ROC可以用來模型優(yōu)化和模型選擇，理論上講 P-R曲線也可以。

ROC曲線的繪制方法與P-R曲線類似，不再贅述，結(jié)果如下圖

橫坐標為假正例率，縱坐標為真正例率，曲線下的面積叫 AUC

如何評價模型呢？

若學習器A的ROC曲線能包住學習器B的ROC曲線，則A優(yōu)于B

若學習器A的ROC曲線與學習器B的ROC曲線相交，則難以比較孰優(yōu)孰劣，此時可以比較AUC的大小

總結(jié)

模型評估主要考慮兩種場景：類別均衡，類別不均衡

模型評估必須考慮實際任務(wù)需求

P-R 曲線和 ROC曲線可以用于模型選擇

ROC曲線可以用于模型優(yōu)化

參考資料：

周志華《機器學習》

本文由博客一文多發(fā)平臺 OpenWrite 發(fā)布！

審核編輯黃昊宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3032

瀏覽量
48356
機器學習

機器學習

+關(guān)注

關(guān)注
66

文章
8306

瀏覽量
131841
深度學習

深度學習

+關(guān)注

關(guān)注
73

文章
5422

瀏覽量
120590

DRAM的分類、特點及技術(shù)指標

DRAM（Dynamic Random Access Memory），即動態(tài)隨機存取存儲器，是計算機系統(tǒng)中廣泛使用的內(nèi)存類型之一。它以其高速、大容量和相對低成本的特點，在數(shù)據(jù)處理和存儲中發(fā)揮著關(guān)鍵作用。以下將詳細介紹DRAM的分類、特點以及技術(shù)指標。

發(fā)表于 08-20 09:35 ?790次閱讀

利用TensorFlow實現(xiàn)基于深度神經(jīng)網(wǎng)絡(luò)的文本分類模型

要利用TensorFlow實現(xiàn)一個基于深度神經(jīng)網(wǎng)絡(luò)（DNN）的文本分類模型，我們首先需要明確幾個關(guān)鍵步驟：數(shù)據(jù)預處理、模型構(gòu)建、模型訓練、模型

發(fā)表于 07-12 16:39 ?461次閱讀

人臉檢測模型的精確度怎么算

人臉檢測模型的精確度評估是一個復雜的過程，涉及到多個方面的因素。本文將從以下幾個方面進行介紹：人臉檢測模型的基本概念、評估指標、

發(fā)表于 07-04 09:14 ?307次閱讀

神經(jīng)網(wǎng)絡(luò)模型建完了怎么用

： 1.1 交叉驗證交叉驗證是一種常用的評估方法，它將數(shù)據(jù)集分成若干個子集，然后使用其中一個子集作為測試集，其余子集作為訓練集。通過這種方式，可以評估模型在不同數(shù)據(jù)集上的性能。 1.2 混淆矩陣混淆矩陣是一種

發(fā)表于 07-02 11:23 ?494次閱讀

深度學習模型訓練過程詳解

深度學習模型訓練是一個復雜且關(guān)鍵的過程，它涉及大量的數(shù)據(jù)、計算資源和精心設(shè)計的算法。訓練一個深度學習模型，本質(zhì)上是通過優(yōu)化算法調(diào)整模型參數(shù)，使模型能夠更好地擬合數(shù)據(jù)，提高預測或

發(fā)表于 07-01 16:13 ?488次閱讀

商湯小浣熊榮獲中國信通院代碼大模型能力評估“三好生”

近日，商湯小浣熊代碼大模型在中國信通院“可信AI代碼大模型評估”中，榮獲4+級最高評級，成為國內(nèi)首批通過該項評估的企業(yè)之一。

發(fā)表于 06-13 15:37 ?324次閱讀

基于神經(jīng)網(wǎng)絡(luò)的呼吸音分類算法

1080Ti GPU的英特爾酷睿i7-6900 CPU的計算機上進行的。結(jié)果對于噪聲二元分類任務(wù)，NMRNN獲得了0.89的評估分數(shù)，而最佳基線模型GBM僅獲得0.53的分數(shù)。這可以通過RNN學習周期和噪聲

發(fā)表于 05-31 12:05

頻譜分析儀的分類和技術(shù)指標

頻譜分析儀是電子測量領(lǐng)域中的一項重要工具，主要用于分析信號的頻譜特性。隨著電子技術(shù)的飛速發(fā)展，頻譜分析儀的應用范圍日益廣泛，其種類和技術(shù)指標也日益豐富。本文將對頻譜分析儀的分類和技術(shù)指標進行詳細介紹，以期為讀者提供全面的了解。

發(fā)表于 05-14 15:48 ?373次閱讀

【大語言模型：原理與工程實踐】大語言模型的評測

和安全性。行業(yè)模型的評測則針對特定領(lǐng)域的能力，整體能力的評測則從宏觀角度評估模型的通用性。在基座模型的評測中，除了自回歸損失和困惑度等指標外

發(fā)表于 05-07 17:12

【大語言模型：原理與工程實踐】核心技術(shù)綜述

和量化: 減小模型尺寸和計算復雜度，使模型更適合在計算資源受限的環(huán)境下部署。解釋性和可視化: 提供模型決策的可視化和解釋工具，讓模型的行為更加透明易懂。性能

發(fā)表于 05-05 10:56

大模型在戰(zhàn)略評估系統(tǒng)中的應用有哪些

智慧華盛恒輝大模型，顧名思義，是指參數(shù)規(guī)模超過千萬的機器學習模型。這些模型主要應用于自然語言處理、計算機視覺、語音識別等領(lǐng)域，在大場景下的表現(xiàn)尤為出色。智慧華盛恒輝大模型在戰(zhàn)略

發(fā)表于 04-24 13:48 ?188次閱讀

基于YOLOv8實現(xiàn)自定義姿態(tài)評估模型訓練

Hello大家好，今天給大家分享一下如何基于YOLOv8姿態(tài)評估模型，實現(xiàn)在自定義數(shù)據(jù)集上，完成自定義姿態(tài)評估模型的訓練與推理。

發(fā)表于 12-25 11:29 ?2417次閱讀

請問如何評估AD7693在器件間的偏斜(Skew)或匹配(Match)指標？

(Skew)指標，但我目前沒在器件的數(shù)據(jù)手冊中查閱到這一指標，只能查閱到Aperture Delay這一參數(shù)，如下圖：請問我應該如何評估器件間的Aperture Delay Match這一特性？

發(fā)表于 12-01 06:17

請問評估信號源的好壞主要看什么技術(shù)指標？

評估信號源的好壞主要看什么技術(shù)指標？

發(fā)表于 10-11 06:12

如何將大模型應用到效能評估系統(tǒng)中去

如何將大模型應用到效能評估系統(tǒng)中去智慧華盛恒輝效能評估系統(tǒng)大數(shù)據(jù)的應用效能評估系統(tǒng)及其評估方法，以應用基礎(chǔ)數(shù)據(jù)和應用運行數(shù)據(jù)為基礎(chǔ)，從數(shù)據(jù)

發(fā)表于 09-27 16:16 ?438次閱讀

搜索歷史

分類模型評估指標匯總

評論

DRAM的分類、特點及技術(shù)指標

利用TensorFlow實現(xiàn)基于深度神經(jīng)網(wǎng)絡(luò)的文本分類模型

人臉檢測模型的精確度怎么算

神經(jīng)網(wǎng)絡(luò)模型建完了怎么用

深度學習模型訓練過程詳解

商湯小浣熊榮獲中國信通院代碼大模型能力評估“三好生”

基于神經(jīng)網(wǎng)絡(luò)的呼吸音分類算法

頻譜分析儀的分類和技術(shù)指標

【大語言模型：原理與工程實踐】大語言模型的評測

【大語言模型：原理與工程實踐】核心技術(shù)綜述

大模型在戰(zhàn)略評估系統(tǒng)中的應用有哪些

基于YOLOv8實現(xiàn)自定義姿態(tài)評估模型訓練

請問如何評估AD7693在器件間的偏斜(Skew)或匹配(Match)指標？

請問評估信號源的好壞主要看什么技術(shù)指標？

如何將大模型應用到效能評估系統(tǒng)中去