0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

將從目標和問題的角度去討論每種誤差度量的有效性

nlfO_thejiangme ? 來源:未知 ? 作者:李倩 ? 2018-05-15 15:57 ? 次閱讀

模型的好壞和優(yōu)劣都是基于一定的角度做出的相對判斷,在這篇文章中,我們將從目標和問題的角度去討論每種誤差度量的有效性。 當有人告訴你“中國是最好的國家”時,你問的首要問題肯定是這個陳述的基礎(chǔ)是什么,我們是根據(jù)國家的經(jīng)濟狀況、文化水平還是他們的衛(wèi)生設(shè)施等來評估比較各個國家的呢? 類似地,每個機器學(xué)習模型都用到了不同的數(shù)據(jù)集來有針對性的解決不同目標的問題,因此,在選擇合適的度量之前,要深刻理解上下文。

圖 各種機器學(xué)習模型常用的度量標準

回歸度量指標

大多數(shù)的博客更多都關(guān)注模型的精度、召回率、AUC(Area under curve,ROC曲線下區(qū)域面積)等分類指標。這里想稍稍改變一下,讓我們來探索各種更多的指標,包括在回歸問題中使用的指標。MAE和RMSE是關(guān)于連續(xù)變量的兩個最普遍的度量標準。

首先,我們看看最流行RMSE,全稱是Root Mean SquareError,即均方根誤差,它表示預(yù)測值和觀測值之間差異(稱為殘差)的樣本標準偏差。在數(shù)學(xué)上,它是用如下這個公式計算的:

其次是MAE,全稱是Mean Absolute Error,即平均絕對誤差,它表示預(yù)測值和觀測值之間絕對誤差的平均值。MAE是一種線性分數(shù),所有個體差異在平均值上的權(quán)重都相等,比如,10和0之間的絕對誤差是5和0之間絕對誤差的兩倍。但這對于RMSE而言不一樣,后續(xù)將進一步詳細討論。在數(shù)學(xué)上,MAE是用如下這個公式計算的:

那么你應(yīng)該選擇哪一個?為什么這樣選擇呢?

首先,理解和解釋MAE很容易,因為它就是對殘差直接計算平均,而RMSE相比MAE,會對高的差異懲罰更多。讓我們通過兩個例子來理解一下:

案例1:真實值= [2,4,6,8],預(yù)測值= [4,6,8,10]

案例2:真實值= [2,4,6,8],預(yù)測值= [4,6,8,12]

案例1的MAE = 2.0,RMSE = 2.0

案例2的MAE = 2.5,RMSE = 2.65

從上述例子中,我們可以發(fā)現(xiàn)RMSE比MAE更加多地懲罰了最后一項預(yù)測值。通常,RMSE要大于或等于MAE。等于MAE的唯一情況是所有殘差都*相等或都為零*,如案例1中所有的預(yù)測值與真實值之間的殘差皆為2,那么MAE和RMSE值就相等。

> 盡管RMSE更復(fù)雜且偏向更高的誤差,它仍然是許多模型的默認度量標準,因為用RMSE來定義損失函數(shù)是*平滑可微*的,且更容易進行數(shù)學(xué)運算。

雖然這聽起來不太令人滿意,但這的確是是它非常受歡迎的原因。下面我將從數(shù)學(xué)角度解釋上述邏輯。首先,讓我們建立一個簡單的單變量線性模型:y = mx + b,在這個問題中,我們要找到最佳“m”和“b”,數(shù)據(jù)(x,y)是已知的。如果我們用RMSE來定義損失函數(shù)(J):那么我們可以很容易地求得J對m和b的偏導(dǎo),并以此來更新m和b(這是梯度下降的工作方式,這里就不過多解釋它)

上述等式很容易就可以求解,但對MAE并不適用。然而,如果你需要一種度量標準能從直觀解釋的角度來比較兩個模型,那么我認為MAE會是更好的選擇。值得注意的是,RMSE和MAE的單位與y值相同,但R Square不是這樣的。此外,RMSE和MAE的范圍都是從0到無窮大。

>這里需要提及MAE和RMSE之間的一大重要區(qū)別,最小化一組數(shù)字的平方誤差會得到其平均值,而最小化絕對誤差則會得到其中值, 這也是為什么MAE比RMSE對離群點更有效的原因。

R Squared, R2 校正 RSquared

R2 和校正R2,常常用于說明選擇的自變量對解釋因變量解釋擬合有多好。

在數(shù)學(xué)上,R_Squared由下式給出:

>其中,分子是MSE(殘差平方的平均值),分母是Y值的方差。MSE越高,R_squared則越小,表明模型越差。

跟R2一樣,校正R2也顯示了自變量對因變量的解釋程度,回歸問題中體現(xiàn)于曲線的擬合優(yōu)度,但是可以根據(jù)模型中的自變量個數(shù)進行調(diào)整。 它由以下公式給出:

其中n表示觀測值的總數(shù),k表示預(yù)測值的數(shù)量,校正后的R2總是小于或等于R2。

為什么你應(yīng)該越過R2選擇校正R2?

標準的R2在使用中往往會存在一些問題,但使用校正R2就能很好地解決。因為校正R2會考慮在模型中增加附加項,使得性能改善。如果你添加有用的項,R2會增加,而如果添加了不太有用的預(yù)測變量,R2將減少。 但是,即使模型沒有實際改進,R2也隨著變量數(shù)量的增加而增加。下面我們用一個例子來更好地理解這一點。

這里,案例1是一個很簡單的情況,我們有5個觀察值(x,y)。 在案例2中,讓一個變量是變量1的兩倍(也就是說它與變量1完全相關(guān))。在案例3中,我們對變量2做了輕微的干擾,使其不再與變量1完全相關(guān)。

因此,如果我們?yōu)槊總€案例都用簡單普通的最小二乘(OLS)模型來擬合,那么從邏輯上講,我們?yōu)榘咐?、案例2和案例3提供的信息是相同的,那我們的度量值相對這些模型也不會有所提高。然而,實際上R2 對于模型2和3會給出更高的值,這顯然是不正確的。但是,用校正R2就可以解決這個問題,實際上對于案例2和3都是減少的。讓我們給這些變量(x ,y)賦上一些值,并查看Python中獲得的結(jié)果。

注意:模型1和模型2的預(yù)測值將相同,因此R2也將相同,因為它僅取決于預(yù)測值和實際值。

從上表可以看出,從案例1到案例3,盡管我們沒有增加的任何附加信息,但R2仍在增加,而校正后的R2顯示了正確的趨勢(懲罰模型2擁有更多的變量)

對比校正R2與RMSE

對于前面的例子,我們將看到案例1和案例2得到的RMSE結(jié)果與R2是類似的。在這種情況下,校正R2要比RMSE更好,因為它只對預(yù)測值與實際值進行比較。而且,RMSE的絕對值實際上并不能說明模型有多糟糕,它只能用于比較兩個模型,但校正R2就很容易做到這一點。 例如,如果一個模型的現(xiàn)在R2為0.05,那么這個模型肯定很差。

但是,如果你只關(guān)心預(yù)測精度,那么RMSE是最佳選擇。它計算簡單,容易區(qū)分,一般是大多數(shù)模型的默認度量。

常見誤區(qū):我經(jīng)??吹骄W(wǎng)上說R2的范圍在0到1之間,實際上并不是這樣。R2的最大值是1,但最小值可以是負無窮大。即使y的真實值為正數(shù),模型對所有觀測值的預(yù)測結(jié)果也會有高負值的情況。在這種情況下,R2將小于0。這雖然是一個不太可能的情況,但可能性依然存在。

有趣的指標

這里有一個有趣的指標,如果你對NLP感興趣,Andrew Ng在深度學(xué)習課程中介紹了它。BLEU(Bilingual Evaluation Understudy,雙語評估研究)

它主要用于衡量機器翻譯相對于人類翻譯的質(zhì)量,它使用了精確度量的修改形式。

計算BLEU分數(shù)的步驟:

1. 把句子轉(zhuǎn)換成單個詞、兩個詞、三個詞和四個詞

2. 分別計算大小為1至4的n語法的精度

3. 取所有這些精度值的加權(quán)平均的指數(shù)

4.將其與簡短的懲罰項相乘(稍后將解釋)

這里BP是簡短的懲罰項,r和c分別是參考翻譯和候選翻譯中的詞的數(shù)量,w 表示權(quán)重,P表示精度值

例:

參考:The cat is sitting on the mat

機器翻譯1:On the mat is a cat

機器翻譯2:There is cat sitting cat

我們來比較一下上面兩個翻譯的BLEU得分。

最終結(jié)果:BLEU(MT1)= 0.454,BLEU(MT2)= 0.59

為什么要引入簡潔的懲罰項?

引入的懲罰項會懲罰那些短于參考翻譯的候選翻譯。例如,如果上述候選翻譯的參考翻譯是“The cat”,那么它對于單個詞和兩個詞將具有很高的精度,因為兩個單詞都以相同的順序出現(xiàn)在參考翻譯中。但是,長度太短的話,實際上并不能很好的反映參考翻譯的含義。有了這個簡短的懲罰,候選翻譯必須在長度、相同單詞和單詞順序方面與參考翻譯相匹配才能獲得高分。

希望通過這篇文章的介紹,我們能理解不同度量間的差異,并能為機器學(xué)習選擇合適的模型度量,評價建模效果的好壞,并指導(dǎo)模型的優(yōu)化。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器學(xué)習
    +關(guān)注

    關(guān)注

    66

    文章

    8306

    瀏覽量

    131838
  • 機器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    139

    瀏覽量

    14835
  • 度量
    +關(guān)注

    關(guān)注

    0

    文章

    8

    瀏覽量

    2651

原文標題:確認過眼神,如何為模型選擇合適的度量標準?

文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    神奇的數(shù)據(jù)有效性的使用

    數(shù)據(jù)有效性的使用
    發(fā)表于 06-24 16:59

    CS的有效性可以改編?

    1. “如果SD卡在接收復(fù)位命令過程中CS低電平有效,則進入SPI模式,否則工作在SD 總線模式?!边@個不太理解,CS的有效性可以改編嗎,如何實現(xiàn)??2. 我的SD卡和LCD都是用SPI讀寫,我在讀
    發(fā)表于 05-21 06:50

    ATPG有效性是什么意思

    Automatic Test Pattern Generation(ATPG)ATPG有效性是衡量測試錯誤覆蓋了的重要指標。測試是向一個處于已知狀態(tài)的對象施加確定的輸入激勵,并測量其確定的輸出響應(yīng)
    發(fā)表于 07-29 08:47

    壓縮機故障率的有效性估計和維修周期的確定

    壓縮機故障率的有效性估計和維修周期的確定
    發(fā)表于 05-21 15:01 ?19次下載

    一種新的能量有效性無線傳感器網(wǎng)絡(luò)分簇算法

    分簇算法是無線傳感器網(wǎng)絡(luò)中實施分層路由所采用的重要方法,尤其是傳感器節(jié)點受到能量和帶寬的嚴重制約。本文從能量有效性角度出發(fā),基于經(jīng)典的LEACH協(xié)議,提出了一種能量
    發(fā)表于 06-18 11:01 ?17次下載

    高階微擾法的有效性研究

    通過二維地、海面發(fā)射率的研究, 研究了高、低階微擾法的有效性, 分析了不同極化方式、表面模型和介電常數(shù)的影響, 得到了均方根高度的有效范圍, 給出了高斯模型的相關(guān)長度的匹配
    發(fā)表于 06-20 17:32 ?0次下載
    高階微擾法的<b class='flag-5'>有效性</b>研究

    新的模糊聚類有效性指標

    新的模糊聚類有效性指標_趙娜娜
    發(fā)表于 01-07 20:32 ?0次下載

    如何檢查Oracle數(shù)據(jù)庫備份文件是否有效?備份文件有效性檢測系統(tǒng)設(shè)計資料概述

    從Oracle 數(shù)據(jù)庫的備份文件是否有效角度出發(fā),針對企業(yè)往往只注重如何制定完善的生產(chǎn)數(shù)據(jù)備份設(shè)計方案,而忽視對備份數(shù)據(jù)有效性進行檢測這一問題。依據(jù)備份檢測原理并考慮實際生產(chǎn)環(huán)境,設(shè)計了
    發(fā)表于 09-07 17:14 ?5次下載
    如何檢查Oracle數(shù)據(jù)庫備份文件是否<b class='flag-5'>有效</b>?備份文件<b class='flag-5'>有效性</b>檢測系統(tǒng)設(shè)計資料概述

    什么是欺詐證明和有效性證明

    欺詐證明提出證據(jù),表明狀態(tài)轉(zhuǎn)換是不正確的。它們反映了對世界的樂觀看法:假設(shè)區(qū)塊代表L2數(shù)據(jù)的正確狀態(tài),直到被證明不是這樣。但實際上,一個已提交的區(qū)塊可能包含錯誤的狀態(tài)轉(zhuǎn)換。 有效性證明則提出
    發(fā)表于 01-28 10:46 ?2483次閱讀

    PLC冗余系統(tǒng)的可行有效性分析

    結(jié)合客戶需求,通過熱備硬件和軟件冗余程序設(shè)計控制系統(tǒng)冗余方案。從熱備硬件和冗余程序設(shè)計的角度分別分析了冗余系統(tǒng)的可靠和系統(tǒng)主備站切換時間,實踐證明冗余系統(tǒng)的可行有效性.
    發(fā)表于 10-30 16:26 ?10次下載
    PLC冗余系統(tǒng)的可行<b class='flag-5'>性</b>和<b class='flag-5'>有效性</b>分析

    利用人工智能測試藥物對新冠的治療有效性

    利用人工智能來測試藥物對新冠的治療有效性和安全
    的頭像 發(fā)表于 11-29 09:34 ?2065次閱讀

    基于內(nèi)法向量與二次誤差度量的孔洞修補算法

    為了高效地修復(fù)含孔洞的三角網(wǎng)格模型,提出基于內(nèi)法向量與二次誤差度量(QEM)的孔洞修補算法。在識別孔洞邊界之后,計算邊界點的凹凸與對應(yīng)夾角角度,并利用最小角-曲率原則尋找最優(yōu)修補點;根據(jù)三角形生成
    發(fā)表于 04-21 14:18 ?3次下載
    基于內(nèi)法向量與二次<b class='flag-5'>誤差度量</b>的孔洞修補算法

    Oracle數(shù)據(jù)庫備份文件有效性檢測設(shè)計方案

    Oracle數(shù)據(jù)庫備份文件有效性檢測設(shè)計方案(電源技術(shù)投稿難度)-該文檔為Oracle數(shù)據(jù)庫備份文件有效性檢測設(shè)計方案講解文檔,是一份不錯的參考資料,感興趣的可以下載看看,,,,,,,,,,,
    發(fā)表于 09-24 16:58 ?2次下載
    Oracle數(shù)據(jù)庫備份文件<b class='flag-5'>有效性</b>檢測設(shè)計方案

    合成數(shù)據(jù)的不合理有效性

    電子發(fā)燒友網(wǎng)站提供《合成數(shù)據(jù)的不合理有效性.zip》資料免費下載
    發(fā)表于 07-13 09:29 ?0次下載
    合成數(shù)據(jù)的不合理<b class='flag-5'>有效性</b>

    adc采集的電壓值數(shù)值如何真有效性轉(zhuǎn)換?

    adc采集的電壓值數(shù)值如何真有效性轉(zhuǎn)換?adc采集溫度基準電壓紋波太大有什么影響? ADC采集的電壓值數(shù)值真正的有效性轉(zhuǎn)換,需要考慮多個因素。首先需要明確的是,ADC采集到的數(shù)字量表示的是一種電壓值
    的頭像 發(fā)表于 10-17 18:17 ?1291次閱讀