柠檬av导航性炮床八爪椅合欢,激情五月婷婷在线

模型的好壞和優(yōu)劣都是基于一定的角度做出的相對判斷，在這篇文章中，我們將從目標和問題的角度去討論每種誤差度量的有效性。當有人告訴你“中國是最好的國家”時，你問的首要問題肯定是這個陳述的基礎(chǔ)是什么，我們是根據(jù)國家的經(jīng)濟狀況、文化水平還是他們的衛(wèi)生設(shè)施等來評估比較各個國家的呢？類似地，每個機器學(xué)習模型都用到了不同的數(shù)據(jù)集來有針對性的解決不同目標的問題，因此，在選擇合適的度量之前，要深刻理解上下文。

圖各種機器學(xué)習模型常用的度量標準

回歸度量指標

大多數(shù)的博客更多都關(guān)注模型的精度、召回率、AUC(Area under curve，ROC曲線下區(qū)域面積)等分類指標。這里想稍稍改變一下，讓我們來探索各種更多的指標，包括在回歸問題中使用的指標。MAE和RMSE是關(guān)于連續(xù)變量的兩個最普遍的度量標準。

首先，我們看看最流行RMSE，全稱是Root Mean SquareError，即均方根誤差，它表示預(yù)測值和觀測值之間差異（稱為殘差）的樣本標準偏差。在數(shù)學(xué)上，它是用如下這個公式計算的：

其次是MAE，全稱是Mean Absolute Error，即平均絕對誤差，它表示預(yù)測值和觀測值之間絕對誤差的平均值。MAE是一種線性分數(shù)，所有個體差異在平均值上的權(quán)重都相等，比如，10和0之間的絕對誤差是5和0之間絕對誤差的兩倍。但這對于RMSE而言不一樣，后續(xù)將進一步詳細討論。在數(shù)學(xué)上，MAE是用如下這個公式計算的：

那么你應(yīng)該選擇哪一個？為什么這樣選擇呢？

首先，理解和解釋MAE很容易，因為它就是對殘差直接計算平均，而RMSE相比MAE，會對高的差異懲罰更多。讓我們通過兩個例子來理解一下：

案例1：真實值= [2,4,6,8]，預(yù)測值= [4,6,8,10]

案例2：真實值= [2,4,6,8]，預(yù)測值= [4,6,8,12]

案例1的MAE = 2.0，RMSE = 2.0

案例2的MAE = 2.5，RMSE = 2.65

從上述例子中，我們可以發(fā)現(xiàn)RMSE比MAE更加多地懲罰了最后一項預(yù)測值。通常，RMSE要大于或等于MAE。等于MAE的唯一情況是所有殘差都*相等或都為零*，如案例1中所有的預(yù)測值與真實值之間的殘差皆為2，那么MAE和RMSE值就相等。

> 盡管RMSE更復(fù)雜且偏向更高的誤差，它仍然是許多模型的默認度量標準，因為用RMSE來定義損失函數(shù)是*平滑可微*的，且更容易進行數(shù)學(xué)運算。

雖然這聽起來不太令人滿意，但這的確是是它非常受歡迎的原因。下面我將從數(shù)學(xué)角度解釋上述邏輯。首先，讓我們建立一個簡單的單變量線性模型：y = mx + b，在這個問題中，我們要找到最佳“m”和“b”，數(shù)據(jù)（x，y）是已知的。如果我們用RMSE來定義損失函數(shù)（J）：那么我們可以很容易地求得J對m和b的偏導(dǎo)，并以此來更新m和b（這是梯度下降的工作方式，這里就不過多解釋它）

上述等式很容易就可以求解，但對MAE并不適用。然而，如果你需要一種度量標準能從直觀解釋的角度來比較兩個模型，那么我認為MAE會是更好的選擇。值得注意的是，RMSE和MAE的單位與y值相同，但R Square不是這樣的。此外，RMSE和MAE的范圍都是從0到無窮大。

>這里需要提及MAE和RMSE之間的一大重要區(qū)別，最小化一組數(shù)字的平方誤差會得到其平均值，而最小化絕對誤差則會得到其中值，這也是為什么MAE比RMSE對離群點更有效的原因。

R Squared, R2 校正 RSquared

R2 和校正R2，常常用于說明選擇的自變量對解釋因變量解釋擬合有多好。

在數(shù)學(xué)上，R_Squared由下式給出：

>其中，分子是MSE（殘差平方的平均值），分母是Y值的方差。MSE越高，R_squared則越小，表明模型越差。

跟R2一樣，校正R2也顯示了自變量對因變量的解釋程度，回歸問題中體現(xiàn)于曲線的擬合優(yōu)度，但是可以根據(jù)模型中的自變量個數(shù)進行調(diào)整。它由以下公式給出：

其中n表示觀測值的總數(shù)，k表示預(yù)測值的數(shù)量，校正后的R2總是小于或等于R2。

為什么你應(yīng)該越過R2選擇校正R2？

標準的R2在使用中往往會存在一些問題，但使用校正R2就能很好地解決。因為校正R2會考慮在模型中增加附加項，使得性能改善。如果你添加有用的項，R2會增加，而如果添加了不太有用的預(yù)測變量，R2將減少。但是，即使模型沒有實際改進，R2也隨著變量數(shù)量的增加而增加。下面我們用一個例子來更好地理解這一點。

這里，案例1是一個很簡單的情況，我們有5個觀察值（x，y）。在案例2中，讓一個變量是變量1的兩倍（也就是說它與變量1完全相關(guān)）。在案例3中，我們對變量2做了輕微的干擾，使其不再與變量1完全相關(guān)。

因此，如果我們?yōu)槊總€案例都用簡單普通的最小二乘（OLS）模型來擬合，那么從邏輯上講，我們?yōu)榘咐?、案例2和案例3提供的信息是相同的，那我們的度量值相對這些模型也不會有所提高。然而，實際上R2 對于模型2和3會給出更高的值，這顯然是不正確的。但是，用校正R2就可以解決這個問題，實際上對于案例2和3都是減少的。讓我們給這些變量（x ，y）賦上一些值，并查看Python中獲得的結(jié)果。

注意：模型1和模型2的預(yù)測值將相同，因此R2也將相同，因為它僅取決于預(yù)測值和實際值。

從上表可以看出，從案例1到案例3，盡管我們沒有增加的任何附加信息，但R2仍在增加，而校正后的R2顯示了正確的趨勢（懲罰模型2擁有更多的變量）

對比校正R2與RMSE

對于前面的例子，我們將看到案例1和案例2得到的RMSE結(jié)果與R2是類似的。在這種情況下，校正R2要比RMSE更好，因為它只對預(yù)測值與實際值進行比較。而且，RMSE的絕對值實際上并不能說明模型有多糟糕，它只能用于比較兩個模型，但校正R2就很容易做到這一點。例如，如果一個模型的現(xiàn)在R2為0.05，那么這個模型肯定很差。

但是，如果你只關(guān)心預(yù)測精度，那么RMSE是最佳選擇。它計算簡單，容易區(qū)分，一般是大多數(shù)模型的默認度量。

常見誤區(qū)：我經(jīng)?？吹骄W(wǎng)上說R2的范圍在0到1之間，實際上并不是這樣。R2的最大值是1，但最小值可以是負無窮大。即使y的真實值為正數(shù)，模型對所有觀測值的預(yù)測結(jié)果也會有高負值的情況。在這種情況下，R2將小于0。這雖然是一個不太可能的情況，但可能性依然存在。

有趣的指標

這里有一個有趣的指標，如果你對NLP感興趣，Andrew Ng在深度學(xué)習課程中介紹了它。BLEU（Bilingual Evaluation Understudy，雙語評估研究）

它主要用于衡量機器翻譯相對于人類翻譯的質(zhì)量，它使用了精確度量的修改形式。

計算BLEU分數(shù)的步驟:

1. 把句子轉(zhuǎn)換成單個詞、兩個詞、三個詞和四個詞

2. 分別計算大小為1至4的n語法的精度

3. 取所有這些精度值的加權(quán)平均的指數(shù)

4.將其與簡短的懲罰項相乘（稍后將解釋）

這里BP是簡短的懲罰項，r和c分別是參考翻譯和候選翻譯中的詞的數(shù)量，w 表示權(quán)重，P表示精度值

例：

參考：The cat is sitting on the mat

機器翻譯1：On the mat is a cat

機器翻譯2：There is cat sitting cat

我們來比較一下上面兩個翻譯的BLEU得分。

最終結(jié)果：BLEU（MT1）= 0.454，BLEU（MT2）= 0.59

為什么要引入簡潔的懲罰項？

引入的懲罰項會懲罰那些短于參考翻譯的候選翻譯。例如，如果上述候選翻譯的參考翻譯是“The cat”，那么它對于單個詞和兩個詞將具有很高的精度，因為兩個單詞都以相同的順序出現(xiàn)在參考翻譯中。但是，長度太短的話，實際上并不能很好的反映參考翻譯的含義。有了這個簡短的懲罰，候選翻譯必須在長度、相同單詞和單詞順序方面與參考翻譯相匹配才能獲得高分。

希望通過這篇文章的介紹，我們能理解不同度量間的差異，并能為機器學(xué)習選擇合適的模型度量，評價建模效果的好壞，并指導(dǎo)模型的優(yōu)化。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴