国产精品?码一区二区蜜桃,亚洲AⅤ永久无码无人区电影

4.2 細(xì)節(jié)

4.2.1 損失函數(shù)

Adaboost 模型是加法模型，學(xué)習(xí)算法為前向分步學(xué)習(xí)算法，損失函數(shù)為指數(shù)函數(shù)的分類問題。

加法模型：最終的強(qiáng)分類器是由若干個(gè)弱分類器加權(quán)平均得到的。

前向分布學(xué)習(xí)算法：算法是通過(guò)一輪輪的弱學(xué)習(xí)器學(xué)習(xí)，利用前一個(gè)弱學(xué)習(xí)器的結(jié)果來(lái)更新后一個(gè)弱學(xué)習(xí)器的訓(xùn)練集權(quán)重。第 k 輪的強(qiáng)學(xué)習(xí)器為：

定義損失函數(shù)為 n 個(gè)樣本的指數(shù)損失函數(shù)：

利用前向分布學(xué)習(xí)算法的關(guān)系可以得到：

因?yàn)?已知，所以令，隨著每一輪迭代而將這個(gè)式子帶入損失函數(shù)，損失函數(shù)轉(zhuǎn)化為：

我們求，可以得到：

將帶入損失函數(shù)，并對(duì)求導(dǎo)，使其等于 0，則就得到了：

其中，即為我們前面的分類誤差率。

最后看樣本權(quán)重的更新。利用和，即可得：

這樣就得到了樣本權(quán)重更新公式。

4.2.2 正則化

為了防止 Adaboost 過(guò)擬合，我們通常也會(huì)加入正則化項(xiàng)，這個(gè)正則化項(xiàng)我們通常稱為步長(zhǎng)（learning rate）。對(duì)于前面的弱學(xué)習(xí)器的迭代

加上正則化項(xiàng) 我們有：

的取值范圍為 0<≤1 。對(duì)于同樣的訓(xùn)練集學(xué)習(xí)效果，較小的意味著我們需要更多的弱學(xué)習(xí)器的迭代次數(shù)。通常我們用步長(zhǎng)和迭代最大次數(shù)一起來(lái)決定算法的擬合效果。

4.3 優(yōu)缺點(diǎn)

4.3.1 優(yōu)點(diǎn)

分類精度高；
可以用各種回歸分類模型來(lái)構(gòu)建弱學(xué)習(xí)器，非常靈活；
不容易發(fā)生過(guò)擬合。

4.3.2 缺點(diǎn)

對(duì)異常點(diǎn)敏感，異常點(diǎn)會(huì)獲得較高權(quán)重。

5. GBDT

GBDT（Gradient Boosting Decision Tree）是一種迭代的決策樹算法，該算法由多棵決策樹組成，從名字中我們可以看出來(lái)它是屬于 Boosting 策略。GBDT 是被公認(rèn)的泛化能力較強(qiáng)的算法。

5.1 思想

GBDT 由三個(gè)概念組成：Regression Decision Tree（即 DT）、Gradient Boosting（即 GB），和 Shrinkage（一個(gè)重要演變）

5.1.1 回歸樹（Regression Decision Tree）

如果認(rèn)為 GBDT 由很多分類樹那就大錯(cuò)特錯(cuò)了（雖然調(diào)整后也可以分類）。對(duì)于分類樹而言，其值加減無(wú)意義（如性別），而對(duì)于回歸樹而言，其值加減才是有意義的（如說(shuō)年齡）。GBDT 的核心在于累加所有樹的結(jié)果作為最終結(jié)果，所以 GBDT 中的樹都是回歸樹，不是分類樹，這一點(diǎn)相當(dāng)重要。

回歸樹在分枝時(shí)會(huì)窮舉每一個(gè)特征的每個(gè)閾值以找到最好的分割點(diǎn)，衡量標(biāo)準(zhǔn)是最小化均方誤差。

5.1.2 梯度迭代（Gradient Boosting）

上面說(shuō)到 GBDT 的核心在于累加所有樹的結(jié)果作為最終結(jié)果，GBDT 的每一棵樹都是以之前樹得到的殘差來(lái)更新目標(biāo)值，這樣每一棵樹的值加起來(lái)即為 GBDT 的預(yù)測(cè)值。

模型的預(yù)測(cè)值可以表示為：

為基模型與其權(quán)重的乘積，模型的訓(xùn)練目標(biāo)是使預(yù)測(cè)值逼近真實(shí)值 y，也就是說(shuō)要讓每個(gè)基模型的預(yù)測(cè)值逼近各自要預(yù)測(cè)的部分真實(shí)值。由于要同時(shí)考慮所有基模型，導(dǎo)致了整體模型的訓(xùn)練變成了一個(gè)非常復(fù)雜的問題。所以研究者們想到了一個(gè)貪心的解決手段：每次只訓(xùn)練一個(gè)基模型。那么，現(xiàn)在改寫整體模型為迭代式：

這樣一來(lái)，每一輪迭代中，只要集中解決一個(gè)基模型的訓(xùn)練問題：使逼近真實(shí)值 y 。

舉個(gè)例子：比如說(shuō) A 用戶年齡 20 歲，第一棵樹預(yù)測(cè) 12 歲，那么殘差就是 8，第二棵樹用 8 來(lái)學(xué)習(xí)，假設(shè)其預(yù)測(cè)為 5，那么其殘差即為 3，如此繼續(xù)學(xué)習(xí)即可。

那么 Gradient 從何體現(xiàn)？其實(shí)很簡(jiǎn)單，其殘差其實(shí)是最小均方損失函數(shù)關(guān)于預(yù)測(cè)值的反向梯度(劃重點(diǎn))：

也就是說(shuō)，預(yù)測(cè)值和實(shí)際值的殘差與損失函數(shù)的負(fù)梯度相同。

但要注意，基于殘差 GBDT 容易對(duì)異常值敏感，舉例：

很明顯后續(xù)的模型會(huì)對(duì)第 4 個(gè)值關(guān)注過(guò)多，這不是一種好的現(xiàn)象，所以一般回歸類的損失函數(shù)會(huì)用絕對(duì)損失或者 Huber 損失函數(shù)來(lái)代替平方損失函數(shù)。

GBDT 的 Boosting 不同于 Adaboost 的 Boosting，GBDT 的每一步殘差計(jì)算其實(shí)變相地增大了被分錯(cuò)樣本的權(quán)重，而對(duì)與分對(duì)樣本的權(quán)重趨于 0，這樣后面的樹就能專注于那些被分錯(cuò)的樣本。

5.1.3 縮減（Shrinkage）

Shrinkage 的思想認(rèn)為，每走一小步逐漸逼近結(jié)果的效果要比每次邁一大步很快逼近結(jié)果的方式更容易避免過(guò)擬合。即它并不是完全信任每一棵殘差樹。

Shrinkage 不直接用殘差修復(fù)誤差，而是只修復(fù)一點(diǎn)點(diǎn)，把大步切成小步。本質(zhì)上 Shrinkage 為每棵樹設(shè)置了一個(gè) weight，累加時(shí)要乘以這個(gè) weight，當(dāng) weight 降低時(shí)，基模型數(shù)會(huì)配合增大。

5.2 優(yōu)缺點(diǎn)

5.2.1 優(yōu)點(diǎn)

可以自動(dòng)進(jìn)行特征組合，擬合非線性數(shù)據(jù)；
可以靈活處理各種類型的數(shù)據(jù)。

5.2.2 缺點(diǎn)

對(duì)異常點(diǎn)敏感。

5.3 與 Adaboost 的對(duì)比

5.3.1 相同：

都是 Boosting 家族成員，使用弱分類器；
都使用前向分布算法；

5.3.2 不同：

迭代思路不同：Adaboost 是通過(guò)提升錯(cuò)分?jǐn)?shù)據(jù)點(diǎn)的權(quán)重來(lái)彌補(bǔ)模型的不足（利用錯(cuò)分樣本），而 GBDT 是通過(guò)算梯度來(lái)彌補(bǔ)模型的不足（利用殘差）；
損失函數(shù)不同：AdaBoost 采用的是指數(shù)損失，GBDT 使用的是絕對(duì)損失或者 Huber 損失函數(shù)；

6. 參考

機(jī)器學(xué)習(xí)算法中 GBDT 與 Adaboost 的區(qū)別與聯(lián)系是什么？ - Frankenstein 的回答 - 知乎
為什么說(shuō)bagging是減少variance，而boosting是減少bias
Ensemble Learning - 周志華

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴