2022最新国产福利在线,bbwbbw欧美成

解釋產(chǎn)生特定NBA球員預(yù)測(cè)薪水的特征（github）

利用SHAP實(shí)現(xiàn)機(jī)器學(xué)習(xí)模型的輸出預(yù)測(cè)

我最喜歡的庫(kù)之一是SHAP，它是解釋機(jī)器學(xué)習(xí)模型生成的輸出不可或缺的工具。 SHAP是幾種不同的當(dāng)前解釋模型的頂點(diǎn)，并且通過(guò)為每個(gè)特征分配重要性值來(lái)表示用于解釋模型預(yù)測(cè)的統(tǒng)一框架。反過(guò)來(lái)，可以繪制這些重要性值，并用于產(chǎn)生任何人都可以輕易解釋的漂亮可視化。在您閱讀時(shí)，您會(huì)注意到主題是可解釋性，以及為什么它在機(jī)器學(xué)習(xí)中如此迫切。

在本文中，我提供了一個(gè)外行人對(duì)其作者Scott Lundberg和Su-In Lee的原始論文的評(píng)論

目的

線性模型易于解釋。考慮用于預(yù)測(cè)NBA球員薪水的經(jīng)典線性回歸模型（假設(shè)薪水完全基于每場(chǎng)比賽得分）：

利用SHAP實(shí)現(xiàn)機(jī)器學(xué)習(xí)模型的輸出預(yù)測(cè)

我們簡(jiǎn)單地將其解釋為β1，即X對(duì)Y單位增加的平均影響。換句話說(shuō)，如果凱文杜蘭特得到27.5分，那么我們所要做的就是乘以β1來(lái)預(yù)測(cè)他的薪水。使用線性模型，很明顯模型如何達(dá)到預(yù)測(cè)。

但是神經(jīng)網(wǎng)絡(luò)呢，那里有重復(fù)的矩陣乘法和激活函數(shù)？我們?nèi)绾卧谳敵龅纳舷挛闹薪忉屵@一點(diǎn)？

利用SHAP實(shí)現(xiàn)機(jī)器學(xué)習(xí)模型的輸出預(yù)測(cè)

隨著我們轉(zhuǎn)向更復(fù)雜的模型，具有更高的準(zhǔn)確性，我們發(fā)現(xiàn)越來(lái)越難以解釋這些模型如何產(chǎn)生預(yù)測(cè)。由于以下幾個(gè)原因，這是一個(gè)岌岌可危的困境：

·模型偏差是一個(gè)重要問(wèn)題，因?yàn)樗鼈冏罱K可能會(huì)對(duì)決策產(chǎn)生不公平的影響。一些數(shù)據(jù)存在內(nèi)在偏差，特別是在涉及種族和性別偏見(jiàn)時(shí)，這會(huì)對(duì)模型的預(yù)測(cè)產(chǎn)生負(fù)面影響。由于沒(méi)有好的方法來(lái)解釋模型如何做出決定，因此很難確定這些固有的偏見(jiàn)。

·模型改進(jìn)也很困難如果您不知道要改進(jìn)什么。當(dāng)然，您可以調(diào)整超參數(shù)，直到獲得最佳分?jǐn)?shù)，但您擁有的數(shù)據(jù)類型更為重要。了解模型中不同特征的價(jià)值可為數(shù)據(jù)收集提供有價(jià)值的反饋，告知我們哪些類型的數(shù)據(jù)最重要.

·用戶信任對(duì)于采用人工智能系統(tǒng)非常重要。在人工智能治理中心最近的一份報(bào)告中，作者報(bào)告說(shuō)："有更多的美國(guó)人認(rèn)為高級(jí)機(jī)器智能會(huì)比那些認(rèn)為對(duì)人類有益的人有害。"復(fù)雜模型的可解釋性有助于更好的理解，建立模型如何做出決策的直覺(jué)，并最終產(chǎn)生用戶信任。

添加功能歸因方法

為了解釋更復(fù)雜的模型，我們需要一個(gè)更接近原始模型的簡(jiǎn)單解釋模型。

假設(shè)我們有一個(gè)形式為f（x）的復(fù)雜模型，那么解釋模型g（z'）≈f（x）。

利用SHAP實(shí)現(xiàn)機(jī)器學(xué)習(xí)模型的輸出預(yù)測(cè)

稍微分解g（z'），我們將一些效應(yīng)φ?歸因于每個(gè)特征z'。通過(guò)總結(jié)所有這些效果及其特征，我們可以近似原始模型的輸出。這被定義為附加特征歸屬方法。事實(shí)證明，其他當(dāng)前的解釋模型遵循相同的解釋模型，允許它們?nèi)拷y(tǒng)一到一個(gè)單一的框架中。

附加特征歸屬方法的屬性

1.局部精度：最重要的屬性之一是解釋模型能夠匹配原始模型的輸出。

2.缺失：如果缺少特征，則該特征沒(méi)有效果，或φ?= 0。

3.一致性：如果模型發(fā)生變化，使得特征貢獻(xiàn)增加或保持不變，那么特征屬性或φ?不應(yīng)減少。

這導(dǎo)致我們SHAP值，它統(tǒng)一了以前的方法，并展示了上述屬性。

SHAP值

SHAP值（φ?）用于描述特征的重要性。請(qǐng)考慮以下圖表：

利用SHAP實(shí)現(xiàn)機(jī)器學(xué)習(xí)模型的輸出預(yù)測(cè)

f(x)是模型預(yù)測(cè)的輸出，E[f(z)]是如果沒(méi)有特征則預(yù)測(cè)的基值。換句話說(shuō)，E[f(z)]只是平均模型輸出。

當(dāng)我們包括一個(gè)特征x 1，然后φ1，解釋我們?nèi)绾螐幕档叫碌念A(yù)測(cè)值，現(xiàn)在由E [f（z）|給出。 z 1 = x 1]。對(duì)剩余的變量x 1，x 2，x 3重復(fù)這個(gè)過(guò)程，估計(jì)φ1，φ2和φ3的SHAP值，顯示模型最終如何到達(dá)預(yù)測(cè)輸出f（x）。

不同口味的SHAP（different favours of SHAP）

SHAP有多種實(shí)現(xiàn)方式，每種方式都適用于特定的模型類型，可以實(shí)現(xiàn)更快的逼近。

·TreeExplainer

TreeExplainer專為樹(shù)集合方法開(kāi)發(fā)，如XGBoost，LightGBM或CatBoost。

·DeepExplainer

DeepExplainer是為深度學(xué)習(xí)模型開(kāi)發(fā)的，支持TensorFlow / Keras。

·GradientExplainer

GradientExplainer也是為深度學(xué)習(xí)模型中的SHAP值而開(kāi)發(fā)的，但速度比DeepExplainer慢，并且做出了不同的假設(shè)。此方法基于Integrated Gradient歸因方法，并支持TensorFlow / Keras / PyTorch。

·KernelExplainer

KernelExplainer使用加權(quán)線性回歸近似任何類型模型的SHAP值。

使用特定于模型類型的算法（TreeExplainer，DeepExplainer）而不是通用KernelExplainer更快更有效。

總結(jié)

作者發(fā)現(xiàn)人類解釋和SHAP解釋之間的關(guān)聯(lián)比任何其他方法更強(qiáng)，這表明了SHAP的強(qiáng)大和直觀性。計(jì)算出的SHAP值很容易在美觀，簡(jiǎn)單的圖中顯示，這些圖解釋了特征如何影響特定預(yù)測(cè)。這使得SHAP成為一個(gè)令人信服的工具，可以自信地解釋和解釋任何模型。

有關(guān)如何實(shí)現(xiàn)SHAP的教程，請(qǐng)查看我的筆記本，看看我們?nèi)绾谓忉対u變提升樹(shù)的預(yù)測(cè)結(jié)果。 SHAP github還提供了很多資源，可以提供有關(guān)如何實(shí)現(xiàn)DeepExplainer，KernelExplainer和其他有用功能的更多示例。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

算法

算法

+關(guān)注

關(guān)注
23

文章
4552

瀏覽量
92023
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8306

瀏覽量
131843

評(píng)論

相關(guān)推薦

【《時(shí)間序列與機(jī)器學(xué)習(xí)》閱讀體驗(yàn)】+ 時(shí)間序列的信息提取

本人有些機(jī)器學(xué)習(xí)的基礎(chǔ)，理解起來(lái)一點(diǎn)也不輕松，加油。作者首先說(shuō)明了時(shí)間序列的信息提取是時(shí)間序列分析的一個(gè)重要環(huán)節(jié)，目標(biāo)是從給定的時(shí)間序列數(shù)據(jù)中提取出有用的信息和特征，以支持后續(xù)的分析和預(yù)測(cè)任務(wù)，可以

發(fā)表于 08-14 18:00

【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】+ 簡(jiǎn)單建議

這本書(shū)以其系統(tǒng)性的框架和深入淺出的講解，為讀者繪制了一幅時(shí)間序列分析與機(jī)器學(xué)習(xí)融合應(yīng)用的宏偉藍(lán)圖。作者不僅扎實(shí)地構(gòu)建了時(shí)間序列分析的基礎(chǔ)知識(shí)，更巧妙地展示了機(jī)器學(xué)習(xí)如何在這一領(lǐng)域發(fā)揮巨

發(fā)表于 08-12 11:21

【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】全書(shū)概覽與時(shí)間序列概述

數(shù)據(jù)中提取特征并將其轉(zhuǎn)化為交易策略，以及機(jī)器學(xué)習(xí)在其他金融領(lǐng)域(包括資產(chǎn)定價(jià)、資產(chǎn)配置、波動(dòng)率預(yù)測(cè))的應(yīng)用。全書(shū)彩版印刷，內(nèi)容結(jié)構(gòu)嚴(yán)整，條理清晰，循序漸進(jìn)，由淺入深，是很好的時(shí)間序列學(xué)習(xí)

發(fā)表于 08-07 23:03

【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

今天來(lái)學(xué)習(xí)大語(yǔ)言模型在自然語(yǔ)言理解方面的原理以及問(wèn)答回復(fù)實(shí)現(xiàn)。主要是基于深度學(xué)習(xí)和自然語(yǔ)言處理技術(shù)。大語(yǔ)言模型涉及以下幾個(gè)過(guò)程：數(shù)據(jù)收

發(fā)表于 08-02 11:03

利用Matlab函數(shù)實(shí)現(xiàn)深度學(xué)習(xí)算法

在Matlab中實(shí)現(xiàn)深度學(xué)習(xí)算法是一個(gè)復(fù)雜但強(qiáng)大的過(guò)程，可以應(yīng)用于各種領(lǐng)域，如圖像識(shí)別、自然語(yǔ)言處理、時(shí)間序列預(yù)測(cè)等。這里，我將概述一個(gè)基本的流程，包括環(huán)境設(shè)置、數(shù)據(jù)準(zhǔn)備、模型設(shè)計(jì)、訓(xùn)

發(fā)表于 07-14 14:21 ?1166次閱讀

MATLAB預(yù)測(cè)模型哪個(gè)好

，適用于預(yù)測(cè)連續(xù)型數(shù)據(jù)。它假設(shè)輸入變量（自變量）與輸出變量（因變量）之間存在線性關(guān)系。線性回歸模型的表達(dá)式為： y = β0 + β1x1 + β2x2 + ... + βnxn + ε 其中，y是

發(fā)表于 07-11 14:31 ?248次閱讀

matlab預(yù)測(cè)模型有哪些

環(huán)境，使其成為預(yù)測(cè)模型開(kāi)發(fā)和實(shí)現(xiàn)的理想平臺(tái)。本文將詳細(xì)介紹MATLAB中常用的預(yù)測(cè)模型及其應(yīng)用。線性回歸

發(fā)表于 07-11 14:27 ?467次閱讀

Al大模型機(jī)器人

豐富的知識(shí)儲(chǔ)備。它們可以涵蓋各種領(lǐng)域的知識(shí)，并能夠回答相關(guān)問(wèn)題。靈活性與通用性: AI大模型機(jī)器人具有很強(qiáng)的靈活性和通用性，能夠處理各種類型的任務(wù)和問(wèn)題。持續(xù)學(xué)習(xí)和改進(jìn): 這些模型可以

發(fā)表于 07-05 08:52

深度學(xué)習(xí)模型訓(xùn)練過(guò)程詳解

深度學(xué)習(xí)模型訓(xùn)練是一個(gè)復(fù)雜且關(guān)鍵的過(guò)程，它涉及大量的數(shù)據(jù)、計(jì)算資源和精心設(shè)計(jì)的算法。訓(xùn)練一個(gè)深度學(xué)習(xí)模型，本質(zhì)上是通過(guò)優(yōu)化算法調(diào)整模型參數(shù)，

發(fā)表于 07-01 16:13 ?488次閱讀

名單公布！【書(shū)籍評(píng)測(cè)活動(dòng)NO.35】如何用「時(shí)間序列與機(jī)器學(xué)習(xí)」解鎖未來(lái)？

設(shè)備的運(yùn)行狀況，生成各種維度的報(bào)告。同時(shí)，通過(guò)大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)技術(shù)，可以對(duì)業(yè)務(wù)進(jìn)行預(yù)測(cè)和預(yù)警，從而協(xié)助社會(huì)和企業(yè)進(jìn)行科學(xué)決策、降低成本并創(chuàng)造新的價(jià)值。當(dāng)今時(shí)代，數(shù)據(jù)無(wú)處不在，而時(shí)間序列數(shù)據(jù)更是

發(fā)表于 06-25 15:00

如何使用TensorFlow構(gòu)建機(jī)器學(xué)習(xí)模型

在這篇文章中，我將逐步講解如何使用 TensorFlow 創(chuàng)建一個(gè)簡(jiǎn)單的機(jī)器學(xué)習(xí)模型。

發(fā)表于 01-08 09:25 ?802次閱讀

如何基于深度學(xué)習(xí)模型訓(xùn)練實(shí)現(xiàn)工件切割點(diǎn)位置預(yù)測(cè)

Hello大家好，今天給大家分享一下如何基于深度學(xué)習(xí)模型訓(xùn)練實(shí)現(xiàn)工件切割點(diǎn)位置預(yù)測(cè)，主要是通過(guò)對(duì)YOLOv8姿態(tài)評(píng)估模型在自定義的數(shù)據(jù)集上訓(xùn)

發(fā)表于 12-22 11:07 ?606次閱讀

如何基于深度學(xué)習(xí)模型訓(xùn)練實(shí)現(xiàn)圓檢測(cè)與圓心位置預(yù)測(cè)

Hello大家好，今天給大家分享一下如何基于深度學(xué)習(xí)模型訓(xùn)練實(shí)現(xiàn)圓檢測(cè)與圓心位置預(yù)測(cè)，主要是通過(guò)對(duì)YOLOv8姿態(tài)評(píng)估模型在自定義的數(shù)據(jù)集上

發(fā)表于 12-21 10:50 ?1397次閱讀

LabVIEW進(jìn)行癌癥預(yù)測(cè)模型研究

LabVIEW進(jìn)行癌癥預(yù)測(cè)模型研究癌癥是一種細(xì)胞異常增生的疾病。隨著年齡的增長(zhǎng)，細(xì)胞分裂速度放緩，但癌細(xì)胞會(huì)失去控制地不斷分裂，形成可能良性或惡性的腫瘤。 2012年的國(guó)際癌癥數(shù)據(jù)顯示，新發(fā)癌癥

發(fā)表于 12-13 19:04

淺析機(jī)器學(xué)習(xí)的基本步驟

在機(jī)器學(xué)習(xí)中，機(jī)器學(xué)習(xí)的效率在很大程度上取決于它所提供的數(shù)據(jù)集，數(shù)據(jù)集的大小和豐富程度也決定了最終預(yù)測(cè)的結(jié)果質(zhì)量。目前在算力方面，量子計(jì)算能

發(fā)表于 10-30 11:13 ?334次閱讀