0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于機器學習模型的六大可解釋性技術(shù)

C29F_xilinx_inc ? 來源:賽靈思 ? 作者:賽靈思 ? 2022-02-26 17:20 ? 次閱讀

本文介紹目前常見的幾種可以提高機器學習模型的可解釋性的技術(shù)。

模型可解釋性匯總

簡介

目前很多機器學習模型可以做出非常好的預測,但是它們并不能很好地解釋他們是如何進行預測的,很多數(shù)據(jù)科學家都很難知曉為什么該算法會得到這樣的預測結(jié)果。這是非常致命的,因為如果我們無法知道某個算法是如何進行預測,那么我們將很難將其遷移到其它的問題中,很難進行算法的debug。

本文介紹目前常見的幾種可以提高機器學習模型的可解釋性的技術(shù),包括它們的相對優(yōu)點和缺點。我們將其分為下面幾種:

1. Partial Dependence Plot (PDP);

2. Individual Conditional Expectation (ICE)

3. Permuted Feature Importance

4. Global Surrogate

5. Local Surrogate (LIME)

6. Shapley Value (SHAP)

六大可解釋性技術(shù)

01、Partial Dependence Plot (PDP)

PDP是十幾年之前發(fā)明的,它可以顯示一個或兩個特征對機器學習模型的預測結(jié)果的邊際效應。它可以幫助研究人員確定當大量特征調(diào)整時,模型預測會發(fā)生什么樣的變化。

關(guān)于機器學習模型的六大可解釋性技術(shù)

上面圖中X軸表示特圖片的值y軸表示預測值。陰影區(qū)域中的實線顯示了平均預測如何隨圖片值的變化而變化。PDP能很直觀地顯示平均邊際效應,因此可能會隱藏異質(zhì)效應。

例如,一個特征可能與一半數(shù)據(jù)的預測正相關(guān),與另一半數(shù)據(jù)負相關(guān)。那么PDP圖將只是一條水平線。

02、Individual Conditional Expectation (ICE)

ICE和PDP非常相似,但和PDP不同之處在于,PDP繪制的是平均情況,但是ICE會顯示每個實例的情況。ICE可以幫助我們解釋一個特定的特征改變時,模型的預測會怎么變化。

關(guān)于機器學習模型的六大可解釋性技術(shù)

如上圖所示,與PDP不同,ICE曲線可以揭示異質(zhì)關(guān)系。但其最大的問題在于:它不能像PDP那樣容易看到平均效果,所以可以考慮將二者結(jié)合起來一起使用。

03、Permuted Feature Importance

Permuted Feature Importance的特征重要性是通過特征值打亂后模型預測誤差的變化得到的。換句話說,Permuted Feature Importance有助于定義模型中的特征對最終預測做出貢獻的大小。

關(guān)于機器學習模型的六大可解釋性技術(shù)

如上圖所示,特征f2在特征的最上面,對模型的誤差影響是最大的,f1在shuffle之后對模型卻幾乎沒什么影響,生息的特征則對于模型是負面的貢獻。

04、Global Surrogate

Global Surrogate方法采用不同的方法。它通過訓練一個可解釋的模型來近似黑盒模型的預測。

首先,我們使用經(jīng)過訓練的黑盒模型對數(shù)據(jù)集進行預測;

然后我們在該數(shù)據(jù)集和預測上訓練可解釋的模型。

訓練好的可解釋模型可以近似原始模型,我們需要做的就是解釋該模型。

注:代理模型可以是任何可解釋的模型:線性模型、決策樹、人類定義的規(guī)則等。

關(guān)于機器學習模型的六大可解釋性技術(shù)

使用可解釋的模型來近似黑盒模型會引入額外的誤差,但額外的誤差可以通過R平方來衡量。

由于代理模型僅根據(jù)黑盒模型的預測而不是真實結(jié)果進行訓練,因此全局代理模型只能解釋黑盒模型,而不能解釋數(shù)據(jù)。

05、Local Surrogate (LIME)

LIME(Local Interpretable Model-agnostic Explanations)和global surrogate是不同的,因為它不嘗試解釋整個模型。相反,它訓練可解釋的模型來近似單個預測。LIME試圖了解當我們擾亂數(shù)據(jù)樣本時預測是如何變化的。

關(guān)于機器學習模型的六大可解釋性技術(shù)

上面左邊的圖像被分成可解釋的部分。然后,LIME 通過“關(guān)閉”一些可解釋的組件(在這種情況下,使它們變灰)來生成擾動實例的數(shù)據(jù)集。對于每個擾動實例,可以使用經(jīng)過訓練的模型來獲取圖像中存在樹蛙的概率,然后在該數(shù)據(jù)集上學習局部加權(quán)線性模型。最后,使用具有最高正向權(quán)重的成分來作為解釋。

06、Shapley Value (SHAP)

Shapley Value的概念來自博弈論。我們可以通過假設(shè)實例的每個特征值是游戲中的“玩家”來解釋預測。每個玩家的貢獻是通過在其余玩家的所有子集中添加和刪除玩家來衡量的。一名球員的Shapley Value是其所有貢獻的加權(quán)總和。Shapley 值是可加的,局部準確的。如果將所有特征的Shapley值加起來,再加上基值,即預測平均值,您將得到準確的預測值。這是許多其他方法所沒有的功能。

關(guān)于機器學習模型的六大可解釋性技術(shù)

該圖顯示了每個特征的Shapley值,表示將模型結(jié)果從基礎(chǔ)值推到最終預測的貢獻。紅色表示正面貢獻,藍色表示負面貢獻。

小結(jié)

機器學習模型的可解釋性是機器學習中一個非?;钴S而且重要的研究領(lǐng)域。本文中我們介紹了6種常用的用于理解機器學習模型的算法。大家可以依據(jù)自己的實踐場景進行使用。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4552

    瀏覽量

    92028
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3032

    瀏覽量

    48369
  • 機器學習
    +關(guān)注

    關(guān)注

    66

    文章

    8306

    瀏覽量

    131848
收藏 人收藏

    評論

    相關(guān)推薦

    【《大語言模型應用指南》閱讀體驗】+ 基礎(chǔ)知識學習

    一些局限性。例如,模型可能無法完全理解文本中的深層含義和語境信息;同時,由于訓練數(shù)據(jù)可能存在偏差和噪聲,生成的答案也可能存在不準確或誤導的情況。 總結(jié)以下,大語言模型通過深度學習
    發(fā)表于 08-02 11:03

    Al大模型機器

    豐富的知識儲備。它們可以涵蓋各種領(lǐng)域的知識,并能夠回答相關(guān)問題。靈活性與通用: AI大模型機器人具有很強的靈活性和通用,能夠處理各種類型的任務和問題。持續(xù)
    發(fā)表于 07-05 08:52

    【大規(guī)模語言模型:從理論到實踐】- 閱讀體驗

    直觀地解釋和理解。這可能會影響模型可解釋性和可信賴,特別是在需要高度可靠的場景中。 通過修改注意力機制的計算方式或引入新的架構(gòu)來降低
    發(fā)表于 06-07 14:44

    【大語言模型:原理與工程實踐】核心技術(shù)綜述

    中應用,需要考慮到性能、可擴展性和安全等因素。 大語言模型正在快速發(fā)展,新技術(shù)不斷涌現(xiàn)。未來的研究可能集中在提高模型效率、理解和可解釋性
    發(fā)表于 05-05 10:56

    新手學習單片機最常見的六大誤區(qū)!

    最近看到臺私信要資料的同學比較多,想必大家都是對單片機有著濃厚的學習興趣,但是很多新手開始入門單片機的時候都會遇到一些學習的誤區(qū),今天就來整理一下大家可能會遇到的六大誤區(qū)。單片機作為嵌入式系統(tǒng)的核心
    的頭像 發(fā)表于 03-28 08:03 ?519次閱讀
    新手<b class='flag-5'>學習</b>單片機最常見的<b class='flag-5'>六大</b>誤區(qū)!

    Meta發(fā)布SceneScript視覺模型,高效構(gòu)建室內(nèi)3D模型

    Meta 表示,此模型具備創(chuàng)建室內(nèi) 3D 模型的高效與輕便,僅需幾KB內(nèi)存便能生成完整清晰的幾何圖形,同時,這些形狀數(shù)據(jù)具備可解釋性,便于用戶理解和編輯。
    的頭像 發(fā)表于 03-26 11:16 ?472次閱讀

    頂刊TIP 2023!浙大提出:基于全頻域通道選擇的的無監(jiān)督異常檢測

    Density-based方法:基于密度的方法通常采用預訓練的模型來提取輸入圖像的有意義嵌入向量,測試圖像時通過計算嵌入表示與參考表示分布之間的相似度以得到異常分數(shù)。這種方法在MVTec AD等數(shù)據(jù)集上取得了較高的指標分數(shù),但需要預訓練模型加持且
    的頭像 發(fā)表于 01-11 16:02 ?748次閱讀
    頂刊TIP 2023!浙大提出:基于全頻域通道選擇的的無監(jiān)督異常檢測

    如何使用TensorFlow構(gòu)建機器學習模型

    在這篇文章中,我將逐步講解如何使用 TensorFlow 創(chuàng)建一個簡單的機器學習模型
    的頭像 發(fā)表于 01-08 09:25 ?808次閱讀
    如何使用TensorFlow構(gòu)建<b class='flag-5'>機器</b><b class='flag-5'>學習</b><b class='flag-5'>模型</b>

    華為云AI峰會揭示大模型實踐難題

    除此之外,還存在行業(yè)訓練數(shù)據(jù)安全控制、大模型幻覺緩解消除及可解釋性、構(gòu)建具有強大邏輯推理規(guī)劃能力的大模型、基于圖數(shù)據(jù)的知識增強技術(shù)、通用結(jié)構(gòu)化數(shù)據(jù)特性對齊和預訓練,以及視覺領(lǐng)域下一個t
    的頭像 發(fā)表于 12-25 10:33 ?687次閱讀

    LabVIEW的軸工業(yè)機器人運動控制系統(tǒng)

    LabVIEW開發(fā)軸工業(yè)機器人運動控制系統(tǒng) 本項目開發(fā)了一個高效的工業(yè)機器人控制系統(tǒng),重點關(guān)注于運動學算法和軌跡規(guī)劃算法的實現(xiàn)和測試。LabVIEW作為一個關(guān)鍵技術(shù),在項目中扮演了核
    發(fā)表于 12-21 20:03

    MES需求六大常見誤區(qū)

    電子發(fā)燒友網(wǎng)站提供《MES需求六大常見誤區(qū).docx》資料免費下載
    發(fā)表于 12-21 11:08 ?0次下載

    工業(yè)機器人的三大部分六大系統(tǒng)是什么?

    工業(yè)機器人由三大部分和個子系統(tǒng)構(gòu)成?;谶@三大部分和六大系統(tǒng)的協(xié)同作業(yè),令工業(yè)機器人成為了具備工作精度高、穩(wěn)定性強、工作速度快等特點的高精密度機械設(shè)備,進一步為企業(yè)提高生產(chǎn)效率、降低
    的頭像 發(fā)表于 11-17 08:07 ?4043次閱讀
    工業(yè)<b class='flag-5'>機器</b>人的三大部分<b class='flag-5'>六大</b>系統(tǒng)是什么?

    2023烏鎮(zhèn)峰會|張亞勤:大模型技術(shù)六大發(fā)展趨勢

    主流。在展望大模型技術(shù)未來六大發(fā)展趨勢的同時,他也呼吁大家重視技術(shù)飛速發(fā)展帶來的潛在風險,讓人工智能創(chuàng)新和技術(shù)為人類善良和福祉服務,打造網(wǎng)絡(luò)
    的頭像 發(fā)表于 11-09 10:50 ?596次閱讀
    2023烏鎮(zhèn)峰會|張亞勤:大<b class='flag-5'>模型</b><b class='flag-5'>技術(shù)</b>的<b class='flag-5'>六大</b>發(fā)展趨勢

    三個主要降維技術(shù)對比介紹:PCA, LCA,SVD

    隨著數(shù)據(jù)集的規(guī)模和復雜的增長,特征或維度的數(shù)量往往變得難以處理,導致計算需求增加,潛在的過擬合和模型可解釋性降低。
    的頭像 發(fā)表于 10-09 10:13 ?706次閱讀
    三個主要降維<b class='flag-5'>技術(shù)</b>對比介紹:PCA, LCA,SVD

    機器學習模型可解釋性的結(jié)果分析

    模型可解釋性機器學習領(lǐng)域的一個重要分支,隨著 AI 應用范圍的不斷擴大,人們越來越不滿足于模型的黑盒特性,與此同時,金融、自動駕駛等領(lǐng)域
    發(fā)表于 09-28 10:17 ?857次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b><b class='flag-5'>模型</b><b class='flag-5'>可解釋性</b>的結(jié)果分析