Google AI推出“what-if ”工具,用戶完全不需要編寫代碼就能分析機(jī)器學(xué)習(xí)模型。該工具提供交互式可視化界面,用戶可以探索并比較模型結(jié)果,可以快速地發(fā)現(xiàn)模型中的錯(cuò)誤。
構(gòu)建高效的機(jī)器學(xué)習(xí)系統(tǒng),需要提出并解決許多問題。僅僅訓(xùn)練模型然后就放著不管是遠(yuǎn)遠(yuǎn)不夠的。優(yōu)秀的機(jī)器學(xué)習(xí)從業(yè)者要像偵探一樣,時(shí)刻注意探索如何更好地理解構(gòu)建的模型:數(shù)據(jù)點(diǎn)的變化將對(duì)模型的預(yù)測結(jié)果造成什么影響?同一個(gè)模型對(duì)不同的群體會(huì)有哪些不同的表現(xiàn)?用來測試模型的數(shù)據(jù)集的多樣化程度如何等等。
要回答這些問題并不容易。要回答這些“假設(shè)”問題,通常要編寫自定義的一次性代碼來分析特定模型。這個(gè)過程不僅效率低下,而且除了程序員,其他人很難參與改進(jìn)機(jī)器學(xué)習(xí)模型的過程。
Google AI PAIR計(jì)劃的一個(gè)重點(diǎn)就是讓更廣泛的人群能夠更方便地對(duì)機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行檢查、評(píng)估和調(diào)試。
今天,我們正式發(fā)布What-If工具,該工具是開源的TensorBoard Web應(yīng)用程序的一項(xiàng)新功能,它允許用戶在不編寫代碼的情況下分析機(jī)器學(xué)習(xí)模型。What-If工具給出了TensorFlow模型和數(shù)據(jù)集的指針,提供了一個(gè)交互式可視化界面,用于探索模型結(jié)果。
What-If工具顯示一組250張面部圖片及其檢測微笑模型的結(jié)果
What-If工具功能強(qiáng)大,可以使用Facets自動(dòng)顯示數(shù)據(jù)集,從數(shù)據(jù)集手動(dòng)編輯示例并查看更改的效果,還能自動(dòng)生成部分依賴圖(partial dependence plots),顯示模型的預(yù)測結(jié)果隨任何單個(gè)功能的更改而變化的情況。
探索數(shù)據(jù)點(diǎn)上的What-if情景
下面詳細(xì)介紹What-If工具的兩個(gè)功能。
只需一鍵,自動(dòng)對(duì)比數(shù)據(jù)點(diǎn)與模型預(yù)測最相似點(diǎn)
用戶只需單擊一個(gè)按鈕,就可以將數(shù)據(jù)點(diǎn)與模型預(yù)測不同結(jié)果的最相似點(diǎn)進(jìn)行比較。我們稱這些點(diǎn)為“Counterfactuals”,可以顯示出預(yù)測模型的決策邊界。用戶也可以手動(dòng)編輯數(shù)據(jù)點(diǎn),并探索模型預(yù)測的變化。
在下面的截圖中,該工具用于二進(jìn)制分類模型,該模型根據(jù)美國人口普查數(shù)據(jù)集的公共人口普查數(shù)據(jù),預(yù)測一個(gè)人的年收入是否超過5萬美元。這是機(jī)器學(xué)習(xí)研究人員使用的基準(zhǔn)預(yù)測任務(wù),尤其是在分析算法的公平性時(shí)。
在這種情況下,對(duì)于選定的數(shù)據(jù)點(diǎn),模型預(yù)測該人年收入超過5萬美元的信度為73%。該工具自動(dòng)定位數(shù)據(jù)集中最相似的人,模型預(yù)測其年收入低于5萬美元,然后將選定數(shù)據(jù)點(diǎn)和與之最相似、但預(yù)測結(jié)果相反的數(shù)據(jù)點(diǎn)進(jìn)行并排比較。如下圖所示,二者只有在年齡和職業(yè)上存在微小的差異,但模型的預(yù)測結(jié)果已經(jīng)完全相反了。
對(duì)Counterfactuals的比較。二人只有在年齡和職業(yè)上存在微小的差異,但模型的預(yù)測結(jié)果已經(jīng)完全相反
模型性能和算法公平性分析
用戶還可以探索不同分類閾值的影響,同時(shí)考慮不同數(shù)值公平性標(biāo)準(zhǔn)等約束條件。下圖所示為微笑探測器模型的結(jié)果,該模型在開源CelebA數(shù)據(jù)集上訓(xùn)練,數(shù)據(jù)集是已標(biāo)記的名人面部圖像。
下圖所示數(shù)據(jù)集中的面部圖像按照頭發(fā)是否為棕色分開,兩個(gè)圖像中的每一組都建立一條ROC曲線和一個(gè)預(yù)測結(jié)果的混淆矩陣,再設(shè)置一個(gè)置信度滑塊,設(shè)定模型必須在超過某一置信度時(shí)才能判定目標(biāo)的面部是微笑的。本例中,What-If工具自動(dòng)設(shè)置兩組的置信度閾值,以優(yōu)化模型,實(shí)現(xiàn)機(jī)會(huì)均等。
使用What-if工具對(duì)微笑檢測模型兩部分?jǐn)?shù)據(jù)的預(yù)測表現(xiàn)的比較,其中預(yù)測模型分類閾值設(shè)置滿足“機(jī)會(huì)公平”
檢測錯(cuò)誤分類、評(píng)估模型公平性、調(diào)查模型不同數(shù)據(jù)集
為了說明What-if工具的功能,我們使用預(yù)先訓(xùn)練的模型發(fā)布了一組Demo:
檢測錯(cuò)誤分類:多類分類模型,模型根據(jù)對(duì)植物的花的四次觀測來預(yù)測植物的種類。What-if工具有助于顯示模型的決策邊界,弄清導(dǎo)致錯(cuò)誤分類的原因。
評(píng)估二元分類模型的公平性:上面提到的用于微笑表情檢測的圖像分類模型。What-if工具有助于評(píng)估不同子圖像組的算法公平性。在該模型的訓(xùn)練中,有意沒有提供來自特定人群的示例,目的是為了顯現(xiàn)What-if工具如何能夠揭示模型中的這種偏差。對(duì)模型預(yù)測公平性的評(píng)估需要仔細(xì)考慮整體背景,不過What-if工具是一個(gè)有用的量化起點(diǎn)。
調(diào)查模型在不同子群體中的表現(xiàn):回歸模型可以用于根據(jù)人口普查信息預(yù)測受試者的年齡。What-if工具能顯示出模型在不同子群體中的相對(duì)表現(xiàn),以及不同特征如何單獨(dú)影響預(yù)測結(jié)果。該模型使用美國人口普查數(shù)據(jù)集進(jìn)行訓(xùn)練。
What-If工具的實(shí)地應(yīng)用
我們將What-If工具在Google內(nèi)部團(tuán)隊(duì)中進(jìn)行了測試,該工具在測試中顯現(xiàn)出了直接價(jià)值。有團(tuán)隊(duì)很快發(fā)現(xiàn)他們的模型錯(cuò)誤地忽略了數(shù)據(jù)集的整個(gè)特征,修復(fù)了以前未發(fā)現(xiàn)的代碼錯(cuò)誤。 還有團(tuán)隊(duì)使用該工具將模型示例按性能高到低排列出來,并發(fā)現(xiàn)表現(xiàn)不佳的模型示例的運(yùn)行模式。
我們期待Google內(nèi)外的人們都來使用What-If工具,以更好地理解機(jī)器學(xué)習(xí)模型,并開始評(píng)估預(yù)測模型的公平性。 我們的代碼是開源的,歡迎對(duì)該工具繼續(xù)添磚加瓦。
-
Google
+關(guān)注
關(guān)注
5文章
1748瀏覽量
57182 -
代碼
+關(guān)注
關(guān)注
30文章
4671瀏覽量
67765 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8306瀏覽量
131841
原文標(biāo)題:測試機(jī)器學(xué)習(xí)模型不用寫代碼!谷歌“what-if”工具輕松搞定
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評(píng)論請先 登錄
相關(guān)推薦
評(píng)論