電子發(fā)燒友網(wǎng)>電子資料下載>電子資料>PyTorch教程4.7之環(huán)境與分配轉(zhuǎn)變

PyTorch教程4.7之環(huán)境與分配轉(zhuǎn)變

2512952 2023-06-05 | pdf | 0.44 MB | 次下載 | 免費

資料介紹

在前面的部分中，我們完成了機器學(xué)習(xí)的一些實踐應(yīng)用，將模型擬合到各種數(shù)據(jù)集。然而，我們從未停下來思考數(shù)據(jù)最初來自何處，或者我們最終計劃如何處理模型的輸出。很多時候，擁有數(shù)據(jù)的機器學(xué)習(xí)開發(fā)人員急于開發(fā)模型而沒有停下來考慮這些基本問題。

許多失敗的機器學(xué)習(xí)部署都可以追溯到這種模式。有時，根據(jù)測試集的準(zhǔn)確性衡量，模型似乎表現(xiàn)出色，但當(dāng)數(shù)據(jù)分布突然發(fā)生變化時，部署就會出現(xiàn)災(zāi)難性的失敗。更陰險的是，有時模型的部署本身就是擾亂數(shù)據(jù)分布的催化劑。舉例來說，我們訓(xùn)練了一個模型來預(yù)測誰將償還貸款與違約貸款，發(fā)現(xiàn)申請人選擇的鞋類與違約風(fēng)險相關(guān)（牛津鞋表示還款，運動鞋表示違約）。此后，我們可能傾向于向所有穿著牛津鞋的申請人提供貸款，而拒絕所有穿著運動鞋的申請人。

在這種情況下，我們從模式識別到?jīng)Q策制定的考慮不周的飛躍以及我們未能批判性地考慮環(huán)境可能會產(chǎn)生災(zāi)難性的后果。首先，一旦我們開始根據(jù)鞋類做出決定，客戶就會了解并改變他們的行為。不久之后，所有的申請者都會穿著牛津鞋，而信用度卻沒有任何同步提高。花一點時間來消化一下，因為類似的問題在機器學(xué)習(xí)的許多應(yīng)用中比比皆是：通過將我們基于模型的決策引入環(huán)境，我們可能會破壞模型。

雖然我們不可能在一個部分中對這些主題進(jìn)行完整的處理，但我們的目的是在此揭露一些常見的問題，并激發(fā)早期發(fā)現(xiàn)這些情況、減輕損害和負(fù)責(zé)任地使用機器學(xué)習(xí)所需的批判性思維。有些解決方案很簡單（要求“正確的”數(shù)據(jù)），有些在技術(shù)上很困難（實施強化學(xué)習(xí)系統(tǒng)），而另一些則需要我們完全走出統(tǒng)計預(yù)測的領(lǐng)域，解決有關(guān)倫理的哲學(xué)難題算法的應(yīng)用。

4.7.1. 分配轉(zhuǎn)移的類型

首先，考慮到數(shù)據(jù)分布可能發(fā)生變化的各種方式以及可以采取哪些措施來挽救模型性能，我們堅持使用被動預(yù)測設(shè)置。在一個經(jīng)典設(shè)置中，我們假設(shè)我們的訓(xùn)練數(shù)據(jù)是從某個分布中采樣的 pS(x,y)但是我們的測試數(shù)據(jù)將由來自不同分布的未標(biāo)記示例組成 pT(x,y). 我們已經(jīng)必須面對一個發(fā)人深省的現(xiàn)實。沒有關(guān)于如何做的任何假設(shè)pS和pT相互關(guān)聯(lián)，學(xué)習(xí)一個魯棒的分類器是不可能的。

考慮一個二元分類問題，我們希望區(qū)分狗和貓。如果分布可以以任意方式移動，那么我們的設(shè)置允許輸入分布保持不變的病態(tài)情況：pS(x)=pT(x)，但標(biāo)簽都被翻轉(zhuǎn)了： pS(y∣x)=1?pT(y∣x). 換句話說，如果上帝可以突然決定未來所有的“貓”現(xiàn)在都是狗，而我們以前所說的“狗”現(xiàn)在是貓——投入的分配沒有任何變化p(x)，那么我們就不可能將這種設(shè)置與分布根本沒有改變的設(shè)置區(qū)分開來。

幸運的是，在對我們的數(shù)據(jù)未來可能發(fā)生變化的方式的一些限制性假設(shè)下，有原則的算法可以檢測到變化，有時甚至可以即時適應(yīng)，從而提高原始分類器的準(zhǔn)確性。