在許多情況下,機(jī)器學(xué)習(xí)相當(dāng)于從數(shù)據(jù)中估計(jì)參數(shù)。這些參數(shù)通常很多且相對難以解釋——例如神經(jīng)網(wǎng)絡(luò)的權(quán)重。相比之下,高斯過程提供了一種機(jī)制,可以直接推理適合我們數(shù)據(jù)的函數(shù)的高級屬性。例如,我們可能了解這些函數(shù)是否快速變化、周期性、涉及條件獨(dú)立性或平移不變性。高斯過程使我們能夠通過直接指定適合我們數(shù)據(jù)的函數(shù)值的高斯分布,輕松地將這些屬性合并到我們的模型中。
讓我們從一些例子開始,感受一下高斯過程是如何運(yùn)作的。
假設(shè)我們觀察以下回歸目標(biāo)(輸出)的數(shù)據(jù)集,y,由輸入索引,x. 例如,目標(biāo)可以是二氧化碳濃度的變化,輸入可以是記錄這些目標(biāo)的時間。數(shù)據(jù)有哪些特點(diǎn)?它看起來變化多快?我們是否定期收集數(shù)據(jù)點(diǎn),或者是否缺少輸入?您如何想象填補(bǔ)缺失的區(qū)域,或預(yù)測直到x=25?
為了用高斯過程擬合數(shù)據(jù),我們首先指定我們認(rèn)為合理的函數(shù)類型的先驗(yàn)分布。在這里,我們展示了幾個來自高斯過程的示例函數(shù)。這個先驗(yàn)看起來合理嗎?請注意,這里我們不是在尋找適合我們數(shù)據(jù)集的函數(shù),而是在尋找解決方案的合理高級屬性,例如它們隨輸入變化的速度。請注意,我們將在下一個關(guān)于先驗(yàn)和推理的筆記本中看到用于重現(xiàn)此筆記本中所有圖的代碼。
一旦我們以數(shù)據(jù)為條件,我們就可以使用它來推斷適合數(shù)據(jù)的函數(shù)的后驗(yàn)分布。在這里,我們展示了示例后驗(yàn)函數(shù)。
我們看到這些函數(shù)中的每一個都與我們的數(shù)據(jù)完全一致,完美地貫穿了每一次觀察。為了使用這些后驗(yàn)樣本進(jìn)行預(yù)測,我們可以對后驗(yàn)中每個可能的樣本函數(shù)的值進(jìn)行平均,以創(chuàng)建下面的粗藍(lán)色曲線。請注意,我們實(shí)際上不必采用無限數(shù)量的樣本來計(jì)算此期望;正如我們稍后將看到的,我們可以計(jì)算封閉形式的期望。
我們可能還需要不確定性的表示,因此我們知道我們應(yīng)該對我們的預(yù)測有多大的信心。直覺上,我們應(yīng)該有更多的不確定性,因?yàn)闃颖竞篁?yàn)函數(shù)的可變性更大,因?yàn)檫@告訴我們真實(shí)函數(shù)可以采用更多可能的值。這種不確定性稱為認(rèn)知不確定性,即可約化的不確定性。與缺乏信息有關(guān)。隨著我們獲取更多數(shù)據(jù),這種不確定性就會消失,因?yàn)榕c我們觀察到的一致的解決方案將越來越少。與后驗(yàn)均值一樣,我們可以計(jì)算封閉形式的后驗(yàn)方差(這些函數(shù)在后驗(yàn)中的可變性)。使用陰影,我們在均值兩側(cè)顯示兩倍的后驗(yàn)標(biāo)準(zhǔn)差,創(chuàng)建一個可信區(qū)間 ,該區(qū)間有 95% 的概率包含任何輸入的函數(shù)真實(shí)值x.
如果我們刪除后驗(yàn)樣本,只需可視化數(shù)據(jù)、后驗(yàn)均值和 95% 可信集,該圖看起來會更清晰一些。注意不確定性如何從數(shù)據(jù)中增長,這是認(rèn)知不確定性的一個特性。
我們用來擬合數(shù)據(jù)的高斯過程的屬性受到所謂的協(xié)方差函數(shù)(也稱為內(nèi)核)的強(qiáng)烈控制。我們使用的協(xié)方差函數(shù)稱為RBF(徑向基函數(shù))核,其形式為
這個內(nèi)核的超參數(shù)是可解釋的。振幅 參數(shù)_a控制函數(shù)變化的垂直尺度,以及長度尺度參數(shù)?控制函數(shù)的變化率(擺動度)。更大a 意味著更大的函數(shù)值,并且更大?意味著更緩慢地改變函數(shù)。讓我們看看我們的樣本先驗(yàn)函數(shù)和后驗(yàn)函數(shù)隨著我們的變化會發(fā)生什么a和?.
長度尺度對 GP 的預(yù)測和不確定性有特別顯著的影響。在||x?x′||=?,一對函數(shù)值之間的協(xié)方差是a2exp?(?0.5). 在比更遠(yuǎn)的距離?,函數(shù)值變得幾乎不相關(guān)。這意味著如果我們想在某個點(diǎn)做出預(yù)測x?,然后是帶有輸入的函數(shù)值 x這樣||x?x′||>?不會對我們的預(yù)測產(chǎn)生強(qiáng)烈影響。
讓我們看看更改長度尺度如何影響樣本先驗(yàn)和后驗(yàn)函數(shù)以及可信集。以上擬合使用長度尺度2. 現(xiàn)在讓我們考慮 ?=0.1,0.5,2,5,10. 的長度尺度0.1相對于我們正在考慮的輸入域的范圍來說非常小, 25. 例如,函數(shù)的值在x=5和 x=10在這樣的長度范圍內(nèi)基本上沒有相關(guān)性。另一方面,對于長度尺度10,這些輸入的函數(shù)值將高度相關(guān)。請注意,下圖中的垂直比例發(fā)生了變化。
請注意,隨著長度尺度的增加,函數(shù)的“擺動性”會降低,我們的不確定性也會降低。如果長度尺度很小,隨著我們遠(yuǎn)離數(shù)據(jù),不確定性會迅速增加,因?yàn)閿?shù)據(jù)點(diǎn)對函數(shù)值的信息變得越來越少。
現(xiàn)在,讓我們改變振幅參數(shù),將長度尺度固定在2. 請注意,垂直比例對于先驗(yàn)樣本保持固定,而對于后驗(yàn)樣本則不同,因此您可以清楚地看到函數(shù)的增加比例以及對數(shù)據(jù)的擬合。
我們看到振幅參數(shù)影響函數(shù)的尺度,但不影響變化率。在這一點(diǎn)上,我們也感覺到我們程序的泛化性能將取決于這些超參數(shù)的合理值。價值觀?=2 和a=1似乎提供了合理的擬合,而其他一些值卻沒有。幸運(yùn)的是,有一種強(qiáng)大且自動的方法可以使用所謂的邊際似然來指定這些超參數(shù),我們將在筆記本中進(jìn)行推理。
那么究竟什么是全科醫(yī)生呢?在我們開始時,GP 簡單地說任何函數(shù)值的集合<
評論
查看更多