3. 引言
眾所周知,對(duì)比學(xué)習(xí)現(xiàn)在已經(jīng)成功地在無(wú)監(jiān)督任務(wù)中成功應(yīng)用,通過(guò)學(xué)習(xí)到泛化能力較強(qiáng)的visual representations。然而,如果要使用大量未標(biāo)記數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練訓(xùn)練卻顯得有些奢侈。由于是進(jìn)行無(wú)監(jiān)督的對(duì)比學(xué)習(xí),需要很長(zhǎng)的時(shí)間收斂,所以對(duì)比學(xué)習(xí)比傳統(tǒng)的全監(jiān)督學(xué)習(xí)需要更大的模型和更長(zhǎng)時(shí)間的訓(xùn)練。隨著數(shù)據(jù)量的增加,它也需要更多的計(jì)算資源。而計(jì)算資源有限的條件下,wild unbalanced distribution的數(shù)據(jù)很可能會(huì)抑制對(duì)相關(guān)特征的學(xué)習(xí)。
采樣的外部未標(biāo)注數(shù)據(jù)通常呈現(xiàn)隱式長(zhǎng)尾分布(因?yàn)檎鎸?shí)世界的場(chǎng)景中,數(shù)據(jù)就呈現(xiàn)長(zhǎng)尾分布,從真實(shí)世界中收集數(shù)據(jù)顯然也會(huì)服從長(zhǎng)尾分布),加入學(xué)習(xí)的樣本很可能跟原始任務(wù)沒(méi)任何關(guān)聯(lián),這些噪聲就會(huì)比較大程度地影響表征的學(xué)習(xí)和收斂。本文就旨在設(shè)計(jì)一種算法來(lái)解決上述情景帶來(lái)的問(wèn)題。
論文的問(wèn)題設(shè)定還是比較特別的,首先具體介紹一下:假設(shè)我們從一個(gè)相對(duì)較小的(“種子”)未標(biāo)記的訓(xùn)練數(shù)據(jù)集開(kāi)始,其中數(shù)據(jù)分布可能高度biased,但未指定相應(yīng)的分布。我們的目標(biāo)是在給定的采樣樣本限制下,從一些外源數(shù)據(jù)檢索額外信息,以增強(qiáng)針對(duì)目標(biāo)分布(種子集)的自監(jiān)督representation learning。
通過(guò)對(duì)檢索到的unlabeled samples進(jìn)行訓(xùn)練,本文的目標(biāo)是學(xué)習(xí)“stronger and fairer”的representation。
我們可能從一個(gè)bias的sample set開(kāi)始訓(xùn)練,由于不知道相應(yīng)的標(biāo)注,傳統(tǒng)用來(lái)處理不平衡數(shù)據(jù)集的方法,如偽標(biāo)簽、重采樣或重加權(quán)不適用。
采用預(yù)訓(xùn)練的backbone訓(xùn)練不平衡的seed data。
在缺乏label信息的情況下,探索open world中廣泛存在的irrelevant outlier samples檢測(cè)。
因此,我們的目標(biāo)是尋求一個(gè)有原則的開(kāi)放世界無(wú)標(biāo)簽數(shù)據(jù)采樣策略。論文的出發(fā)點(diǎn)非常好概括,就是保證三個(gè)采樣的原則其核心:
tailness:保證采樣的樣本頻率盡可能是原任務(wù)中的長(zhǎng)尾數(shù)據(jù),保證采樣規(guī)則盡可能服從原有的分布;
proximity:保證采樣的樣本盡可能是原任務(wù)是相關(guān)的,過(guò)濾掉分布之外的樣本,解決OOD問(wèn)題。
diversity:讓采樣的數(shù)據(jù)類(lèi)型更加豐富,體現(xiàn)一定的差異性,這樣能比較好的提升泛化性和魯棒性。
3. 方法
如上圖,論文的方法其實(shí)很清晰,是分多階段的。首先定義一個(gè)原始的訓(xùn)練集,以圖中情景為例,在原始數(shù)據(jù)中,狗屬于Head class,豹屬于Tail class,所以在采樣時(shí)不考慮狗的樣本,保證tailness;接著排除掉跟原始數(shù)據(jù)高度相似的樣本,保證diversity;最后刪掉跟識(shí)別中出現(xiàn)的unrelated的樣本,使得采樣具有proximity。
3.1 Tailness
初步:在對(duì)比學(xué)習(xí)中,通過(guò)強(qiáng)制一個(gè)樣本v與另一個(gè)正樣本相似而與負(fù)樣本不同來(lái)學(xué)習(xí)representation。在各種流行的對(duì)比學(xué)習(xí)框架中,SimCLR是最簡(jiǎn)單容易實(shí)現(xiàn),也可以產(chǎn)生較好的表現(xiàn)。它利用相同數(shù)據(jù)的兩個(gè)增強(qiáng)的image作為正對(duì),而同一批中的所有其他增強(qiáng)樣本被視為負(fù)樣本。SimCLR的形式是:
下面來(lái)分析下上述的loss function。其實(shí)作者主要的目的就是完成對(duì)tail classes的特殊處理。而怎么完成呢?其實(shí)作者就定義在對(duì)比學(xué)習(xí)框架下hard examples(難樣本)可以視為tail的樣本。雖然沒(méi)有更多理論上的支撐,但某種程度上來(lái)講,也是很好理解的,因?yàn)樵诓黄胶獾臄?shù)據(jù)集上,尾部類(lèi)別更難分類(lèi),所以說(shuō)有更高的誤分率。而對(duì)于hard samples,論文直接把contrastive loss最大的樣本作為hard sample。
但由于對(duì)比損失受數(shù)據(jù)增強(qiáng)方式的影響,而通常增強(qiáng)方式都是采用隨機(jī)性,造成噪聲過(guò)大。因此作者引入了empirical contrastive loss expectation,也就是基于期望來(lái)計(jì)算SimCLR,從而來(lái)來(lái)判斷hard samples。
3.2 Proximity
很直觀,這個(gè)loss就在拉近原始數(shù)據(jù)集和外部采樣數(shù)據(jù)集特征之間的期望,期望越小,表示未標(biāo)注的open set和原任務(wù)越相關(guān)。
3.3 Diversity
為了追求采樣的多樣性,利用上述策略避免采樣的樣本跟原始樣本過(guò)于相似。
最后的loss如下所示:
算法概括如下:
4. 實(shí)驗(yàn)
實(shí)驗(yàn)采用ImageNet-LT作為數(shù)據(jù)集:
可以大發(fā)現(xiàn),在原始數(shù)據(jù)集上通過(guò)對(duì)外部數(shù)據(jù)集采樣進(jìn)行提升,可以有效地改進(jìn)模型處理open world中長(zhǎng)尾效應(yīng)的性能。
笑容實(shí)驗(yàn)來(lái)看,其實(shí)Tailness和Proximity比較重要,而多樣性這種約束提升有限。個(gè)人覺(jué)得主要的原因還是,實(shí)際上還是在利用有限的close set來(lái)輔助訓(xùn)練,模型本身的diversity也沒(méi)有很豐富,所以加入這個(gè)優(yōu)化目標(biāo)作用有限。
利用t_SNE可視化的效果如上圖所示。
5. 結(jié)論
開(kāi)放世界的樣本數(shù)據(jù)往往呈現(xiàn)長(zhǎng)尾分布,進(jìn)一步破壞了對(duì)比學(xué)習(xí)的平衡性。論文通過(guò)提出一個(gè)統(tǒng)一的采樣框架MAK來(lái)解決這個(gè)重要的問(wèn)題。它通過(guò)抽樣額外的數(shù)據(jù)顯著地提高了對(duì)比學(xué)習(xí)的平衡性和準(zhǔn)確性。論文提出的方法有助于在實(shí)際應(yīng)用中提高長(zhǎng)尾數(shù)據(jù)的平衡性。
審核編輯:劉清
-
Mak
+關(guān)注
關(guān)注
0文章
2瀏覽量
7145
原文標(biāo)題:MAK 基于開(kāi)放世界取樣提升不平衡對(duì)比學(xué)習(xí)
文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論