0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

淺析MAK基于開(kāi)放世界取樣提升不平衡對(duì)比學(xué)習(xí)

jf_pmFSk4VX ? 來(lái)源:GiantPandaCV ? 作者:Garfield ? 2022-12-02 09:46 ? 次閱讀

3. 引言

眾所周知,對(duì)比學(xué)習(xí)現(xiàn)在已經(jīng)成功地在無(wú)監(jiān)督任務(wù)中成功應(yīng)用,通過(guò)學(xué)習(xí)到泛化能力較強(qiáng)的visual representations。然而,如果要使用大量未標(biāo)記數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練訓(xùn)練卻顯得有些奢侈。由于是進(jìn)行無(wú)監(jiān)督的對(duì)比學(xué)習(xí),需要很長(zhǎng)的時(shí)間收斂,所以對(duì)比學(xué)習(xí)比傳統(tǒng)的全監(jiān)督學(xué)習(xí)需要更大的模型和更長(zhǎng)時(shí)間的訓(xùn)練。隨著數(shù)據(jù)量的增加,它也需要更多的計(jì)算資源。而計(jì)算資源有限的條件下,wild unbalanced distribution的數(shù)據(jù)很可能會(huì)抑制對(duì)相關(guān)特征的學(xué)習(xí)。

采樣的外部未標(biāo)注數(shù)據(jù)通常呈現(xiàn)隱式長(zhǎng)尾分布(因?yàn)檎鎸?shí)世界的場(chǎng)景中,數(shù)據(jù)就呈現(xiàn)長(zhǎng)尾分布,從真實(shí)世界中收集數(shù)據(jù)顯然也會(huì)服從長(zhǎng)尾分布),加入學(xué)習(xí)的樣本很可能跟原始任務(wù)沒(méi)任何關(guān)聯(lián),這些噪聲就會(huì)比較大程度地影響表征的學(xué)習(xí)和收斂。本文就旨在設(shè)計(jì)一種算法來(lái)解決上述情景帶來(lái)的問(wèn)題。

論文的問(wèn)題設(shè)定還是比較特別的,首先具體介紹一下:假設(shè)我們從一個(gè)相對(duì)較小的(“種子”)未標(biāo)記的訓(xùn)練數(shù)據(jù)集開(kāi)始,其中數(shù)據(jù)分布可能高度biased,但未指定相應(yīng)的分布。我們的目標(biāo)是在給定的采樣樣本限制下,從一些外源數(shù)據(jù)檢索額外信息,以增強(qiáng)針對(duì)目標(biāo)分布(種子集)的自監(jiān)督representation learning。

通過(guò)對(duì)檢索到的unlabeled samples進(jìn)行訓(xùn)練,本文的目標(biāo)是學(xué)習(xí)“stronger and fairer”的representation。

我們可能從一個(gè)bias的sample set開(kāi)始訓(xùn)練,由于不知道相應(yīng)的標(biāo)注,傳統(tǒng)用來(lái)處理不平衡數(shù)據(jù)集的方法,如偽標(biāo)簽、重采樣或重加權(quán)不適用。

采用預(yù)訓(xùn)練的backbone訓(xùn)練不平衡的seed data。

在缺乏label信息的情況下,探索open world中廣泛存在的irrelevant outlier samples檢測(cè)

因此,我們的目標(biāo)是尋求一個(gè)有原則的開(kāi)放世界無(wú)標(biāo)簽數(shù)據(jù)采樣策略。論文的出發(fā)點(diǎn)非常好概括,就是保證三個(gè)采樣的原則其核心:

tailness:保證采樣的樣本頻率盡可能是原任務(wù)中的長(zhǎng)尾數(shù)據(jù),保證采樣規(guī)則盡可能服從原有的分布;

proximity:保證采樣的樣本盡可能是原任務(wù)是相關(guān)的,過(guò)濾掉分布之外的樣本,解決OOD問(wèn)題。

diversity:讓采樣的數(shù)據(jù)類(lèi)型更加豐富,體現(xiàn)一定的差異性,這樣能比較好的提升泛化性和魯棒性。

3. 方法

c3a19244-717c-11ed-8abf-dac502259ad0.png

如上圖,論文的方法其實(shí)很清晰,是分多階段的。首先定義一個(gè)原始的訓(xùn)練集,以圖中情景為例,在原始數(shù)據(jù)中,狗屬于Head class,豹屬于Tail class,所以在采樣時(shí)不考慮狗的樣本,保證tailness;接著排除掉跟原始數(shù)據(jù)高度相似的樣本,保證diversity;最后刪掉跟識(shí)別中出現(xiàn)的unrelated的樣本,使得采樣具有proximity。

3.1 Tailness

初步:在對(duì)比學(xué)習(xí)中,通過(guò)強(qiáng)制一個(gè)樣本v與另一個(gè)正樣本相似而與負(fù)樣本不同來(lái)學(xué)習(xí)representation。在各種流行的對(duì)比學(xué)習(xí)框架中,SimCLR是最簡(jiǎn)單容易實(shí)現(xiàn),也可以產(chǎn)生較好的表現(xiàn)。它利用相同數(shù)據(jù)的兩個(gè)增強(qiáng)的image作為正對(duì),而同一批中的所有其他增強(qiáng)樣本被視為負(fù)樣本。SimCLR的形式是:

c3d47e70-717c-11ed-8abf-dac502259ad0.png

下面來(lái)分析下上述的loss function。其實(shí)作者主要的目的就是完成對(duì)tail classes的特殊處理。而怎么完成呢?其實(shí)作者就定義在對(duì)比學(xué)習(xí)框架下hard examples(難樣本)可以視為tail的樣本。雖然沒(méi)有更多理論上的支撐,但某種程度上來(lái)講,也是很好理解的,因?yàn)樵诓黄胶獾臄?shù)據(jù)集上,尾部類(lèi)別更難分類(lèi),所以說(shuō)有更高的誤分率。而對(duì)于hard samples,論文直接把contrastive loss最大的樣本作為hard sample。

c3e68eb2-717c-11ed-8abf-dac502259ad0.png

但由于對(duì)比損失受數(shù)據(jù)增強(qiáng)方式的影響,而通常增強(qiáng)方式都是采用隨機(jī)性,造成噪聲過(guò)大。因此作者引入了empirical contrastive loss expectation,也就是基于期望來(lái)計(jì)算SimCLR,從而來(lái)來(lái)判斷hard samples。

3.2 Proximity

c3fdeea4-717c-11ed-8abf-dac502259ad0.png

很直觀,這個(gè)loss就在拉近原始數(shù)據(jù)集和外部采樣數(shù)據(jù)集特征之間的期望,期望越小,表示未標(biāo)注的open set和原任務(wù)越相關(guān)。

3.3 Diversity

c40af5b8-717c-11ed-8abf-dac502259ad0.png

為了追求采樣的多樣性,利用上述策略避免采樣的樣本跟原始樣本過(guò)于相似。

最后的loss如下所示:

c42028b6-717c-11ed-8abf-dac502259ad0.png

算法概括如下:

c441c8f4-717c-11ed-8abf-dac502259ad0.png

4. 實(shí)驗(yàn)

實(shí)驗(yàn)采用ImageNet-LT作為數(shù)據(jù)集:

c4629ce6-717c-11ed-8abf-dac502259ad0.png

可以大發(fā)現(xiàn),在原始數(shù)據(jù)集上通過(guò)對(duì)外部數(shù)據(jù)集采樣進(jìn)行提升,可以有效地改進(jìn)模型處理open world中長(zhǎng)尾效應(yīng)的性能。

c4758644-717c-11ed-8abf-dac502259ad0.png

笑容實(shí)驗(yàn)來(lái)看,其實(shí)Tailness和Proximity比較重要,而多樣性這種約束提升有限。個(gè)人覺(jué)得主要的原因還是,實(shí)際上還是在利用有限的close set來(lái)輔助訓(xùn)練,模型本身的diversity也沒(méi)有很豐富,所以加入這個(gè)優(yōu)化目標(biāo)作用有限。

c48947b0-717c-11ed-8abf-dac502259ad0.png

利用t_SNE可視化的效果如上圖所示。

5. 結(jié)論

開(kāi)放世界的樣本數(shù)據(jù)往往呈現(xiàn)長(zhǎng)尾分布,進(jìn)一步破壞了對(duì)比學(xué)習(xí)的平衡性。論文通過(guò)提出一個(gè)統(tǒng)一的采樣框架MAK來(lái)解決這個(gè)重要的問(wèn)題。它通過(guò)抽樣額外的數(shù)據(jù)顯著地提高了對(duì)比學(xué)習(xí)的平衡性和準(zhǔn)確性。論文提出的方法有助于在實(shí)際應(yīng)用中提高長(zhǎng)尾數(shù)據(jù)的平衡性。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Mak
    Mak
    +關(guān)注

    關(guān)注

    0

    文章

    2

    瀏覽量

    7145

原文標(biāo)題:MAK 基于開(kāi)放世界取樣提升不平衡對(duì)比學(xué)習(xí)

文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    如何理解矢量測(cè)量中“平衡”與“不平衡

    在矢量測(cè)試中,經(jīng)常需要測(cè)量信號(hào)的不平衡性,會(huì)遇到相關(guān)的幾個(gè)名詞:Balance(平衡),Unbalance(不平衡/非平衡)和Imbalance(
    發(fā)表于 03-29 10:51 ?2713次閱讀
    如何理解矢量測(cè)量中“<b class='flag-5'>平衡</b>”與“<b class='flag-5'>不平衡</b>

    三相不平衡治理裝置的應(yīng)用優(yōu)勢(shì)

    電力電氣行業(yè)的“新寵兒”。三相不平衡未來(lái)需求將爆發(fā)增漲三相不平衡治理需求是當(dāng)前電能質(zhì)量提升比較大的市場(chǎng),很多企業(yè)看到了這個(gè)市場(chǎng),面對(duì)這個(gè)機(jī)會(huì),原有產(chǎn)品卻無(wú)法滿(mǎn)足相應(yīng)需求,大批企業(yè)通過(guò)引入三相
    發(fā)表于 02-18 13:06

    對(duì)地不平衡測(cè)試電路

    對(duì)地不平衡測(cè)試電路
    發(fā)表于 03-04 20:40 ?883次閱讀
    對(duì)地<b class='flag-5'>不平衡</b>測(cè)試電路

    不平衡型AFC電路

    不平衡型AFC電路 如圖不平衡型AFC電路,它由鑒相器,比較鋸齒波形成電路,
    發(fā)表于 08-05 23:52 ?1679次閱讀
    <b class='flag-5'>不平衡</b>型AFC電路

    簡(jiǎn)易平衡不平衡變換器

    簡(jiǎn)易平衡不平衡變換器 可用廢棄
    發(fā)表于 09-07 16:48 ?1934次閱讀
    簡(jiǎn)易<b class='flag-5'>平衡</b><b class='flag-5'>不平衡</b>變換器

    模擬信號(hào)平衡輸入/不平衡輸出電路

    模擬信號(hào)平衡輸入/不平衡輸出電路
    發(fā)表于 10-11 10:43 ?5832次閱讀
    模擬信號(hào)<b class='flag-5'>平衡</b>輸入/<b class='flag-5'>不平衡</b>輸出電路

    基于主動(dòng)學(xué)習(xí)不平衡多分類(lèi)AdaBoost改進(jìn)算法

    針對(duì)不平衡分類(lèi)中小類(lèi)樣本識(shí)別率低問(wèn)題,提出一種基于主動(dòng)學(xué)習(xí)不平衡多分類(lèi)AdaBoost改進(jìn)算法。首先,利用主動(dòng)學(xué)習(xí)方法通過(guò)多次迭代抽樣,選取少量的、對(duì)分類(lèi)器最有價(jià)值的樣本作為訓(xùn)練集;然
    發(fā)表于 11-30 17:12 ?3次下載

    三相電壓不平衡產(chǎn)生原因_三相電壓不平衡的治理措施

    電力系統(tǒng)中三相電壓不平衡產(chǎn)生的主要原因是負(fù)荷的不平衡和系統(tǒng)阻抗的不平衡。其中負(fù)荷的不平衡是造成三相電壓不平衡的主要原因,比較明顯的單相負(fù)荷由
    的頭像 發(fā)表于 10-28 16:43 ?2.5w次閱讀

    電機(jī)轉(zhuǎn)子不平衡對(duì)電機(jī)質(zhì)量的影響大嗎

    轉(zhuǎn)子不平衡對(duì)電機(jī)質(zhì)量的影響有哪些?小編將分析轉(zhuǎn)子機(jī)械不平衡產(chǎn)生的振動(dòng)和噪聲問(wèn)題。
    發(fā)表于 08-30 10:51 ?781次閱讀

    三相不平衡是什么意思?三相電壓不平衡怎么處理?

    三相不平衡是什么意思?三相電壓不平衡怎么處理?? 三相不平衡是指三相電壓或電流的幅度或相位不同,這會(huì)導(dǎo)致電力系統(tǒng)的不穩(wěn)定、效率低下、設(shè)備壽命短等問(wèn)題。在三相電力系統(tǒng)中,三相電壓應(yīng)該相等且相位差為
    的頭像 發(fā)表于 09-25 17:36 ?3711次閱讀

    三相電壓不平衡是什么原因造成的?三相不平衡會(huì)跳閘嗎?

    三相電壓不平衡是什么原因造成的?三相不平衡會(huì)跳閘嗎?三相不平衡度允許范圍? 三相電壓不平衡是指三相電源電壓之間的差異,通常是由電源系統(tǒng)出現(xiàn)故障或不良設(shè)計(jì)引起的。
    的頭像 發(fā)表于 09-25 17:36 ?6765次閱讀

    I/Q不平衡的來(lái)源 IQ信道之間的不平衡會(huì)造成什么影響呢?

    I/Q不平衡的來(lái)源 IQ信道之間的不平衡會(huì)造成什么影響呢? I/Q不平衡是指在I(即“In-phase”)和Q(即“Quadrature-phase”)信道的輸出之間存在不平衡的狀態(tài)。
    的頭像 發(fā)表于 10-31 09:34 ?1052次閱讀

    三相電壓不平衡對(duì)電路的影響

    三相電壓不平衡對(duì)電路的影響 三相電壓不平衡是指三相電網(wǎng)中三個(gè)相電壓的幅值和相位不一致,造成電壓波形不對(duì)稱(chēng)的情況。常見(jiàn)的三相電壓不平衡情況包括電壓幅值不平衡、相位
    的頭像 發(fā)表于 12-11 17:16 ?2325次閱讀

    三相不平衡最佳解決辦法 三相不平衡多少范圍內(nèi)是合理的

    三相不平衡最佳解決辦法 在電力系統(tǒng)中,三相不平衡是指三個(gè)相之間電壓或電流不相等的現(xiàn)象。當(dāng)三相不平衡的情況發(fā)生時(shí),可能會(huì)導(dǎo)致線(xiàn)路過(guò)載、設(shè)備壽命縮短、電能損耗增加等問(wèn)題。因此,解決三相不平衡
    的頭像 發(fā)表于 02-06 10:07 ?2829次閱讀

    三相不平衡調(diào)節(jié)裝置 三相不平衡會(huì)造成什么后果

    三相不平衡調(diào)節(jié)裝置是一種用于解決三相電力系統(tǒng)中三相電壓或電流不平衡問(wèn)題的設(shè)備。在本文中,我們將探討三相不平衡的原因、后果和解決方案,并詳細(xì)介紹三相不平衡調(diào)節(jié)裝置的工作原理和應(yīng)用。 引言
    的頭像 發(fā)表于 02-06 10:14 ?1697次閱讀