0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于一致性的半監(jiān)督語義分割方法

OpenCV學(xué)堂 ? 來源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-08-11 11:29 ? 次閱讀

在本工作中,來自阿德萊德大學(xué)、烏魯姆大學(xué)的研究者針對當(dāng)前一致性學(xué)習(xí)出現(xiàn)的三個(gè)問題做了針對性的處理, 使得經(jīng)典的 teacher-student 架構(gòu) (A.K.A Mean-Teacher) 在半監(jiān)督圖像切割任務(wù)上得到了顯著的提升。

該研究已被計(jì)算機(jī)視覺頂會 CVPR 2022 大會接收,論文標(biāo)題為《Perturbed and Strict Mean Teachers for Semi-supervised Semantic Segmentation》:

背景

語義分割是一項(xiàng)重要的像素級別分類任務(wù)。但是由于其非常依賴于數(shù)據(jù)的特性(data hungary), 模型的整體性能會因?yàn)閿?shù)據(jù)集的大小而產(chǎn)生大幅度變化。同時(shí), 相比于圖像級別的標(biāo)注, 針對圖像切割的像素級標(biāo)注會多花費(fèi)十幾倍的時(shí)間。因此, 在近些年來半監(jiān)督圖像切割得到了越來越多的關(guān)注。

半監(jiān)督分割的任務(wù)依賴于一部分像素級標(biāo)記圖像和無標(biāo)簽圖像 (通常來說無標(biāo)簽圖像個(gè)數(shù)大于等于有標(biāo)簽個(gè)數(shù)),其中兩種類型的圖像都遵從相同的數(shù)據(jù)分布。該任務(wù)的挑戰(zhàn)之處在于如何從未標(biāo)記的圖像中提取額外且有用的訓(xùn)練信號,以使模型的訓(xùn)練能夠加強(qiáng)自身的泛化能力。

在當(dāng)前領(lǐng)域內(nèi)有兩個(gè)比較火熱的研究方向, 分別是自監(jiān)督訓(xùn)練(self-training) 和 一致性學(xué)習(xí) (consistency learning)。我們的項(xiàng)目主要基于后者來進(jìn)行。

一致性學(xué)習(xí)的介紹

簡單來說, 一致性學(xué)習(xí)(consistency learning)過程可以分為 3 步來描述: 1)。 用不做數(shù)據(jù)增強(qiáng)的 “簡單” 圖像來給像素區(qū)域打上偽標(biāo)簽, 2)。 用數(shù)據(jù)增強(qiáng) (或擾動) 之后的 “復(fù)雜” 圖片進(jìn)行 2 次預(yù)測, 和 3)。 用偽標(biāo)簽的結(jié)果來懲罰增強(qiáng)之后的結(jié)果。

可是, 為什么要進(jìn)行這 3 步呢? 先用簡單圖像打標(biāo)簽, 復(fù)雜圖像學(xué)習(xí)的意義在哪?

3524b0b6-1883-11ed-ba43-dac502259ad0.png

從細(xì)節(jié)來說, 如上圖所示, 假設(shè)我們有一個(gè)像素的分類問題 (在此簡化為 2 分類, 左下的三角和右上的圓圈) 。我們假設(shè)中間虛線為真實(shí)分布, 藍(lán)色曲線為模型的判別邊界。

在這個(gè)例子中, 假設(shè)這個(gè)像素的標(biāo)簽是圓圈, 并且由 1)。 得到的偽標(biāo)簽結(jié)果是正確的 (y_tilde=Circ.)。在 2)。 中如果像素的增強(qiáng)或擾動可以讓預(yù)測成三角類, 那么隨著 3)步驟的懲罰, 模型的判別邊界會 (順著紅色箭頭) 挪向真實(shí)分布。由此, 模型的泛化能力得到加強(qiáng)。

由此得出, 在 1)。 中使用 “簡單” 的樣本更容易確保偽標(biāo)簽的正確性, 在 2)。 時(shí)使用增強(qiáng)后的 “復(fù)雜” 樣本來確保預(yù)測掉在邊界的另一端來增強(qiáng)泛化能力??墒窃趯?shí)踐中,

1)。 沒有經(jīng)受過增強(qiáng)的樣本也很可能被判斷錯(cuò) (hard samples), 導(dǎo)致模型在學(xué)習(xí)過程中打的偽標(biāo)簽正確性下降。

2)。 隨著訓(xùn)練的進(jìn)行, 一般的圖像增強(qiáng)將不能讓模型做出錯(cuò)誤判斷。這時(shí), 一致性學(xué)習(xí)的效率會大幅度下降。

3)。 被廣泛實(shí)用的半監(jiān)督 loss 例如 MSE, 在切割任務(wù)里不能給到足夠的力量來有效的推動判別邊界。而 Cross-entropy 很容易讓模型過擬合錯(cuò)誤標(biāo)簽, 造成認(rèn)知偏差 (confirmation bias)。

針對這三個(gè)問題, 我們提出了:

1)。 新的基于一致性的半監(jiān)督語義分割 MT 模型。通過新引入的 teacher 模型提高未標(biāo)記訓(xùn)練圖像的分割精度。同時(shí), 用置信加權(quán) CE 損失 (Conf-CE) 代替 MT 的 MSE 損失,從而實(shí)現(xiàn)更強(qiáng)的收斂性和整體上更好的訓(xùn)練準(zhǔn)確性。

2)。 一種結(jié)合輸入、特征和網(wǎng)絡(luò)擾動結(jié)合的數(shù)據(jù)增強(qiáng)方式,以提高模型的泛化能力。

3)。 一種新型的特征擾動,稱為 T-VAT。它基于 Teacher 模型的預(yù)測結(jié)果生成具有挑戰(zhàn)性的對抗性噪聲進(jìn)一步加強(qiáng)了 student 模型的學(xué)習(xí)效率。

方法介紹

353c181e-1883-11ed-ba43-dac502259ad0.png

1)。 Dual-Teacher Architecture

我們的方法基于 Mean-Teacher, 其中 student 的模型基于反向傳播做正常訓(xùn)練。在每個(gè) iteration 結(jié)束后, student 模型內(nèi)的參數(shù)以 expotional moving average (EMA)的方式轉(zhuǎn)移給 teacher 模型。

在我們的方法中, 我們使用了兩個(gè) Teacher 模型。在做偽標(biāo)簽時(shí), 我們用兩個(gè) teacher 預(yù)測的結(jié)果做一個(gè) ensemble 來進(jìn)一步增強(qiáng)偽標(biāo)簽的穩(wěn)定性。我們在每一個(gè) epoch 的訓(xùn)練內(nèi)只更新其中一個(gè) teacher 模型的參數(shù), 來增加兩個(gè) teacher 之間的 diversity。

由于雙 teacher 模型并沒有參加到反向傳播的運(yùn)算中, 在每個(gè) iteration 內(nèi)他們只會消耗很小的運(yùn)算成本來更新參數(shù)。

2)。 Semi-supervised Loss

在訓(xùn)練中, teacher 模型的輸出經(jīng)過 softmax 后的置信度代表著它對對應(yīng)偽標(biāo)簽的信心。置信度越高, 說明這個(gè)偽標(biāo)簽潛在的準(zhǔn)確率可能會更高。在我們的模型中, 我們首先對同一張圖兩個(gè) teacher 的預(yù)測取平均值。然后通過最后的 confidence 作為權(quán)重, 對 student 模型的輸出做一個(gè)基于 cross-entropy 懲罰。同時(shí), 我們會舍棄掉置信度過低的像素標(biāo)簽, 因?yàn)樗麄兪窃胍舻目赡苄詴蟆?/p>

3)。 Teacher-based Virtual Adversarial Training (T-VAT)

Virtual Adversarial Training (VAT) 是半監(jiān)督學(xué)習(xí)中常用的添加擾動的方式, 它以部分反向傳播的方式來尋找能最大化預(yù)測和偽標(biāo)簽距離的噪音。

在我們的模型中, dual-teacher 的預(yù)測比學(xué)生的更加準(zhǔn)確, 并且 (由于 EMA 的更新方式使其) 更加穩(wěn)定。我們使用 teacher 模型替代 student 來尋找擾動性最強(qiáng)的對抗性噪音, 進(jìn)而讓 student 的預(yù)測出錯(cuò)的可能性加大, 最后達(dá)到增強(qiáng)一致性學(xué)習(xí)效率的目的。

4)。 訓(xùn)練流程

i)。 supervised part: 我們用 strong-augmentation 后的圖片通過 cross-entropy 來訓(xùn)練 student 模型。

ii)。 unsupervised part: 我們首先喂給 dual-teacher 模型們一個(gè) weak-augmentation 的圖片, 并且用他們 ensemble 的結(jié)果生成標(biāo)簽。之后我們用 strong-augmentation 后的圖片喂給 student 模型。在通過 encoder 之后, 我們用 dual-teachers 來通過 T-VAT 尋找具有最強(qiáng)擾動性的噪音并且注入到 (student encoded 之后的) 特征圖里, 并讓其 decoder 來做最終預(yù)測。

iii)。 我們通過 dual-teachers 的結(jié)果用 conf-ce 懲罰 student 的預(yù)測

iv)。 基于 student 模型的內(nèi)部參數(shù), 以 EMA 的方式更新一個(gè) teacher 模型。

實(shí)驗(yàn)

1)。 Compare with SOTAs.

Pascal VOC12 Dataset:

訓(xùn)練 log 可視化鏈接: https://wandb.ai/pyedog1976/PS-MT(VOC12)?workspace=user-pyedog1976

該數(shù)據(jù)集包含超過 13,000 張圖像和 21 個(gè)類別。它提供了 1,464 張高質(zhì)量標(biāo)簽的圖像用于訓(xùn)練,1,449 圖像用于驗(yàn)證,1,456 圖像用于測試。我們 follow 以往的工作, 使了 10582 張低質(zhì)量標(biāo)簽來做擴(kuò)展學(xué)習(xí), 并且使用了和相同的 label id。

Low-quality Experiments

該實(shí)驗(yàn)從整個(gè)數(shù)據(jù)集中隨機(jī) sample 不同 ratio 的樣本來當(dāng)作訓(xùn)練集 (其中包含高質(zhì)量和低質(zhì)量兩種標(biāo)簽), 旨在測試模型在有不同數(shù)量的標(biāo)簽時(shí)所展示的泛化能力。

在此實(shí)驗(yàn)中, 我們使用了 DeeplabV3 + 當(dāng)作架構(gòu), 并且用 ResNet50 和 ResNet101 得到了所有 ratio 的 SOTA。

35523c5c-1883-11ed-ba43-dac502259ad0.png

High-quality Experiments

該實(shí)驗(yàn)從數(shù)據(jù)集提供的高質(zhì)量標(biāo)簽內(nèi)隨機(jī)挑取不同 ratio 的標(biāo)簽, 來測試模型在極少標(biāo)簽下的泛化能力。我們的模型在不同的架構(gòu)下 (e.g., Deeplabv3+ and PSPNet) 都取得了最好的結(jié)果。

356c0470-1883-11ed-ba43-dac502259ad0.png

Cityscapes Dataset

訓(xùn)練 log 可視化鏈接: https://wandb.ai/pyedog1976/PS-MT(City)?workspace=user-pyedog1976

Cityscapes 是城市駕駛場景數(shù)據(jù)集,其中包含 2,975 張訓(xùn)練圖像、500 張驗(yàn)證圖像和 1,525 張測試圖像。數(shù)據(jù)集中的每張圖像的分辨率為 2,048 ×1,024,總共有 19 個(gè)類別。

在 2021 年之前, 大多數(shù)方法用 712x712 作為訓(xùn)練的 resolution, 并且拿 Cross-entropy 當(dāng)作 supervised 的 loss function。在最近, 越來越多的方式傾向于用大 resolution (800x800)當(dāng)作輸入, OHEM 當(dāng)作 supervised loss function。為了公平的對比之前的工作, 我們分別對兩種 setting 做了單獨(dú)的訓(xùn)練并且都拿到了 SOTA 的結(jié)果。

2)。 Ablation Learnings.

35f9902e-1883-11ed-ba43-dac502259ad0.png

我們使用 VOC 數(shù)據(jù)集中 1/8 的 ratio 來進(jìn)行消融實(shí)驗(yàn)。原本的 MT 我們依照之前的工作使用了 MSE 的 loss 方式??梢钥吹?, conf-CE 帶來了接近 3 個(gè)點(diǎn)的巨大提升。在這之后, T-VAT (teacher-based virtual adversarial training)使 student 模型的一致性學(xué)習(xí)更有效率, 它對兩個(gè)架構(gòu)帶來了接近 1% 的提升。最后, dual-teacher 的架構(gòu)給兩個(gè) backbone 分別帶來了 0.83% 和 0.84% 的提升。

36186eae-1883-11ed-ba43-dac502259ad0.png

同時(shí)我們對比了多種針對 feature 的擾動的方法, 依次分別為不使用 perturbation, 使用 uniform sample 的噪音, 使用原本的 VAT 和我們提出的 T-VAT。T-VAT 依然帶來了最好的結(jié)果。

363bd916-1883-11ed-ba43-dac502259ad0.png

3)。 Improvements over Supervised Baseline.

我們的方法相較于相同架構(gòu)但只使用 label part 的數(shù)據(jù)集的結(jié)果有了巨大提升。以 Pascal VOC12 為例, 在 1/16 的比率中 (即 662 張標(biāo)記圖像), 我們的方法分別 (在 ResNet50 和 ResNet101 中) 超過了基于全監(jiān)督訓(xùn)練的結(jié)果 6.01% 和 5.97%。在其他 ratio 上,我們的方法也顯示出一致的改進(jìn)。

364935b6-1883-11ed-ba43-dac502259ad0.png

總結(jié)

在本文中,我們提出了一種新的基于一致性的半監(jiān)督語義分割方法。在我們的貢獻(xiàn)中,我們引入了一個(gè)新的 MT 模型,它基于多個(gè) teacher 和一個(gè) student 模型,它顯示了對促進(jìn)一致性學(xué)習(xí)的未標(biāo)記圖像更準(zhǔn)確的預(yù)測,使我們能夠使用比原始 MT 的 MSE 更嚴(yán)格的基于置信度的 CE 來增強(qiáng)一致性學(xué)習(xí)的效率。這種更準(zhǔn)確的預(yù)測還使我們能夠使用網(wǎng)絡(luò)、特征和輸入圖像擾動的具有挑戰(zhàn)性的組合,從而顯示出更好的泛化性。

此外,我們提出了一種新的對抗性特征擾動 (T-VAT),進(jìn)一步增強(qiáng)了我們模型的泛化性。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3112

    瀏覽量

    48658
  • 計(jì)算機(jī)視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1694

    瀏覽量

    45901
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1200

    瀏覽量

    24619

原文標(biāo)題:基于一致性的半監(jiān)督語義分割方法:刷新多項(xiàng)SOTA,還有更好泛化性

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    LTE基站一致性測試的類別

    就LTE基站而言,RF測試方法一致性要求至為關(guān)鍵,然而,調(diào)變格式、帶寬、資源分配與移動導(dǎo)致選項(xiàng)復(fù)雜度增加,因此優(yōu)化的一致性測試配置參數(shù)組合需求更為殷切。第三代合作伙伴項(xiàng)目(3GPP
    發(fā)表于 06-06 06:41

    順序一致性和TSO一致性分別是什么?SC和TSO到底哪個(gè)好?

    內(nèi)存一致性之順序一致性(sequential consistency)可以說,最直觀的內(nèi)存一致性模型是sequentially consistent(SC):內(nèi)存訪問執(zhí)行的順序與程序指定的順序相同
    發(fā)表于 07-19 14:54

    一致性規(guī)劃研究

    針對一致性規(guī)劃的高度求解復(fù)雜度,分析主流一致性規(guī)劃器的求解策略,給出影響一致性規(guī)劃器性能的主要因素:啟發(fā)信息的有效,信念狀態(tài)表示方法的緊湊
    發(fā)表于 04-06 08:43 ?12次下載

    CMP中Cache一致性協(xié)議的驗(yàn)證

    CMP是處理器體系結(jié)構(gòu)發(fā)展的個(gè)重要方向,其中Cache一致性問題的驗(yàn)證是CMP設(shè)計(jì)中的項(xiàng)重要課題?;贛ESI一致性協(xié)議,本文建立了CMP的Cache
    發(fā)表于 07-20 14:18 ?38次下載

    電能質(zhì)量監(jiān)測數(shù)據(jù)一致性定義及檢測方法_邱麗羚

    電能質(zhì)量監(jiān)測數(shù)據(jù)一致性定義及檢測方法_邱麗羚
    發(fā)表于 01-08 11:07 ?0次下載

    EMI一致性測試調(diào)試方法

    EMI 一致性測試失敗可能會導(dǎo)致產(chǎn)品開發(fā)周期風(fēng)險(xiǎn),而本文列出的調(diào)試技術(shù)則可以幫助您隔離能量來源,從而制訂補(bǔ)救計(jì)劃。高效調(diào)試要求了解一致性測試報(bào)告以及一致性測試和調(diào)試怎樣采用不同的測量技術(shù)。
    發(fā)表于 09-12 17:31 ?13次下載
    EMI<b class='flag-5'>一致性</b>測試調(diào)試<b class='flag-5'>方法</b>

    加速器一致性接口

    Zynq PS上的加速器一致性接口(Accelerator Coherency Port, ACP)是個(gè)兼容AXI3的64位從機(jī)接口,連接到SCU(Snoop Control Unit),為PL
    發(fā)表于 11-17 15:04 ?3557次閱讀

    Cache一致性協(xié)議優(yōu)化研究

    問題的由來.總結(jié)了多核時(shí)代高速緩存一致性協(xié)議設(shè)計(jì)的關(guān)鍵問題,綜述了近年來學(xué)術(shù)界對一致性的研究.從程序訪存行為模式、目錄組織結(jié)構(gòu)、一致性粒度、一致性協(xié)議流量、目錄協(xié)議的可擴(kuò)展性等方面,闡
    發(fā)表于 12-30 15:04 ?0次下載
    Cache<b class='flag-5'>一致性</b>協(xié)議優(yōu)化研究

    基于業(yè)務(wù)目標(biāo)和業(yè)務(wù)場景的語義一致性驗(yàn)證方法

    多層次多視圖模型是在不確定需求環(huán)境下進(jìn)行業(yè)務(wù)建模的主要方法,不同層次或不同視圖模型之間的語義一致性直接影響業(yè)務(wù)建模的完整。鑒于此,設(shè)計(jì)
    發(fā)表于 05-19 14:20 ?9次下載

    在線迭代聚類的多傳感器一致性數(shù)據(jù)融合方法

    在線迭代聚類的多傳感器一致性數(shù)據(jù)融合方法
    發(fā)表于 06-23 11:11 ?9次下載

    基于無監(jiān)督空間一致性約束的心臟MRI分割

    基于無監(jiān)督空間一致性約束的心臟MRI分割
    發(fā)表于 06-27 11:31 ?38次下載

    搞定緩存一致性驗(yàn)證,多核SoC設(shè)計(jì)就成功了一半

    ? ? 原文標(biāo)題:搞定緩存一致性驗(yàn)證,多核SoC設(shè)計(jì)就成功了一半 文章出處:【微信公眾號:新思科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
    的頭像 發(fā)表于 12-29 21:35 ?776次閱讀

    如何保證緩存一致性

    “ 本文的參考文章是2022年HOT 34上Intel Rob Blakenship關(guān)于CXL緩存一致性篇介紹。”
    的頭像 發(fā)表于 10-19 17:42 ?1000次閱讀
    如何保證緩存<b class='flag-5'>一致性</b>

    DDR一致性測試的操作步驟

    DDR一致性測試的操作步驟? DDR(雙數(shù)據(jù)率)一致性測試是對DDR內(nèi)存模塊進(jìn)行測試以確保其性能和可靠。在進(jìn)行DDR一致性測試時(shí),需要遵循
    的頭像 發(fā)表于 02-01 16:24 ?1289次閱讀

    深入理解數(shù)據(jù)備份的關(guān)鍵原則:應(yīng)用一致性與崩潰一致性的區(qū)別

    深入理解數(shù)據(jù)備份的關(guān)鍵原則:應(yīng)用一致性與崩潰一致性的區(qū)別 在數(shù)字化時(shí)代,數(shù)據(jù)備份成為了企業(yè)信息安全的核心環(huán)節(jié)。但在備份過程中,兩個(gè)關(guān)鍵概念——應(yīng)用一致性和崩潰一致性,常常被誤解或混淆。
    的頭像 發(fā)表于 03-11 11:29 ?810次閱讀
    深入理解數(shù)據(jù)備份的關(guān)鍵原則:應(yīng)用<b class='flag-5'>一致性</b>與崩潰<b class='flag-5'>一致性</b>的區(qū)別