产精品无码久久,人妻少妇精品视频一区97精品,欧美日韩高清观看一区二区

摘要

背景介紹：去噪擴(kuò)散概率模型DDPM最近受到了很多研究關(guān)注，因?yàn)樗鼈儍?yōu)于其他方法，如GAN，并且目前提供了最先進(jìn)的生成性能。差分融合模型的優(yōu)異性能使其在修復(fù)、超分辨率和語義編輯等應(yīng)用中成為一個(gè)很有吸引力的工具。

研究方法：作者為了證明擴(kuò)散模型也可以作為語義分割的工具，特別是在標(biāo)記數(shù)據(jù)稀缺的情況下。對(duì)于幾個(gè)預(yù)先訓(xùn)練的擴(kuò)散模型，作者研究了網(wǎng)絡(luò)中執(zhí)行逆擴(kuò)散過程馬爾可夫步驟的中間激活。結(jié)果表明這些激活有效地從輸入圖像中捕獲語義信息，并且似乎是分割問題的出色像素級(jí)表示?；谶@些觀察結(jié)果，作者描述了一種簡(jiǎn)單的分割方法，即使只提供了少量的訓(xùn)練圖像也可以使用。

實(shí)驗(yàn)結(jié)果：提出的算法在多個(gè)數(shù)據(jù)集上顯著優(yōu)于現(xiàn)有的替代方法。

算法

首先，簡(jiǎn)要概述DDPM框架。然后，我們描述了如何使用DDPM提取特征，并研究這些特征可能捕獲的語義信息。

表征分析

作者分析了噪聲預(yù)測(cè)器θ（xt，t）對(duì)不同 t 產(chǎn)生的表示。考慮了在LSUN Horse和FFHQ-256數(shù)據(jù)集上訓(xùn)練的最先進(jìn)的DDPM checkpoints。

來自噪聲預(yù)測(cè)器的中間激活捕獲語義信息：對(duì)于這個(gè)實(shí)驗(yàn)，從LSUN Horse和FFHQ數(shù)據(jù)集中獲取了一些圖像，并分別手動(dòng)將每個(gè)像素分配給21和34個(gè)語義類中的一個(gè)。目標(biāo)是了解DDPM生成的像素級(jí)表示是否有效地捕獲了有關(guān)語義的信息。為此，訓(xùn)練多層感知器（MLP），以根據(jù)特定擴(kuò)散步驟t上18個(gè)UNet解碼器塊中的一個(gè)生成的特征來預(yù)測(cè)像素語義標(biāo)簽。

請(qǐng)注意，只考慮解碼器激活圖，因?yàn)樗鼈冞€通過跳躍連接聚合編碼器激活圖。MLP在20張圖片上接受訓(xùn)練，并在20張圖片上進(jìn)行評(píng)估。預(yù)測(cè)性能以平均IoU衡量。

圖2顯示了不同解碼塊和擴(kuò)散步驟t的預(yù)測(cè)性能演變。解碼塊從深到淺依次編號(hào)。圖2顯示了噪聲預(yù)測(cè)器θ（xt，t）產(chǎn)生特征的IoU隨不同的塊和擴(kuò)散步驟而變化。

特別是，對(duì)應(yīng)于反向擴(kuò)散過程后續(xù)步驟的特征通常更有效地捕獲語義信息。相比之下，早期步驟相對(duì)應(yīng)的特征通常沒有什么信息。在不同的解碼塊中，UNet解碼器中間層產(chǎn)生的特征似乎是所有擴(kuò)散步驟中信息最豐富的。

此外，根據(jù)標(biāo)注數(shù)據(jù)集中的目標(biāo)的平均面積分別考慮小型和大型語義類。然后，獨(dú)立評(píng)估不同UNet解碼塊和擴(kuò)散步驟中這些類的平均IoU。LSUN Horse的結(jié)果如圖3所示。

正如預(yù)期的那樣，在相反的過程中，大型對(duì)象的預(yù)測(cè)性能開始提前增長(zhǎng)。對(duì)于較小的對(duì)象，淺層解碼塊的信息量更大，而對(duì)于較大的對(duì)象，深層解碼塊的信息更大。在這兩種情況下，最有區(qū)別的特征仍然對(duì)應(yīng)于中間塊。

圖4顯示了由FFHQ checkpoint從擴(kuò)散步驟{50，200，400，600，800}的解碼塊{6,8,10,12}中提取的特征形成的k-means聚類（k=5），并確認(rèn)聚類可以跨越連貫的語義對(duì)象和對(duì)象部分。

在塊B=6中，特征對(duì)應(yīng)于粗糙的語義掩碼。在另一個(gè)極端，B=12的特征可以區(qū)分細(xì)粒度的面部部位，但對(duì)于粗碎片來說，語義意義較小。在不同的擴(kuò)散步驟中，最有意義的特征對(duì)應(yīng)于后面的步驟。

將這種行為歸因于這樣一個(gè)事實(shí)，即在反向過程的早期步驟中，DDPM樣本的全局結(jié)構(gòu)尚未出現(xiàn)，因此，在這個(gè)階段幾乎不可能預(yù)測(cè)分段掩碼。圖4中的掩碼定性地證實(shí)了這種直覺。對(duì)于t=800，掩碼很難反映實(shí)際圖像的內(nèi)容，而對(duì)于較小的t值，掩碼和圖像在語義上是一致的。

基于DDPM的few-shot語義分割

上述觀察到的中間DDPM激活的潛在有效性表明，它們可以被用作密集預(yù)測(cè)任務(wù)的圖像表示。圖1展示了整體圖像分割方法，該方法利用了這些代表的可辨別性。更詳細(xì)地說，當(dāng)存在大量未標(biāo)記圖像{X1，…，XN}?時(shí)，考慮了few-shot半監(jiān)督設(shè)置。

第一步，以無監(jiān)督的方式對(duì)整個(gè){X1，…，XN}訓(xùn)練擴(kuò)散模型。然后使用該擴(kuò)散模型提取標(biāo)記圖像的像素級(jí)表示。在本工作中，使用UNet解碼器中間塊B={5,6,7,8,12}的表示，以及反向擴(kuò)散過程的步驟t={50，150，250}。

實(shí)驗(yàn)

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴