0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于DiAD擴(kuò)散模型的多類異常檢測工作

CVer ? 來源:CVer ? 2024-01-08 14:55 ? 次閱讀

背景和動機(jī)

工業(yè)生產(chǎn)過程中,工業(yè)異常檢測是一個重要的環(huán)節(jié),旨在及時發(fā)現(xiàn)和排除產(chǎn)品的制造異常,確保產(chǎn)品質(zhì)量和安全性。近年來,隨著計(jì)算機(jī)視覺和圖像處理技術(shù)的快速發(fā)展,視覺技術(shù)被廣泛應(yīng)用于工業(yè)異常檢測中。一般的單類異常檢測算法分別為不同類別的物體訓(xùn)練不同的模型,非常消耗內(nèi)存,并且也不適用于正常樣本表現(xiàn)出大的類內(nèi)多樣性的情況,本文作者致力于用統(tǒng)一的框架從不同的物體類別中檢測異常。

現(xiàn)有的基于計(jì)算機(jī)視覺的工業(yè)異常檢測技術(shù)包括基于特征的、基于重構(gòu)的和基于合成的技術(shù)。最近,擴(kuò)散模型因其強(qiáng)大的生成能力而聞名,因此本文作者希望通過擴(kuò)散模型將異常區(qū)域重構(gòu)成正常。然而如下圖1所示,直接將擴(kuò)散模型應(yīng)用于多類異常檢測會存在幾點(diǎn)問題:對于DDPM來說,應(yīng)用于多類異常檢測會出現(xiàn)類別錯誤的情況,因?yàn)樵诩尤?000步噪聲后,圖像已變成隨機(jī)高斯噪聲,因?yàn)闆]有其他限制條件,DDPM在去噪過程中從隨機(jī)高斯噪聲中去噪最終獲得隨機(jī)類別的圖像。LDM通過交叉注意力引入了條件約束,在多類異常檢測應(yīng)用場景中,LDM可以通過引入類別條件解決了DDPM在多類異常檢測任務(wù)中類別錯誤的問題;然而LDM仍然無法解決在隨機(jī)高斯噪聲下去噪并保持圖像語義信息一致性的問題,比如釘子的方向、齒輪的方位等。因此,現(xiàn)有的擴(kuò)散模型盡管展現(xiàn)了其強(qiáng)大的生成能力,但是無法很好的解決多類異常檢測的任務(wù)。

82b0c1b0-9976-11ee-8b88-92fbcf53809c.png

圖1:上圖展示了DDPM、LDM和Ours擴(kuò)散模型去噪網(wǎng)絡(luò)的框架,下圖展示了三種模型對于同樣的輸入異常圖像的重構(gòu)效果

所以本文作者提出了DiAD來解決多類異常檢測任務(wù)。在MVTec-AD、VisA等數(shù)據(jù)集上在圖像和像素級別的AUROC、AP、F1max和PRO共七個指標(biāo)上實(shí)現(xiàn)了新的SoTA,超越了UniAD、RD4AD等模型。

網(wǎng)絡(luò)結(jié)構(gòu)

本文作者提出一種基于擴(kuò)散模型框架的多類異常檢測方法。本方法包含三個空間:Pixel Space、Latent Space和Feature Space。首先輸入圖像82b895de-9976-11ee-8b88-92fbcf53809c.jpg在Pixel Space中經(jīng)過預(yù)訓(xùn)練的Auto-encoder得到Latent Variable 82c6d9c8-9976-11ee-8b88-92fbcf53809c.jpg,隨后Latent Variable 82c6d9c8-9976-11ee-8b88-92fbcf53809c.jpg進(jìn)入Latent Space經(jīng)過向82c6d9c8-9976-11ee-8b88-92fbcf53809c.jpg一步步加入隨機(jī)高斯噪最終得到近隨機(jī)高斯噪聲,加噪后的Latent Variable 82e04c00-9976-11ee-8b88-92fbcf53809c.jpg輸入至SD Denoising Network的同時輸入圖像輸入至語義引導(dǎo)網(wǎng)絡(luò)(Semantic-Guided Network),經(jīng)過Semantic-Guided Network的輸入圖像將會加入到SD Denoising Network的Decoder Blocks中,經(jīng)過大量的去噪過程后得到重構(gòu)的Latent Variable 82ebb41e-9976-11ee-8b88-92fbcf53809c.jpg,此時再進(jìn)入Pixel Space中的Auto-decoder得到重構(gòu)圖像82f9de5e-9976-11ee-8b88-92fbcf53809c.jpg,最終輸入圖像82b895de-9976-11ee-8b88-92fbcf53809c.jpg和重構(gòu)圖像82f9de5e-9976-11ee-8b88-92fbcf53809c.jpg將同時輸入到Feature Space中,通過同一個預(yù)訓(xùn)練的特征提取網(wǎng)絡(luò)提取不同尺度的特征,比較不同特征圖上的余弦相似度用于異常得分的計(jì)算與定位并將不同尺度得到的結(jié)果合起來得到最終像素級別的異常定位得分和異常分類得分。本文作者改進(jìn)了擴(kuò)散模型的Denoising Network,在Denoising Network的基礎(chǔ)上添加了與其結(jié)構(gòu)相似的Semantic-Guided Network來保持輸入圖像與重構(gòu)圖像語義信息的一致性,使擴(kuò)散模型能夠在高步數(shù)加噪下仍保持與原輸入圖像語義信息的高度一致性并將異常區(qū)域重構(gòu)為正常區(qū)域。? ?

83173a3a-9976-11ee-8b88-92fbcf53809c.png

圖2:DiAD模型框架

語義引導(dǎo)網(wǎng)絡(luò)(Semantic-Guided Network)

語義引導(dǎo)網(wǎng)絡(luò)首先通過卷積神經(jīng)網(wǎng)絡(luò)將輸入圖像832c0096-9976-11ee-8b88-92fbcf53809c.jpg下采樣到與加噪后的隱變量82e04c00-9976-11ee-8b88-92fbcf53809c.jpg經(jīng)過去噪網(wǎng)絡(luò)第一層編碼塊得到的特征圖同維度同尺度特征833e81a8-9976-11ee-8b88-92fbcf53809c.jpg,其次復(fù)制預(yù)訓(xùn)練去噪網(wǎng)絡(luò)的編碼塊和解碼塊的參數(shù)用于之后模型的微調(diào),為了保持重構(gòu)圖像與輸入圖像語義信息的一致性,將語義引導(dǎo)網(wǎng)絡(luò)的中間層和一層解碼塊與去噪網(wǎng)絡(luò)對應(yīng)模塊相連,最終去噪網(wǎng)絡(luò)的輸出為 ? ?

834814c0-9976-11ee-8b88-92fbcf53809c.png

其中83594736-9976-11ee-8b88-92fbcf53809c.jpg表示去噪網(wǎng)絡(luò)解碼塊、8361541c-9976-11ee-8b88-92fbcf53809c.jpg表示去噪網(wǎng)絡(luò)中間塊、8368b7f2-9976-11ee-8b88-92fbcf53809c.jpg表示去噪網(wǎng)絡(luò)編碼塊、83733efc-9976-11ee-8b88-92fbcf53809c.jpg表示語義引導(dǎo)網(wǎng)絡(luò)中間塊、839aa21c-9976-11ee-8b88-92fbcf53809c.jpg表示卷積神經(jīng)網(wǎng)絡(luò)層、83a5f194-9976-11ee-8b88-92fbcf53809c.jpg表示語義引導(dǎo)網(wǎng)絡(luò)解碼層。

空間感知特征融合模塊(Spatial-aware Feature Fusion Block)

為了將不同空間尺度的信息結(jié)合起來,使用空間感知特征融合模塊融合在語義引導(dǎo)網(wǎng)絡(luò)中不同尺度編碼塊的輸出結(jié)果, 83acd61c-9976-11ee-8b88-92fbcf53809c.jpg表示編碼塊四中的低尺度的輸出特征圖,83b8d9f8-9976-11ee-8b88-92fbcf53809c.jpg表示編碼塊三中的高尺度的輸出特征圖,編碼塊四中的最終的輸出特征圖為:

83c018da-9976-11ee-8b88-92fbcf53809c.png

83c9ac42-9976-11ee-8b88-92fbcf53809c.jpg表示編碼塊三中有三層在本次實(shí)驗(yàn)中使用,83d6562c-9976-11ee-8b88-92fbcf53809c.jpg表示一個基本的包含一個3×3卷積層、歸一化層和激活層的卷積模塊。

83e579f4-9976-11ee-8b88-92fbcf53809c.png

圖3:空間感知特征融合模塊

異常分?jǐn)?shù)計(jì)算

將重構(gòu)圖像83f4e736-9976-11ee-8b88-92fbcf53809c.jpg和輸入圖像82b895de-9976-11ee-8b88-92fbcf53809c.jpg共同輸入到特征空間中同一個預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)resnet50特征提取器8402dbb6-9976-11ee-8b88-92fbcf53809c.jpg中提取不同尺度的特征840c6190-9976-11ee-8b88-92fbcf53809c.jpg,并通過余弦相似度計(jì)算不同尺度的缺陷得分841b59b6-9976-11ee-8b88-92fbcf53809c.jpg,計(jì)算方式為:

8427b562-9976-11ee-8b88-92fbcf53809c.png

其中843499da-9976-11ee-8b88-92fbcf53809c.jpg代表第843499da-9976-11ee-8b88-92fbcf53809c.jpg層特征840c6190-9976-11ee-8b88-92fbcf53809c.jpg。最終的缺陷定位得分為:

844feec4-9976-11ee-8b88-92fbcf53809c.png

其中8455c95c-9976-11ee-8b88-92fbcf53809c.jpg表示上采樣率、846b8cce-9976-11ee-8b88-92fbcf53809c.jpg表示使用的特征層的數(shù)量,缺陷的分類得分為經(jīng)過全局平均池化后的缺陷定位得分的最大值。

實(shí)驗(yàn)結(jié)果

MVTec-AD數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

84741272-9976-11ee-8b88-92fbcf53809c.png

圖4:MVTec-AD數(shù)據(jù)集上多類異常檢測實(shí)驗(yàn)結(jié)果,對應(yīng)的指標(biāo)分別為圖像級別AUROC/AP/F1max。

848659d2-9976-11ee-8b88-92fbcf53809c.png

圖5:MVTec-AD數(shù)據(jù)集上多類異常檢測實(shí)驗(yàn)結(jié)果,對應(yīng)的指標(biāo)分別為像素級別AUROC/AP/F1max。

VisA數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

8498ecd2-9976-11ee-8b88-92fbcf53809c.jpg

圖6:VisA數(shù)據(jù)集上多類異常檢測實(shí)驗(yàn)結(jié)果,cls表示圖像級別的結(jié)果而seg表示像素級別的結(jié)果。

總結(jié)

本文作者解決了現(xiàn)有擴(kuò)散模型框架無法應(yīng)對多類異常檢測任務(wù)并提出了DiAD擴(kuò)散模型框架用于多類異常檢測。具體而言,作者在SD去噪網(wǎng)絡(luò)的基礎(chǔ)上引入了語義引導(dǎo)網(wǎng)絡(luò)(Semantic-Guided Network)保持輸入圖像和重構(gòu)圖像的語義一致性,并且還提出了空間感知特征融合模塊(Spatial-aware Feature Fusion Block)將不同尺度的特征相融合。最終本文實(shí)現(xiàn)了在保持與輸入圖像語義信息一致的前提下將異常區(qū)域重構(gòu)成正常圖像,同時實(shí)現(xiàn)SoTA。

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:AAAI 2024 | 浙大&優(yōu)圖提出DiAD:第一個基于擴(kuò)散模型的多類異常檢測工作

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    基于變分自編碼器的異常小區(qū)檢測

    異常小區(qū) (c)干擾異常小區(qū)  圖1 異常小區(qū)類型  本文只對異常小區(qū)進(jìn)行檢測,不對造成
    發(fā)表于 12-03 15:06

    基于危險(xiǎn)模式的異常檢測模型

    闡述了危險(xiǎn)模式的概況及運(yùn)行機(jī)制,提出了一種基于危險(xiǎn)模式的異常檢測模型以及相關(guān)的算法。該模型通過分析實(shí)時系統(tǒng)調(diào)用序列中的危險(xiǎn)信號,進(jìn)而判斷是否為入侵事件。實(shí)驗(yàn)結(jié)
    發(fā)表于 07-30 15:04 ?9次下載

    基于Q-學(xué)習(xí)算法的異常檢測模型

        針對網(wǎng)絡(luò)入侵的不確定性導(dǎo)致異常檢測系統(tǒng)誤報(bào)率較高的不足,提出一種基于Q-學(xué)習(xí)算法的異常檢測模型(QLA
    發(fā)表于 09-02 11:58 ?7次下載

    基于隱馬爾可夫模型的視頻異常檢測模型

    利用光流紋理圖描述移動物體的剛性特征,建立基于隱馬爾可夫模型HMM的時間上下文異常檢測模型。在此基礎(chǔ)上,提取異常目標(biāo)的Radon特征,以支持
    發(fā)表于 11-20 09:37 ?8次下載
    基于隱馬爾可夫<b class='flag-5'>模型</b>的視頻<b class='flag-5'>異常</b><b class='flag-5'>檢測</b><b class='flag-5'>模型</b>

    基于健壯多元概率校準(zhǔn)模型的全網(wǎng)絡(luò)異常檢測

    的。同時,由于網(wǎng)絡(luò)異常種類繁多、變化快速,且常常隱藏在復(fù)雜龐大的背景流量中,給網(wǎng)絡(luò)異常檢測帶來極大的困難。 提出了一種基于健壯多元概率校準(zhǔn)模型
    發(fā)表于 03-06 10:02 ?0次下載

    模型的網(wǎng)絡(luò)異常流量檢測

    網(wǎng)絡(luò)流量的復(fù)雜性、難以預(yù)測性以及人們主觀評測的差異性等不確定因素,使得網(wǎng)絡(luò)流量的異常檢測成為網(wǎng)絡(luò)安全防護(hù)領(lǐng)域研究的難點(diǎn)問題。通過對流量安全特征的分析提取和范圍限定,引入云模型理論,提出一種基于云
    發(fā)表于 03-06 16:44 ?1次下載
    云<b class='flag-5'>模型</b>的網(wǎng)絡(luò)<b class='flag-5'>異常</b>流量<b class='flag-5'>檢測</b>

    基于Greenshield模型異常節(jié)點(diǎn)檢測機(jī)制

    面向車輛自組網(wǎng)的安全通信問題,提出一種基于Greenshield模型異常節(jié)點(diǎn)檢測機(jī)制。結(jié)合車輛自組網(wǎng)的特點(diǎn),構(gòu)造Greenshield模型,計(jì)算車輛速度、車輛密度和車流量參數(shù)。在此基
    發(fā)表于 03-29 09:54 ?0次下載

    基于特征切分和隨機(jī)森林的異常點(diǎn)檢測模型

    大數(shù)據(jù)時代,攻擊篡改、設(shè)備故障、人為造假等原因?qū)е潞A繑?shù)據(jù)中潛藏著許多異常值。準(zhǔn)確地檢測出數(shù)據(jù)中的異常點(diǎn),實(shí)現(xiàn)數(shù)據(jù)清洗,至關(guān)重要。文中提出一種結(jié)合特征切分與多層級聯(lián)隨杌森林的異常點(diǎn)
    發(fā)表于 05-13 14:22 ?0次下載

    一種多維時間序列汽車駕駛異常點(diǎn)檢測模型

    針對傳統(tǒng)異常點(diǎn)檢測模型難以準(zhǔn)確分析汽車駕駛異常行為的情況,建立一種基于自動編碼器與孤立森林算法的多維時間序列汽車駕駛異常點(diǎn)
    發(fā)表于 05-26 16:32 ?2次下載

    可解決報(bào)文激增異常的BGP異常檢測方法

     通過將邊界網(wǎng)關(guān)協(xié)議(BGP)更新報(bào)文激增異常問題抽象為二分問題,提出一種基于改進(jìn)高斯核函數(shù)的BGP異常檢測( IGKAD)方法。采用FMS特征選擇算法,選擇能同時最大化
    發(fā)表于 05-27 14:49 ?7次下載

    FreeWheel基于機(jī)器學(xué)習(xí)的業(yè)務(wù)異常檢測實(shí)踐

    本文介紹了 FreeWheel 基于機(jī)器學(xué)習(xí)的業(yè)務(wù)異常檢測實(shí)踐,提煉了從零開始構(gòu)建業(yè)務(wù)異常檢測系統(tǒng)面臨的問題和解決方案,文章介紹了常用的異常
    的頭像 發(fā)表于 10-28 14:35 ?861次閱讀

    港大&amp;騰訊提出DiffusionDet:第一個用于目標(biāo)檢測擴(kuò)散模型

    近日,來自香港大學(xué)的羅平團(tuán)隊(duì)、騰訊 AI Lab 的研究者聯(lián)合提出一種新框架 DiffusionDet,將擴(kuò)散模型應(yīng)用于目標(biāo)檢測。據(jù)了解,還沒有研究可以成功地將擴(kuò)散
    的頭像 發(fā)表于 11-22 15:35 ?1833次閱讀

    如何加速生成2 PyTorch擴(kuò)散模型

    加速生成2 PyTorch擴(kuò)散模型
    的頭像 發(fā)表于 09-04 16:09 ?1035次閱讀
    如何加速生成2 PyTorch<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>

    哈工大提出Myriad:利用視覺專家進(jìn)行工業(yè)異常檢測的大型模態(tài)模型

    最近,大型模態(tài)(即視覺和語言)模型(LMM)在圖像描述、視覺理解、視覺推理等多種視覺任務(wù)上表現(xiàn)出了卓越的感知能力,使其成為更易于理解的異常檢測的有競爭力的潛在選擇。然而,現(xiàn)有的通用
    的頭像 發(fā)表于 11-21 16:08 ?1666次閱讀
    哈工大提出Myriad:利用視覺專家進(jìn)行工業(yè)<b class='flag-5'>異常</b><b class='flag-5'>檢測</b>的大型<b class='flag-5'>多</b>模態(tài)<b class='flag-5'>模型</b>

    擴(kuò)散模型的理論基礎(chǔ)

    擴(kuò)散模型的迅速崛起是過去幾年機(jī)器學(xué)習(xí)領(lǐng)域最大的發(fā)展之一。在這本簡單易懂的指南中,學(xué)習(xí)你需要知道的關(guān)于擴(kuò)散模型的一切。
    的頭像 發(fā)表于 10-28 09:30 ?120次閱讀
    <b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>的理論基礎(chǔ)