0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

視覺(jué)新范式!COCs:將圖像視為點(diǎn)集

CVer ? 來(lái)源:極市平臺(tái) ? 2023-01-11 14:31 ? 次閱讀

導(dǎo)讀

在本文中,作者回顧了視覺(jué)表征的一類經(jīng)典方法:聚類 (Clustering) 。作者將這種范式稱之為上下文聚類 (Context Cluster)。這是一種新的用于視覺(jué)表征的特征提取范式。并在多種視覺(jué)任務(wù)中取得了和 ConvNets,ViTs 相當(dāng)?shù)男阅堋?/span>

本文目錄

1 把圖片視為點(diǎn)集,簡(jiǎn)單聚類算法實(shí)現(xiàn)強(qiáng)悍視覺(jué)架構(gòu) (超高分論文)
(目前匿名,待更新)
1.1 CoCs 論文解讀
1.1.1 背景和動(dòng)機(jī)
1.1.2 把圖像視為一組點(diǎn)集
1.1.3 CoCs 模型的總體架構(gòu)和圖片的預(yù)處理環(huán)節(jié)
1.1.4 上下文聚類塊原理
1.1.5 實(shí)驗(yàn)結(jié)果

1 把圖片視為點(diǎn)集,簡(jiǎn)單聚類算法實(shí)現(xiàn)強(qiáng)悍視覺(jué)架構(gòu)

論文名稱:Image as Set of Points

論文地址:

https://openreview.net/pdf%3Fid%3DawnvqZja69

1.1.1 背景和動(dòng)機(jī)

提取特征的方式很大程度上取決于如何解釋圖像。

在方法上,ConvNets 將圖像概念化為一組排列成矩形形式的像素,并以滑動(dòng)窗口的方式使用卷積提取局部特征。卷積網(wǎng)絡(luò)非常高效的原因是得益于一些重要的歸納偏置 (inductive bias),如局部性 (locality) 和平移等變性 (translation equivariance)。視覺(jué) Transformer 將圖像視為一塊塊組成的序列,并使用全局注意力操作自適應(yīng)地融合來(lái)自每個(gè) Patch 的信息。這樣,模型中固有的歸納偏置被拋棄,并獲得了令人滿意的結(jié)果。

最近,有些工作試圖把卷積和注意力機(jī)制結(jié)合在一起,比如:CMT[1],CoAtNet[2]等,這些方法在網(wǎng)格中掃描圖像 (通過(guò)卷積,獲得局部性的先驗(yàn)),同時(shí)探索 Patch 之間的相互關(guān)系 (通過(guò)注意力,獲得全局建模的能力)。雖然它們繼承了兩者的優(yōu)點(diǎn),但其見(jiàn)解和知識(shí)仍然局限于 ConvNets 和 ViT。

本文作者研究特征提取器 (Feature Extractor),但是視角不僅僅局限在 ConvNets 和 ViT 上。雖然卷積和注意力機(jī)制已經(jīng)被證明了可以用來(lái)構(gòu)建高性能視覺(jué)架構(gòu),但它們并不是唯一的選擇。其他的選擇比如基于 MLP 的模型 ResMLP[3],和基于 GNN 的模型 ViG[4]。因此,作者期待在本文中探索一種新的特征提取范式,它可以提供一些新穎的見(jiàn)解,而不是增量式的性能改進(jìn)。

在本文中,作者回顧了視覺(jué)表征的一類經(jīng)典方法:聚類 (Clustering) ??傮w而言,作者將圖像視為一組點(diǎn)集,并將所有點(diǎn)分組為 Clusters。在每個(gè)類中,我們將這些點(diǎn)聚集成一個(gè) center,然后自適應(yīng)地將中心點(diǎn)分配給所有的點(diǎn)。作者將這種范式稱之為上下文聚類 (Context Cluster) 。

e090fcfc-916e-11ed-bfe3-dac502259ad0.jpg

圖1:上下文聚類 (context cluster)

如上圖1所示,具體而言,作者將每個(gè)像素視為一個(gè)具有顏色和位置信息的5維數(shù)據(jù)點(diǎn)。作者將圖像轉(zhuǎn)換為一組點(diǎn)云,并利用點(diǎn)云分析的方法用于圖像視覺(jué)表征。這連接了圖像和點(diǎn)云的視覺(jué)表征,顯示出了強(qiáng)大的泛化性能,也有利于未來(lái)的多模態(tài)研究。對(duì)于一組點(diǎn),作者引入了一種簡(jiǎn)化的聚類方法[5],將點(diǎn)分組為一個(gè)個(gè)類。

作者將基于上下文聚類 (context cluster) 得到的 Deep Model 稱之為 Context Clusters (CoCs) 。模型的設(shè)計(jì)也繼承了 ViT 的層次表示和 MetaFormer 的框架。通過(guò)將圖像視為點(diǎn)的集合,CoC 對(duì)不同數(shù)據(jù)域 (如點(diǎn)云、RGBD 圖像等) 具有很強(qiáng)的泛化能力,和比較令人滿意的可解釋性。盡管 CoC 不以性能為目標(biāo),但作者發(fā)現(xiàn)在幾個(gè)基準(zhǔn)測(cè)試中,它仍然達(dá)到了與 ConvNets 或 ViTs 相同甚至更好的性能。

1.1.2 把圖像視為一組點(diǎn)集

作為一個(gè)通用主干網(wǎng)絡(luò)的工作,我們首先要明確的一點(diǎn)是:無(wú)論作者在鼓吹什么概念,這個(gè)網(wǎng)絡(luò)的每一個(gè) Block 都要做一件事情:就是特征提取 (Feature Extraction)。本文使用的聚類 (Clustering) 操作也不會(huì)例外。

在特征提取之前我們先從圖像開(kāi)始。給定一張?jiān)嫉妮斎雸D片 , 作者先對(duì)圖片的每個(gè)像素 增加一個(gè) 坐標(biāo), 使之成為一個(gè) 5 維的向量。其中, 每個(gè)位置的坐標(biāo)可以寫(xiě)成 , 然后將增強(qiáng)后的圖像轉(zhuǎn)換為像素點(diǎn)的集合 , 其中 為點(diǎn)的個(gè)數(shù), 每個(gè)點(diǎn)同時(shí)包含特征 (顏色) 和位置 (坐標(biāo)) 的信息。

這樣的表征為圖像提供了一個(gè)全新的視角,即:把圖像視為一組點(diǎn)集,其可以被認(rèn)為是一種通用數(shù)據(jù)表示,因?yàn)榇蠖鄶?shù)領(lǐng)域的數(shù)據(jù)可以作為特征和位置信息的組合給出。

1.1.3 CoCs 模型的總體架構(gòu)和圖片的預(yù)處理環(huán)節(jié)

前文提到,無(wú)論作者在鼓吹什么概念,這個(gè)網(wǎng)絡(luò)的每一個(gè) Block 都要做一件事情:就是特征提取 (Feature Extraction)。本文作者同樣遵循 ConvNets 的方法,利用 Context Clusters Block,提取深層特征。

模型總體架構(gòu)如下圖2所示,每個(gè) Stage 都由點(diǎn)數(shù)縮減模塊 (Points Reducer Block)上下文聚類塊 (Context Clusters Block) 組成。

總體而言:

  • CoCs 模型的總體架構(gòu)類似于 Swin,PVT 的金字塔結(jié)構(gòu)。
  • Swin 中的圖片的預(yù)處理環(huán)節(jié)在 CoCs 里面用的也是卷積。
  • Swin 中的 Self-attention 模塊在 CoCs 里面用的是上下文聚類模塊 (Context Clusters Block) 。
  • Swin 中的下采樣操作在 CoCs 里面用的是點(diǎn)數(shù)縮減模塊 (Points Reducer Block) 。
  • Swin 中的位置編碼是 Add 在圖片上的,CoCs 里面用的是 Concat 操作,把3維的 image 搞成了5維的 "augmented image"。

在圖片的預(yù)處理環(huán)節(jié), 給定一組像素點(diǎn)的集合 , 作者首先減少點(diǎn)的數(shù)量以提高計(jì)算效率, 然后應(yīng)用一系列 Context Clusters Block 來(lái)提取特征。為了減少點(diǎn)的數(shù)量, 在空間中均勻地選擇一些錨點(diǎn), 并將最近的 個(gè)點(diǎn) ( 等) 通過(guò)線性投影進(jìn)行拼接和融合。

e09f4302-916e-11ed-bfe3-dac502259ad0.jpg圖2:CoCs 模型的總體架構(gòu)

如何選擇錨點(diǎn)呢?如下圖3所示,作者展示了16個(gè)點(diǎn)和4個(gè)錨點(diǎn),每個(gè)錨點(diǎn)都考慮了它最近的4個(gè)鄰居。所有鄰居都沿著通道維度進(jìn)行 concatenation,并且使用 FC 層來(lái)降低維度數(shù)并融合信息。在減少點(diǎn)的數(shù)量后,會(huì)得到4個(gè)新的點(diǎn)。這步可以使用 2×2 的卷積實(shí)現(xiàn)。

PyTorch 代碼如下 (PointRecuder 和 Transformer 類金字塔結(jié)構(gòu)使用的下采樣操作是一致的):

classPointRecuder(nn.Module):
"""
PointReducerisimplementedbyalayerofconvsinceitismathmaticallyequal.
Input:tensorinshape[B,C,H,W]
Output:tensorinshape[B,C,H/stride,W/stride]
"""
def__init__(self,patch_size=16,stride=16,padding=0,
in_chans=3,embed_dim=768,norm_layer=None):
super().__init__()
patch_size=to_2tuple(patch_size)
stride=to_2tuple(stride)
padding=to_2tuple(padding)
self.proj=nn.Conv2d(in_chans,embed_dim,kernel_size=patch_size,
stride=stride,padding=padding)
self.norm=norm_layer(embed_dim)ifnorm_layerelsenn.Identity()

defforward(self,x):
x=self.proj(x)
x=self.norm(x)
returnx
e0abfc28-916e-11ed-bfe3-dac502259ad0.jpg圖3:模型一開(kāi)始選擇錨點(diǎn)的方法,很像 ViT 的卷積分 Patch 操作

1.1.4 上下文聚類模塊原理

e0b7c24c-916e-11ed-bfe3-dac502259ad0.jpg圖4:一個(gè)上下文聚類 Block

本小節(jié)介紹 CoCs 的核心:上下文聚類模塊 (圖4虛線部分) 的原理??傮w而言,上下文聚類模塊分為兩部分:特征聚合 (Feature Aggregating) 和**特征再分配 (Feature Dispatching)**。作者首先將特征點(diǎn)聚類成為 Cluster,然后,每個(gè)聚類中的特征點(diǎn)將被聚合,然后再分派回去。

給定一組特征點(diǎn) , 作者根據(jù)相似度將所有點(diǎn)分組為幾個(gè)組, 每個(gè)點(diǎn)被單獨(dú)分配到一個(gè) Cluster 中。聚類的方法使用 SLIC , 設(shè)置 個(gè)聚類中心, 每個(gè)聚類中心都通過(guò)計(jì)算其 個(gè)最近鄰的平均值得到。然后計(jì)算成對(duì)余弦相似矩陣 和得到的中心點(diǎn)集。完成之后, 作者將每個(gè)點(diǎn)分配到最相似的 Cluster 中, 產(chǎn)生 個(gè)聚類。值得注意的是, 每個(gè) Cluster 中可能有不同數(shù)量的點(diǎn)。極限情況下一些 Cluster 中可能沒(méi)有點(diǎn)。

特征聚合

現(xiàn)在把目光放在一個(gè) Cluster 內(nèi)部。假設(shè)一個(gè)簇包含 個(gè)點(diǎn) ( 的一個(gè)子集), 這 個(gè)點(diǎn)與聚類中心的相似度為 。作者將這 個(gè)點(diǎn)映射到一個(gè) value space 中, 得到: , 其中, 是 value dimension。類似地, value space 中也有一個(gè)聚類中心 , 聚合的特征 可以寫(xiě)成:

e0ca0650-916e-11ed-bfe3-dac502259ad0.png

這里 和 是可學(xué)習(xí)的標(biāo)量, 用于縮放和移動(dòng), 是 Sigmoid 函數(shù), 用于重新縮放相似度到 。 表示 中的第 個(gè)點(diǎn)。從經(jīng)驗(yàn)上看, 這種策略比直接應(yīng)用原始相似度的結(jié)果要好得多, 因?yàn)椴簧婕柏?fù)值。為了數(shù)值的穩(wěn)定性, 作者在式1中加入了聚類中心 , 和歸一化因子 。

特征再分配

然后,聚合的特征 根據(jù)相似性自適應(yīng)地分配到聚類中的每個(gè)點(diǎn)。通過(guò)這樣做,點(diǎn)之間可以相互通信,并共享來(lái)自 Cluster 中所有點(diǎn)的特征,方法如下:

e0d84ba2-916e-11ed-bfe3-dac502259ad0.png

這里,作者遵循和1式相似的做法來(lái)處理相似性,并應(yīng)用一個(gè)全連接 (FC) 層來(lái)匹配特征維度 (從值空間維度 到原始維度 )。

多頭機(jī)制

考慮到 ViT 中使用的多頭注意力機(jī)制,作者在上下文聚類模塊中使用了類似的做法,也使用了 hh 個(gè) head,且多頭操作的輸出由 FC 層融合,發(fā)現(xiàn)多頭機(jī)制也使得模型效果更好。

聚類中心不動(dòng)?

傳統(tǒng)的聚類算法和 SuperPixel 技術(shù)都是迭代更新中心直到收斂,但是這將導(dǎo)致過(guò)高的計(jì)算成本,使得推理時(shí)間將呈指數(shù)增長(zhǎng)。在上下文聚類中,作者固定聚類中心不動(dòng),在準(zhǔn)確性和速度之間取得妥協(xié)。

PyTorch 代碼如下 (變量維度我已經(jīng)在代碼中標(biāo)明):

classCluster(nn.Module):
def__init__(self,dim,out_dim,proposal_w=2,proposal_h=2,fold_w=2,fold_h=2,heads=4,head_dim=24,return_center=False):
"""

:paramdim:channelnubmer
:paramout_dim:channelnubmer
:paramproposal_w:thesqrt(proposals)value,wecanalsosetadifferentvalue
:paramproposal_h:thesqrt(proposals)value,wecanalsosetadifferentvalue
:paramfold_w:thesqrt(numberofregions)value,wecanalsosetadifferentvalue
:paramfold_h:thesqrt(numberofregions)value,wecanalsosetadifferentvalue
:paramheads:headsnumberincontextcluster
:paramhead_dim:dimensionofeachheadincontextcluster
:paramreturn_center:ifjustreturncentersinsteadofdispatchingback(deprecated).
"""
super().__init__()
self.heads=heads
self.head_dim=head_dim
self.fc1=nn.Conv2d(dim,heads*head_dim,kernel_size=1)
self.fc2=nn.Conv2d(heads*head_dim,out_dim,kernel_size=1)
self.fc_v=nn.Conv2d(dim,heads*head_dim,kernel_size=1)
self.sim_alpha=nn.Parameter(torch.ones(1))
self.sim_beta=nn.Parameter(torch.zeros(1))
self.centers_proposal=nn.AdaptiveAvgPool2d((proposal_w,proposal_h))
self.fold_w=fold_w
self.fold_h=fold_h
self.return_center=return_center

defforward(self,x):#[b,c,w,h]
value=self.fc_v(x)
x=self.fc1(x)
x=rearrange(x,"b(ec)wh->(be)cwh",e=self.heads)#[b*heads,head_dim,w,h]
value=rearrange(value,"b(ec)wh->(be)cwh",e=self.heads)#[b*heads,head_dim,w,h]
ifself.fold_w>1andself.fold_h>1:
#splitthebigfeaturemapstosmalllocaregionstoreducecomputationsofmatrixmultiplications.
b0,c0,w0,h0=x.shape
assertw0%self.fold_w==0andh0%self.fold_h==0,
f"Ensurethefeaturemapsize({w0}*{h0})canbedividedbyfold{self.fold_w}*{self.fold_h}"
x=rearrange(x,"bc(f1w)(f2h)->(bf1f2)cwh",f1=self.fold_w,f2=self.fold_h)#[bs*blocks,c,ks[0],ks[1]]#[b*heads*64,head_dim,w/8,h/8]
value=rearrange(value,"bc(f1w)(f2h)->(bf1f2)cwh",f1=self.fold_w,f2=self.fold_h)#[b*heads*64,head_dim,w/8,h/8]
b,c,w,h=x.shape#[b*heads*64,head_dim,w/8,h/8]
centers=self.centers_proposal(x)#[b,c,C_W,C_H],wesetM=C_W*C_HandN=w*h#[b*heads*64,head_dim,2,2]
value_centers=rearrange(self.centers_proposal(value),'bcwh->b(wh)c')#[b,C_W,C_H,c]#[b*heads*64,4,head_dim]
b,c,ww,hh=centers.shape#[b*heads*64,head_dim,2,2]
sim=torch.sigmoid(self.sim_beta+self.sim_alpha*pairwise_cos_sim(centers.reshape(b,c,-1).permute(0,2,1),x.reshape(b,c,-1).permute(0,2,1)))#[B,M,N]#[b*heads*64,4,w/8*h/8]
#sololyassigneachpointtoonecenter
sim_max,sim_max_idx=sim.max(dim=1,keepdim=True)
mask=torch.zeros_like(sim)#binary#[B,M,N]
mask.scatter_(1,sim_max_idx,1.)
sim=sim*mask
value2=rearrange(value,'bcwh->b(wh)c')#[B,N,D]#[b*heads*64,w/8*h/8,head_dim]
#outshape[B,M,D]
#[b*heads*64,1,w/8*h/8,head_dim]*[b*heads*64,4,w/8*h/8,1]=[b*heads*64,4,w/8*h/8,head_dim]
#[b*heads*64,4,head_dim]
out=((value2.unsqueeze(dim=1)*sim.unsqueeze(dim=-1)).sum(dim=2)+value_centers)/(mask.sum(dim=-1,keepdim=True)+1.0)#[B,M,D]

ifself.return_center:
out=rearrange(out,"b(wh)c->bcwh",w=ww)
#returntoeachpointinacluster
else:
##[b*heads*64,4,1,head_dim]*[b*heads*64,4,w/8*h/8,1]=[b*heads*64,w/8*h/8,head_dim]
out=(out.unsqueeze(dim=2)*sim.unsqueeze(dim=-1)).sum(dim=1)#[B,N,D]
#[b*heads*64,head_dim,w/8*h/8]
out=rearrange(out,"b(wh)c->bcwh",w=w)

ifself.fold_w>1andself.fold_h>1:#recoverthesplitedregionsbacktobigfeaturemaps
out=rearrange(out,"(bf1f2)cwh->bc(f1w)(f2h)",f1=self.fold_w,f2=self.fold_h)#[b*heads,head_dim,w,h]
out=rearrange(out,"(be)cwh->b(ec)wh",e=self.heads)#[b,head_dim*heads,w,h]
out=self.fc2(out)#[b,out_dim,w,h]
returnout

1.1.5 實(shí)驗(yàn)結(jié)果

ImageNet-1K 圖像分類

如下圖6所示是在 ImageNet-1K 上的消融實(shí)驗(yàn)結(jié)果。當(dāng) Position info. 即位置信息刪掉時(shí),模型無(wú)法訓(xùn)練了。在沒(méi)有 Context Cluster 操作的情況下,性能下降了 3.3%。此外,多頭設(shè)計(jì)可使結(jié)果提高 0.9%。0.9,weight decay 為0.5,使用了 Exponential Moving Average (EMA)。如下圖56所示,CoCs 能夠獲得與廣泛使用的基線相當(dāng)甚至更好的性能。

通過(guò)約 25M 個(gè)參數(shù),CoCs 的性能超過(guò)了增強(qiáng)的 ResNet50 和 PVT-small 1.1%,并達(dá)到 80.9% 的 Top-1 精度。此外,CoCs 明顯優(yōu)于基于 MLP 的方法。這一現(xiàn)象表明,上下文集群模塊有助于建模視覺(jué)表征。

e0e69036-916e-11ed-bfe3-dac502259ad0.jpg圖5:ImageNet-1K 圖像分類實(shí)驗(yàn)結(jié)果

如下圖5所示是在 ImageNet-1K 上的消融實(shí)驗(yàn)結(jié)果。當(dāng) Position info. 即位置信息刪掉時(shí),模型無(wú)法訓(xùn)練了。在沒(méi)有 Context Cluster 操作的情況下,性能下降了 3.3%。此外,多頭設(shè)計(jì)可使結(jié)果提高 0.9%。

e10d93a2-916e-11ed-bfe3-dac502259ad0.png圖6:消融實(shí)驗(yàn)結(jié)果

聚類可視化結(jié)果

作者在圖7中繪制了 ViT 的注意力圖,ConvNet 的 class activation map (i.e., CAM),和 CoCs 的 clustering map??梢钥吹?,本文的方法在最后的 Stage 清晰地將 "鵝" 聚為一個(gè) object context,并將背景 "草" 分組在一起。上下文聚類甚至可以在非常早期的 Stage 聚類相似的上下文。

e11a103c-916e-11ed-bfe3-dac502259ad0.jpg圖7:聚類可視化結(jié)果,從左到右分別是4個(gè) Stage ([3rd, 6th, 9th, 12th]) 的聚類可視化結(jié)果

ScanObjectNN 3D 點(diǎn)云分類實(shí)驗(yàn)結(jié)果

作者選擇 PointMLP 作為模型的基線,因?yàn)樗男阅芎鸵子眯?。作者將上下文聚類模塊放在 PointMLP 中的每個(gè) Residual Point Block 之前。得到的模型稱為 PointMLP-CoC。如下圖7所示,作者展示了所有類別的平均準(zhǔn)確度 (mAcc) 和所有樣本的總體準(zhǔn)確度 (OA)。實(shí)驗(yàn)結(jié)果表明,該方法可以顯著提高 PointMLP 的性能,平均準(zhǔn)確率提高0.5% (84.4% vs. 83.9%),總體準(zhǔn)確率提高 0.8% (86.2% vs. 85.4%)。

e1286362-916e-11ed-bfe3-dac502259ad0.jpg圖8:點(diǎn)云分類實(shí)驗(yàn)結(jié)果

MS-COCO 目標(biāo)檢測(cè)和實(shí)例分割實(shí)驗(yàn)結(jié)果

接下來(lái),作者研究 Context Cluster 操作對(duì)下游任務(wù)的泛化性,包括 MS-COCO 目標(biāo)檢測(cè)和實(shí)例分割。檢測(cè)頭和實(shí)例分割頭使用 Mask RCNN。所有模型使用 1× scheduler (12 epochs) 進(jìn)行訓(xùn)練,并使用 ImageNet 預(yù)訓(xùn)練權(quán)重進(jìn)行初始化。為了進(jìn)行比較,作者將 ResNet 作為 ConvNets 的代表,PVT 作為 ViTs 的代表。

對(duì)于分辨率為 (1280,800) 大小的圖像,檢測(cè)和分割任務(wù)將有 1000 個(gè)點(diǎn)。很明顯,將1000個(gè)點(diǎn)分成4個(gè) Cluster 會(huì)產(chǎn)生較差的結(jié)果。為此,作者研究了一個(gè)局部區(qū)域中使用4,25,49個(gè)中心,并將得到的模型分別稱為 Small/4、Small/25 和 Small/49。如圖9的結(jié)果表明,Context Cluster 操作對(duì)下游任務(wù)具有很好的泛化能力。CoC-Small/25 在檢測(cè)和實(shí)例分割任務(wù)上都優(yōu)于 ConvNet 和 ViT 基線。

e13ae73a-916e-11ed-bfe3-dac502259ad0.jpg圖9:目標(biāo)檢測(cè)實(shí)驗(yàn)結(jié)果

ADE20K 語(yǔ)義分割實(shí)驗(yàn)結(jié)果

接下來(lái),作者研究 Context Cluster 操作對(duì) ADE20K 語(yǔ)義分割任務(wù)的泛化性,語(yǔ)義分割頭使用 semantic FPN。所有模型使用 80k iterations 進(jìn)行訓(xùn)練,并使用 ImageNet 預(yù)訓(xùn)練權(quán)重進(jìn)行初始化。為了進(jìn)行比較,作者將 ResNet 作為 ConvNets 的代表,PVT 作為 ViTs 的代表。

ADE20K 的實(shí)驗(yàn)結(jié)果如下圖10所示。使用類似數(shù)量的參數(shù),Context Cluster 操作明顯優(yōu)于 PVT 和 ResNet。Context Cluster 操作類似于 SuperPixel,這是一種過(guò)度分割的技術(shù)。當(dāng)應(yīng)用于特征提取時(shí),作者期望 Context Cluster 操作能夠?qū)χ虚g特征中的上下文進(jìn)行過(guò)度分割,并在語(yǔ)義分割任務(wù)中表現(xiàn)出改進(jìn)。與目標(biāo)檢測(cè)和實(shí)例分割任務(wù)不同,center 數(shù)量對(duì)結(jié)果影響不大。

e1470fa6-916e-11ed-bfe3-dac502259ad0.png圖10:語(yǔ)義分割實(shí)驗(yàn)結(jié)果

總結(jié)

提取特征的方式很大程度上取決于如何解釋圖像。在本文中,作者回顧了視覺(jué)表征的一類經(jīng)典方法:聚類 (Clustering) ??傮w而言,作者將圖像視為一組點(diǎn)集,并將所有點(diǎn)分組為 Clusters。在每個(gè)類中,我們將這些點(diǎn)聚集成一個(gè) center,然后自適應(yīng)地將中心點(diǎn)分配給所有的點(diǎn)。作者將這種范式稱之為上下文聚類 (Context Cluster)。這是一種新的用于視覺(jué)表征的特征提取范式。受點(diǎn)云分析和 SuperPixel 算法的啟發(fā),Context Cluster與 ConvNets 和 ViTs 有本質(zhì)區(qū)別,不涉及卷積和注意力。并在多種視覺(jué)任務(wù)中取得了和 ConvNets,ViTs 相當(dāng)?shù)男阅堋?/p>

審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1075

    瀏覽量

    40266
  • 框架
    +關(guān)注

    關(guān)注

    0

    文章

    396

    瀏覽量

    17264
  • 聚類算法
    +關(guān)注

    關(guān)注

    2

    文章

    118

    瀏覽量

    12101

原文標(biāo)題:超高分論文!視覺(jué)新范式!COCs:將圖像視為點(diǎn)集

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    成都微光電發(fā)布車(chē)規(guī)級(jí)MIA2001圖像傳感器

    成都微光電近日隆重推出了其專為汽車(chē)視覺(jué)系統(tǒng)設(shè)計(jì)的旗艦產(chǎn)品——MIA2001圖像傳感器。這款高性能傳感器融合了成都微光電的最新科技成果,專為提升駕駛安全與
    的頭像 發(fā)表于 07-26 16:36 ?335次閱讀

    機(jī)器人視覺(jué)技術(shù)中常見(jiàn)的圖像分割方法

    機(jī)器人視覺(jué)技術(shù)中的圖像分割方法是一個(gè)廣泛且深入的研究領(lǐng)域。圖像分割是圖像劃分為多個(gè)區(qū)域或?qū)ο蟮倪^(guò)程,這些區(qū)域或?qū)ο缶哂心撤N共同的特征,如顏
    的頭像 發(fā)表于 07-09 09:31 ?237次閱讀

    計(jì)算機(jī)視覺(jué)圖像處理的區(qū)別和聯(lián)系

    計(jì)算機(jī)視覺(jué)圖像處理是兩個(gè)密切相關(guān)但又有明顯區(qū)別的領(lǐng)域。 1. 基本概念 1.1 計(jì)算機(jī)視覺(jué) 計(jì)算機(jī)視覺(jué)是一門(mén)研究如何使計(jì)算機(jī)能夠理解和解釋視覺(jué)
    的頭像 發(fā)表于 07-09 09:16 ?535次閱讀

    計(jì)算機(jī)視覺(jué)怎么給圖像分類

    圖像分類是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一項(xiàng)核心任務(wù),其目標(biāo)是輸入的圖像自動(dòng)分配到預(yù)定義的類別集合中。這一過(guò)程涉及圖像的特征提取、特征表示以及分類器的
    的頭像 發(fā)表于 07-08 17:06 ?235次閱讀

    機(jī)器視覺(jué)系統(tǒng)如何選擇圖像傳感器

    圖像傳感器是所有機(jī)器視覺(jué)(MV)系統(tǒng)的核心,這是負(fù)責(zé)物理世界的信息轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù)的基本元件,在確保機(jī)器視覺(jué)操作的準(zhǔn)確性、可靠性和高效率方面起到了關(guān)鍵作用。在這篇博文中,安森美探討了為
    的頭像 發(fā)表于 07-05 10:49 ?387次閱讀

    機(jī)器人視覺(jué)技術(shù)中圖像分割方法有哪些

    機(jī)器人視覺(jué)技術(shù)是人工智能領(lǐng)域的一個(gè)重要分支,它涉及到圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)等多個(gè)學(xué)科。圖像分割是機(jī)器人視覺(jué)技術(shù)中的一個(gè)重要環(huán)節(jié),它的目標(biāo)是從一幅
    的頭像 發(fā)表于 07-04 11:34 ?382次閱讀

    機(jī)器視覺(jué)圖像采集卡及其使用接口概述

    本文我們研究機(jī)器視覺(jué)圖像采集器及其使用的各種接口。首先,我們概述外圍計(jì)算機(jī)卡,然后探討圖像采集器中使用的不同類型的機(jī)器
    的頭像 發(fā)表于 06-27 18:15 ?405次閱讀
    機(jī)器<b class='flag-5'>視覺(jué)</b><b class='flag-5'>圖像</b>采集卡及其使用接口概述

    如何提取、匹配圖像特征點(diǎn)

    我們習(xí)慣從圖像中選取比較有代表性的點(diǎn),然后,在此基礎(chǔ)上,討論相機(jī)位姿估計(jì)問(wèn)題,以及這些點(diǎn)的定位問(wèn)題。 在經(jīng)典 SLAM 模型中,把它們稱為路標(biāo),而在視覺(jué) SLAM 中,路標(biāo)則是指
    的頭像 發(fā)表于 04-19 11:41 ?483次閱讀

    機(jī)器視覺(jué)圖像采集卡及其接口概述

    本文主要是介紹機(jī)器視覺(jué)圖像采集卡及其使用的各種接口。首先,我們概述外圍計(jì)算機(jī)卡,然后探索圖像采集卡中使用的不同類型的機(jī)器視覺(jué)接口。我們先來(lái)
    的頭像 發(fā)表于 04-15 20:42 ?344次閱讀
    機(jī)器<b class='flag-5'>視覺(jué)</b><b class='flag-5'>圖像</b>采集卡及其接口概述

    機(jī)器視覺(jué)圖像采集卡:關(guān)鍵的圖像處理設(shè)備

    機(jī)器視覺(jué)圖像采集卡是一種用于采集和處理圖像數(shù)據(jù)的關(guān)鍵設(shè)備,它在現(xiàn)代工業(yè)生產(chǎn)和科學(xué)研究中起著至關(guān)重要的作用。本文探討機(jī)器視覺(jué)
    的頭像 發(fā)表于 02-22 16:23 ?348次閱讀
    機(jī)器<b class='flag-5'>視覺(jué)</b><b class='flag-5'>圖像</b>采集卡:關(guān)鍵的<b class='flag-5'>圖像</b>處理設(shè)備

    通過(guò)異步獲取的圖像與LiDAR點(diǎn)云對(duì)準(zhǔn)的方案

    實(shí)現(xiàn)圖像與其重建對(duì)象之間的精確2D-3D對(duì)應(yīng)關(guān)系對(duì)于準(zhǔn)確的圖像定位至關(guān)重要,一種有前景的方法涉及在圖像和激光雷達(dá)平面之間建立對(duì)應(yīng)關(guān)系,激光雷達(dá)平面可以被視為來(lái)自激光雷達(dá)
    發(fā)表于 12-12 14:46 ?556次閱讀

    機(jī)器視覺(jué)圖像增強(qiáng)和圖像處理

    一、圖像處理技術(shù)概述1.定義對(duì)原始獲取圖像進(jìn)行一系列的運(yùn)算處理,稱為圖像處理。圖像處理是機(jī)器視覺(jué)技術(shù)的方法基礎(chǔ),包括
    的頭像 發(fā)表于 10-26 08:07 ?803次閱讀
    機(jī)器<b class='flag-5'>視覺(jué)</b>之<b class='flag-5'>圖像</b>增強(qiáng)和<b class='flag-5'>圖像</b>處理

    機(jī)器視覺(jué)圖像增強(qiáng)和圖像處理

    對(duì)原始獲取圖像進(jìn)行一系列的運(yùn)算處理,稱為圖像處理。圖像處理是機(jī)器視覺(jué)技術(shù)的方法基礎(chǔ),包括圖像增強(qiáng)、邊緣提取、
    發(fā)表于 10-23 10:43 ?432次閱讀
    機(jī)器<b class='flag-5'>視覺(jué)</b>之<b class='flag-5'>圖像</b>增強(qiáng)和<b class='flag-5'>圖像</b>處理

    機(jī)器視覺(jué)圖像處理技術(shù)、圖像增強(qiáng)技術(shù)

    對(duì)原始獲取圖像進(jìn)行一系列的運(yùn)算處理,稱為圖像處理。圖像處理是機(jī)器視覺(jué)技術(shù)的方法基礎(chǔ),包括圖像增強(qiáng)、邊緣提取、
    發(fā)表于 10-20 10:17 ?939次閱讀
    機(jī)器<b class='flag-5'>視覺(jué)</b>:<b class='flag-5'>圖像</b>處理技術(shù)、<b class='flag-5'>圖像</b>增強(qiáng)技術(shù)

    機(jī)器視覺(jué)視覺(jué)檢測(cè)知識(shí)點(diǎn)的歸納

    電子發(fā)燒友網(wǎng)站提供《機(jī)器視覺(jué)視覺(jué)檢測(cè)知識(shí)點(diǎn)的歸納.pdf》資料免費(fèi)下載
    發(fā)表于 10-07 16:39 ?3次下載
    機(jī)器<b class='flag-5'>視覺(jué)</b>與<b class='flag-5'>視覺(jué)</b>檢測(cè)知識(shí)<b class='flag-5'>點(diǎn)</b>的歸納