導(dǎo)讀

在本文中，作者回顧了視覺(jué)表征的一類經(jīng)典方法：聚類 (Clustering) 。作者將這種范式稱之為上下文聚類 (Context Cluster)。這是一種新的用于視覺(jué)表征的特征提取范式。并在多種視覺(jué)任務(wù)中取得了和 ConvNets，ViTs 相當(dāng)?shù)男阅堋?/span>

本文目錄

1 把圖片視為點(diǎn)集，簡(jiǎn)單聚類算法實(shí)現(xiàn)強(qiáng)悍視覺(jué)架構(gòu) (超高分論文)
(目前匿名，待更新)
1.1 CoCs 論文解讀
1.1.1 背景和動(dòng)機(jī)
1.1.2 把圖像視為一組點(diǎn)集
1.1.3 CoCs 模型的總體架構(gòu)和圖片的預(yù)處理環(huán)節(jié)
1.1.4 上下文聚類塊原理
1.1.5 實(shí)驗(yàn)結(jié)果

1 把圖片視為點(diǎn)集，簡(jiǎn)單聚類算法實(shí)現(xiàn)強(qiáng)悍視覺(jué)架構(gòu)

論文名稱：Image as Set of Points

論文地址：

https://openreview.net/pdf%3Fid%3DawnvqZja69

1.1.1 背景和動(dòng)機(jī)

提取特征的方式很大程度上取決于如何解釋圖像。

在方法上，ConvNets 將圖像概念化為一組排列成矩形形式的像素，并以滑動(dòng)窗口的方式使用卷積提取局部特征。卷積網(wǎng)絡(luò)非常高效的原因是得益于一些重要的歸納偏置 (inductive bias)，如局部性 (locality) 和平移等變性 (translation equivariance)。視覺(jué) Transformer 將圖像視為一塊塊組成的序列，并使用全局注意力操作自適應(yīng)地融合來(lái)自每個(gè) Patch 的信息。這樣，模型中固有的歸納偏置被拋棄，并獲得了令人滿意的結(jié)果。

最近，有些工作試圖把卷積和注意力機(jī)制結(jié)合在一起，比如：CMT[1]，CoAtNet[2]等，這些方法在網(wǎng)格中掃描圖像 (通過(guò)卷積，獲得局部性的先驗(yàn))，同時(shí)探索 Patch 之間的相互關(guān)系 (通過(guò)注意力，獲得全局建模的能力)。雖然它們繼承了兩者的優(yōu)點(diǎn)，但其見(jiàn)解和知識(shí)仍然局限于 ConvNets 和 ViT。

本文作者研究特征提取器 (Feature Extractor)，但是視角不僅僅局限在 ConvNets 和 ViT 上。雖然卷積和注意力機(jī)制已經(jīng)被證明了可以用來(lái)構(gòu)建高性能視覺(jué)架構(gòu)，但它們并不是唯一的選擇。其他的選擇比如基于 MLP 的模型 ResMLP[3]，和基于 GNN 的模型 ViG[4]。因此，作者期待在本文中探索一種新的特征提取范式，它可以提供一些新穎的見(jiàn)解，而不是增量式的性能改進(jìn)。

在本文中，作者回顧了視覺(jué)表征的一類經(jīng)典方法：聚類 (Clustering) ?？傮w而言，作者將圖像視為一組點(diǎn)集，并將所有點(diǎn)分組為 Clusters。在每個(gè)類中，我們將這些點(diǎn)聚集成一個(gè) center，然后自適應(yīng)地將中心點(diǎn)分配給所有的點(diǎn)。作者將這種范式稱之為上下文聚類 (Context Cluster) 。

圖1：上下文聚類 (context cluster)

如上圖1所示，具體而言，作者將每個(gè)像素視為一個(gè)具有顏色和位置信息的5維數(shù)據(jù)點(diǎn)。作者將圖像轉(zhuǎn)換為一組點(diǎn)云，并利用點(diǎn)云分析的方法用于圖像視覺(jué)表征。這連接了圖像和點(diǎn)云的視覺(jué)表征，顯示出了強(qiáng)大的泛化性能，也有利于未來(lái)的多模態(tài)研究。對(duì)于一組點(diǎn)，作者引入了一種簡(jiǎn)化的聚類方法[5]，將點(diǎn)分組為一個(gè)個(gè)類。

作者將基于上下文聚類 (context cluster) 得到的 Deep Model 稱之為 Context Clusters (CoCs) 。模型的設(shè)計(jì)也繼承了 ViT 的層次表示和 MetaFormer 的框架。通過(guò)將圖像視為點(diǎn)的集合，CoC 對(duì)不同數(shù)據(jù)域 (如點(diǎn)云、RGBD 圖像等) 具有很強(qiáng)的泛化能力，和比較令人滿意的可解釋性。盡管 CoC 不以性能為目標(biāo)，但作者發(fā)現(xiàn)在幾個(gè)基準(zhǔn)測(cè)試中，它仍然達(dá)到了與 ConvNets 或 ViTs 相同甚至更好的性能。

1.1.2 把圖像視為一組點(diǎn)集

作為一個(gè)通用主干網(wǎng)絡(luò)的工作，我們首先要明確的一點(diǎn)是：無(wú)論作者在鼓吹什么概念，這個(gè)網(wǎng)絡(luò)的每一個(gè) Block 都要做一件事情：就是特征提取 (Feature Extraction)。本文使用的聚類 (Clustering) 操作也不會(huì)例外。

在特征提取之前我們先從圖像開(kāi)始。給定一張?jiān)嫉妮斎雸D片 , 作者先對(duì)圖片的每個(gè)像素增加一個(gè) 坐標(biāo), 使之成為一個(gè) 5 維的向量。其中, 每個(gè)位置的坐標(biāo)可以寫(xiě)成 , 然后將增強(qiáng)后的圖像轉(zhuǎn)換為像素點(diǎn)的集合 , 其中為點(diǎn)的個(gè)數(shù), 每個(gè)點(diǎn)同時(shí)包含特征 (顏色) 和位置 (坐標(biāo)) 的信息。

這樣的表征為圖像提供了一個(gè)全新的視角，即：把圖像視為一組點(diǎn)集，其可以被認(rèn)為是一種通用數(shù)據(jù)表示，因?yàn)榇蠖鄶?shù)領(lǐng)域的數(shù)據(jù)可以作為特征和位置信息的組合給出。

1.1.3 CoCs 模型的總體架構(gòu)和圖片的預(yù)處理環(huán)節(jié)

前文提到，無(wú)論作者在鼓吹什么概念，這個(gè)網(wǎng)絡(luò)的每一個(gè) Block 都要做一件事情：就是特征提取 (Feature Extraction)。本文作者同樣遵循 ConvNets 的方法，利用 Context Clusters Block，提取深層特征。

模型總體架構(gòu)如下圖2所示，每個(gè) Stage 都由點(diǎn)數(shù)縮減模塊 (Points Reducer Block) 和上下文聚類塊 (Context Clusters Block) 組成。

總體而言：

CoCs 模型的總體架構(gòu)類似于 Swin，PVT 的金字塔結(jié)構(gòu)。
Swin 中的圖片的預(yù)處理環(huán)節(jié)在 CoCs 里面用的也是卷積。
Swin 中的 Self-attention 模塊在 CoCs 里面用的是上下文聚類模塊 (Context Clusters Block) 。
Swin 中的下采樣操作在 CoCs 里面用的是點(diǎn)數(shù)縮減模塊 (Points Reducer Block) 。
Swin 中的位置編碼是 Add 在圖片上的，CoCs 里面用的是 Concat 操作，把3維的 image 搞成了5維的 "augmented image"。

在圖片的預(yù)處理環(huán)節(jié), 給定一組像素點(diǎn)的集合 , 作者首先減少點(diǎn)的數(shù)量以提高計(jì)算效率, 然后應(yīng)用一系列 Context Clusters Block 來(lái)提取特征。為了減少點(diǎn)的數(shù)量, 在空間中均勻地選擇一些錨點(diǎn), 并將最近的個(gè)點(diǎn) ( 等) 通過(guò)線性投影進(jìn)行拼接和融合。

圖2：CoCs 模型的總體架構(gòu)

如何選擇錨點(diǎn)呢？如下圖3所示，作者展示了16個(gè)點(diǎn)和4個(gè)錨點(diǎn)，每個(gè)錨點(diǎn)都考慮了它最近的4個(gè)鄰居。所有鄰居都沿著通道維度進(jìn)行 concatenation，并且使用 FC 層來(lái)降低維度數(shù)并融合信息。在減少點(diǎn)的數(shù)量后，會(huì)得到4個(gè)新的點(diǎn)。這步可以使用 2×2 的卷積實(shí)現(xiàn)。

PyTorch 代碼如下 (PointRecuder 和 Transformer 類金字塔結(jié)構(gòu)使用的下采樣操作是一致的)：

classPointRecuder(nn.Module):
"""
PointReducerisimplementedbyalayerofconvsinceitismathmaticallyequal.
Input:tensorinshape[B,C,H,W]
Output:tensorinshape[B,C,H/stride,W/stride]
"""
def__init__(self,patch_size=16,stride=16,padding=0,
in_chans=3,embed_dim=768,norm_layer=None):
super().__init__()
patch_size=to_2tuple(patch_size)
stride=to_2tuple(stride)
padding=to_2tuple(padding)
self.proj=nn.Conv2d(in_chans,embed_dim,kernel_size=patch_size,
stride=stride,padding=padding)
self.norm=norm_layer(embed_dim)ifnorm_layerelsenn.Identity()

defforward(self,x):
x=self.proj(x)
x=self.norm(x)
returnx

圖3：模型一開(kāi)始選擇錨點(diǎn)的方法，很像 ViT 的卷積分 Patch 操作

1.1.4 上下文聚類模塊原理

圖4：一個(gè)上下文聚類 Block

本小節(jié)介紹 CoCs 的核心：上下文聚類模塊 (圖4虛線部分) 的原理?？傮w而言，上下文聚類模塊分為兩部分：特征聚合 (Feature Aggregating) 和**特征再分配 (Feature Dispatching)**。作者首先將特征點(diǎn)聚類成為 Cluster，然后，每個(gè)聚類中的特征點(diǎn)將被聚合，然后再分派回去。

給定一組特征點(diǎn) , 作者根據(jù)相似度將所有點(diǎn)分組為幾個(gè)組, 每個(gè)點(diǎn)被單獨(dú)分配到一個(gè) Cluster 中。聚類的方法使用 SLIC , 設(shè)置個(gè)聚類中心, 每個(gè)聚類中心都通過(guò)計(jì)算其個(gè)最近鄰的平均值得到。然后計(jì)算成對(duì)余弦相似矩陣和得到的中心點(diǎn)集。完成之后, 作者將每個(gè)點(diǎn)分配到最相似的 Cluster 中, 產(chǎn)生個(gè)聚類。值得注意的是, 每個(gè) Cluster 中可能有不同數(shù)量的點(diǎn)。極限情況下一些 Cluster 中可能沒(méi)有點(diǎn)。

特征聚合

現(xiàn)在把目光放在一個(gè) Cluster 內(nèi)部。假設(shè)一個(gè)簇包含個(gè)點(diǎn) ( 的一個(gè)子集), 這個(gè)點(diǎn)與聚類中心的相似度為。作者將這個(gè)點(diǎn)映射到一個(gè) value space 中, 得到: , 其中, 是 value dimension。類似地, value space 中也有一個(gè)聚類中心 , 聚合的特征可以寫(xiě)成:

這里和是可學(xué)習(xí)的標(biāo)量, 用于縮放和移動(dòng), 是 Sigmoid 函數(shù), 用于重新縮放相似度到。表示中的第個(gè)點(diǎn)。從經(jīng)驗(yàn)上看, 這種策略比直接應(yīng)用原始相似度的結(jié)果要好得多, 因?yàn)椴簧婕柏?fù)值。為了數(shù)值的穩(wěn)定性, 作者在式1中加入了聚類中心 , 和歸一化因子。

特征再分配

然后，聚合的特征根據(jù)相似性自適應(yīng)地分配到聚類中的每個(gè)點(diǎn)。通過(guò)這樣做，點(diǎn)之間可以相互通信，并共享來(lái)自 Cluster 中所有點(diǎn)的特征，方法如下：

這里，作者遵循和1式相似的做法來(lái)處理相似性，并應(yīng)用一個(gè)全連接 (FC) 層來(lái)匹配特征維度 (從值空間維度到原始維度 )。

多頭機(jī)制

考慮到 ViT 中使用的多頭注意力機(jī)制，作者在上下文聚類模塊中使用了類似的做法，也使用了 hh 個(gè) head，且多頭操作的輸出由 FC 層融合，發(fā)現(xiàn)多頭機(jī)制也使得模型效果更好。

聚類中心不動(dòng)？

傳統(tǒng)的聚類算法和 SuperPixel 技術(shù)都是迭代更新中心直到收斂，但是這將導(dǎo)致過(guò)高的計(jì)算成本，使得推理時(shí)間將呈指數(shù)增長(zhǎng)。在上下文聚類中，作者固定聚類中心不動(dòng)，在準(zhǔn)確性和速度之間取得妥協(xié)。

PyTorch 代碼如下 (變量維度我已經(jīng)在代碼中標(biāo)明)：

classCluster(nn.Module):
def__init__(self,dim,out_dim,proposal_w=2,proposal_h=2,fold_w=2,fold_h=2,heads=4,head_dim=24,return_center=False):
"""

:paramdim:channelnubmer
:paramout_dim:channelnubmer
:paramproposal_w:thesqrt(proposals)value,wecanalsosetadifferentvalue
:paramproposal_h:thesqrt(proposals)value,wecanalsosetadifferentvalue
:paramfold_w:thesqrt(numberofregions)value,wecanalsosetadifferentvalue
:paramfold_h:thesqrt(numberofregions)value,wecanalsosetadifferentvalue
:paramheads:headsnumberincontextcluster
:paramhead_dim:dimensionofeachheadincontextcluster
:paramreturn_center:ifjustreturncentersinsteadofdispatchingback(deprecated).
"""
super().__init__()
self.heads=heads
self.head_dim=head_dim
self.fc1=nn.Conv2d(dim,heads*head_dim,kernel_size=1)
self.fc2=nn.Conv2d(heads*head_dim,out_dim,kernel_size=1)
self.fc_v=nn.Conv2d(dim,heads*head_dim,kernel_size=1)
self.sim_alpha=nn.Parameter(torch.ones(1))
self.sim_beta=nn.Parameter(torch.zeros(1))
self.centers_proposal=nn.AdaptiveAvgPool2d((proposal_w,proposal_h))
self.fold_w=fold_w
self.fold_h=fold_h
self.return_center=return_center

defforward(self,x):#[b,c,w,h]
value=self.fc_v(x)
x=self.fc1(x)
x=rearrange(x,"b(ec)wh->(be)cwh",e=self.heads)#[b*heads,head_dim,w,h]
value=rearrange(value,"b(ec)wh->(be)cwh",e=self.heads)#[b*heads,head_dim,w,h]
ifself.fold_w>1andself.fold_h>1:
#splitthebigfeaturemapstosmalllocaregionstoreducecomputationsofmatrixmultiplications.
b0,c0,w0,h0=x.shape
assertw0%self.fold_w==0andh0%self.fold_h==0,
f"Ensurethefeaturemapsize({w0}*{h0})canbedividedbyfold{self.fold_w}*{self.fold_h}"
x=rearrange(x,"bc(f1w)(f2h)->(bf1f2)cwh",f1=self.fold_w,f2=self.fold_h)#[bs*blocks,c,ks[0],ks[1]]#[b*heads*64,head_dim,w/8,h/8]
value=rearrange(value,"bc(f1w)(f2h)->(bf1f2)cwh",f1=self.fold_w,f2=self.fold_h)#[b*heads*64,head_dim,w/8,h/8]
b,c,w,h=x.shape#[b*heads*64,head_dim,w/8,h/8]
centers=self.centers_proposal(x)#[b,c,C_W,C_H],wesetM=C_W*C_HandN=w*h#[b*heads*64,head_dim,2,2]
value_centers=rearrange(self.centers_proposal(value),'bcwh->b(wh)c')#[b,C_W,C_H,c]#[b*heads*64,4,head_dim]
b,c,ww,hh=centers.shape#[b*heads*64,head_dim,2,2]
sim=torch.sigmoid(self.sim_beta+self.sim_alpha*pairwise_cos_sim(centers.reshape(b,c,-1).permute(0,2,1),x.reshape(b,c,-1).permute(0,2,1)))#[B,M,N]#[b*heads*64,4,w/8*h/8]
#sololyassigneachpointtoonecenter
sim_max,sim_max_idx=sim.max(dim=1,keepdim=True)
mask=torch.zeros_like(sim)#binary#[B,M,N]
mask.scatter_(1,sim_max_idx,1.)
sim=sim*mask
value2=rearrange(value,'bcwh->b(wh)c')#[B,N,D]#[b*heads*64,w/8*h/8,head_dim]
#outshape[B,M,D]
#[b*heads*64,1,w/8*h/8,head_dim]*[b*heads*64,4,w/8*h/8,1]=[b*heads*64,4,w/8*h/8,head_dim]
#[b*heads*64,4,head_dim]
out=((value2.unsqueeze(dim=1)*sim.unsqueeze(dim=-1)).sum(dim=2)+value_centers)/(mask.sum(dim=-1,keepdim=True)+1.0)#[B,M,D]

ifself.return_center:
out=rearrange(out,"b(wh)c->bcwh",w=ww)
#returntoeachpointinacluster
else:
##[b*heads*64,4,1,head_dim]*[b*heads*64,4,w/8*h/8,1]=[b*heads*64,w/8*h/8,head_dim]
out=(out.unsqueeze(dim=2)*sim.unsqueeze(dim=-1)).sum(dim=1)#[B,N,D]
#[b*heads*64,head_dim,w/8*h/8]
out=rearrange(out,"b(wh)c->bcwh",w=w)

ifself.fold_w>1andself.fold_h>1:#recoverthesplitedregionsbacktobigfeaturemaps
out=rearrange(out,"(bf1f2)cwh->bc(f1w)(f2h)",f1=self.fold_w,f2=self.fold_h)#[b*heads,head_dim,w,h]
out=rearrange(out,"(be)cwh->b(ec)wh",e=self.heads)#[b,head_dim*heads,w,h]
out=self.fc2(out)#[b,out_dim,w,h]
returnout

1.1.5 實(shí)驗(yàn)結(jié)果

ImageNet-1K 圖像分類

如下圖6所示是在 ImageNet-1K 上的消融實(shí)驗(yàn)結(jié)果。當(dāng) Position info. 即位置信息刪掉時(shí)，模型無(wú)法訓(xùn)練了。在沒(méi)有 Context Cluster 操作的情況下，性能下降了 3.3%。此外，多頭設(shè)計(jì)可使結(jié)果提高 0.9%。0.9，weight decay 為0.5，使用了 Exponential Moving Average (EMA)。如下圖56所示，CoCs 能夠獲得與廣泛使用的基線相當(dāng)甚至更好的性能。

通過(guò)約 25M 個(gè)參數(shù)，CoCs 的性能超過(guò)了增強(qiáng)的 ResNet50 和 PVT-small 1.1%，并達(dá)到 80.9% 的 Top-1 精度。此外，CoCs 明顯優(yōu)于基于 MLP 的方法。這一現(xiàn)象表明，上下文集群模塊有助于建模視覺(jué)表征。

圖5：ImageNet-1K 圖像分類實(shí)驗(yàn)結(jié)果

如下圖5所示是在 ImageNet-1K 上的消融實(shí)驗(yàn)結(jié)果。當(dāng) Position info. 即位置信息刪掉時(shí)，模型無(wú)法訓(xùn)練了。在沒(méi)有 Context Cluster 操作的情況下，性能下降了 3.3%。此外，多頭設(shè)計(jì)可使結(jié)果提高 0.9%。

圖6：消融實(shí)驗(yàn)結(jié)果

聚類可視化結(jié)果

作者在圖7中繪制了 ViT 的注意力圖，ConvNet 的 class activation map (i.e., CAM)，和 CoCs 的 clustering map?？梢钥吹?，本文的方法在最后的 Stage 清晰地將 "鵝" 聚為一個(gè) object context，并將背景 "草" 分組在一起。上下文聚類甚至可以在非常早期的 Stage 聚類相似的上下文。

圖7：聚類可視化結(jié)果，從左到右分別是4個(gè) Stage ([3rd, 6th, 9th, 12th]) 的聚類可視化結(jié)果

ScanObjectNN 3D 點(diǎn)云分類實(shí)驗(yàn)結(jié)果

作者選擇 PointMLP 作為模型的基線，因?yàn)樗男阅芎鸵子眯?。作者將上下文聚類模塊放在 PointMLP 中的每個(gè) Residual Point Block 之前。得到的模型稱為 PointMLP-CoC。如下圖7所示，作者展示了所有類別的平均準(zhǔn)確度 (mAcc) 和所有樣本的總體準(zhǔn)確度 (OA)。實(shí)驗(yàn)結(jié)果表明，該方法可以顯著提高 PointMLP 的性能，平均準(zhǔn)確率提高0.5% (84.4% vs. 83.9%)，總體準(zhǔn)確率提高 0.8% (86.2% vs. 85.4%)。

圖8：點(diǎn)云分類實(shí)驗(yàn)結(jié)果

MS-COCO 目標(biāo)檢測(cè)和實(shí)例分割實(shí)驗(yàn)結(jié)果

接下來(lái)，作者研究 Context Cluster 操作對(duì)下游任務(wù)的泛化性，包括 MS-COCO 目標(biāo)檢測(cè)和實(shí)例分割。檢測(cè)頭和實(shí)例分割頭使用 Mask RCNN。所有模型使用 1× scheduler (12 epochs) 進(jìn)行訓(xùn)練，并使用 ImageNet 預(yù)訓(xùn)練權(quán)重進(jìn)行初始化。為了進(jìn)行比較，作者將 ResNet 作為 ConvNets 的代表，PVT 作為 ViTs 的代表。

對(duì)于分辨率為 (1280,800) 大小的圖像，檢測(cè)和分割任務(wù)將有 1000 個(gè)點(diǎn)。很明顯，將1000個(gè)點(diǎn)分成4個(gè) Cluster 會(huì)產(chǎn)生較差的結(jié)果。為此，作者研究了一個(gè)局部區(qū)域中使用4，25，49個(gè)中心，并將得到的模型分別稱為 Small/4、Small/25 和 Small/49。如圖9的結(jié)果表明，Context Cluster 操作對(duì)下游任務(wù)具有很好的泛化能力。CoC-Small/25 在檢測(cè)和實(shí)例分割任務(wù)上都優(yōu)于 ConvNet 和 ViT 基線。

圖9：目標(biāo)檢測(cè)實(shí)驗(yàn)結(jié)果

ADE20K 語(yǔ)義分割實(shí)驗(yàn)結(jié)果

接下來(lái)，作者研究 Context Cluster 操作對(duì) ADE20K 語(yǔ)義分割任務(wù)的泛化性，語(yǔ)義分割頭使用 semantic FPN。所有模型使用 80k iterations 進(jìn)行訓(xùn)練，并使用 ImageNet 預(yù)訓(xùn)練權(quán)重進(jìn)行初始化。為了進(jìn)行比較，作者將 ResNet 作為 ConvNets 的代表，PVT 作為 ViTs 的代表。

ADE20K 的實(shí)驗(yàn)結(jié)果如下圖10所示。使用類似數(shù)量的參數(shù)，Context Cluster 操作明顯優(yōu)于 PVT 和 ResNet。Context Cluster 操作類似于 SuperPixel，這是一種過(guò)度分割的技術(shù)。當(dāng)應(yīng)用于特征提取時(shí)，作者期望 Context Cluster 操作能夠?qū)χ虚g特征中的上下文進(jìn)行過(guò)度分割，并在語(yǔ)義分割任務(wù)中表現(xiàn)出改進(jìn)。與目標(biāo)檢測(cè)和實(shí)例分割任務(wù)不同，center 數(shù)量對(duì)結(jié)果影響不大。

圖10：語(yǔ)義分割實(shí)驗(yàn)結(jié)果

總結(jié)

提取特征的方式很大程度上取決于如何解釋圖像。在本文中，作者回顧了視覺(jué)表征的一類經(jīng)典方法：聚類 (Clustering) ?？傮w而言，作者將圖像視為一組點(diǎn)集，并將所有點(diǎn)分組為 Clusters。在每個(gè)類中，我們將這些點(diǎn)聚集成一個(gè) center，然后自適應(yīng)地將中心點(diǎn)分配給所有的點(diǎn)。作者將這種范式稱之為上下文聚類 (Context Cluster)。這是一種新的用于視覺(jué)表征的特征提取范式。受點(diǎn)云分析和 SuperPixel 算法的啟發(fā)，Context Cluster與 ConvNets 和 ViTs 有本質(zhì)區(qū)別，不涉及卷積和注意力。并在多種視覺(jué)任務(wù)中取得了和 ConvNets，ViTs 相當(dāng)?shù)男阅堋?/p>

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

圖像

圖像

+關(guān)注

關(guān)注
2

文章
1075

瀏覽量
40266
框架

框架

+關(guān)注

關(guān)注
0

文章
396

瀏覽量
17264
聚類算法

聚類算法

+關(guān)注

關(guān)注
2

文章
118

瀏覽量
12101

原文標(biāo)題：超高分論文！視覺(jué)新范式！COCs：將圖像視為點(diǎn)集

文章出處：【微信號(hào)：CVer，微信公眾號(hào)：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

成都微光集電發(fā)布車(chē)規(guī)級(jí)MIA2001圖像傳感器

成都微光集電近日隆重推出了其專為汽車(chē)視覺(jué)系統(tǒng)設(shè)計(jì)的旗艦產(chǎn)品——MIA2001圖像傳感器。這款高性能傳感器融合了成都微光集電的最新科技成果，專為提升駕駛安全與

發(fā)表于 07-26 16:36 ?335次閱讀

機(jī)器人視覺(jué)技術(shù)中常見(jiàn)的圖像分割方法

機(jī)器人視覺(jué)技術(shù)中的圖像分割方法是一個(gè)廣泛且深入的研究領(lǐng)域。圖像分割是將圖像劃分為多個(gè)區(qū)域或?qū)ο蟮倪^(guò)程，這些區(qū)域或?qū)ο缶哂心撤N共同的特征，如顏

發(fā)表于 07-09 09:31 ?237次閱讀

計(jì)算機(jī)視覺(jué)和圖像處理的區(qū)別和聯(lián)系

計(jì)算機(jī)視覺(jué)和圖像處理是兩個(gè)密切相關(guān)但又有明顯區(qū)別的領(lǐng)域。 1. 基本概念 1.1 計(jì)算機(jī)視覺(jué) 計(jì)算機(jī)視覺(jué)是一門(mén)研究如何使計(jì)算機(jī)能夠理解和解釋視覺(jué)

發(fā)表于 07-09 09:16 ?535次閱讀

計(jì)算機(jī)視覺(jué)怎么給圖像分類

圖像分類是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一項(xiàng)核心任務(wù)，其目標(biāo)是將輸入的圖像自動(dòng)分配到預(yù)定義的類別集合中。這一過(guò)程涉及圖像的特征提取、特征表示以及分類器的

發(fā)表于 07-08 17:06 ?235次閱讀

機(jī)器視覺(jué)系統(tǒng)如何選擇圖像傳感器

圖像傳感器是所有機(jī)器視覺(jué)(MV)系統(tǒng)的核心，這是負(fù)責(zé)將物理世界的信息轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù)的基本元件，在確保機(jī)器視覺(jué)操作的準(zhǔn)確性、可靠性和高效率方面起到了關(guān)鍵作用。在這篇博文中，安森美探討了為

發(fā)表于 07-05 10:49 ?387次閱讀

機(jī)器人視覺(jué)技術(shù)中圖像分割方法有哪些

機(jī)器人視覺(jué)技術(shù)是人工智能領(lǐng)域的一個(gè)重要分支，它涉及到圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)等多個(gè)學(xué)科。圖像分割是機(jī)器人視覺(jué)技術(shù)中的一個(gè)重要環(huán)節(jié)，它的目標(biāo)是從一幅

發(fā)表于 07-04 11:34 ?382次閱讀

機(jī)器視覺(jué)圖像采集卡及其使用接口概述

本文我們將研究機(jī)器視覺(jué)圖像采集器及其使用的各種接口。首先，我們將概述外圍計(jì)算機(jī)卡，然后探討圖像采集器中使用的不同類型的機(jī)器

發(fā)表于 06-27 18:15 ?405次閱讀

如何提取、匹配圖像特征點(diǎn)

我們習(xí)慣從圖像中選取比較有代表性的點(diǎn)，然后，在此基礎(chǔ)上，討論相機(jī)位姿估計(jì)問(wèn)題，以及這些點(diǎn)的定位問(wèn)題。在經(jīng)典 SLAM 模型中，把它們稱為路標(biāo)，而在視覺(jué) SLAM 中，路標(biāo)則是指

發(fā)表于 04-19 11:41 ?483次閱讀

機(jī)器視覺(jué)圖像采集卡及其接口概述

本文主要是介紹機(jī)器視覺(jué)圖像采集卡及其使用的各種接口。首先，我們將概述外圍計(jì)算機(jī)卡，然后探索圖像采集卡中使用的不同類型的機(jī)器視覺(jué)接口。我們先來(lái)

發(fā)表于 04-15 20:42 ?344次閱讀

機(jī)器視覺(jué)圖像采集卡：關(guān)鍵的圖像處理設(shè)備

機(jī)器視覺(jué)圖像采集卡是一種用于采集和處理圖像數(shù)據(jù)的關(guān)鍵設(shè)備，它在現(xiàn)代工業(yè)生產(chǎn)和科學(xué)研究中起著至關(guān)重要的作用。本文將探討機(jī)器視覺(jué)

發(fā)表于 02-22 16:23 ?348次閱讀

通過(guò)將異步獲取的圖像與LiDAR點(diǎn)云對(duì)準(zhǔn)的方案

實(shí)現(xiàn)圖像與其重建對(duì)象之間的精確2D-3D對(duì)應(yīng)關(guān)系對(duì)于準(zhǔn)確的圖像定位至關(guān)重要，一種有前景的方法涉及在圖像和激光雷達(dá)平面之間建立對(duì)應(yīng)關(guān)系，激光雷達(dá)平面可以被視為來(lái)自激光雷達(dá)

發(fā)表于 12-12 14:46 ?556次閱讀

機(jī)器視覺(jué)之圖像增強(qiáng)和圖像處理

一、圖像處理技術(shù)概述1.定義對(duì)原始獲取圖像進(jìn)行一系列的運(yùn)算處理，稱為圖像處理。圖像處理是機(jī)器視覺(jué)技術(shù)的方法基礎(chǔ)，包括

發(fā)表于 10-26 08:07 ?803次閱讀

機(jī)器視覺(jué)之圖像增強(qiáng)和圖像處理

對(duì)原始獲取圖像進(jìn)行一系列的運(yùn)算處理，稱為圖像處理。圖像處理是機(jī)器視覺(jué)技術(shù)的方法基礎(chǔ)，包括圖像增強(qiáng)、邊緣提取、

發(fā)表于 10-23 10:43 ?432次閱讀

機(jī)器視覺(jué)：圖像處理技術(shù)、圖像增強(qiáng)技術(shù)

對(duì)原始獲取圖像進(jìn)行一系列的運(yùn)算處理，稱為圖像處理。圖像處理是機(jī)器視覺(jué)技術(shù)的方法基礎(chǔ)，包括圖像增強(qiáng)、邊緣提取、

發(fā)表于 10-20 10:17 ?939次閱讀

機(jī)器視覺(jué)與視覺(jué)檢測(cè)知識(shí)點(diǎn)的歸納

電子發(fā)燒友網(wǎng)站提供《機(jī)器視覺(jué)與視覺(jué)檢測(cè)知識(shí)點(diǎn)的歸納.pdf》資料免費(fèi)下載

發(fā)表于 10-07 16:39 ?3次下載