0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Backbone之戰(zhàn):計(jì)算機(jī)視覺任務(wù)模型大比較

CVer ? 來(lái)源:CVer ? 2023-11-13 15:41 ? 次閱讀

要解決的問題:

距離深度學(xué)習(xí)的突破之作AlexNet已過(guò)去10年之久,期間各種網(wǎng)絡(luò)架構(gòu)層出不窮,那么作為研究者和實(shí)踐者,該如何選擇網(wǎng)絡(luò)架構(gòu)?

解決方案:

通過(guò)對(duì)各種預(yù)訓(xùn)練模型(包括視覺-語(yǔ)言模型、自監(jiān)督學(xué)習(xí)模型等)在多種計(jì)算機(jī)視覺任務(wù)(如分類、對(duì)象檢測(cè)等)上的性能進(jìn)行大規(guī)模比較,來(lái)幫助研究者和實(shí)踐者更好地選擇合適的模型。這就像是在各種預(yù)訓(xùn)練模型中進(jìn)行一場(chǎng)“角逐”,看看哪個(gè)模型的性能最好。

結(jié)論:

1、盡管Vision Transformer(ViTs)和自監(jiān)督學(xué)習(xí)(SSL)越來(lái)越受歡迎,但在大多數(shù)任務(wù)中,文章發(fā)現(xiàn)在大型訓(xùn)練集上以監(jiān)督方式預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)仍然表現(xiàn)最好。

2、在相同的架構(gòu)和類似大小的預(yù)訓(xùn)練數(shù)據(jù)集上進(jìn)行比較,文章發(fā)現(xiàn)SSL BackBone具有很高的競(jìng)爭(zhēng)力,這表明未來(lái)的工作應(yīng)該使用先進(jìn)的架構(gòu)和更大的預(yù)訓(xùn)練數(shù)據(jù)集進(jìn)行SSL預(yù)訓(xùn)練。

關(guān)鍵詞:

BoB:Battle of the Backbones

ID:In-Distribution

OOD:Out-of-Distribution

bb0aa4b6-81ef-11ee-939d-92fbcf53809c.png

1. 引言

影響B(tài)ackBone網(wǎng)絡(luò)性能的三個(gè)主要因素是其架構(gòu)、預(yù)訓(xùn)練算法和預(yù)訓(xùn)練數(shù)據(jù)集。在這三個(gè)設(shè)計(jì)維度上,都有許多選擇,為從業(yè)者構(gòu)建計(jì)算機(jī)視覺系統(tǒng)提供了無(wú)數(shù)的組合。盡管有這么多的選擇,但是從業(yè)者卻沒有可參考的資源,只能自己測(cè)試各個(gè)BackBone網(wǎng)絡(luò)。

文章在“BackBone網(wǎng)絡(luò)之戰(zhàn)”中將這些BackBone網(wǎng)絡(luò)進(jìn)行對(duì)比。文章比較了許多流行的公開可用的預(yù)訓(xùn)練模型,還有隨機(jī)初始化的基線模型,在各種下游任務(wù)上進(jìn)行評(píng)估,包括圖像分類、對(duì)象檢測(cè)、圖像檢索等。為了全面考察BackBone網(wǎng)絡(luò)的能力,文章評(píng)估它們?cè)诓煌蝿?wù)上的表現(xiàn),這些任務(wù)分屬以下幾大類:

分類:文章測(cè)量BackBone在各種下游分類任務(wù)上的微調(diào)和線性探測(cè)性能,包括自然圖像、醫(yī)學(xué)和衛(wèi)星圖像數(shù)據(jù)集。圖像分類任務(wù)需要BackBone網(wǎng)絡(luò)提取識(shí)別圖像前景內(nèi)容的特征,而不需要定位對(duì)象在圖像中的具體數(shù)量和位置。

對(duì)象檢測(cè)和分割:不同于圖像分類,密集預(yù)測(cè)任務(wù)需要BackBone提取包含對(duì)象精確位置的特征,在分割任務(wù)中需要像素級(jí)別定位,在檢測(cè)任務(wù)中需要足夠細(xì)致地繪制邊界框。文章在這兩個(gè)任務(wù)上評(píng)估BackBone網(wǎng)絡(luò)。

域外泛化:在實(shí)際應(yīng)用中,計(jì)算機(jī)視覺系統(tǒng)通常會(huì)被部署在不同于訓(xùn)練數(shù)據(jù)分布的新數(shù)據(jù)上。即使是高性能模型,在域變化下也已知會(huì)失敗。因此,文章評(píng)估模型在新下游域的泛化能力。

圖像檢索:圖像檢索需要BackBone網(wǎng)絡(luò)通過(guò)特征空間中的相似度來(lái)匹配相似的圖像。文章探索需要根據(jù)語(yǔ)義內(nèi)容、視覺相似度等不同標(biāo)準(zhǔn)匹配圖像的任務(wù)。

除了協(xié)助從業(yè)者構(gòu)建計(jì)算機(jī)視覺系統(tǒng)之外,這個(gè)基準(zhǔn)測(cè)試的另一個(gè)核心目標(biāo)是幫助引導(dǎo)研究界朝著尋求設(shè)計(jì)更好的BackBone網(wǎng)絡(luò)的有益研究方向前進(jìn)。BoB揭示了預(yù)訓(xùn)練例程和架構(gòu)的優(yōu)勢(shì)和劣勢(shì),揭示了常見的誤解和基本限制,以及改進(jìn)的有希望的方向。下面,文章總結(jié)了幾個(gè)主要的研究結(jié)果,并討論了以前比較BackBone網(wǎng)絡(luò)的努力。

1.1 BackBone之戰(zhàn):摘要

文章的后續(xù)部分包含了大量的實(shí)驗(yàn)細(xì)節(jié)。因此,文章在下面提煉出幾個(gè)關(guān)鍵的發(fā)現(xiàn):? 在BoB的一系列全面評(píng)估中,涵蓋了任務(wù)、數(shù)據(jù)集和設(shè)置(包括ID和OOD),在監(jiān)督學(xué)習(xí)下,ConvNeXt-Base、SwinV2-Base(使用ImageNet-21k進(jìn)行訓(xùn)練)和CLIP ViT-Base表現(xiàn)最好。在較小的規(guī)模上,ConvNeXt-Tiny和SwinV2-Tiny獲勝,其次是DINO ViT-Small。? 盡管最近關(guān)注的焦點(diǎn)放在基于Transformer的架構(gòu)和自監(jiān)督學(xué)習(xí)上,但在文章考慮的大多數(shù)任務(wù)中,通過(guò)監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練的高性能卷積網(wǎng)絡(luò)優(yōu)于Transformer。? 觀察到監(jiān)督預(yù)訓(xùn)練的優(yōu)越性是因?yàn)檫@些模型在更大的數(shù)據(jù)集上進(jìn)行了訓(xùn)練。在相同數(shù)據(jù)集規(guī)模上的比較中,自監(jiān)督學(xué)習(xí)模型勝過(guò)其監(jiān)督學(xué)習(xí)的對(duì)應(yīng)模型。? ViT對(duì)預(yù)訓(xùn)練數(shù)據(jù)量和參數(shù)數(shù)量的敏感性高于CNN。? 在任務(wù)間的性能存在強(qiáng)相關(guān)性 - 在BoB中表現(xiàn)最好的BackBone網(wǎng)絡(luò)往往在各種任務(wù)和設(shè)置中都表現(xiàn)出色。請(qǐng)參見圖1。

2. BoB指南

文章比較的BackBone之間的區(qū)別主要來(lái)自于它們的架構(gòu)、預(yù)訓(xùn)練算法和預(yù)訓(xùn)練數(shù)據(jù)集。表1總結(jié)了文章要比較的BackBone,包括預(yù)訓(xùn)練算法、粗略分類、預(yù)訓(xùn)練數(shù)據(jù)集和架構(gòu)。文章附錄B中詳細(xì)描述了每個(gè)算法、預(yù)訓(xùn)練數(shù)據(jù)集和架構(gòu)。

bb34746c-81ef-11ee-939d-92fbcf53809c.jpg

大小和公平比較的注意事項(xiàng)。許多從業(yè)者有限的計(jì)算資源,而且在自己的數(shù)據(jù)集上需要調(diào)優(yōu)超參數(shù)而不超過(guò)計(jì)算預(yù)算。為了模擬這種場(chǎng)景,文章進(jìn)行適度的超參數(shù)網(wǎng)格搜索,不允許特別長(zhǎng)的訓(xùn)練計(jì)劃,并且不考慮比ConvNeXt-Base更大的架構(gòu),除了Stable DiffusionBackBone,因?yàn)樗挥幸粋€(gè)尺寸。具體的超參數(shù)網(wǎng)格在后續(xù)章節(jié)詳細(xì)說(shuō)明。此外,文章僅使用公開可用的checkpoint,這些checkpoint對(duì)從業(yè)者也是可訪問的??捎玫腸heckpoint進(jìn)行了不同程度的超參數(shù)調(diào)優(yōu),不同的預(yù)訓(xùn)練算法在不同的數(shù)據(jù)集和架構(gòu)上進(jìn)行了訓(xùn)練,所以精確的公平比較是不可行的。盡管如此,這種現(xiàn)有checkpoint的比較對(duì)從業(yè)者是相關(guān)的,因?yàn)樗碇F(xiàn)實(shí)的條件。文章在下游任務(wù)上為每個(gè)BackBone使用相同大小的超參數(shù)掃描。

2.1 任務(wù)

為了全面檢驗(yàn)BackBone網(wǎng)絡(luò)的能力,文章評(píng)估它們?cè)谠S多下游任務(wù)上的表現(xiàn),這些任務(wù)分屬以下幾類:

分類:在3.1節(jié)中測(cè)量BackBone在各種下游分類任務(wù)上的微調(diào)和線性探測(cè)性能,包括自然圖像、醫(yī)學(xué)和衛(wèi)星圖像數(shù)據(jù)集。圖像分類任務(wù)需要BackBone網(wǎng)絡(luò)提取識(shí)別圖像前景內(nèi)容的特征,而不需要定位對(duì)象在圖像中的具體數(shù)量和位置。

對(duì)象檢測(cè)和分割:不同于圖像分類,3.2節(jié)中的密集預(yù)測(cè)任務(wù)需要BackBone提取包含對(duì)象精確位置的特征,在分割任務(wù)中需要像素級(jí)別定位,在檢測(cè)任務(wù)中需要足夠細(xì)致地繪制邊界框。文章在這兩個(gè)任務(wù)上評(píng)估BackBone網(wǎng)絡(luò)。

域外泛化:3.3節(jié)中,除了評(píng)估BackBone在各種下游任務(wù)上的域內(nèi)性能,文章還考察這種性能如何轉(zhuǎn)換到域外設(shè)置。

圖像檢索:圖像檢索需要BackBone網(wǎng)絡(luò)通過(guò)特征空間中的相似度來(lái)匹配相似的圖像。在3.4節(jié)中探索需要根據(jù)語(yǔ)義內(nèi)容、視覺相似度等不同標(biāo)準(zhǔn)匹配圖像的任務(wù)。

3. 實(shí)驗(yàn)設(shè)置

文章現(xiàn)在描述每個(gè)任務(wù)的實(shí)驗(yàn)設(shè)置。具體來(lái)說(shuō),文章列出學(xué)習(xí)方案、數(shù)據(jù)集和評(píng)估指標(biāo)。完整的實(shí)驗(yàn)和實(shí)現(xiàn)細(xì)節(jié)請(qǐng)見附錄C。

3.1 分類

學(xué)習(xí)方案。文章使用兩個(gè)微調(diào)方案評(píng)估預(yù)訓(xùn)練BackBone在各種數(shù)據(jù)集上的性能:端到端微調(diào)(包括只使用少量標(biāo)記樣本的實(shí)驗(yàn))和線性探測(cè)。在前一種情況下,文章在給定的數(shù)據(jù)集或它的一部分上端到端微調(diào)整個(gè)模型,并在測(cè)試分割上測(cè)量準(zhǔn)確率。在線性探測(cè)場(chǎng)景中,文章從凍結(jié)的預(yù)訓(xùn)練BackBone中提取特征,并僅在這些預(yù)訓(xùn)練表示上學(xué)習(xí)一個(gè)線性分類器。這兩種方案在之前的工作中被廣泛使用來(lái)評(píng)估自監(jiān)督學(xué)習(xí)等預(yù)訓(xùn)練方法,如在自監(jiān)督視覺表示學(xué)習(xí)[12, 30, 8, 10]和視覺語(yǔ)言預(yù)訓(xùn)練[1, 105]中。

數(shù)據(jù)集和評(píng)估指標(biāo)。文章在6個(gè)常見的圖像分類數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),涵蓋自然圖像(ImageNet-1K [17], CIFAR-100 [46], Flowers-102 [64], Aircraft [60])、衛(wèi)星圖像(EuroSAT [31])和醫(yī)學(xué)X射線數(shù)據(jù)(CheXpert [37]),展示預(yù)訓(xùn)練BackBone的泛化性和遷移性。文章使用的所有數(shù)據(jù)集都是公開可用的,文章在附錄C中列出了它們的詳細(xì)信息,包括大小和類別數(shù)。在只使用訓(xùn)練集的一部分進(jìn)行微調(diào)的實(shí)驗(yàn)中,文章隨機(jī)采樣1%和10%的訓(xùn)練樣本進(jìn)行微調(diào)。在采樣子集時(shí),文章保持原始數(shù)據(jù)集的標(biāo)簽分布。注意,文章這里只考慮域內(nèi)泛化,其中訓(xùn)練和測(cè)試集來(lái)自同一來(lái)源。

評(píng)估時(shí),文章使用分類準(zhǔn)確率和ROC曲線下面積(AUC)作為單標(biāo)簽和多標(biāo)簽分類任務(wù)的性能指標(biāo)。除了超參數(shù)向量之間最佳的得分之外,文章還繪制前幾個(gè)時(shí)期的準(zhǔn)確率,以顯示不同預(yù)訓(xùn)練BackBone的收斂率。此外,文章在同一設(shè)備上基準(zhǔn)測(cè)試每個(gè)BackBone的延遲和內(nèi)存使用情況。

3.2 對(duì)象檢測(cè)和分割

學(xué)習(xí)方案。對(duì)于對(duì)象檢測(cè)和實(shí)例分割的評(píng)估,文章采用Cascade Mask R-CNN框架[5]。文章使用三種方案進(jìn)行實(shí)驗(yàn):(1)從隨機(jī)初始化進(jìn)行端到端訓(xùn)練,(2)使用預(yù)訓(xùn)練BackBone進(jìn)行端到端微調(diào),(3)使用凍結(jié)的BackBone進(jìn)行微調(diào)。雖然用凍結(jié)的BackBone進(jìn)行微調(diào)在檢測(cè)和分割中不典型,但后一種方案允許文章探測(cè)預(yù)訓(xùn)練模型的特征中包含的定位信息,并與線性探測(cè)分類實(shí)驗(yàn)互補(bǔ)。參見附錄C.1關(guān)于ViT,尤其是大型ViT,在更昂貴的訓(xùn)練方案下可能超過(guò)其他模型性能的討論。

數(shù)據(jù)集和評(píng)估指標(biāo)。文章在流行的COCO數(shù)據(jù)集[53]上進(jìn)行對(duì)象檢測(cè)和實(shí)例分割評(píng)估。文章遵循COCO式的平均精度(AP)指標(biāo),該指標(biāo)在各種Intersection over Union(IoU)閾值上進(jìn)行平均。文章報(bào)告邊界框平均精度(box AP)、box AP@50和AP@75用于對(duì)象檢測(cè),以及掩膜平均精度(mask AP)、mask AP@50和mask AP@75用于實(shí)例分割[54]。

3.3 域外泛化

盡管現(xiàn)代網(wǎng)絡(luò)在它們訓(xùn)練的數(shù)據(jù)分布上可能展示出強(qiáng)大的性能,但大量的以前的工作[70, 32]發(fā)現(xiàn),這種模型的性能在分布發(fā)生變化時(shí)可能會(huì)顯著下降。除了評(píng)估BackBone在各種下游任務(wù)上的域內(nèi)性能之外,文章還研究這種性能如何轉(zhuǎn)換到域外(OOD)設(shè)置。

學(xué)習(xí)方案。幾個(gè)特定任務(wù)的數(shù)據(jù)集和基準(zhǔn)已被提出來(lái)評(píng)估模型對(duì)其訓(xùn)練分布偏差的穩(wěn)健性。具體來(lái)說(shuō),文章研究經(jīng)過(guò)訓(xùn)練的BackBone在兩個(gè)任務(wù)上的泛化性能,即(1)圖像分類和(2)對(duì)象檢測(cè),以及兩種類型的分布轉(zhuǎn)移,(A) ImageNet內(nèi)部的結(jié)構(gòu)和樣式變化以及(B) 從合成到真實(shí)的泛化。

數(shù)據(jù)集和評(píng)估指標(biāo)。文章考慮以下廣泛的OOD評(píng)估基準(zhǔn):

(A)對(duì)結(jié)構(gòu)和樣式的變化的穩(wěn)健性。文章測(cè)量在ImageNet上訓(xùn)練或微調(diào)的模型在以下基準(zhǔn)上的OOD泛化:

(i) ImageNet-A [34]。ImageNet-A(dversarial)包含ImageNet測(cè)試圖像的200個(gè)類別的策略性子集,這些圖像對(duì)訓(xùn)練好的深度模型具有特定挑戰(zhàn)性。

(ii) ImageNet-V2 [75]。ImageNet-V2是在原始數(shù)據(jù)集收集后10年按照完全相同的收集方案構(gòu)建的額外的與ImageNet類似的測(cè)試集。

(iii) ImageNet-R [33]。ImageNet-R(endition)包含200個(gè)來(lái)自ImageNet的類別的藝術(shù)Rendering,包括卡通、涂鴉、刺繡、折紙、雕塑等。

(iv) ImageNet-S [92]。ImageNet-S(ketch)是從ImageNet類別中網(wǎng)絡(luò)爬取并人工清理的黑白素描圖像集合。

(B) 從合成到真實(shí)的泛化。文章還測(cè)量在合成數(shù)據(jù)上訓(xùn)練并在真實(shí)數(shù)據(jù)上測(cè)試的模型的性能。合成數(shù)據(jù)已成為一種流行的替代方法,用于在采集真實(shí)世界中可靠注釋的數(shù)據(jù)很難或很貴的情況下。文章在以下兩個(gè)流行基準(zhǔn)上測(cè)量從合成到真實(shí)的泛化,用于圖像分類和對(duì)象檢測(cè):

(i) VisDA Syn→Real。VisDA分類基準(zhǔn)由約152k張合成圖像和約55k張真實(shí)圖像組成,跨12個(gè)類別。VisDA中的合成圖像是對(duì)象從多個(gè)視點(diǎn)在不同照明條件下的3D渲染。真實(shí)圖像是從COCO數(shù)據(jù)集中裁剪的12個(gè)類別的作物。

(2) Sim10k→Cityscapes。對(duì)于對(duì)象檢測(cè),文章使用Sim10k作為合成訓(xùn)練數(shù)據(jù)集,使用Cityscapes作為真實(shí)評(píng)估數(shù)據(jù)集。Sim10k由來(lái)自GTAV的約10k張街景圖像組成。Cityscapes由約5k張密集注釋的街景圖像組成,這些圖像是從車輛視角拍攝的現(xiàn)實(shí)世界圖像。遵循以前的工作[13],文章在整個(gè)Sim10k上進(jìn)行訓(xùn)練,以檢測(cè)“汽車”的實(shí)例,并在Cityscapes的驗(yàn)證分割上測(cè)量檢測(cè)性能。

對(duì)于圖像分類,文章報(bào)告在OOD測(cè)試集上的分類準(zhǔn)確率;對(duì)于對(duì)象檢測(cè),文章報(bào)告mAP@50的泛化性能。

3.4 圖像檢索

文章在各種圖像檢索數(shù)據(jù)集上進(jìn)行評(píng)估,包括基于內(nèi)容的圖像檢索和分類數(shù)據(jù)集,文章將它們改造為語(yǔ)義檢索任務(wù)。對(duì)于地理地標(biāo)檢索,文章利用牛津數(shù)據(jù)集[68]和巴黎數(shù)據(jù)集[69]。為確保準(zhǔn)確性,文章使用這些數(shù)據(jù)集的修正標(biāo)簽版本[71]。INSTRE數(shù)據(jù)集[94]由放置在不同位置和條件下的玩具和形狀不規(guī)則的產(chǎn)品組成。為了檢驗(yàn)細(xì)粒度的檢索,文章采用Caltech-UCSD Birds-200數(shù)據(jù)集(CUB-200)[90],其中包含在不同背景、姿勢(shì)和照明條件下拍攝的各種鳥類。對(duì)于多樣化的自然圖像,文章使用iNaturalist數(shù)據(jù)集[87]。這個(gè)數(shù)據(jù)集提供了一個(gè)廣泛的細(xì)粒度類別,被分類到13個(gè)超類,包括植物、昆蟲、鳥類和哺乳動(dòng)物。為了評(píng)估真實(shí)場(chǎng)景下的檢索性能,文章采用Objectnet數(shù)據(jù)集[2]。該數(shù)據(jù)集由313個(gè)對(duì)象類組成,具有隨機(jī)變化的背景、旋轉(zhuǎn)和成像視角。對(duì)于大規(guī)模地標(biāo)識(shí)別,文章利用谷歌地標(biāo)V2數(shù)據(jù)集[98],其中包含約20萬(wàn)個(gè)獨(dú)特地標(biāo)。最后,文章采用INRIA Copydays數(shù)據(jù)集[19],其中包含一小部分度假照片。

在上述數(shù)據(jù)集中,iNaturalist、Objectnet和CUB-200可以分類為語(yǔ)義檢索數(shù)據(jù)集,而其余數(shù)據(jù)集屬于基于內(nèi)容的檢索數(shù)據(jù)集。

文章使用平均精度或mAP[67]來(lái)評(píng)估模型性能。文章首先計(jì)算給定查詢圖像的平均精度,然后計(jì)算所有查詢的平均值以找到mAP。文章還測(cè)量Recall@k,它測(cè)量返回第一個(gè)正確匹配之前的結(jié)果數(shù)量,并計(jì)算這些未命中值的倒數(shù)的平均值MRR(平均互反等級(jí))。對(duì)于所有指標(biāo),值越高越好。

4 從業(yè)者。應(yīng)該選擇哪個(gè)BackBone網(wǎng)絡(luò)?

如今的從業(yè)者可以從各種大小、訓(xùn)練方法和預(yù)訓(xùn)練數(shù)據(jù)的大量BackBone網(wǎng)絡(luò)中進(jìn)行選擇:從業(yè)者應(yīng)該為某項(xiàng)特定任務(wù)或一般情況選擇哪個(gè)BackBone網(wǎng)絡(luò)?為了回答這個(gè)問題,在BoB中,文章系統(tǒng)地比較了各種公開可用的BackBone網(wǎng)絡(luò)(參見表1),橫跨多個(gè)任務(wù)、數(shù)據(jù)集和設(shè)置。為了進(jìn)行這些比較,文章使用以下排名方案:

(1) 設(shè)置特定的Z分?jǐn)?shù)。對(duì)于特定任務(wù)和設(shè)置(例如ImageNet上的Top-1分類精度),文章首先為所有正在評(píng)估的BackBone計(jì)算z分?jǐn)?shù) - 即,對(duì)于特定性能(例如準(zhǔn)確性)值${x_i}^N_{i=1}$,z分?jǐn)?shù)計(jì)算為${ (x_i - μ) / σ }^N_{i=1}$,其中μ和σ分別是樣本的平均值和標(biāo)準(zhǔn)差。這允許文章測(cè)量一個(gè)特定BackBone相對(duì)于該設(shè)置中所有BackBone的“平均”性能好多少(標(biāo)準(zhǔn)差以上或以下)。

(2) 跨設(shè)置比較。為了在不同任務(wù)和設(shè)置之間比較BackBone,文章簡(jiǎn)單地聚合和比較之前獲得的z分?jǐn)?shù)以獲得一個(gè)相對(duì)(粗略)的BackBone排名。

使用排名,文章不僅可以報(bào)告每個(gè)任務(wù)的最佳表現(xiàn)BackBone,還可以報(bào)告跨任務(wù)、數(shù)據(jù)集和設(shè)置的整體表現(xiàn)最佳的BackBone(見表2摘要)。

bb54cf32-81ef-11ee-939d-92fbcf53809c.jpg

4.1 特定任務(wù)的BackBone網(wǎng)絡(luò)

分類。在多個(gè)數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置(微調(diào)、線性探測(cè)、完整和低樣本訓(xùn)練)中,文章發(fā)現(xiàn)“在IN-21k上監(jiān)督訓(xùn)練的SwinV2-Base(在IN-1k上微調(diào))”是表現(xiàn)最佳的BackBone網(wǎng)絡(luò),其次是“CLIP ViT-Base”和“在IN-21k上監(jiān)督訓(xùn)練的ConvNeXt-Base”(見第1行,表2)。

對(duì)象檢測(cè)和分割。對(duì)于對(duì)象檢測(cè)和實(shí)例分割,文章發(fā)現(xiàn)“在IN-21K上監(jiān)督訓(xùn)練的ConvNeXt-Base” > “在IN-21k上監(jiān)督訓(xùn)練的SwinV2-Base(在IN-1k上微調(diào))” > “在IN-1k上監(jiān)督訓(xùn)練的ConvNeXt-Base”。

圖像檢索。對(duì)于圖像檢索,文章發(fā)現(xiàn)“在IN-21k上監(jiān)督訓(xùn)練的ConvNeXt-Base”是最佳選擇,其次是“在IN-21k上監(jiān)督訓(xùn)練的SwinV2-Base(在IN-1k上微調(diào))”和“在LAION-2B上訓(xùn)練的CLIP ViT-B”。

(OOD)分類。在各種OOD評(píng)估中,文章發(fā)現(xiàn)“在IN-21k上監(jiān)督訓(xùn)練的ConvNeXt-Base” > “在IN-21k上監(jiān)督訓(xùn)練的SwinV2-B(在IN-1k上微調(diào))” > “在LAION-2B上訓(xùn)練的CLIP ViT-Base”。

(OOD)對(duì)象檢測(cè)。對(duì)于從合成到真實(shí)的對(duì)象檢測(cè),文章發(fā)現(xiàn)“在IN-1k上監(jiān)督訓(xùn)練的ConvNeXt-Base”是最佳BackBone,其次是“在IN-1k上監(jiān)督訓(xùn)練的ConvNeXt-Tiny”和“在IN-21k上監(jiān)督訓(xùn)練的ConvNeXt-Base”。

4.2 整體最佳的BackBone網(wǎng)絡(luò)

對(duì)于沒有具體任務(wù)需求的從業(yè)者,整體表現(xiàn)最好的模型是“在IN-21k上監(jiān)督訓(xùn)練的ConvNeXt-Base”,其次是“在IN-21k上監(jiān)督訓(xùn)練的SwinV2-Base(在IN-1k上微調(diào))”和“在LAION-2B上訓(xùn)練的CLIP ViT-Base”??傮w來(lái)說(shuō),文章注意到以監(jiān)督方式訓(xùn)練的BackBone(SwinV2-Base、ConvNeXt-Base)或具有視覺語(yǔ)言監(jiān)督的BackBone(CLIP ViT-Base)優(yōu)于其他BackBone。此外,文章發(fā)現(xiàn)CLIP ViT-Base緊隨在IN-21k上監(jiān)督訓(xùn)練的ViT-Base(在IN-1k上微調(diào))之后。

4.3 預(yù)算有限的BackBone網(wǎng)絡(luò)

許多計(jì)算機(jī)視覺應(yīng)用需要高效的BackBone網(wǎng)絡(luò)以實(shí)現(xiàn)快速或設(shè)備端推理。在這一節(jié)中,文章對(duì)三個(gè)小BackBone進(jìn)行基準(zhǔn)測(cè)試:在ImageNet-1k上以監(jiān)督方式預(yù)訓(xùn)練的RegNetX-400F [73]、EfficientNet-B0 [83]和ResNet-18 [28]。文章在表3中對(duì)這些小BackBone在一系列任務(wù)上的性能進(jìn)行了排名。文章發(fā)現(xiàn)在整體和分類、檢索、OOD分類方面,EfficientNet-B0的表現(xiàn)最好,其次是RegNetX-400MF,然后是ResNet-18。有趣的是,在檢測(cè)和分割方面,新型高效架構(gòu)仍不如ResNet。

bb72d2f2-81ef-11ee-939d-92fbcf53809c.jpg

5 觀察結(jié)果和趨勢(shì)

ViT和CNN的性能比較?,F(xiàn)代架構(gòu)明顯優(yōu)于普通ViT。文章在表2中看到,最佳性能的BackBone網(wǎng)絡(luò)(ConvNeXt-Base)是卷積的,其次是具有分層transformer的架構(gòu)(SwinV2-Base)。后者融合了強(qiáng)大的空間歸納偏置。這些發(fā)現(xiàn)表明,社區(qū)應(yīng)該放棄仍在廣泛使用的普通ViT。需要說(shuō)明的是,文章沒有評(píng)估非常大的模型,在更大的規(guī)模下,ViT可能會(huì)勝過(guò)其其他變體或卷積網(wǎng)絡(luò)。

ViT比CNN更依賴規(guī)模。對(duì)于BoB中考慮的BackBone組,文章發(fā)現(xiàn)參數(shù)數(shù)量的相對(duì)性能(z分?jǐn)?shù))對(duì)ViT(斯皮爾曼相關(guān)系數(shù) = 0.58)的正相關(guān)性高于CNN(斯皮爾曼相關(guān)系數(shù) = 0.35)。類似地,而整體相對(duì)性能與預(yù)訓(xùn)練數(shù)據(jù)的規(guī)模相關(guān),這個(gè)相關(guān)性對(duì)ViT (ρ = 0.72)也明顯高于CNN (ρ = 0.33)。這個(gè)觀察表明,基準(zhǔn)測(cè)試更大的BackBone可能產(chǎn)生不同的贏家,可能是具有基于transformer的架構(gòu)。

監(jiān)督或不監(jiān)督?監(jiān)督學(xué)習(xí)BackBone占主導(dǎo)地位,但主要是因?yàn)樗鼈兛梢栽诟蟮臄?shù)據(jù)集上預(yù)訓(xùn)練。在相似大小的數(shù)據(jù)集上,SSLBackBone可以勝過(guò)其監(jiān)督對(duì)手。文章得到每個(gè)預(yù)訓(xùn)練方式的前3個(gè)BackBone的平均分?jǐn)?shù),即自監(jiān)督、用ImageNet-1K監(jiān)督和用ImageNet-21K監(jiān)督(見附錄D)。在IN-21K上用監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練的ConvNeXt和SwinV2在所有任務(wù)上都優(yōu)于SSLBackBone。結(jié)果表明,文章應(yīng)該嘗試將SSL方法與先進(jìn)的架構(gòu)相結(jié)合,并在大數(shù)據(jù)集上進(jìn)行訓(xùn)練以與監(jiān)督學(xué)習(xí)競(jìng)爭(zhēng)。在這些實(shí)驗(yàn)中,監(jiān)督預(yù)訓(xùn)練的checkpoint通常可在更大的數(shù)據(jù)集(ImageNet-21k)上獲得。當(dāng)比較在類似大小數(shù)據(jù)集上預(yù)訓(xùn)練的模型時(shí),SSL或視覺語(yǔ)言預(yù)訓(xùn)練方法在分類(域內(nèi)和域外)和檢索任務(wù)上獲得了更好的性能,這些任務(wù)高度依賴于學(xué)習(xí)的表示。然而,監(jiān)督學(xué)習(xí)BackBone在檢測(cè)和分割方面保持決定性優(yōu)勢(shì)。文章還可以比較使用相同ViT-Base架構(gòu)的BackBone,發(fā)現(xiàn)SSL方法確實(shí)優(yōu)于ImageNet-1k監(jiān)督BackBone,但比ImageNet-21k訓(xùn)練的BackBone差。

任務(wù)之間的性能高度相關(guān)。在文章考慮的任務(wù)對(duì)中,文章發(fā)現(xiàn)任務(wù)對(duì)之間的性能存在高度正相關(guān)(通常ρ> 0.8)。這一發(fā)現(xiàn)支持通用基礎(chǔ)模型在計(jì)算機(jī)視覺中的當(dāng)前趨勢(shì)。此外,這一發(fā)現(xiàn)也支持最近的工作,該工作認(rèn)為單一的歸納偏差可以解決一系列看似不同的問題[24]。然而,值得注意的是,檢索任務(wù)與分類和檢索排名之間的相關(guān)性相對(duì)較低但仍具有統(tǒng)計(jì)意義(ρ = 0.49)。這種較低的相關(guān)性可以歸因于MiDaS和MAE預(yù)訓(xùn)練模型在檢索方面的性能限制。在刪除這兩個(gè)BackBone后,相關(guān)系數(shù)ρ增加到0.8,這進(jìn)一步證明了上述模型對(duì)觀察結(jié)果的影響。

Transformer在端到端微調(diào)下表現(xiàn)優(yōu)異,而卷積網(wǎng)絡(luò)在線性探測(cè)下表現(xiàn)優(yōu)異。對(duì)于“線性探測(cè)”實(shí)驗(yàn),文章凍結(jié)預(yù)訓(xùn)練BackBone,僅學(xué)習(xí)頭部。請(qǐng)注意,對(duì)于檢測(cè)和分割,頭部不僅是一個(gè)線性層。通過(guò)檢查兩種微調(diào)策略之間的性能差異(圖2),文章發(fā)現(xiàn)ViT從端到端微調(diào)中受益明顯多于CNN,無(wú)論是在監(jiān)督預(yù)訓(xùn)練還是自監(jiān)督預(yù)訓(xùn)練下。參見圖2中的在密集預(yù)測(cè)任務(wù)上的比較。

bb8eaacc-81ef-11ee-939d-92fbcf53809c.jpg

CLIP模型以及視覺語(yǔ)言建模中先進(jìn)架構(gòu)的前景。對(duì)于幾乎所有任務(wù)(OOD檢測(cè)除外),CLIP預(yù)訓(xùn)練優(yōu)于普通視覺transformer,即使與在ImageNet-21k上監(jiān)督訓(xùn)練的BackBone相比也是如此。在所有BackBone中,CLIP僅次于在IN-21k上訓(xùn)練的SwinV2和ConvNeXt,這顯示了視覺語(yǔ)言預(yù)訓(xùn)練的力量,并再次表明,在進(jìn)行自監(jiān)督或弱監(jiān)督學(xué)習(xí)時(shí),文章應(yīng)考慮除普通ViT之外的更多BackBone架構(gòu)。

生成BackBone怎么樣?與用監(jiān)督或自監(jiān)督方法和對(duì)比損失訓(xùn)練的模型相比,用生成對(duì)抗目標(biāo)訓(xùn)練的BackBone,如MAE或Stable Diffusion,其性能相對(duì)較差。文章建議謹(jǐn)慎解釋這個(gè)結(jié)果,因?yàn)槟壳皟H對(duì)Stable Diffusion在有限的任務(wù)上進(jìn)行了評(píng)估。盡管如此,Stable Diffusion是一個(gè)更大的BackBone,并在一個(gè)非常大的數(shù)據(jù)集上訓(xùn)練,但它展示了比文章考慮的其他模型差的性能。

“小”BackBone之戰(zhàn)。考慮到有限的資源,文章還比較了BoB中“小”BackBone的子集(參數(shù)< 30M)—— ViT-Small、ConvNeXt-Tiny、Swin-Tiny和ResNet-50架構(gòu)??傮w而言,文章發(fā)現(xiàn)在IN-1k上監(jiān)督訓(xùn)練的ConvNeXt-T表現(xiàn)最好,其次是在IN-1k上監(jiān)督訓(xùn)練的SwinV2-T,然后是在IN-1k上訓(xùn)練的DINO ViT-S。有趣的是,監(jiān)督學(xué)習(xí)在這里再次占據(jù)主導(dǎo)地位,而且僅在IN-1k上預(yù)訓(xùn)練的BackBone勝過(guò)在考慮得多更大的數(shù)據(jù)集上訓(xùn)練的BackBone(MiDaS)。

性能與速度?文章的分析顯示,在相同的NVIDIA RTX A5000上計(jì)算的吞吐量與平均性能z分?jǐn)?shù)之間存在較強(qiáng)的負(fù)相關(guān)(ρ = -0.41)??紤]每個(gè)BackBone時(shí),這一發(fā)現(xiàn)與文章之前的觀察一致,即更大的模型往往具有更優(yōu)越的性能。因此,為了獲得增強(qiáng)的性能,可能需要犧牲速度。

單目深度估計(jì)作為通用預(yù)訓(xùn)練策略。在文章的實(shí)驗(yàn)中,即使在自然圖像域之外,例如在衛(wèi)星圖像上,MiDaS也達(dá)到了與頂級(jí)傳統(tǒng)監(jiān)督和自監(jiān)督學(xué)習(xí)BackBone相媲美的性能,在圖像分類、對(duì)象檢測(cè)和分割方面。這個(gè)觀察表明,深度估計(jì)可以作為強(qiáng)大和通用的主要或輔助預(yù)訓(xùn)練任務(wù)。

校準(zhǔn)和測(cè)試似然與準(zhǔn)確率相關(guān)。在ImageNet測(cè)試集上,文章測(cè)量了期望校準(zhǔn)誤差(ECE)以及交叉熵?fù)p失。而測(cè)試似然與準(zhǔn)確率高度相關(guān)(r = -0.8278),ECE的相關(guān)較弱(r = -0.4876)。在兩種情況下,文章都觀察到p值低于0.05。文章還注意到,自監(jiān)督預(yù)訓(xùn)練通常會(huì)導(dǎo)致較差的校準(zhǔn)。

CNN和SSL對(duì)對(duì)抗攻擊更具魯棒性。文章還使用受$l_∞$約束的PGD對(duì)抗攻擊,以多個(gè)半徑(見附錄表19)測(cè)量每個(gè)BackBone在ImageNet測(cè)試集上的對(duì)抗魯棒性。對(duì)于每個(gè)架構(gòu),當(dāng)文章?lián)碛凶员O(jiān)督學(xué)習(xí)版本時(shí),文章看到監(jiān)督預(yù)訓(xùn)練的魯棒性總是較差。此外,ViT比卷積網(wǎng)絡(luò)更容易受到對(duì)抗示例的攻擊。值得注意的是,即使在監(jiān)督訓(xùn)練下,ConvNeXt的對(duì)抗魯棒性也更強(qiáng)。

6 接下來(lái)會(huì)發(fā)生什么?

每個(gè)計(jì)算機(jī)視覺模型的核心是一個(gè)BackBone網(wǎng)絡(luò)。在文章的BackBone網(wǎng)絡(luò)對(duì)戰(zhàn)中,文章比較了1500多次訓(xùn)練運(yùn)行,以發(fā)掘?qū)τ?jì)算機(jī)視覺從業(yè)者和研究人員有益的見解。

為指導(dǎo)從業(yè)者,文章分析了在廣泛任務(wù)范圍內(nèi)公開可用視覺BackBone的性能,從分割和檢測(cè)到分類和檢索。文章發(fā)現(xiàn)監(jiān)督ConvNext、監(jiān)督SwinV2和CLIP模型在這一廣泛任務(wù)范圍內(nèi)性能良好。對(duì)于計(jì)算資源受限的設(shè)置,在文章的“小”BackBone之戰(zhàn)中,文章發(fā)現(xiàn)較小的對(duì)應(yīng)的架構(gòu)監(jiān)督ConvNext-T和SwinV2效果好,其次是帶小ViT的DINO。BoB為從業(yè)者提供了從令人眼花繚亂的選擇中選擇合理BackBone的指南。

對(duì)于展望未來(lái)的研究人員,文章還觀察到幾個(gè)顯著趨勢(shì)。首先,文章發(fā)現(xiàn)跨任務(wù)的性能高度相關(guān),這表明從專用視覺BackBone向通用BackBone的轉(zhuǎn)變,這些通用BackBone可以在各種任務(wù)上發(fā)揮良好作用。其次,文章發(fā)現(xiàn)吞吐量和性能之間存在反相關(guān),這表明擴(kuò)展仍然是提高BackBone的有希望途徑。最后,文章發(fā)現(xiàn)雖然文章的實(shí)際建議包括許多監(jiān)督模型,但在與標(biāo)準(zhǔn)監(jiān)督訓(xùn)練的公平比較中,自監(jiān)督學(xué)習(xí)很有前景。通過(guò)發(fā)布文章所有的實(shí)驗(yàn)結(jié)果以及用于測(cè)試新BackBone的代碼,文章希望BoB能成為今天的從業(yè)者和研究明天問題的研究人員的有用指南。

局限性。文章指出,從BoB獲得的見解取決于在此工作中考慮的任務(wù)詞匯、BackBone網(wǎng)絡(luò)和設(shè)置。文章希望通過(guò)這項(xiàng)研究得出的結(jié)論能夠?yàn)橛?jì)算機(jī)視覺研究人員提供實(shí)際的考慮因素,同時(shí)也認(rèn)識(shí)到這些見解需要隨著引入更多的BackBone網(wǎng)絡(luò)、任務(wù)和設(shè)置而不斷發(fā)展。最后,文章指出,BoB中的研究主要集中在與性能相關(guān)的方面,對(duì)于其他重要方面(模型中的偏見等)的探索仍然存在。

文章的基準(zhǔn)測(cè)試不包括比ConvNext-Base更大的BackBone網(wǎng)絡(luò),除了穩(wěn)定擴(kuò)散(Stable Diffusion),一些排名可能在大規(guī)模上發(fā)生變化。例如,雖然文章發(fā)現(xiàn)現(xiàn)代經(jīng)過(guò)監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練的卷積網(wǎng)絡(luò)在大多數(shù)任務(wù)上表現(xiàn)最好,但文章也發(fā)現(xiàn)Transformer在規(guī)模上更有優(yōu)勢(shì),無(wú)論是在預(yù)訓(xùn)練數(shù)據(jù)還是架構(gòu)規(guī)模方面。在非常大的規(guī)模上,TransformerBackBone網(wǎng)絡(luò)有可能超過(guò)卷積BackBone網(wǎng)絡(luò)。

7 計(jì)算成本和碳足跡

文章中的實(shí)驗(yàn)總計(jì)消耗了127k GPU小時(shí)的NVIDIA RTX A100卡。假設(shè)GPU的平均碳效率為每千瓦時(shí)0.37公斤CO2當(dāng)量,則總排放量估計(jì)為11792.36公斤CO2當(dāng)量[48]。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:NeurIPS 2023 | Backbone之戰(zhàn):計(jì)算機(jī)視覺任務(wù)模型大比較

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    什么是計(jì)算機(jī)視覺計(jì)算機(jī)視覺的三種方法

    計(jì)算機(jī)視覺是指通過(guò)為計(jì)算機(jī)賦予人類視覺這一技術(shù)目標(biāo),從而賦能裝配線檢查到駕駛輔助和機(jī)器人等應(yīng)用。計(jì)算機(jī)缺乏像人類一樣憑直覺產(chǎn)生
    的頭像 發(fā)表于 11-16 16:38 ?4164次閱讀
    什么是<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b>?<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b>的三種方法

    機(jī)器視覺計(jì)算機(jī)視覺的關(guān)系簡(jiǎn)述

    。計(jì)算機(jī)視覺是一門獨(dú)立的學(xué)科,有著30年左右的歷史,集圖像處理、模式識(shí)別、人工智能技術(shù)為一體,著重服務(wù)于一幅或多幅圖像的計(jì)算機(jī)分析。機(jī)器視覺相對(duì)于計(jì)
    發(fā)表于 05-13 14:57

    自動(dòng)駕駛系統(tǒng)要完成哪些計(jì)算機(jī)視覺任務(wù)?

    Geiger 的研究主要集中在用于自動(dòng)駕駛系統(tǒng)的三維視覺理解、分割、重建、材質(zhì)與動(dòng)作估計(jì)等方面。他主導(dǎo)了自動(dòng)駕駛領(lǐng)域著名數(shù)據(jù)集 KITTI 及多項(xiàng)自動(dòng)駕駛計(jì)算機(jī)視覺任務(wù)的基準(zhǔn)體系建設(shè),
    發(fā)表于 07-30 06:49

    計(jì)算機(jī)視覺論文速覽

    AI視野·今日CS.CV 計(jì)算機(jī)視覺論文速覽transformer、新模型、視覺語(yǔ)言模型、多模態(tài)、clip、視角合成
    發(fā)表于 08-31 08:46

    計(jì)算機(jī)視覺講義

    計(jì)算機(jī)視覺講義:機(jī)器視覺是研究用計(jì)算機(jī)來(lái)模擬生物外顯或宏觀視覺功能的科學(xué)和技術(shù).機(jī)器視覺系統(tǒng)的首
    發(fā)表于 03-19 08:08 ?0次下載

    谷歌推出新的移動(dòng)框架MobileNetV2提高多種計(jì)算機(jī)視覺任務(wù)

    當(dāng)?shù)貢r(shí)間4月3日,谷歌推出了一款新的移動(dòng)框架MobileNetV2,基于上一代MobileNet,這款模型能顯著提高多種計(jì)算機(jī)視覺任務(wù)
    的頭像 發(fā)表于 04-07 20:57 ?9323次閱讀
    谷歌推出新的移動(dòng)框架MobileNetV2提高多種<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b><b class='flag-5'>任務(wù)</b>

    計(jì)算機(jī)視覺與機(jī)器視覺區(qū)別

     “計(jì)算機(jī)視覺”,是指用計(jì)算機(jī)實(shí)現(xiàn)人的視覺功能,對(duì)客觀世界的三維場(chǎng)景的感知、識(shí)別和理解。計(jì)算機(jī)視覺
    的頭像 發(fā)表于 12-08 09:27 ?1.2w次閱讀

    計(jì)算機(jī)視覺常用算法_計(jì)算機(jī)視覺有哪些分類

    本文主要介紹了計(jì)算機(jī)視覺常用算法及計(jì)算機(jī)視覺的分類。
    的頭像 發(fā)表于 07-30 17:34 ?1.4w次閱讀

    用于計(jì)算機(jī)視覺訓(xùn)練的圖像數(shù)據(jù)集

    計(jì)算機(jī)視覺使計(jì)算機(jī)能夠理解圖像和視頻的內(nèi)容。計(jì)算機(jī)視覺的目標(biāo)是使人類視覺系統(tǒng)可以實(shí)現(xiàn)
    的頭像 發(fā)表于 02-12 16:13 ?1310次閱讀

    workflow的任務(wù)模型

    主要就是想介紹下workflow的任務(wù)模型,其他的框架一般只能處理普通的網(wǎng)絡(luò)通信,而workflow卻特別適用于通信與計(jì)算關(guān)系很復(fù)雜的應(yīng)用。其實(shí)我最感興趣的是它的內(nèi)存管理機(jī)制,下面也會(huì)詳細(xì)介紹。
    的頭像 發(fā)表于 02-21 14:05 ?707次閱讀
    workflow的<b class='flag-5'>任務(wù)模型</b>

    計(jì)算機(jī)視覺的概念和主要任務(wù)

    作為人工智能的關(guān)鍵領(lǐng)域之一的計(jì)算機(jī)視覺近期再次成為了熱點(diǎn),那么你真的了解什么是計(jì)算機(jī)視覺嗎?
    的頭像 發(fā)表于 07-17 11:20 ?1154次閱讀

    基于M55H的定制化backbone模型AxeraSpine

    Backbone模型是各種視覺任務(wù)訓(xùn)練的基石,視覺任務(wù)模型的性能和
    的頭像 發(fā)表于 10-10 16:09 ?785次閱讀
    基于M55H的定制化<b class='flag-5'>backbone</b><b class='flag-5'>模型</b>AxeraSpine

    最適合AI應(yīng)用的計(jì)算機(jī)視覺類型是什么?

    計(jì)算機(jī)視覺是指為計(jì)算機(jī)賦予人類視覺這一技術(shù)目標(biāo),從而賦能裝配線檢查到駕駛輔助和機(jī)器人等應(yīng)用。計(jì)算機(jī)缺乏像人類一樣憑直覺產(chǎn)生
    的頭像 發(fā)表于 11-15 16:38 ?346次閱讀
    最適合AI應(yīng)用的<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b>類型是什么?

    機(jī)器視覺計(jì)算機(jī)視覺有什么區(qū)別

    。機(jī)器視覺的研究目標(biāo)是讓機(jī)器具有類似人類的視覺能力,能夠自動(dòng)、準(zhǔn)確地完成各種視覺任務(wù)。 計(jì)算機(jī)視覺
    的頭像 發(fā)表于 07-16 10:23 ?286次閱讀

    計(jì)算機(jī)視覺技術(shù)的AI算法模型

    計(jì)算機(jī)視覺技術(shù)作為人工智能領(lǐng)域的一個(gè)重要分支,旨在使計(jì)算機(jī)能夠像人類一樣理解和解釋圖像及視頻中的信息。為了實(shí)現(xiàn)這一目標(biāo),計(jì)算機(jī)視覺技術(shù)依賴于
    的頭像 發(fā)表于 07-24 12:46 ?355次閱讀