0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用 Vision Transformer 和 NVIDIA TAO,提高視覺(jué) AI 應(yīng)用的準(zhǔn)確性和魯棒性

NVIDIA英偉達(dá) ? 來(lái)源:未知 ? 2023-08-04 17:40 ? 次閱讀

wKgaomToPL6AR5_FAHaFzxWEe4k031.gif

Vision Transformer(ViT)正在席卷計(jì)算機(jī)視覺(jué)領(lǐng)域,提供令人難以置信的準(zhǔn)確性、復(fù)雜現(xiàn)實(shí)場(chǎng)景下強(qiáng)大的解決方案,以及顯著提升的泛化能力。這些算法對(duì)于推動(dòng)計(jì)算機(jī)視覺(jué)應(yīng)用的發(fā)展發(fā)揮了關(guān)鍵作用,而 NVIDIA 則通過(guò) NVIDIA TAO Toolkit NVIDIA L4 GPU,使應(yīng)用集成ViT 變得輕而易舉。

ViT 的不同之處

ViT 是一種將原本用于自然語(yǔ)言處理的 Transformer 架構(gòu)應(yīng)用于視覺(jué)數(shù)據(jù)的機(jī)器學(xué)習(xí)模型。相比基于 CNN 的同類(lèi)模型具有一些優(yōu)勢(shì),并能夠并行處理大規(guī)模輸入的數(shù)據(jù)。CNN 采用的是局部操作,因而缺乏對(duì)圖像的全局理解;而 ViT 則以并行和基于自注意的方式來(lái)有效地處理圖像,使得所有圖像塊之間能夠相交互,從而提供了長(zhǎng)程依賴(lài)和全局上下文的能力。

圖 1 展示了 ViT 模型中的圖像處理流程。輸入圖像被分為較小的固定尺寸的圖塊,之后這些圖塊被展平并轉(zhuǎn)換為一系列的標(biāo)記 (tokens) 。這些標(biāo)記連同位置編碼一起被輸入到 Transformer 編碼器中,該編碼器由多個(gè)自注意力和前饋神經(jīng)網(wǎng)絡(luò)組成。

wKgaomToPL6AXQOnAAFu83nqZ0w667.png

圖 1. 包含位置編碼器和編碼器的 ViT 模型處理圖像

通過(guò)自注意力機(jī)制,每個(gè)標(biāo)記或圖塊與其他標(biāo)記進(jìn)行交互,以決定哪些標(biāo)記是重要的。這有助于模型捕捉標(biāo)記之間的關(guān)系和依賴(lài),并學(xué)習(xí)哪些標(biāo)記是更重要的。

例如在有一只鳥(niǎo)的圖像中,模型會(huì)更關(guān)注重要的特征,比如眼睛、鳥(niǎo)嘴和羽毛等,而不是背景。這使得訓(xùn)練更加高效,增強(qiáng)了對(duì)圖像損壞和噪聲情況的魯棒性,并在未見(jiàn)過(guò)的物體上表現(xiàn)出更優(yōu)越的泛化能力。

為何 ViT 對(duì)計(jì)算機(jī)

視覺(jué)應(yīng)用至關(guān)重要

真實(shí)世界的環(huán)境具有多樣且復(fù)雜的視覺(jué)模式。與 CNN 不同,ViT 憑借自身的可擴(kuò)展性和適應(yīng)性,能夠處理各種任務(wù),而且無(wú)需針對(duì)具體的任務(wù)調(diào)整架構(gòu)。

wKgaomToPL6AZ6y6AAXFPe2hYdU465.png

圖 2. 各種不完美和嘈雜的

現(xiàn)實(shí)數(shù)據(jù)給圖像分析帶來(lái)了難題

在下面的視頻中,我們比較了基于 CNN 和 ViT 的模型的噪聲視頻。在任何情況下,ViT 模型表現(xiàn)都優(yōu)于 CNN 模型。

視頻 1. 了解 SegFormer,這是一個(gè)

結(jié)合高效率和穩(wěn)健語(yǔ)義分割能力的 ViT 模型

將 ViT 與 TAO Toolkit 5.0 集成

TAO 是一個(gè)低代碼 AI 工具包,用于構(gòu)建和加速視覺(jué) AI 模型,可用于輕松地構(gòu)建和集成 ViT 到應(yīng)用和 AI 工作流程中。用戶(hù)可以通過(guò)簡(jiǎn)單的界面和配置文件快速開(kāi)始訓(xùn)練 ViT,無(wú)需深入了解模型架構(gòu)。

TAO Toolkit 5.0 提供幾種常用于計(jì)算機(jī)視覺(jué)任務(wù)的先進(jìn) ViT,包括:

全注意力網(wǎng)絡(luò)(FAN)

FAN 是由 NVIDIA 研究團(tuán)隊(duì)開(kāi)發(fā)的一系列基于 Transformer 架構(gòu)的神經(jīng)網(wǎng)絡(luò)主干模型。該系列模型在對(duì)抗各種干擾方面達(dá)到了當(dāng)前技術(shù)水平的最佳程度,如表格 1 所示。這些主干模型能夠輕松適應(yīng)新的領(lǐng)域,對(duì)抗噪聲和模糊。表格 1 展示了所有 FAN 模型在 ImageNet-1K 數(shù)據(jù)集上所達(dá)到的準(zhǔn)確率,無(wú)論是干凈版本還是經(jīng)過(guò)干擾處理后的版本。

wKgaomToPL6AVn7BAAAxlWxNk-4355.png

表 1. FAN 模型的大小和準(zhǔn)確性

全局上下文 Vision Transformer (GC-ViT)

GC-ViT 是 NVIDIA 研究部門(mén)開(kāi)發(fā)的一種具有極高準(zhǔn)確性和計(jì)算效率的新型架構(gòu)。該架構(gòu)解決了 Vision Transformer 中缺乏歸納偏置的問(wèn)題。通過(guò)使用局部自注意力機(jī)制,GC-ViT 在參數(shù)較少的情況下在 ImageNet 上取得更好的結(jié)果,同時(shí)結(jié)合全局自注意力,可以實(shí)現(xiàn)更好的局部和全局空間交互。

wKgaomToPL-AaAcLAAAwtKQJ92g384.png

表 2. GC-ViT 模型的大小和準(zhǔn)確性

帶有改進(jìn)后去噪錨框的檢測(cè) Transformer(DINO)

DINO 是最新一代的檢測(cè)變換器(DETR),其訓(xùn)練收斂速度比其他 ViT 和 CNN 更快。在 TAO 工具套件中,DINO 十分靈活,可以與傳統(tǒng) CNN(例如 ResNets)和基于 Transformer 的骨干網(wǎng)絡(luò)(如 FAN)和 GC-ViT 等相結(jié)合。

wKgaomToPL-ASKEWAADXYXf-6Sw823.png

圖 3. DINO 與其他模型的準(zhǔn)確性比較

Segformer

Segformer 是一個(gè)輕量級(jí)且具有魯棒性的基于 Transformer 的語(yǔ)義分割模型。其解碼器由輕量級(jí)的多頭感知層組成。它避免使用大多 Transformer 使用的位置編碼,可在不同分辨率下進(jìn)行高效推理。

使用 NVIDIA L4 GPU

高效驅(qū)動(dòng) Transformer

NVIDIA L4 GPU 是為未來(lái)的視覺(jué) AI 工作負(fù)載而打造的。它們采用 NVIDIA Ada Lovelace 架構(gòu),旨在加速具有變革性的 AI 技術(shù)。

L4 GPU 擁有高達(dá) FP8 485 TFLOPs 的計(jì)算能力,適于運(yùn)行 ViT 工作負(fù)載。相較更高精度的計(jì)算方式,FP8 的低精度計(jì)算可以減輕內(nèi)存壓力,還可以顯著提升 AI 的處理速度。

L4 是一款多功能、節(jié)能高效的設(shè)備,具有單槽、低調(diào)的外形,非常適合用于視覺(jué) AI 部署(包括在邊緣位置)。

您可以觀看Metropolis Developer Meetuphttps://info.nvidia.com/metropolis-meetup-june2023.html),了解有關(guān) ViT、NVIDIA TAO Toolkit 5.0 以及 L4 GPU 的更多信息。

點(diǎn)擊“閱讀原文”,或掃描下方海報(bào)二維碼,在 8 月 8日聆聽(tīng)NVIDIA 創(chuàng)始人兼 CEO 黃仁勛在 SIGGRAPH 現(xiàn)場(chǎng)發(fā)表的 NVIDIA 主題演講,了解 NVIDIA 的新技術(shù),包括屢獲殊榮的研究,OpenUSD 開(kāi)發(fā),以及最新的 AI 內(nèi)容創(chuàng)作解決方案。


原文標(biāo)題:使用 Vision Transformer 和 NVIDIA TAO,提高視覺(jué) AI 應(yīng)用的準(zhǔn)確性和魯棒性

文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3720

    瀏覽量

    90690

原文標(biāo)題:使用 Vision Transformer 和 NVIDIA TAO,提高視覺(jué) AI 應(yīng)用的準(zhǔn)確性和魯棒性

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    使用全新NVIDIA AI Blueprint開(kāi)發(fā)視覺(jué)AI智能體

    提高生產(chǎn)力、優(yōu)化流程和創(chuàng)造更加安全的空間,埃森哲、戴爾科技和聯(lián)想等公司正在使用全新 NVIDIA AI Blueprint 開(kāi)發(fā)視覺(jué) AI
    的頭像 發(fā)表于 11-06 13:58 ?163次閱讀

    如何維護(hù)電流互感器的準(zhǔn)確性

    電流互感器是電力系統(tǒng)中不可或缺的組成部分,它們負(fù)責(zé)將高電流轉(zhuǎn)換為低電流,以便進(jìn)行測(cè)量和保護(hù)。為了確保電力系統(tǒng)的穩(wěn)定運(yùn)行,電流互感器的準(zhǔn)確性至關(guān)重要。 1. 電流互感器的工作原理 電流互感器
    的頭像 發(fā)表于 11-05 09:58 ?123次閱讀

    如何評(píng)估 ChatGPT 輸出內(nèi)容的準(zhǔn)確性

    評(píng)估 ChatGPT 輸出內(nèi)容的準(zhǔn)確性是一個(gè)復(fù)雜的過(guò)程,因?yàn)樗婕暗蕉鄠€(gè)因素,包括但不限于數(shù)據(jù)的質(zhì)量和多樣、模型的訓(xùn)練、上下文的理解、以及輸出內(nèi)容的邏輯一致。以下是一些評(píng)估 ChatGPT 輸出
    的頭像 發(fā)表于 10-25 17:48 ?464次閱讀

    如何保證測(cè)長(zhǎng)機(jī)測(cè)量的準(zhǔn)確性

    可以通過(guò)以下方法保證測(cè)長(zhǎng)機(jī)測(cè)量的準(zhǔn)確性:一、設(shè)備方面1.定期校準(zhǔn)按照規(guī)定的時(shí)間間隔,將測(cè)長(zhǎng)機(jī)送往專(zhuān)業(yè)的計(jì)量機(jī)構(gòu)或使用標(biāo)準(zhǔn)器進(jìn)行校準(zhǔn)。校準(zhǔn)可以確定測(cè)長(zhǎng)機(jī)的測(cè)量誤差,并對(duì)其進(jìn)行調(diào)整,確保測(cè)量結(jié)果的準(zhǔn)確性
    的頭像 發(fā)表于 10-25 16:16 ?215次閱讀
    如何保證測(cè)長(zhǎng)機(jī)測(cè)量的<b class='flag-5'>準(zhǔn)確性</b>?

    傾斜光柵的優(yōu)化

    摘要 ** 由于制造過(guò)程中潛在的不準(zhǔn)確性,對(duì)于一個(gè)好的光柵設(shè)計(jì)來(lái)說(shuō),面對(duì)光柵參數(shù)的微小變化,提供穩(wěn)健的結(jié)果是至關(guān)重要的。VirtualLab Fusion為光學(xué)工程師提供了各種工具,可以將這種行為
    發(fā)表于 08-12 18:38

    影響電源紋波測(cè)試準(zhǔn)確性的因素

    電源紋波測(cè)試是評(píng)估電源質(zhì)量的重要手段之一,它能夠反映出電源在輸出電壓中的波動(dòng)情況。然而,測(cè)試過(guò)程中的多種因素都可能對(duì)測(cè)試結(jié)果的準(zhǔn)確性產(chǎn)生影響。本文將從多個(gè)方面分析影響電源紋波測(cè)試準(zhǔn)確性的因素,并提
    的頭像 發(fā)表于 08-02 09:42 ?464次閱讀

    景區(qū)負(fù)氧離子監(jiān)測(cè)站的數(shù)據(jù)準(zhǔn)確性如何?

    BK-FZ5景區(qū)負(fù)氧離子監(jiān)測(cè)站的數(shù)據(jù)準(zhǔn)確性是評(píng)估其性能的重要指標(biāo)之一,其準(zhǔn)確性受到多個(gè)因素的影響。
    的頭像 發(fā)表于 07-31 14:41 ?232次閱讀
    景區(qū)負(fù)氧離子監(jiān)測(cè)站的數(shù)據(jù)<b class='flag-5'>準(zhǔn)確性</b>如何?

    8芯M16插頭數(shù)據(jù)傳輸?shù)?b class='flag-5'>準(zhǔn)確性

      德索工程師說(shuō)道8芯M16插頭作為高性能連接器,其數(shù)據(jù)傳輸?shù)?b class='flag-5'>準(zhǔn)確性對(duì)于整個(gè)系統(tǒng)的穩(wěn)定性和可靠至關(guān)重要。以下是對(duì)8芯M16插頭數(shù)據(jù)傳輸準(zhǔn)確性的詳細(xì)分析,結(jié)合參考文章中的相關(guān)數(shù)字和信息進(jìn)行闡述。
    的頭像 發(fā)表于 06-14 18:06 ?275次閱讀
    8芯M16插頭數(shù)據(jù)傳輸?shù)?b class='flag-5'>準(zhǔn)確性</b>

    MediaTek與NVIDIA TAO加速物聯(lián)網(wǎng)邊緣AI應(yīng)用發(fā)展

    在即將到來(lái)的COMPUTEX 2024科技盛會(huì)上,全球知名的芯片制造商MediaTek宣布了一項(xiàng)重要合作——將NVIDIATAO(TensorRT Accelerated Optimizer)與其N(xiāo)euroPilot SDK(軟件開(kāi)發(fā)工具包)集成,共同推動(dòng)邊緣
    的頭像 發(fā)表于 06-12 14:49 ?431次閱讀

    電流探頭測(cè)試小技巧:提高準(zhǔn)確性和安全

    電流探頭是一種常用的測(cè)試工具,用于測(cè)量電路中的電流。正確使用電流探頭可以提高測(cè)試的準(zhǔn)確性,并確保操作的安全。本文將介紹一些電流探頭的測(cè)試小技巧,幫助您更好地使用電流探頭進(jìn)行電流測(cè)量。 技巧一:正確
    的頭像 發(fā)表于 03-08 09:31 ?309次閱讀
    電流探頭測(cè)試小技巧:<b class='flag-5'>提高</b><b class='flag-5'>準(zhǔn)確性</b>和安全<b class='flag-5'>性</b>

    基于計(jì)算設(shè)計(jì)的超應(yīng)變傳感器,實(shí)現(xiàn)軟體機(jī)器人的感知和自主

    柔性應(yīng)變傳感器對(duì)軟體機(jī)器人的感知和自主至關(guān)重要。然而,它們的可變形體和動(dòng)態(tài)驅(qū)動(dòng)在預(yù)測(cè)傳感器制造和長(zhǎng)期方面帶來(lái)了挑戰(zhàn)。
    的頭像 發(fā)表于 03-07 09:50 ?762次閱讀
    基于計(jì)算設(shè)計(jì)的超<b class='flag-5'>魯</b><b class='flag-5'>棒</b><b class='flag-5'>性</b>應(yīng)變傳感器,實(shí)現(xiàn)軟體機(jī)器人的感知和自主<b class='flag-5'>性</b>

    FLOEFD T3STER自動(dòng)校準(zhǔn)模塊—提高電子產(chǎn)品散熱設(shè)計(jì)的準(zhǔn)確性

    西門(mén)子工業(yè)數(shù)字軟件FLOEFD T3STER 自動(dòng)校準(zhǔn)模塊——提高電子產(chǎn)品散熱設(shè)計(jì)的準(zhǔn)確性
    的頭像 發(fā)表于 02-21 10:10 ?493次閱讀
    FLOEFD T3STER自動(dòng)校準(zhǔn)模塊—<b class='flag-5'>提高</b>電子產(chǎn)品散熱設(shè)計(jì)的<b class='flag-5'>準(zhǔn)確性</b>

    NVIDIA TAO 5.2版本發(fā)布

    NVIDIA TAO 提供了一個(gè)低代碼開(kāi)源 AI 框架,無(wú)論你是初學(xué)者還是專(zhuān)業(yè)的數(shù)據(jù)科學(xué)家,都可以使用該框架加速視覺(jué) AI 模型開(kāi)發(fā)。開(kāi)發(fā)者
    的頭像 發(fā)表于 01-03 10:11 ?577次閱讀

    怎樣使用NVIDIA TAO為數(shù)萬(wàn)億臺(tái)設(shè)備開(kāi)發(fā)和優(yōu)化視覺(jué)AI模型呢?

    全球開(kāi)發(fā)者正在使用 NVIDIA TAO 工具套件構(gòu)建 AI 視覺(jué)感知和計(jì)算機(jī)視覺(jué)應(yīng)用。如今,得益于顯著的平臺(tái)增強(qiáng)和生態(tài)對(duì)其的大力采用,這一
    的頭像 發(fā)表于 12-14 15:55 ?465次閱讀

    怎樣測(cè)試電流探頭的準(zhǔn)確性以及保證其精準(zhǔn)

    隨著科技的不斷發(fā)展,電流探頭的應(yīng)用范圍越來(lái)越廣泛。在各種電子產(chǎn)品的設(shè)計(jì)和生產(chǎn)過(guò)程中,電流探頭的準(zhǔn)確性對(duì)于檢測(cè)和測(cè)量電流顯得尤為重要。那么,怎樣測(cè)試電流探頭的準(zhǔn)確性以及保證其精準(zhǔn)呢? 首先,我們需要
    的頭像 發(fā)表于 12-14 10:49 ?548次閱讀
    怎樣測(cè)試電流探頭的<b class='flag-5'>準(zhǔn)確性</b>以及保證其精準(zhǔn)<b class='flag-5'>性</b>