0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

VILA與其他模型在提供邊緣AI 2.0方面的表現(xiàn)

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2024-10-10 10:06 ? 次閱讀

VILA 是 NVIDIA 研究部門(mén)與麻省理工學(xué)院共同開(kāi)發(fā)的高性能視覺(jué)語(yǔ)言模型系列。最大的模型約有 400 億參數(shù),最小的模型約有 30 億參數(shù),并且完全開(kāi)源(包括模型檢查點(diǎn)、訓(xùn)練代碼和訓(xùn)練數(shù)據(jù))。

本文將比較 VILA 與其他模型在提供邊緣 AI 2.0 方面的表現(xiàn)。

最初幾個(gè)版本的邊緣 AI 需要在邊緣設(shè)備上部署經(jīng)過(guò)壓縮的 AI 模型。該階段被稱(chēng)為邊緣 AI 1.0,側(cè)重于特定任務(wù)模型,這種方法的挑戰(zhàn)在于需要用不同的數(shù)據(jù)集來(lái)訓(xùn)練不同的模型,而其中的負(fù)樣本難以采集,離群情況也很難處理。這一過(guò)程非常耗時(shí),因此需要適應(yīng)性更強(qiáng)、通用性更好的 AI 解決方案。

邊緣 AI 2.0:生成式 AI 的興起

邊緣 AI 2.0 標(biāo)志著向增強(qiáng)泛化的轉(zhuǎn)變,由基礎(chǔ)視覺(jué)語(yǔ)言模型(VLM)提供支持。

VILA 等視覺(jué)語(yǔ)言模型具有驚人的多功能性,能夠理解復(fù)雜的指令并迅速適應(yīng)新場(chǎng)景,這種靈活性使其成為諸多應(yīng)用中的重要工具。它們可以?xún)?yōu)化自動(dòng)駕駛汽車(chē)的決策,在物聯(lián)網(wǎng)智能物聯(lián)網(wǎng)環(huán)境中創(chuàng)建個(gè)性化交互,進(jìn)行事件檢測(cè),提升智能家居體驗(yàn)等。

VLM 的核心優(yōu)勢(shì)在于其在語(yǔ)言預(yù)訓(xùn)練過(guò)程中獲得的世界知識(shí),以及用戶(hù)使用自然語(yǔ)言進(jìn)行查詢(xún)的能力。這就為由 AI 驅(qū)動(dòng)的智能相機(jī)提供了動(dòng)態(tài)處理能力,而無(wú)需對(duì)定制的視覺(jué)管道進(jìn)行硬編碼。

邊緣 VLM:

VILA 與 NVIDIA Jetson Orin

要實(shí)現(xiàn)邊緣 AI 2.0,VLM 必須具有高性能且易于部署。VILA 通過(guò)以下方式實(shí)現(xiàn)這兩點(diǎn):

精心設(shè)計(jì)的訓(xùn)練管道和高質(zhì)量的混合數(shù)據(jù)

精度損失可忽略不計(jì)的 AWQ 4 位量化

wKgaomcHNq6AIXlgAAKp65hJCW8270.jpg

圖 1. VILA 模型架構(gòu)和訓(xùn)練配方

VILA 是一種可將視覺(jué)信息引入大語(yǔ)言模型(LLM)的視覺(jué)語(yǔ)言模型。VILA 模型由視覺(jué)編碼器、LLM 和投影儀組成,可連接兩種模態(tài)的嵌入。為了充分利用功能強(qiáng)大的 LLM,VILA 使用視覺(jué)編碼器將圖像或視頻編碼為視覺(jué) token,然后將這些視覺(jué) token 作為外語(yǔ)輸入 LLM。這種設(shè)計(jì)可以處理任意數(shù)量的交錯(cuò)圖像-文本輸入。

VILA 的成功源于經(jīng)過(guò)增強(qiáng)的預(yù)訓(xùn)練配方。通過(guò)對(duì)視覺(jué)語(yǔ)言模型預(yù)訓(xùn)練選擇的深入研究,我們獲得了三個(gè)重要發(fā)現(xiàn):

在預(yù)訓(xùn)練過(guò)程中凍結(jié) LLM 可以實(shí)現(xiàn)不錯(cuò)的零點(diǎn)性能,但缺乏語(yǔ)境學(xué)習(xí)能力,而這需要解凍 LLM;

交錯(cuò)的預(yù)訓(xùn)練數(shù)據(jù)是有益的,而單獨(dú)的圖像-文本對(duì)并不是最佳選擇;

在指令微調(diào)過(guò)程中,將純文本指令數(shù)據(jù)與圖像-文本數(shù)據(jù)重新混合,不僅能彌補(bǔ)純文本任務(wù)的不足,還能提高 VLM 任務(wù)的準(zhǔn)確性。

我們觀察到,該預(yù)訓(xùn)練過(guò)程解鎖了模型的幾項(xiàng)引人矚目的能力:

多圖像推理,盡管模型在 SFT 期間只能看到單個(gè)圖像-文本對(duì)(監(jiān)督微調(diào))

更強(qiáng)的語(yǔ)境學(xué)習(xí)能力

增進(jìn)的世界知識(shí)

NVIDIA Jetson Orin 具有無(wú)與倫比的 AI 計(jì)算、大容量統(tǒng)一內(nèi)存和全面的 AI 軟件堆棧,是在高能效邊緣設(shè)備上部署 VILA 的完美平臺(tái)。Jetson Orin 能夠快速推理采用 transformer 架構(gòu)的任何生成式 AI 模型,在 MLPerf 基準(zhǔn)測(cè)試中展現(xiàn)出領(lǐng)先的邊緣性能。

AWQ 量化

為了在 Jetson Orin 上部署 VILA,我們集成了激活感知權(quán)重量化(AWQ)以實(shí)現(xiàn) 4 位量化。AWQ 使我們能夠?qū)?VILA 量化到精度損失可忽略不計(jì)的 4 位精度,這為 VLM 在保持性能標(biāo)準(zhǔn)的同時(shí)還能深入改變邊緣計(jì)算鋪平了道路。

盡管采用了 AWQ 等先進(jìn)技術(shù),但在邊緣設(shè)備上部署大語(yǔ)言和視覺(jué)模型仍然是一項(xiàng)復(fù)雜的任務(wù)。4 位權(quán)重缺乏字節(jié)對(duì)齊,需要專(zhuān)門(mén)的計(jì)算才能達(dá)到最佳效率。

TinyChat 是專(zhuān)為邊緣設(shè)備上的 LLM 和 VLM 設(shè)計(jì)的高效推理框架。無(wú)論是 NVIDIA RTX 4070 筆記本電腦 GPU 還是 NVIDIA Jetson Orin,TinyChat 的適應(yīng)性使其能夠在各種硬件平臺(tái)上運(yùn)行,這引發(fā)了開(kāi)源社區(qū)的極大興趣。

現(xiàn)在,TinyChat 擴(kuò)大了對(duì) VILA 的支持,實(shí)現(xiàn)了對(duì)視覺(jué)數(shù)據(jù)的重要理解和推理。TinyChat 在結(jié)合文本和視覺(jué)處理方面具有出眾的效率和靈活性,使邊緣設(shè)備能夠執(zhí)行最前沿的多模態(tài)任務(wù)。

基準(zhǔn)測(cè)試

下表顯示了 VILA 1.5-3B 的基準(zhǔn)測(cè)試結(jié)果。就其規(guī)模而言,它在圖像質(zhì)量保證和視頻質(zhì)量保證基準(zhǔn)測(cè)試中均表現(xiàn)出色。您還可以看到,AWQ 4 位量化并沒(méi)有降低精度,而且通過(guò)與 Scaling on Scales (S2) 集成,它可以感知更高分辨率的圖像,并進(jìn)一步提高性能。

wKgaomcHNp6AMtjiAABbYqzWeuM375.png

表 1. 模型在圖像質(zhì)量保證基準(zhǔn)測(cè)試中的

評(píng)估結(jié)果(量化前/后)

wKgZomcHNsCACA6PAAAjzXuXb-4914.png

表 2. 模型在視頻質(zhì)量保證基準(zhǔn)測(cè)試中的評(píng)估結(jié)果

部署在 Jetson Orin 和 NVIDIA RTX 上

隨著攝像頭和視覺(jué)系統(tǒng)在現(xiàn)實(shí)環(huán)境中的應(yīng)用日益普及,在邊緣設(shè)備上推理 VILA 已成為一項(xiàng)重要的任務(wù)。根據(jù)模型的規(guī)模,從入門(mén)級(jí) AI 到七種 Jetson Orin 高性能模塊,您都可以選擇,來(lái)靈活地為智能家居設(shè)備、醫(yī)療儀器、自主機(jī)器人和視頻分析構(gòu)建那些用戶(hù)可以動(dòng)態(tài)地重新配置和查詢(xún)的生成式 AI 應(yīng)用。

圖 3 顯示了在 Jetson AGX Orin 和 Jetson Orin Nano 上運(yùn)行 VILA 的端到端多模態(tài)管道性能,兩者都在視頻流上達(dá)到了交互速率。

wKgaomcHNsmAATmjAACS3D4yYvk255.png

圖 3. VILA 推理速度比較

這些基準(zhǔn)測(cè)試包含查詢(xún) 1 幀圖像的總體時(shí)間,包括視覺(jué)編碼(使用 CLIP 或 SigLIP)、多模態(tài)投影、聊天嵌入組裝、使用 4 位量化生成語(yǔ)言模型輸出等測(cè)試。VILA-1.5 模型包括一個(gè)新型適配器,可將用于表示每個(gè)圖像嵌入的 token 數(shù)從 729 個(gè)減少到 196 個(gè),這不僅提高了性能,而且在視覺(jué)編碼器空間分辨率提高的情況下保持了準(zhǔn)確性。

這一高度優(yōu)化的 VLM 管道是開(kāi)源的,并且集成了多模態(tài) RAG 和單樣本圖像標(biāo)記等先進(jìn)功能,能夠?qū)D像嵌入高效率地重復(fù)用于整個(gè)系統(tǒng)中的其他視覺(jué)相關(guān)任務(wù)。

wKgaomcHNt-AE7AEABrc_QCsWyY256.jpg

圖 4. 在 Jetson Orin 上運(yùn)行的 VILA-3B(4 位)

在消費(fèi)級(jí) GPU 上的體驗(yàn)

VILA 還可以部署在筆記本電腦和 PC 工作站上的 NVIDIA RTX 等消費(fèi)級(jí) GPU 中,以提高用戶(hù)的工作效率和交互體驗(yàn)。

wKgZomcHNuOAAV3NABr6QCSLMY4220.jpg

圖 5. 在 NVIDIA RTX 4090 上運(yùn)行的 VILA-3B(4 位)

多圖像推理

TinyChat 的最新版本使用了 VILA 令人印象深刻的多圖像推理功能,使您能夠同時(shí)上傳多張圖像來(lái)增強(qiáng)交互,帶來(lái)令人興奮的創(chuàng)新可能性。

圖 6 顯示 VILA 可以理解圖像序列的內(nèi)容和順序,為創(chuàng)造性應(yīng)用開(kāi)辟了新途徑。

wKgZomcHNx6AJWnZAIgeoTfc9Qc788.gif

圖 6. VILA-3B(4 位)在多圖像理解方面的表現(xiàn)

語(yǔ)境學(xué)習(xí)

VILA 還具有出色的語(yǔ)境學(xué)習(xí)能力。無(wú)需明確的系統(tǒng)提示,VILA 就能從以前的圖像-文本對(duì)中無(wú)縫推理出模式,為新的圖像輸入生成相關(guān)文本。

在圖 7 中,VILA 成功識(shí)別了 NVIDIA 的徽標(biāo),并按照之前示例的風(fēng)格輸出了 NVIDIA 最著名的產(chǎn)品

wKgZomcHNy2Adf5vAAnjS8OQh4c830.gif

圖 7. VILA-3B(4 位)在語(yǔ)境學(xué)習(xí)任務(wù)中的表現(xiàn)

開(kāi)始使用 VILA

我們計(jì)劃繼續(xù)對(duì) VILA 進(jìn)行創(chuàng)新,包括擴(kuò)展上下文長(zhǎng)度、提高分辨率以及為視覺(jué)和語(yǔ)言對(duì)齊策劃更好的數(shù)據(jù)集。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4847

    瀏覽量

    102702
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3108

    瀏覽量

    48646
  • 邊緣AI
    +關(guān)注

    關(guān)注

    0

    文章

    86

    瀏覽量

    4925
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    256

    瀏覽量

    297

原文標(biāo)題:視覺(jué)語(yǔ)言智能和邊緣 AI 2.0

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    邊緣AI應(yīng)用越來(lái)越普遍,AI模型邊緣端如何部署?

    模型端側(cè)的部署也成了業(yè)界關(guān)注的焦點(diǎn)。 ? 如何把AI 模型邊緣端部署 ? 首先得軟硬件適配
    的頭像 發(fā)表于 07-04 00:11 ?2492次閱讀
    <b class='flag-5'>邊緣</b><b class='flag-5'>AI</b>應(yīng)用越來(lái)越普遍,<b class='flag-5'>AI</b><b class='flag-5'>模型</b><b class='flag-5'>在</b><b class='flag-5'>邊緣</b>端如何部署?

    risc-v多核芯片在AI方面的應(yīng)用

    應(yīng)用中的成本。 最后,RISC-V多核芯片不僅可以應(yīng)用于AI邊緣計(jì)算領(lǐng)域,還可以擴(kuò)展到其他領(lǐng)域,如數(shù)據(jù)中心、云計(jì)算、自動(dòng)駕駛、機(jī)器人等,為這些領(lǐng)域提供高效、靈活和安全的解決方案。 總的
    發(fā)表于 04-28 09:20

    硬件幫助將AI移動(dòng)到邊緣

    雖然人工智能和機(jī)器學(xué)習(xí)計(jì)算通常在數(shù)據(jù)中心中大規(guī)模地執(zhí)行,但是最新的處理設(shè)備使得能夠?qū)?b class='flag-5'>AI / ML能力嵌入到網(wǎng)絡(luò)邊緣的IoT設(shè)備中。邊緣AI可以快速響應(yīng),無(wú)需等待云的響應(yīng)。如果可以
    發(fā)表于 05-29 10:38

    EdgeBoard FZ5 邊緣AI計(jì)算盒及計(jì)算卡

    科技攜手百度,推出系列高性能及高性?xún)r(jià)比EdgeBoard 邊緣AI計(jì)算卡/計(jì)算盒,助力AI項(xiàng)目落地。可靈活適配海量的且不斷迭代的AI模型,并
    發(fā)表于 08-31 14:12

    網(wǎng)絡(luò)邊緣實(shí)施AI的原因

    AI推向邊緣的影響通過(guò)邊緣運(yùn)行ML模型可以使哪些具體的AI項(xiàng)目更容易運(yùn)行?
    發(fā)表于 02-23 06:21

    嵌入式邊緣AI應(yīng)用開(kāi)發(fā)指南

    擴(kuò)展和量化感知培訓(xùn)工具可幫助您優(yōu)化自己的DNN模型。第3步:評(píng)估模型性能在開(kāi)發(fā)邊緣AI應(yīng)用之前,需要在實(shí)際硬件上評(píng)估模型性能。TI
    發(fā)表于 11-03 06:53

    ST MCU邊緣AI開(kāi)發(fā)者云 - STM32Cube.AI

    道:“STM32Cube.AI 開(kāi)發(fā)者云為我們的數(shù)據(jù)科學(xué)家和嵌入式開(kāi)發(fā)人員提供了一種簡(jiǎn)單的方法來(lái)協(xié)作和分享他們嵌入式神經(jīng)網(wǎng)絡(luò)方面的知識(shí),這有助于簡(jiǎn)化我們的開(kāi)發(fā)流程。基準(zhǔn)測(cè)試功能還使我
    發(fā)表于 02-02 09:52

    NVIDIA收購(gòu)ARM,加速了RISC-V邊緣AI的神經(jīng)網(wǎng)路方面的應(yīng)用

    近日,F(xiàn)acebook的首席AI科學(xué)家Yann LeCun法國(guó)CEA-Leti研究實(shí)驗(yàn)室的創(chuàng)新日上指出,由于美國(guó)限制中國(guó)半導(dǎo)體產(chǎn)業(yè)、以及NVIDIA并購(gòu)ARM的動(dòng)作,正加速RISC-V邊緣
    的頭像 發(fā)表于 10-23 11:35 ?2326次閱讀

    基于軟件的Vitis AI 2.0加速解決方案

    Vitis AI 2.0 全面發(fā)布!作為賽靈思 FPGA 和自適應(yīng) SoC 上最綜合全面的基于軟件的 AI 加速解決方案,Vitis AI
    的頭像 發(fā)表于 03-15 17:39 ?2288次閱讀

    全球金融機(jī)構(gòu)使用AI方面的主要趨勢(shì)

    2022 年調(diào)查確定了全球金融機(jī)構(gòu)使用 AI 方面的主要趨勢(shì)。
    的頭像 發(fā)表于 04-25 11:39 ?1505次閱讀

    邊緣AI模型壓縮技術(shù)

    某個(gè)時(shí)間點(diǎn),人們認(rèn)為大型和復(fù)雜的模型表現(xiàn)更好,但現(xiàn)在它幾乎是一個(gè)神話。隨著邊緣AI的發(fā)展,越來(lái)越多的技術(shù)將大型復(fù)雜
    的頭像 發(fā)表于 10-19 14:22 ?1010次閱讀
    <b class='flag-5'>邊緣</b><b class='flag-5'>AI</b>的<b class='flag-5'>模型</b>壓縮技術(shù)

    邊緣AI模型壓縮技術(shù)

    模型壓縮是計(jì)算能力和內(nèi)存較低的邊緣設(shè)備上部署SOTA(最先進(jìn)的)深度學(xué)習(xí)模型的過(guò)程,而不會(huì)影響模型
    的頭像 發(fā)表于 05-05 09:54 ?812次閱讀
    <b class='flag-5'>邊緣</b><b class='flag-5'>AI</b>的<b class='flag-5'>模型</b>壓縮技術(shù)

    NVIDIA加速識(shí)因智能AI模型落地應(yīng)用方面的重要作用介紹

    本案例介紹了 NVIDIA 加速識(shí)因智能 AI模型落地應(yīng)用方面的重要作用。生成式大模型已廣泛應(yīng)用于各領(lǐng)域,通過(guò)學(xué)習(xí)人類(lèi)思維方式,能快速
    的頭像 發(fā)表于 03-29 15:28 ?557次閱讀

    Llama 3 模型與其他AI工具對(duì)比

    Llama 3模型與其他AI工具的對(duì)比可以從多個(gè)維度進(jìn)行,包括但不限于技術(shù)架構(gòu)、性能表現(xiàn)、應(yīng)用場(chǎng)景、定制化能力、開(kāi)源與成本等方面。以下是對(duì)L
    的頭像 發(fā)表于 10-27 14:37 ?271次閱讀

    AI模型托管原理分析

    AI模型托管是指將訓(xùn)練好的AI模型部署云端或邊緣服務(wù)器上,由第三
    的頭像 發(fā)表于 11-07 09:33 ?57次閱讀