0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

螞蟻鏈AIoT團(tuán)隊(duì)與NVIDIA合作加速AI推理

NVIDIA英偉達(dá) ? 來源:NVIDIA英偉達(dá) ? 作者:NVIDIA英偉達(dá) ? 2022-09-09 09:53 ? 次閱讀

螞蟻鏈 AIoT 團(tuán)隊(duì)與 NVIDIA 合作,將量化感知訓(xùn)練(QAT)技術(shù)應(yīng)用于深度學(xué)習(xí)模型性能優(yōu)化中,并通過 NVIDIA TensorRT 高性能推理 SDK 進(jìn)行高效率部署, 通過 INT8 推理, 吞吐量提升了 3 倍, 助力螞蟻鏈版權(quán) AI 平臺(tái)中的模型推理服務(wù)大幅降本增效。

依托于螞蟻鏈自研的區(qū)塊鏈和 AI 技術(shù),以及金融級的加密算法能力和云計(jì)算能力的加持,螞蟻鏈版權(quán) AI 平臺(tái)能夠?yàn)閿?shù)字媒體時(shí)代的內(nèi)容管理方、內(nèi)容平臺(tái)方以及創(chuàng)作者提供一站式的版權(quán)保護(hù)能力。作為螞蟻鏈版權(quán)平臺(tái)的核心能力,AI 技術(shù)可以快速提取音視頻及圖像特征,在短時(shí)間內(nèi)完成對相似內(nèi)容的自動(dòng)識別和判斷。得益于 NVIDIA 完善的軟硬件生態(tài),螞蟻鏈團(tuán)隊(duì)除了可以方便的在云端 GPU 部署深度學(xué)習(xí)模型推理服務(wù),在進(jìn)一步的合作中,雙方亦成功將其 TensorRT 支持的業(yè)界領(lǐng)先的 INT8-QAT 技術(shù)應(yīng)用到版權(quán)保護(hù)業(yè)務(wù)模型上,對 AI 模型的推理效率進(jìn)行大幅度優(yōu)化,實(shí)現(xiàn)了在幾乎精度無損的情況下,單 GPU 上的吞吐量提升約 300%。

利用深度學(xué)習(xí)模型高效且自動(dòng)化地進(jìn)行相似內(nèi)容識別是螞蟻鏈版權(quán) AI 平臺(tái)的一項(xiàng)關(guān)鍵技術(shù)能力,這對 AI 模型研發(fā)提出了較高的技術(shù)挑戰(zhàn)。一方面,多媒體版權(quán)保護(hù)業(yè)務(wù)場景中作品侵權(quán)的類型復(fù)雜而多變, 為了到達(dá)高召回率和低虛警率的效果精度,螞蟻鏈團(tuán)隊(duì)需采用較為復(fù)雜的算法模型方案;而另一方面,版權(quán)場景中高吞吐、低成本的需求又對模型提出了性能方面的挑戰(zhàn)。換言之,算法模型需要的存算資源必須有所限制、推理性能必須較高,而一般情況下,這與模型的效果要求是矛盾的,因?yàn)樯疃葘W(xué)習(xí)模型的效果往往與模型的尺寸和所需算力正相關(guān)。而這些復(fù)雜而又多維的業(yè)務(wù)需求,也確實(shí)給團(tuán)隊(duì)的算法研發(fā)和優(yōu)化工作,帶來了相當(dāng)大的挑戰(zhàn)。

因此,螞蟻鏈團(tuán)隊(duì)將算法研發(fā)拆解為不同的流程以解決不同維度的業(yè)務(wù)需求。簡而言之,就是優(yōu)先以滿足業(yè)務(wù)效果指標(biāo)為目的研發(fā)模型,隨后借助模型壓縮技術(shù)對模型存算需求進(jìn)行優(yōu)化,而第二部分工作實(shí)現(xiàn),則需仰賴 NVIDIA 相關(guān)軟硬件生態(tài)對于高性能AI模型推理加速的優(yōu)秀支持。一方面,NVIDIA GPU 所提供的強(qiáng)大并行算力以及 INT8 Tensor Core 提供的整型計(jì)算能力,為深度學(xué)習(xí)模型推理的高效實(shí)現(xiàn)奠定了基礎(chǔ);另一方面,NVIDIA TensorRT 8 SDK 中對模型計(jì)算圖的高效融合,以及對于新型模型結(jié)構(gòu)的支持和優(yōu)化(例如 QAT 所采用的 QDQ 結(jié)構(gòu)以及 transformer-based 模型)讓我們可以在 PyTorch 模型的基礎(chǔ)上生成高效的量化推理模型。其中,QAT 作為此項(xiàng)目模型性能優(yōu)化的重要技術(shù),最大的優(yōu)點(diǎn)莫過于可以在大幅提升推理速度的同時(shí),做到幾乎完全消弭量化網(wǎng)絡(luò)整型計(jì)算相比浮點(diǎn)網(wǎng)絡(luò)數(shù)值精度差異帶來的算法效果損失。而近年來,隨著 NVIDIA 對相關(guān)軟硬件生態(tài)的對 QAT 技術(shù)的支持日臻完善,螞蟻鏈團(tuán)隊(duì)希望能藉由 NVIDIA 相關(guān)的軟硬件生態(tài),將 QAT 技術(shù)應(yīng)用到螞蟻鏈版權(quán) AI 項(xiàng)目中,以滿足嚴(yán)苛的業(yè)務(wù)需求。

基于以上挑戰(zhàn),螞蟻鏈 AIoT 技術(shù)部與 NVIDIA 技術(shù)專家合作,引入 QAT 技術(shù)對深度學(xué)習(xí)模型進(jìn)行性能優(yōu)化,并將模型轉(zhuǎn)換為 TensorRT 引擎部署至 NVIDIA T4 GPU 進(jìn)行在線推理。

首先,團(tuán)隊(duì)使用 QAT 技術(shù)對算法模型以“偽量化”模式進(jìn)行微調(diào),使模型得以在 INT8 整型推理模式下在算法效果指標(biāo)上幾乎沒有損失。具體實(shí)現(xiàn)方案主要包括:使用 NVIDIA PyTorch Quantization 工具在模型中一些特定位置插入量化/反量化節(jié)點(diǎn),在原模型的基礎(chǔ)上構(gòu)造一個(gè)“偽量化”模型。緊接著,使用該“偽量化”模型在原任務(wù)上進(jìn)行一定輪數(shù)的微調(diào),使模型參數(shù)在受到量化誤差擾動(dòng)的同時(shí)依然可以收斂到一個(gè)局部最優(yōu),最終最小化量化推理對模型算法指標(biāo)帶來的負(fù)面影響。實(shí)踐中,螞蟻鏈團(tuán)隊(duì)通過 QAT 技術(shù)可以將 INT8 模型與單精度模型的算法指標(biāo)的相對差距縮小到 0.2% 以內(nèi),做到了算法效果幾乎無損的模型量化。

隨后,則需要將微調(diào)完成的 QAT 模型轉(zhuǎn)換為真正的 INT8 版本模型部署到線上生產(chǎn)環(huán)境中。這一流程主要依賴 NVIDIA 提供的 TensorRT 高性能推理框架,相較其他部署框架,TensorRT 在 NVIDIA GPU 上表現(xiàn)出巨大的性能優(yōu)勢:一方面通過 graph fusion,kernel tuning 等功能,可以自動(dòng)化精簡網(wǎng)絡(luò)結(jié)構(gòu),為模型各層的不同 op 尋找最優(yōu) CUDA kernel 等優(yōu)化操作;更重要的是,TensorRT 8.0 開始,添加了針對“偽量化”節(jié)點(diǎn)的自動(dòng)化解析和融合功能,使 QAT 模型落地的門檻大大降低,讓 QAT 模型真正有可能在部署環(huán)境中展現(xiàn)出近似 INT8 后量化模型的極高推理性能。實(shí)踐中,采用 INT8-QAT 的模型做到了比單精度模型約 300% 的單位時(shí)間吞吐提升,極大提高了模型推理服務(wù)的效率;同時(shí),量化模型更低的顯存占用也為模型部署帶來了更高的靈活性。

借助 NVIDIA 在高性能模型推理方面完善的軟硬件生態(tài),螞蟻鏈團(tuán)隊(duì)得以使用 INT8-QAT 技術(shù)大幅優(yōu)化螞蟻鏈版權(quán) AI 平臺(tái)中模型推理服務(wù)的效率,幫助系統(tǒng)整體降本增效。300% 的推理速度提升,以及算法指標(biāo)幾乎無損的特性,讓此項(xiàng)目的 AI 模型可以做到兼顧效果與性能,幫助螞蟻鏈版權(quán) AI 平臺(tái)在業(yè)界樹立技術(shù)優(yōu)勢。

“版權(quán)保護(hù)是一個(gè)富有挑戰(zhàn)的技術(shù)領(lǐng)域,互聯(lián)網(wǎng)內(nèi)容類型多樣、隱匿性強(qiáng)、易復(fù)制與編輯等特點(diǎn)對我們提出了諸多挑戰(zhàn)。螞蟻鏈從 2019 年發(fā)布鵲鑿版權(quán)保護(hù)平臺(tái)以來,在音視圖文的侵權(quán)檢索、侵權(quán)比對與定位方面做了大量深入的研究工作。我們 AIoT 團(tuán)隊(duì)在 2022 年世界知識產(chǎn)權(quán)日向公眾發(fā)布了螞蟻鏈版權(quán) AI 計(jì)算引擎,可以對相似內(nèi)容的提取精確到幀,直接以秒為單位反饋比對結(jié)果。這種細(xì)顆粒度的識別能力極大提高了下游工作效率,同時(shí)也需要我們充分探索和利用 NVIDIA INT8-QAT 等加速技術(shù),在效果和性能之間達(dá)到最佳平衡。接下去我們還會(huì)面向低成本高性能的版權(quán) AI 算法演進(jìn),讓技術(shù)普惠更多的普通創(chuàng)作者?!蔽浵佹?AIoT 高級算法專家張曉博與錢烽表示。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4793

    瀏覽量

    102423
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    27

    文章

    4590

    瀏覽量

    128137
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28875

    瀏覽量

    266203
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3637

    瀏覽量

    89833

原文標(biāo)題:NVIDIA 攜手螞蟻鏈實(shí)現(xiàn) INT8 QAT 技術(shù)加速 AI 推理,打造新一代版權(quán)保護(hù)平臺(tái)

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    英偉達(dá)推出全新NVIDIA AI Foundry服務(wù)和NVIDIA NIM推理微服務(wù)

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務(wù)和 NVIDIA NIM 推理微服務(wù),與同樣剛推出的 Llama 3.1
    的頭像 發(fā)表于 07-25 09:48 ?567次閱讀

    HPE 攜手 NVIDIA 推出 NVIDIA AI Computing by HPE,加速生成式 AI 變革

    by HPE 包含了可持續(xù)的加速計(jì)算產(chǎn)品組合以及全生命周期服務(wù),將簡化 AI 創(chuàng)造價(jià)值的過程,加速生成式 AI 的發(fā)展步伐。 NVIDIA
    的頭像 發(fā)表于 06-21 14:39 ?226次閱讀

    NVIDIA推出NVIDIA AI Computing by HPE加速生成式 AI 變革

    簡化 AI 創(chuàng)造價(jià)值的過程,加速生成式 AI 的發(fā)展步伐。 NVIDIA AI Computing by HPE 由 HPE 與
    的頭像 發(fā)表于 06-20 17:36 ?596次閱讀

    MediaTek與NVIDIA TAO加速物聯(lián)網(wǎng)邊緣AI應(yīng)用發(fā)展

    在即將到來的COMPUTEX 2024科技盛會(huì)上,全球知名的芯片制造商MediaTek宣布了一項(xiàng)重要合作——將NVIDIA的TAO(TensorRT Accelerated Optimizer)與其NeuroPilot SDK(軟件開發(fā)工具包)集成,共同推動(dòng)邊緣
    的頭像 發(fā)表于 06-12 14:49 ?382次閱讀

    英偉達(dá)推出AI模型推理服務(wù)NVIDIA NIM

    英偉達(dá)近日宣布推出一項(xiàng)革命性的AI模型推理服務(wù)——NVIDIA NIM。這項(xiàng)服務(wù)將極大地簡化AI模型部署過程,為全球的2800萬英偉達(dá)開發(fā)者提供前所未有的便利。
    的頭像 發(fā)表于 06-04 09:15 ?537次閱讀

    英特爾助力京東云用CPU加速AI推理,以大模型構(gòu)建數(shù)智化供應(yīng)

    英特爾助力京東云用CPU加速AI推理,以大模型構(gòu)建數(shù)智化供應(yīng)
    的頭像 發(fā)表于 05-27 11:50 ?382次閱讀
    英特爾助力京東云用CPU<b class='flag-5'>加速</b><b class='flag-5'>AI</b><b class='flag-5'>推理</b>,以大模型構(gòu)建數(shù)智化供應(yīng)<b class='flag-5'>鏈</b>

    研華與英偉達(dá)深化合作, 成為NVIDIA AI Enterprise軟件全球分銷商

    臺(tái)北,2024年4月 - 研華科技(2395.TW)宣布,已擴(kuò)大與NVIDIA合作,成為臺(tái)灣首家獲得NVIDIA AI Enterprise認(rèn)證的、用于開發(fā)和部署生產(chǎn)級
    發(fā)表于 05-07 11:21 ?188次閱讀
    研華與英偉達(dá)深化<b class='flag-5'>合作</b>, 成為<b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> Enterprise軟件全球分銷商

    利用NVIDIA組件提升GPU推理的吞吐

    本實(shí)踐中,唯品會(huì) AI 平臺(tái)與 NVIDIA 團(tuán)隊(duì)合作,結(jié)合 NVIDIA TensorRT 和 NVI
    的頭像 發(fā)表于 04-20 09:39 ?503次閱讀

    NVIDIA和谷歌云宣布開展一項(xiàng)新的合作,加速AI開發(fā)

    NVIDIA 和谷歌云宣布開展一項(xiàng)新的合作,以幫助全球初創(chuàng)企業(yè)加速創(chuàng)建生成式 AI 應(yīng)用和服務(wù)。
    的頭像 發(fā)表于 04-11 14:03 ?388次閱讀

    SAP與NVIDIA攜手加速生成式AI在企業(yè)應(yīng)用中的普及

    SAP SE 和 NVIDIA 宣布深化合作,致力于加速企業(yè)客戶在 SAP 云解決方案和應(yīng)用組合中利用數(shù)據(jù)和生成式 AI 的變革力量。
    的頭像 發(fā)表于 03-22 10:02 ?493次閱讀

    使用NVIDIA Triton推理服務(wù)器來加速AI預(yù)測

    這家云計(jì)算巨頭的計(jì)算機(jī)視覺和數(shù)據(jù)科學(xué)服務(wù)使用 NVIDIA Triton 推理服務(wù)器來加速 AI 預(yù)測。
    的頭像 發(fā)表于 02-29 14:04 ?458次閱讀

    HarmonyOS:使用MindSpore Lite引擎進(jìn)行模型推理

    場景介紹 MindSpore Lite 是一款 AI 引擎,它提供了面向不同硬件設(shè)備 AI 模型推理的功能,目前已經(jīng)在圖像分類、目標(biāo)識別、人臉識別、文字識別等應(yīng)用中廣泛使用。 本文介紹
    發(fā)表于 12-14 11:41

    NVIDIA 校招 | 芯片架構(gòu)團(tuán)隊(duì)正在熱招!

    。他們與 Compute Arch 團(tuán)隊(duì)合作,追尋更高的?GPU AI 計(jì)算性能,與 Graphics 團(tuán)隊(duì)合作,探究新一代光線追蹤的渲染
    的頭像 發(fā)表于 11-01 20:25 ?329次閱讀

    周四研討會(huì)預(yù)告 | 注冊報(bào)名 NVIDIA AI Inference Day - 大模型推理線上研討會(huì)

    由 CSDN 舉辦的 NVIDIA AI Inference Day - 大模型推理線上研討會(huì),將幫助您了解 NVIDIA 開源大型語言模型(LLM)
    的頭像 發(fā)表于 10-26 09:05 ?283次閱讀

    英碼科技精彩亮相火爆的IOTE 2023,多面賦能AIoT產(chǎn)業(yè)發(fā)展!

    產(chǎn)品,包括覆蓋多層次算力的智能工作站(邊緣計(jì)算盒子)、AI加速卡等;同時(shí)向大家展示自研的AI技術(shù)服務(wù)——“深元”0代碼移植工具和創(chuàng)新性的行業(yè)解決方案,賦能更多
    發(fā)表于 09-25 10:03