0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA 助力火山引擎開源多媒體處理框架 BMF,將抖音、西瓜視頻的先進(jìn)技術(shù)推向千行百業(yè)

NVIDIA英偉達(dá) ? 來源:未知 ? 2023-09-19 11:10 ? 次閱讀

案例介紹

火山引擎通過與 NVIDIA 團(tuán)隊合作開發(fā)了 BMF(Babit Media Framework,多媒體處理框架),提供了豐富的 GPU 即用模塊,低門檻的擴(kuò)展方式,多語言接口以及各類主流框架 SDK 的簡單接入,方便用戶快速打造高效的全 GPU 視頻處理流水線,有效解決開發(fā)效率低,鏈路缺乏整體優(yōu)化的問題,使得 GPU 能夠充分發(fā)揮其強(qiáng)大的并行計算能力,應(yīng)用于各類視頻 AI 場景。

視頻成為企業(yè)數(shù)字化增長新動力

在當(dāng)今人們的生活中,視頻化場景已經(jīng)滲透到了方方面面。QuestMobile 數(shù)據(jù)顯示,截止到 2023 年 5 月,中國移動視頻行業(yè)整體用戶規(guī)模達(dá)到 10.76 億,月人均時長達(dá)到 64.2 小時[1]。在艾瑞研究院報告的數(shù)據(jù)中也顯示,目前中國用戶量排名前 100 的 APP 中,有 69% 搭載了視頻類功能,65% 搭載了點播功能,51% 有直播類功能,32% 有實時音視頻類功能[2]。視頻應(yīng)用正在從內(nèi)容、娛樂行業(yè)拓展至泛互聯(lián)網(wǎng)和大量傳統(tǒng)行業(yè)。

2016 年抖音上線,同年全民直播和短視頻時代正式開啟。2018 年,業(yè)界已經(jīng)廣泛地使用 AI 進(jìn)行內(nèi)容理解,視頻增強(qiáng)。2019 年則是云游戲的元年,這一年,低延遲成為業(yè)務(wù)關(guān)注焦點。進(jìn)入 2021 年,市面上已經(jīng)有大量的基于 AI 的視頻增強(qiáng),特效貼紙,AI 視頻編輯的產(chǎn)品出現(xiàn)。如今,以 Stable Diffusion 和大語言模型(LLM) 掀起的生成式 AI 浪潮,正席卷整個行業(yè)進(jìn)入另一個全新時代。GPU 不斷增強(qiáng)的計算能力和視頻圖像處理能力,正好和業(yè)界的發(fā)展完全契合。與圖文內(nèi)容相比,企業(yè)自建視頻應(yīng)用對技術(shù)積累和資金成本要求較高。為此,火山引擎與 NVIDIA 團(tuán)隊合作,開源了 BMF(Babit Media Framework)多媒體處理框架。該框架是視頻化部署的“底座”,可為企業(yè)提供從視頻生產(chǎn)到消費的全鏈路場景支持,并能協(xié)助幫助開發(fā)者低成本構(gòu)建視頻應(yīng)用。

從 GPU 加速圖像處理,

到 GPU 上部署生成式 AI 業(yè)務(wù)

NVIDIA 自 1999 年發(fā)明 GPU 驅(qū)動了 PC 游戲市場的增長,并重新定義了現(xiàn)代計算機(jī)圖形,開啟了現(xiàn)代 AI 時代。2012 年,NVIDIA 在 Kepler 架構(gòu)上添加了硬件視頻編解碼器,能更好地支持視頻串流和直播,也就是現(xiàn)在云游戲和游戲直播的原型。到了 2016 年,以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)技術(shù)為整個圖像處理和計算機(jī)視覺領(lǐng)域帶來革命,NVIDIA 也順勢推出了用于模型推理的 TensorRT,加速深度學(xué)習(xí)圖像處理。2019 年,為了配合深度學(xué)習(xí)的發(fā)展,NVIDIA 發(fā)布了 nvJPEG,使得 GPU 可以進(jìn)行圖片編解碼。2022 年,NVIDIA 和字節(jié)跳動聯(lián)合開源了 CV-CUDA,把加速進(jìn)一步推進(jìn)到前后處理。

wKgaomULIY6ALtoTAACciOLcXDc870.jpg

圖 1. GPU 加速圖像處理發(fā)展歷程

但是從圖像處理到視頻內(nèi)容生成,并非一蹴而就。

理想情況下,我們以 ControlNet 為例,它可以配合 Stable Diffusion 進(jìn)行更精細(xì)的文生圖。如果單純向 Stable Diffusion 提供 cute dog 作為 prompt,Stable Diffusion 會生成形態(tài)各異的小狗。但是如果用戶想要某一個特定姿勢的小狗圖片,就需要用更加精細(xì)的方式控制生成過程。ControlNet 就可以做到這一點。以下圖為例,使用 Canny edge detector 生成輸入圖片的輪廓圖,檢測出的輪廓會和 prompt 一起被輸入 ControlNet 和 Stable Diffusion,即可生成姿勢樣貌相同,但其他細(xì)節(jié)不同的可愛小狗了。實際上,在其他場景下我們也可以將 Canny edge detector 替換成其他的傳統(tǒng)圖像處理或者 AI 算法,比如使用 pose detector 提取人體姿勢。類似的技術(shù)還可用于文生圖、圖生圖、image inpainting 等。

wKgaomUO1eOAWPhdAAFy4JCafos095.png

圖 2. ControlNet + Stable Diffusion

部署這樣一個業(yè)務(wù)具體涉及到哪些模塊和環(huán)節(jié)呢?首先,需要圖片和視頻的編解碼,模型的推理(ControlNet/Stable Diffusion),還有前后處理(Canny edge detector)。GPU 有編解碼器,可以運行 TensorRT 和 CV-CUDA,能夠?qū)⑦@些模塊一一加速。理想情況下,開發(fā)者應(yīng)當(dāng)充分利用 GPU 各種的硬件單元,減少 GPU 和 CPU 之間的拷貝,讓視頻和圖片存留在 GPU;如果涉及跨界點通信,如將處理前后的視頻在網(wǎng)絡(luò)和 GPU 之間傳輸,還需要結(jié)合 GPU Direct RDMA,簡化通信鏈路,大幅降低延遲、提升吞吐。并且開發(fā)過程遵循阿姆達(dá)爾定律(Amdahl's law),將盡可能多的環(huán)節(jié)加速,整體的性能才能最優(yōu)。

但實際上,火山引擎視頻團(tuán)隊遇到了不同模塊之間通信不暢,整體性能不高等諸多問題。本質(zhì)上是因為視頻處理變得越來越復(fù)雜,環(huán)節(jié)越來越多。2000 年 FFmpeg 剛出現(xiàn)的時候,需要面對的編解碼需求是非常簡單的,單機(jī)、個人用戶、簡單處理、容錯要求低、用戶耐心強(qiáng)。但是用戶對于視頻處理的要求已經(jīng)今非昔比,算法和應(yīng)用的復(fù)雜度越來越高,用戶體驗要求也越來越高。以前用戶在電腦前長時間等待編解碼完成的耐心,已經(jīng)被短視頻的秒級延遲,甚至 VR/AR、云游戲這樣的毫秒級延遲所取代。視頻處理涉及的技術(shù)棧也越來越多,包括編解碼、圖像處理、深度學(xué)習(xí)甚至圖像渲染。

NVIDIA 加速火山引擎為視頻云

提供更理想的處理框架:BMF

面對這些挑戰(zhàn),NVIDIA 和火山引擎緊密合作開發(fā)了 BMF,旨在幫助企業(yè)和開發(fā)者將各類視頻的原子能力與方案做到優(yōu)勢互補(bǔ)、協(xié)同工作和快速落地。多媒體處理框架 BMF 的整體架構(gòu)分為應(yīng)用層、框架層、模塊層和異構(gòu)層,共 4 個部分:

  1. 應(yīng)用層:即頂層,為用戶提供多語言的 API,包括 Python、Go、C++,方便用戶根據(jù)不同的項目需求進(jìn)行開發(fā)集成。

  2. 框架層:即中間層,包括框架對 graph / pipeline 的調(diào)度、跨數(shù)據(jù)類型跨設(shè)備的數(shù)據(jù)流轉(zhuǎn) ackend、以及常用的跨設(shè)備 reformat、color space conversion、tensor 算子等 SDK。

  3. 模塊層:包含了具備各種原子能力的模塊,提供多種語言的模塊開發(fā)機(jī)制,用戶可根據(jù)自身需要將算法/處理實現(xiàn)為 Python、Go、C++ 語言的任意一種。

  4. 異構(gòu)層:負(fù)責(zé)提供高效的視頻處理算力,包括火山引擎自研的視頻編解碼芯片 ASIC 。

wKgaomULIY6AN0b4AAG4wQdQyPo493.jpg

圖 3. BMF 架構(gòu)圖(綠色高亮表示支持 GPU 加速)

火山引擎通過與 NVIDIA 團(tuán)隊深入合作,針對 GPU 相關(guān)的框架層能力、處理能力進(jìn)行了深度優(yōu)化,從框架層和模塊層對 BMF 都進(jìn)行了深入改造,針對各種場景進(jìn)行了開發(fā)和測試,并且貢獻(xiàn)了多種應(yīng)用層示例。BMF 提供了豐富的 GPU 即用模塊,低門檻的擴(kuò)展方式,多語言接口以及各類主流框架 SDK 的簡單接入,方便用戶快速打造高效的全 GPU 視頻處理流水線,有效解決前文所述的開發(fā)效率低,鏈路缺乏整體優(yōu)化的問題。這一系列的工作,使得 GPU 能夠充分發(fā)揮其強(qiáng)大的并行計算能力,應(yīng)用于各類視頻 AI 場景。

比如在大型活動直播、電商直播間等場景中,通過“極致超清”技術(shù),能夠有效提升畫質(zhì)體驗;針對不同損傷情況的經(jīng)典影片,通過“AI 修復(fù)”技術(shù),能夠?qū)p傷后的影片進(jìn)行全面的畫質(zhì)提升;在 VR/AR 等復(fù)雜圖像場景中,通過“ VR 360° 全景圖像技術(shù)”幫助圖像實現(xiàn)更加高清的效果。

火山引擎總裁譚待表示:在營銷、空間、商業(yè)和知識的交互體驗都在發(fā)生變化的視頻化時代,視頻云技術(shù)因其從視頻生產(chǎn),處理、傳輸至消費的全鏈路技術(shù)能力被賦予了重要使命。隨著 AIGC、XR 等技術(shù)的興起,新技術(shù)與視頻云的融合將帶來更多創(chuàng)新和價值。

字節(jié)跳動視頻架構(gòu)負(fù)責(zé)人、火山引擎視頻云架構(gòu)技術(shù)總監(jiān)王悅表示:“BMF 框架是基于抖音多年實踐打磨出來的,火山引擎又?jǐn)y手 NVIDIA 針對 GPU 相關(guān)能力進(jìn)行了深度優(yōu)化,使其能夠發(fā)揮更強(qiáng)大的并行計算能力?!?/em>

目前,BMF 已經(jīng)全面開源,包含 BMF 框架層整體開源、9 個開箱即用案例、20+ API 調(diào)用范例,旨在幫助開發(fā)者低成本地構(gòu)建視頻應(yīng)用。

歡迎訪問BMF Githubhttps://github.com/BabitMF/bmf)頁面,了解更多信息。

數(shù)據(jù)來源:

[1] 資料來源于 QuestMobile 研究院《2023 內(nèi)容視頻化與商業(yè)化洞察報告》:https://www.questmobile.com.cn/research/report/1678658723797635073 。[2] 資料來源于艾瑞咨詢《2022 年中國視頻云服務(wù)行業(yè)研究報告》:https://report.iresearch.cn/report/202207/4038.shtml。 GTC 2024 將于 2024 年 3 月 18 至 21 日在美國加州圣何塞會議中心舉行,線上大會也將同期開放。點擊“閱讀原文”掃描下方海報二維碼,關(guān)注更多會議及活動信息。

wKgaomULIY-AfE8NAAFtccdApf0231.jpg


原文標(biāo)題:NVIDIA 助力火山引擎開源多媒體處理框架 BMF,將抖音、西瓜視頻的先進(jìn)技術(shù)推向千行百業(yè)

文章出處:【微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3637

    瀏覽量

    89840

原文標(biāo)題:NVIDIA 助力火山引擎開源多媒體處理框架 BMF,將抖音、西瓜視頻的先進(jìn)技術(shù)推向千行百業(yè)

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    千行百業(yè)用AI大模型,為什么火山引擎是聚處?

    筑一座AI“良港”,匯萬業(yè)智能潮涌
    的頭像 發(fā)表于 09-06 10:58 ?2175次閱讀
    <b class='flag-5'>千行</b><b class='flag-5'>百業(yè)</b>用AI大模型,為什么<b class='flag-5'>火山</b><b class='flag-5'>引擎</b>是聚處?

    AI時代創(chuàng)新潮涌,從探路到引路,螢石云引領(lǐng)千行百業(yè)創(chuàng)新

    步入AI新時代,AI、云計算、大數(shù)據(jù)等技術(shù)迅速迭代,并日益融入經(jīng)濟(jì)社會發(fā)展各領(lǐng)域全過程,數(shù)字經(jīng)濟(jì)成為推動千行百業(yè)轉(zhuǎn)型升級的重要驅(qū)動力量。今年的政府工作報告提出,深入推進(jìn)數(shù)字經(jīng)濟(jì)創(chuàng)新發(fā)展。積極推進(jìn)數(shù)字
    的頭像 發(fā)表于 07-01 15:17 ?298次閱讀
    AI時代創(chuàng)新潮涌,從探路到引路,螢石云引領(lǐng)<b class='flag-5'>千行</b><b class='flag-5'>百業(yè)</b>創(chuàng)新

    5G+北斗高精度定位終端技術(shù),賦能千行百業(yè)應(yīng)用

    5G+北斗高精度定位終端技術(shù)的融合,正以前所未有的精準(zhǔn)度和實時性,為千行百業(yè)帶來革命性的變革。從智慧城市的精細(xì)化管理,到智能交通的實時調(diào)度,再到精準(zhǔn)農(nóng)業(yè)的播種與收割,這一技術(shù)正不斷拓寬
    的頭像 發(fā)表于 06-18 14:42 ?305次閱讀
    5G+北斗高精度定位終端<b class='flag-5'>技術(shù)</b>,賦能<b class='flag-5'>千行</b><b class='flag-5'>百業(yè)</b>應(yīng)用

    愛芯通元NPU完成Llama 3和Phi-3大模型適配,推動AI大模型技術(shù)普及

    AI大模型技術(shù)的持續(xù)進(jìn)步正在推動千行百業(yè)智能化升級。
    的頭像 發(fā)表于 04-26 16:57 ?708次閱讀
    愛芯通元NPU完成Llama 3和Phi-3大模型適配,推動AI大模型<b class='flag-5'>技術(shù)</b>普及

    攜手打造開放AI生態(tài),英特爾助力千行百業(yè)數(shù)智化變革

    還分享了在互聯(lián)網(wǎng)、教育、制造及醫(yī)療等垂直領(lǐng)域的諸多應(yīng)用落地,深度展示其攜手生態(tài)伙伴推動千行百業(yè)數(shù)智化變革的進(jìn)程。 構(gòu)建高效解決方案,釋放企業(yè)AI潛力 2023年被業(yè)界視為生成式AI的元年,隨著大模型和生成式AI的高速發(fā)展,企業(yè)正迎來AI發(fā)展轉(zhuǎn)折點。預(yù)
    的頭像 發(fā)表于 04-19 16:23 ?398次閱讀
    攜手打造開放AI生態(tài),英特爾<b class='flag-5'>助力</b><b class='flag-5'>千行</b><b class='flag-5'>百業(yè)</b>數(shù)智化變革

    云+大模型的2024格局

    云廠商要如何經(jīng)營好AI時代的“火鍋店”,助力千行百業(yè)智能化?
    的頭像 發(fā)表于 02-27 09:52 ?2119次閱讀
    云+大模型的2024格局

    上海站報名啟動! 2023年開源產(chǎn)業(yè)生態(tài)大會OpenHarmony生態(tài)分論壇

    終端操作系統(tǒng)根社區(qū)和萬物互聯(lián)的底座。 OpenHarmony生態(tài)分論壇旨在倡議更多生態(tài)伙伴加入OpenHarmony社區(qū),攜手伙伴賦能產(chǎn)業(yè)升級,助力萬物互聯(lián)的大業(yè)和千行百業(yè)的數(shù)字化轉(zhuǎn)型。我們誠摯邀請
    發(fā)表于 11-24 14:55

    華為ICT創(chuàng)新助力歐洲釋放數(shù)字潛能

    【法國,巴黎,2023年11月16日】在2023年華為全聯(lián)接大會巴黎站的第二天,華為表示其業(yè)界領(lǐng)先的ICT創(chuàng)新技術(shù)助力歐洲千行百業(yè)加速實現(xiàn)
    的頭像 發(fā)表于 11-17 20:55 ?467次閱讀

    OpenHarmony攜千行百業(yè)創(chuàng)新成果亮相中國電信2023年數(shù)字科技生態(tài)大會

    。OpenAtom OpenHarmony(以下簡稱“OpenHarmony”)重磅亮相2023年數(shù)字科技生態(tài)展,以場景化、交互化的方式集中展示了賦能千行百業(yè)數(shù)字化轉(zhuǎn)型的豐碩成果,包括金融、教育、交通等眾多
    的頭像 發(fā)表于 11-14 15:10 ?406次閱讀

    華秋聯(lián)手伙伴共創(chuàng)硬件生態(tài),助力OH創(chuàng)新使能千行百業(yè)

    、量產(chǎn)交付,支持OpenHarmony硬件產(chǎn)品從0到1快速研發(fā),從1到N商業(yè)化落地,助力OpenHarmony繁榮發(fā)展,使能千行百業(yè),構(gòu)建萬物互聯(lián)的智能世界。 左:華秋副總經(jīng)理曾海銀;右
    發(fā)表于 11-06 17:21

    華秋聯(lián)手伙伴共創(chuàng)硬件生態(tài),助力OpenHarmony創(chuàng)新使能千行百業(yè)

    、量產(chǎn)交付,支持OpenHarmony硬件產(chǎn)品從0到1快速研發(fā),從1到N商業(yè)化落地,助力OpenHarmony繁榮發(fā)展,使能千行百業(yè),構(gòu)建萬物互聯(lián)的智能世界。 左:華秋副總經(jīng)理曾海銀;右
    發(fā)表于 11-06 13:53

    中海達(dá)為千行百業(yè)數(shù)字化轉(zhuǎn)型升級貢獻(xiàn)北斗力量

    。作為中國移動“朋友圈”戰(zhàn)略合作企業(yè)及“北斗時空子鏈”鏈環(huán)單位,中海達(dá)受邀亮相大會,為中國移動全球合作伙伴參展商呈現(xiàn)“5G+北斗”賦能千行百業(yè)。 三大展區(qū),“5G+北斗”融合成果盡顯 在大會現(xiàn)場,中海達(dá)設(shè)置了能源安全、應(yīng)急管理、智慧城
    的頭像 發(fā)表于 10-13 10:04 ?658次閱讀

    2023 NVIDIA 初創(chuàng)企業(yè)展示北京站(火山引擎專場)圓滿收官!

    ,聚焦大語言模型、生成式 AI、元宇宙等領(lǐng)域,圍繞 NVIDIA 技術(shù)專家賦能、項目路演、需求交流、福利市場和投融資對接等展開。 活動現(xiàn)場,NVIDIA 攜手火山
    的頭像 發(fā)表于 09-26 18:35 ?719次閱讀
    2023 <b class='flag-5'>NVIDIA</b> 初創(chuàng)企業(yè)展示北京站(<b class='flag-5'>火山</b><b class='flag-5'>引擎</b>專場)圓滿收官!

    華為云:共建繁榮“態(tài)”,讓AI重塑千行業(yè)

    云生態(tài)最新進(jìn)展和成果, 并宣布華為云以 昇騰 AI云服務(wù)為算力底座,以盤古大模型聯(lián)合創(chuàng)新為基礎(chǔ),以模型社區(qū)和全面升級的云學(xué)堂為雙引擎,攜手伙伴、開發(fā)者合作同飛,共建繁榮“態(tài)”,讓AI重塑
    的頭像 發(fā)表于 09-22 23:00 ?629次閱讀

    【米爾-芯馳D9開發(fā)板- 國產(chǎn)平臺試用】 基于GStreamer 測試板載的多媒體功能

    GStreamer是一個功能強(qiáng)大的多媒體框架,用于創(chuàng)建、處理和播放音頻和視頻流。它是一個開源的、跨平臺的
    發(fā)表于 09-22 15:33