案例介紹
火山引擎通過與 NVIDIA 團(tuán)隊合作開發(fā)了 BMF(Babit Media Framework,多媒體處理框架),提供了豐富的 GPU 即用模塊,低門檻的擴(kuò)展方式,多語言接口以及各類主流框架 SDK 的簡單接入,方便用戶快速打造高效的全 GPU 視頻處理流水線,有效解決開發(fā)效率低,鏈路缺乏整體優(yōu)化的問題,使得 GPU 能夠充分發(fā)揮其強(qiáng)大的并行計算能力,應(yīng)用于各類視頻 AI 場景。視頻成為企業(yè)數(shù)字化增長新動力
在當(dāng)今人們的生活中,視頻化場景已經(jīng)滲透到了方方面面。QuestMobile 數(shù)據(jù)顯示,截止到 2023 年 5 月,中國移動視頻行業(yè)整體用戶規(guī)模達(dá)到 10.76 億,月人均時長達(dá)到 64.2 小時[1]。在艾瑞研究院報告的數(shù)據(jù)中也顯示,目前中國用戶量排名前 100 的 APP 中,有 69% 搭載了視頻類功能,65% 搭載了點播功能,51% 有直播類功能,32% 有實時音視頻類功能[2]。視頻應(yīng)用正在從內(nèi)容、娛樂行業(yè)拓展至泛互聯(lián)網(wǎng)和大量傳統(tǒng)行業(yè)。
2016 年抖音上線,同年全民直播和短視頻時代正式開啟。2018 年,業(yè)界已經(jīng)廣泛地使用 AI 進(jìn)行內(nèi)容理解,視頻增強(qiáng)。2019 年則是云游戲的元年,這一年,低延遲成為業(yè)務(wù)關(guān)注焦點。進(jìn)入 2021 年,市面上已經(jīng)有大量的基于 AI 的視頻增強(qiáng),特效貼紙,AI 視頻編輯的產(chǎn)品出現(xiàn)。如今,以 Stable Diffusion 和大語言模型(LLM) 掀起的生成式 AI 浪潮,正席卷整個行業(yè)進(jìn)入另一個全新時代。GPU 不斷增強(qiáng)的計算能力和視頻圖像處理能力,正好和業(yè)界的發(fā)展完全契合。與圖文內(nèi)容相比,企業(yè)自建視頻應(yīng)用對技術(shù)積累和資金成本要求較高。為此,火山引擎與 NVIDIA 團(tuán)隊合作,開源了 BMF(Babit Media Framework)多媒體處理框架。該框架是視頻化部署的“底座”,可為企業(yè)提供從視頻生產(chǎn)到消費的全鏈路場景支持,并能協(xié)助幫助開發(fā)者低成本構(gòu)建視頻應(yīng)用。
從 GPU 加速圖像處理,
到 GPU 上部署生成式 AI 業(yè)務(wù)
NVIDIA 自 1999 年發(fā)明 GPU 驅(qū)動了 PC 游戲市場的增長,并重新定義了現(xiàn)代計算機(jī)圖形,開啟了現(xiàn)代 AI 時代。2012 年,NVIDIA 在 Kepler 架構(gòu)上添加了硬件視頻編解碼器,能更好地支持視頻串流和直播,也就是現(xiàn)在云游戲和游戲直播的原型。到了 2016 年,以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)技術(shù)為整個圖像處理和計算機(jī)視覺領(lǐng)域帶來革命,NVIDIA 也順勢推出了用于模型推理的 TensorRT,加速深度學(xué)習(xí)圖像處理。2019 年,為了配合深度學(xué)習(xí)的發(fā)展,NVIDIA 發(fā)布了 nvJPEG,使得 GPU 可以進(jìn)行圖片編解碼。2022 年,NVIDIA 和字節(jié)跳動聯(lián)合開源了 CV-CUDA,把加速進(jìn)一步推進(jìn)到前后處理。
圖 1. GPU 加速圖像處理發(fā)展歷程
但是從圖像處理到視頻內(nèi)容生成,并非一蹴而就。
理想情況下,我們以 ControlNet 為例,它可以配合 Stable Diffusion 進(jìn)行更精細(xì)的文生圖。如果單純向 Stable Diffusion 提供 cute dog 作為 prompt,Stable Diffusion 會生成形態(tài)各異的小狗。但是如果用戶想要某一個特定姿勢的小狗圖片,就需要用更加精細(xì)的方式控制生成過程。ControlNet 就可以做到這一點。以下圖為例,使用 Canny edge detector 生成輸入圖片的輪廓圖,檢測出的輪廓會和 prompt 一起被輸入 ControlNet 和 Stable Diffusion,即可生成姿勢樣貌相同,但其他細(xì)節(jié)不同的可愛小狗了。實際上,在其他場景下我們也可以將 Canny edge detector 替換成其他的傳統(tǒng)圖像處理或者 AI 算法,比如使用 pose detector 提取人體姿勢。類似的技術(shù)還可用于文生圖、圖生圖、image inpainting 等。
圖 2. ControlNet + Stable Diffusion
部署這樣一個業(yè)務(wù)具體涉及到哪些模塊和環(huán)節(jié)呢?首先,需要圖片和視頻的編解碼,模型的推理(ControlNet/Stable Diffusion),還有前后處理(Canny edge detector)。GPU 有編解碼器,可以運行 TensorRT 和 CV-CUDA,能夠?qū)⑦@些模塊一一加速。理想情況下,開發(fā)者應(yīng)當(dāng)充分利用 GPU 各種的硬件單元,減少 GPU 和 CPU 之間的拷貝,讓視頻和圖片存留在 GPU;如果涉及跨界點通信,如將處理前后的視頻在網(wǎng)絡(luò)和 GPU 之間傳輸,還需要結(jié)合 GPU Direct RDMA,簡化通信鏈路,大幅降低延遲、提升吞吐。并且開發(fā)過程遵循阿姆達(dá)爾定律(Amdahl's law),將盡可能多的環(huán)節(jié)加速,整體的性能才能最優(yōu)。
但實際上,火山引擎視頻團(tuán)隊遇到了不同模塊之間通信不暢,整體性能不高等諸多問題。本質(zhì)上是因為視頻處理變得越來越復(fù)雜,環(huán)節(jié)越來越多。2000 年 FFmpeg 剛出現(xiàn)的時候,需要面對的編解碼需求是非常簡單的,單機(jī)、個人用戶、簡單處理、容錯要求低、用戶耐心強(qiáng)。但是用戶對于視頻處理的要求已經(jīng)今非昔比,算法和應(yīng)用的復(fù)雜度越來越高,用戶體驗要求也越來越高。以前用戶在電腦前長時間等待編解碼完成的耐心,已經(jīng)被短視頻的秒級延遲,甚至 VR/AR、云游戲這樣的毫秒級延遲所取代。視頻處理涉及的技術(shù)棧也越來越多,包括編解碼、圖像處理、深度學(xué)習(xí)甚至圖像渲染。
NVIDIA 加速火山引擎為視頻云
提供更理想的處理框架:BMF
面對這些挑戰(zhàn),NVIDIA 和火山引擎緊密合作開發(fā)了 BMF,旨在幫助企業(yè)和開發(fā)者將各類視頻的原子能力與方案做到優(yōu)勢互補(bǔ)、協(xié)同工作和快速落地。多媒體處理框架 BMF 的整體架構(gòu)分為應(yīng)用層、框架層、模塊層和異構(gòu)層,共 4 個部分:
-
應(yīng)用層:即頂層,為用戶提供多語言的 API,包括 Python、Go、C++,方便用戶根據(jù)不同的項目需求進(jìn)行開發(fā)集成。
-
框架層:即中間層,包括框架對 graph / pipeline 的調(diào)度、跨數(shù)據(jù)類型跨設(shè)備的數(shù)據(jù)流轉(zhuǎn) ackend、以及常用的跨設(shè)備 reformat、color space conversion、tensor 算子等 SDK。
-
模塊層:包含了具備各種原子能力的模塊,提供多種語言的模塊開發(fā)機(jī)制,用戶可根據(jù)自身需要將算法/處理實現(xiàn)為 Python、Go、C++ 語言的任意一種。
圖 3. BMF 架構(gòu)圖(綠色高亮表示支持 GPU 加速)
火山引擎通過與 NVIDIA 團(tuán)隊深入合作,針對 GPU 相關(guān)的框架層能力、處理能力進(jìn)行了深度優(yōu)化,從框架層和模塊層對 BMF 都進(jìn)行了深入改造,針對各種場景進(jìn)行了開發(fā)和測試,并且貢獻(xiàn)了多種應(yīng)用層示例。BMF 提供了豐富的 GPU 即用模塊,低門檻的擴(kuò)展方式,多語言接口以及各類主流框架 SDK 的簡單接入,方便用戶快速打造高效的全 GPU 視頻處理流水線,有效解決前文所述的開發(fā)效率低,鏈路缺乏整體優(yōu)化的問題。這一系列的工作,使得 GPU 能夠充分發(fā)揮其強(qiáng)大的并行計算能力,應(yīng)用于各類視頻 AI 場景。
比如在大型活動直播、電商直播間等場景中,通過“極致超清”技術(shù),能夠有效提升畫質(zhì)體驗;針對不同損傷情況的經(jīng)典影片,通過“AI 修復(fù)”技術(shù),能夠?qū)p傷后的影片進(jìn)行全面的畫質(zhì)提升;在 VR/AR 等復(fù)雜圖像場景中,通過“ VR 360° 全景圖像技術(shù)”幫助圖像實現(xiàn)更加高清的效果。
火山引擎總裁譚待表示:“在營銷、空間、商業(yè)和知識的交互體驗都在發(fā)生變化的視頻化時代,視頻云技術(shù)因其從視頻生產(chǎn),處理、傳輸至消費的全鏈路技術(shù)能力被賦予了重要使命。隨著 AIGC、XR 等技術(shù)的興起,新技術(shù)與視頻云的融合將帶來更多創(chuàng)新和價值。”
字節(jié)跳動視頻架構(gòu)負(fù)責(zé)人、火山引擎視頻云架構(gòu)技術(shù)總監(jiān)王悅表示:“BMF 框架是基于抖音多年實踐打磨出來的,火山引擎又?jǐn)y手 NVIDIA 針對 GPU 相關(guān)能力進(jìn)行了深度優(yōu)化,使其能夠發(fā)揮更強(qiáng)大的并行計算能力?!?/em>
目前,BMF 已經(jīng)全面開源,包含 BMF 框架層整體開源、9 個開箱即用案例、20+ API 調(diào)用范例,旨在幫助開發(fā)者低成本地構(gòu)建視頻應(yīng)用。
歡迎訪問BMF Github(https://github.com/BabitMF/bmf)頁面,了解更多信息。
數(shù)據(jù)來源:
[1] 資料來源于 QuestMobile 研究院《2023 內(nèi)容視頻化與商業(yè)化洞察報告》:https://www.questmobile.com.cn/research/report/1678658723797635073 。[2] 資料來源于艾瑞咨詢《2022 年中國視頻云服務(wù)行業(yè)研究報告》:https://report.iresearch.cn/report/202207/4038.shtml。 GTC 2024 將于 2024 年 3 月 18 至 21 日在美國加州圣何塞會議中心舉行,線上大會也將同期開放。點擊“閱讀原文”或掃描下方海報二維碼,關(guān)注更多會議及活動信息。
原文標(biāo)題:NVIDIA 助力火山引擎開源多媒體處理框架 BMF,將抖音、西瓜視頻的先進(jìn)技術(shù)推向千行百業(yè)
文章出處:【微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3637瀏覽量
89840
原文標(biāo)題:NVIDIA 助力火山引擎開源多媒體處理框架 BMF,將抖音、西瓜視頻的先進(jìn)技術(shù)推向千行百業(yè)
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論