編者按:相較于前兩年,2023年音視頻行業(yè)的使用量增長緩慢,整個(gè)音視頻行業(yè)遇到瓶頸。音視頻的行業(yè)從業(yè)者面臨著相互競(jìng)爭、不得不“卷”的狀態(tài)。我們需要進(jìn)行怎樣的創(chuàng)新,才能從這種“卷”的狀態(tài)中脫離出來?LiveVideoStack 2023上海站邀請(qǐng)到了PPIO邊緣云的創(chuàng)始人王聞?dòng)?,和我們分享了他針?duì)這一問題進(jìn)行的思考。本次分享包括近年音視頻行業(yè)的分析、國外4款AIGC應(yīng)用工具介紹、最新論文情況介紹,以及王聞?dòng)顚?duì)行業(yè)的看法和展望,以期為音視頻從業(yè)者提供更具廣度的行業(yè)視角。
文/王聞?dòng)?/strong>
大家好,今天有幸再次來到LVS的講臺(tái)給大家做分享。今天主要分享國外比較出名的音視頻工具及理論依據(jù),以及一些視頻AIGC相關(guān)最新論文的情況,還有我對(duì)行業(yè)情況的思考。
我是王聞?dòng)睿F(xiàn)任PPIO邊緣云聯(lián)合創(chuàng)始人和CTO。從業(yè)音視頻行業(yè)多年、之前PPTV網(wǎng)絡(luò)電視創(chuàng)業(yè)團(tuán)隊(duì)成員,也是架構(gòu)師?,F(xiàn)在在做PPIO邊緣云,是以提供算力為核心的服務(wù),主要服務(wù)音視頻傳輸,轉(zhuǎn)碼,云端渲染和AIGC等業(yè)務(wù)。下面這張圖片是我用AIGC做的照片。
-01-
發(fā)生了什么
首先,2023年發(fā)生了什么事?
這張圖摘自《2023中國網(wǎng)絡(luò)視聽發(fā)展研究報(bào)告》。可以明顯看到,整個(gè)音視頻行業(yè)的使用量已經(jīng)達(dá)到了增長緩慢的極限。比起22年底,21年底用戶人數(shù)只增加了一個(gè)百分點(diǎn)。22年產(chǎn)業(yè)的市場(chǎng)規(guī)模的增長速度也只有4.4個(gè)百分點(diǎn)。整個(gè)音視頻行業(yè)遇到了瓶頸,開始進(jìn)入一個(gè)很緩慢的時(shí)代。
這是我們音視頻行業(yè)的從業(yè)者面臨著“卷”的根源,大家都在相互競(jìng)爭。我們?cè)趺礃觿?chuàng)新才能從這種“卷”中出來?
過去一年,世界發(fā)生了什么?請(qǐng)看下圖,這是ChatGPT,它達(dá)到一個(gè)億的用戶只用了兩天的時(shí)間,超過了歷史上所有的APP,甚至包括Tiktok,Instagram,Snapchat,F(xiàn)acebook等。
再看下圖,Stable Diffusion成為歷史上增速最快的項(xiàng)目。和它對(duì)標(biāo)的項(xiàng)目是比特幣、以太坊、kafka、spark等知名項(xiàng)目。而且,Stable Diffusion基本上是垂直的線,一天時(shí)間就達(dá)到了幾萬關(guān)注。
這就是這次的十倍變化要素,AI的魅力。
這里回溯一下AI的發(fā)展過程:①在20世紀(jì)50年代,就有了基于規(guī)則的少量數(shù)據(jù)處理;后來80年代,基于統(tǒng)計(jì)學(xué)發(fā)展出了機(jī)器學(xué)習(xí);②21世紀(jì)后,伴隨顯卡的性能提升,神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)逐步得到應(yīng)用;③特別是2014-2017年,神經(jīng)網(wǎng)絡(luò)得到一系列的發(fā)展,包括CNN卷積神經(jīng)網(wǎng)絡(luò)RNN、循環(huán)神經(jīng)網(wǎng)絡(luò)、VAE、GAN生成對(duì)抗網(wǎng)絡(luò)等,AI在很多領(lǐng)域有了落地的應(yīng)用。④直到2017年,Transfarmer的偉大發(fā)明,帶領(lǐng)我們進(jìn)入了今天大語言模型的時(shí)代。⑤后來在2020年,Diffusion的發(fā)明,非常驚艷的生成圖片效果,點(diǎn)燃了AIGC繪畫的的浪潮。
那么視頻在什么時(shí)代呢?我的看法是視頻可能離走過這個(gè)鴻溝還有一定距離,這是在我分析過國外的APP后得出的想法。
接下來我給大家分享4款A(yù)IGC的應(yīng)用。
-02-
音視頻應(yīng)用AIGC在萌芽
第一款應(yīng)用是D-ID,它的核心是實(shí)現(xiàn)面部的動(dòng)畫。
這是對(duì)他們公司做的分析,包括融資和創(chuàng)始人的經(jīng)歷。國外音視頻的創(chuàng)業(yè)者并不都是名校畢業(yè)生。中國人只要再努力一下,是很容易超越國外的產(chǎn)品的。
關(guān)于技術(shù)的實(shí)現(xiàn),在他們CEO的一篇演講中有提到如何將聲音和嘴型進(jìn)行對(duì)齊的內(nèi)容,還提到了一種音頻驅(qū)動(dòng)人臉的全神經(jīng)輻射的技術(shù)。
它的本質(zhì)是把一個(gè)圖像從2D生成3D的建模過程,但是文章中沒有提到具體是怎么做的,我們根據(jù)AD-NeRF進(jìn)行相關(guān)的假設(shè)。
AD-NeRF這篇資料講述了音頻驅(qū)動(dòng)人臉的技術(shù)原理。AD-NeRF是一種由語音信號(hào)直接生成說話人視頻的算法,僅需要目標(biāo)人物幾分鐘的說話視頻,該方法即可實(shí)現(xiàn)對(duì)該人物超級(jí)逼真的形象復(fù)刻和語音驅(qū)動(dòng)。首先利用人臉解析方法將整個(gè)訓(xùn)練畫面分為三部分,分別是背景、頭部和軀干。其次,通過頭部的前景和背景的后景去訓(xùn)練頭部部分模型。然后,通過頭部部分隱函數(shù)生產(chǎn)的圖像和背景作為后景,再把軀干作為前景,去訓(xùn)練軀干部分的模型。
同時(shí),聲音部分也作為AD-NeRF模型的一個(gè)新的特征輸入,通過DeepSpeech的方法,將聲音轉(zhuǎn)化成29維的特征數(shù)據(jù),輸入到AD-NeRF模型當(dāng)中。
在生成圖像的時(shí)候,通過對(duì)頭部模型和軀干模型輸入相同的特征,其中包括音頻特征和姿態(tài)特征,來完成AD-NeRF模型的推理。在最終立體渲染圖像的過程當(dāng)中,首先采用頭部模型積累像素的采樣密度和RGB值,把渲染好的頭部圖像貼到靜態(tài)背景上,然后軀干模型通過預(yù)測(cè)軀干區(qū)域的前景像素來填充缺失的軀干部分。通過以上的方法,AD-NeRF實(shí)現(xiàn)了音頻驅(qū)動(dòng)人臉當(dāng)中頭部與上身運(yùn)動(dòng)一致,并讓產(chǎn)生動(dòng)作與表情非常自然。
第二個(gè)分享的是Wonder Studio AI。它的兩位創(chuàng)始人不是計(jì)算機(jī)工程師,一個(gè)是藝術(shù)家,一個(gè)是《頭號(hào)玩家》的演員。它是在電影中或視頻中,把一個(gè)真實(shí)的人換成另一個(gè)真實(shí)的人或數(shù)字人。
這個(gè)項(xiàng)目的融資不多,但做的東西非常驚艷。兩位創(chuàng)始人都是電影制片人,還有一些顧問共同實(shí)現(xiàn)這個(gè)體系。有兩篇文章提到他們項(xiàng)目的實(shí)現(xiàn)方法,一篇是他們的官方文章,另一篇是國內(nèi)一位博主對(duì)他們進(jìn)行的分析。
要做到視頻內(nèi)CG角色的實(shí)時(shí)替換,首先利用Opnepose等人體姿態(tài)估計(jì)算法對(duì)人物的3D姿態(tài)進(jìn)行捕捉,并將其與建模好的CG模型進(jìn)行綁定。其次,由于選定人物與CG模型在視頻中所占的空間環(huán)境不同,因此需要對(duì)選定人物的輪廓進(jìn)行精準(zhǔn)識(shí)別,并經(jīng)過一定的處理讓選定人物仿佛在原視頻中沒有出現(xiàn)過一般,這里需要采用人物擦除算法。
目前,由清華團(tuán)隊(duì)提出的Inpaint Anything能夠輕松實(shí)現(xiàn)這一需求。該算法基于Meta開源語義分割算法Segment Anything Model(SAM)對(duì)目標(biāo)人物輪廓進(jìn)行精準(zhǔn)識(shí)別,生成Mask,再利用圖像生成算法LaMa或stable Diffusion能夠?qū)崿F(xiàn)對(duì)Mask的圖像內(nèi)容進(jìn)行自定義填充。 但Wonder Studio官方?jīng)]有提到他們的方案具體是怎么實(shí)現(xiàn)的,以上是我就這個(gè)技術(shù)本身做的想法。
第三個(gè)工具是AIGC的官方應(yīng)用,叫做Runway,它的定位是新一代的藝術(shù),也是一個(gè)2c的產(chǎn)品。它提供了一個(gè)平臺(tái),可以對(duì)視頻進(jìn)行風(fēng)格編輯,還有一系列的工具。它分為兩代:Gen1和Gen2。Gen1只能視頻轉(zhuǎn)化成視頻,視頻加上文字最后轉(zhuǎn)化為視頻。
這家公司的融資背景非常深厚,在過去幾年緊跟AIGC的浪潮及爆發(fā)性場(chǎng)景的應(yīng)用。值得注意的是,它的三位創(chuàng)始人員都是藝術(shù)家。而我們國內(nèi)創(chuàng)業(yè)或公司創(chuàng)新的人都是工程師或者學(xué)術(shù)方面的人員。這家公司都是藝術(shù)家創(chuàng)業(yè),可見他們更注重做出來的東西的感受。這也體現(xiàn)了東西方文化上的差異。
已有的研究中表明CLIP的圖像embedding對(duì)圖像內(nèi)容在圖像中的位置和形態(tài)不敏感,而更關(guān)注內(nèi)容本身,因此它是與深度這一結(jié)構(gòu)信息較為“正交”的,使得Gen-1可以將圖像解耦為彼此干擾較小的結(jié)構(gòu)信息和內(nèi)容信息。
Gen-1和Stable Diffusion路徑很像,把中間的豎線去掉,基本上就是Stable Diffusion的架構(gòu)。它把一個(gè)原始的視頻形成畫面,圖像的深度圖作為結(jié)構(gòu)信息、CLIP編碼器的圖像embedding作為內(nèi)容信息,在隱空間進(jìn)行擴(kuò)散模型的訓(xùn)練。生成的時(shí)候也是把輸入的文本通過CLIP方式轉(zhuǎn)化回去,最后再進(jìn)行干預(yù),就能呈現(xiàn)視頻的結(jié)果。不同的是,它還運(yùn)用了圖片的模式轉(zhuǎn)化,即MiDaS,把圖片生成一個(gè)框架,再干預(yù)這個(gè)環(huán)節(jié)。大概的技術(shù)原理是用文本干預(yù)視頻的過程,從而得出最后的效果。
https://arxiv.org/abs/2302.03011這篇論文是他們的官方論文。這個(gè)應(yīng)用思路其實(shí)比較簡單,如果大家要做也不會(huì)很困難。
第四個(gè)工具是Rewind。這個(gè)工具特別厲害,很遺憾的是它只能在蘋果電腦上使用。它把大家日常工作的內(nèi)容全部錄下來,整理后再通過GTP進(jìn)行對(duì)接。這個(gè)工具嚴(yán)格來說不是完整的視頻應(yīng)用,但它是個(gè)類視頻應(yīng)用,我是它的重度用戶??梢酝ㄟ^回拉里面的進(jìn)度條得知自己今天做的任何事,里面的文本也是可以摘出來的。
這個(gè)公司很有意思,Altman投了2輪,種子輪和天使輪,另外還拿到了很多知名的投資。
這個(gè)工具很有創(chuàng)意,它和音視頻技術(shù)關(guān)系不大。核心點(diǎn)是調(diào)用了蘋果的M1和M2芯片的接口,對(duì)顯示的內(nèi)容做OCR,再把OCR后的內(nèi)容用文本方式存起來,
另外,官方宣稱它用了H.264技術(shù)進(jìn)行壓縮,來同時(shí)把視頻錄制了下來。(但是這里我是持懷疑的,能把視頻大小壓縮到70倍,但我覺得H.264的技術(shù)還有些挑戰(zhàn))
最后,再把OCR的文本通過向量工程的方式和Chatgpt對(duì)接,從而具備了智能能力。當(dāng)你問它(Rewind)你做了什么,它通過向量工程向Chatgpt調(diào)API來完成這一過程,所以它基本可以幫你總結(jié)出你每天都做了什么,你之前遇到了什么問題。它能夠?qū)δ愕娜粘9ぷ鬟M(jìn)行歸類,這是我用這個(gè)工具的原因。
其實(shí)AIGC視頻工具還有很多,我這里講的4個(gè)是比較典型的使用場(chǎng)景。
-03-
視頻生成研究最新趨勢(shì)
另外談?wù)勎覍?duì)視頻生成技術(shù)的學(xué)習(xí)和研究。
生成的本質(zhì)是什么?我認(rèn)為生成的本質(zhì)是高維空間建立映射,不論是文字、圖片,還是視頻、音頻,最終都會(huì)轉(zhuǎn)化為數(shù)學(xué)問題,并在高維空間中建立起映射。而人腦正是因?yàn)槟軌蚪⑵疬@種高維的映射,才能形成一定的智能。
前面也提到的,CLIP是非常關(guān)鍵的技術(shù),是StableDiffusion的子模型,打通了文本和圖像的映射關(guān)系。CLIP的原理是對(duì)文本和圖片分別通過Text Encoder和Image Encoder輸出對(duì)應(yīng)的特征,然后在這些輸出的文字特征和圖片特征上進(jìn)行對(duì)比學(xué)習(xí),再將它進(jìn)行映射。
為了訓(xùn)練CLIP,OpenAI從互聯(lián)網(wǎng)收集了共4個(gè)億的文本-圖像對(duì),論文稱之為WIT(Web Image Text)。WIT質(zhì)量很高,而且清理得非常好,其規(guī)模相當(dāng)于JFT-300M,這也是CLIP如此強(qiáng)大的原因之一。
這是谷歌的一篇論文,講的是視頻的Diffusion Model,它可以理解為是StabDiffusion的變種,它在StableDiffusion的每個(gè)過程中都引入了一個(gè)時(shí)間維度t,以實(shí)現(xiàn)時(shí)間注意力機(jī)制,使得它生成的畫面之間有一定的聯(lián)系。
為了使擴(kuò)散模型適用于視頻生成任務(wù),這篇論文提出了3D UNet,該架構(gòu)使用到了space-only 3D卷積和時(shí)空分離注意力。具體來說,該架構(gòu)將原UNet中的2D卷積替換成了space-only 3D卷積(space-only 3D convolution)。隨后的空間注意塊仍然保留,但只針對(duì)空間維度進(jìn)行注意力操作,也就是把時(shí)間維度flatten為batch維度。在每個(gè)空間注意塊之后,新插入一個(gè)時(shí)間注意塊(temporal attention block),該時(shí)間注意塊在第一個(gè)維度即時(shí)間維度上執(zhí)行注意力,并將空間維度flatten為batch維度。論文在每個(gè)時(shí)間注意力塊中使用相對(duì)位置嵌入(relative position embeddings),以便讓網(wǎng)絡(luò)能夠不依賴具體的視頻幀時(shí)間也能夠區(qū)分視頻幀的順序。這種先進(jìn)行空間注意力,再進(jìn)行時(shí)間注意力的方式,就是時(shí)空分離注意力。
這種時(shí)空分離注意力的UNet可以應(yīng)用在可變序列長度上,這種時(shí)空分離注意力的方式有一個(gè)好處是可以對(duì)視頻和圖片生成進(jìn)行聯(lián)合建模訓(xùn)練。就是說可以在每個(gè)視頻的最后一幀后面添加隨機(jī)的多張圖片,然后通過掩碼的方式來將視頻以及各圖片進(jìn)行隔離,從而讓視頻和圖片生成能夠聯(lián)合訓(xùn)練起來。
但是這個(gè)機(jī)制其實(shí)比較弱,只能生成一些非常簡單的畫面。
近期有兩篇論文值得一提,一個(gè)是Diffusion over Diffusion,這篇論文的定位是關(guān)于生成長視頻的思考。Diffusion over Diffusion主要解決的問題是長視頻之間前后關(guān)聯(lián)的問題。之前的視頻基本都是自回歸的架構(gòu),生成得比較慢,因?yàn)樗谴械摹?/p>
它的特點(diǎn)是什么?它為什么要Diffusion over Diffusion?因?yàn)?strong>它是一種分層結(jié)構(gòu)的擴(kuò)散模型,通過一層層擴(kuò)散生成視頻。
Diffusion over Diffusion的視頻生成過程是一個(gè)“從粗到細(xì)”的視頻生成過程,先通過在全局?jǐn)U散模型(Global Diffusion)中輸入文字來生成整個(gè)時(shí)間范圍內(nèi)的關(guān)鍵幀,然后在局部擴(kuò)散模型(Local Diffusion)中輸入文字和上一層Diffusion生成的兩張圖片,遞歸地生成填充附近幀之間的內(nèi)容,最終生成長視頻。
這種分層結(jié)構(gòu)的設(shè)計(jì)使模型能夠直接在長視頻上進(jìn)行訓(xùn)練,不僅消除了視頻生成領(lǐng)域中訓(xùn)練短視頻與推理長視頻之間差距,也確保了視頻情節(jié)的連續(xù)性,同時(shí)也能極大的提升了生成效率。 ?
通過官網(wǎng)的演示資料可以看到,它下面寫的是一個(gè)prompt演講,根據(jù)prompt生成一個(gè)稍微長一點(diǎn)的視頻內(nèi)容。在prompt換了之后,它又能生成一個(gè)稍微更長點(diǎn)的、更多樣化的(內(nèi)容)。
下面這篇論文的名字叫Any-to-Any,這是一篇綜合圖像、語音、視頻和文本的多模態(tài)論文。其中Any to any的含義是,你能將上述模態(tài)數(shù)據(jù)進(jìn)行任意組合的輸入,得到任意組合的輸出。例如輸入的時(shí)候可以根據(jù)圖片、文本、聲音,最后生成一個(gè)帶語音的視頻。
這篇論文提出了模型可組合擴(kuò)散(Composable Diffusion,CoDi),這是第一個(gè)能夠同時(shí)處理和生成任意組合模態(tài)的模型。它具體是怎么做的?
首先這篇論文為了對(duì)齊不同模態(tài)之間的特征,設(shè)計(jì)了Bridging Alignment(特征橋接對(duì)齊)方式,采用CLIP為基準(zhǔn),凍結(jié)CLIP文本編碼器權(quán)重,再使用對(duì)比學(xué)習(xí)在文本-音頻、文本-視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練,使得音頻、視頻編碼器提取的特征能對(duì)齊CLIP預(yù)訓(xùn)練模型中文本編碼器提取的文本特征。
第二步,為每種模態(tài)(例如文本、圖像、視頻和音頻)訓(xùn)練一個(gè)潛變擴(kuò)散模型(Latent Diffusion Model,LDM)。這些模型可以獨(dú)立并行訓(xùn)練,利用廣泛可用的特定模態(tài)訓(xùn)練數(shù)據(jù)(即具有一個(gè)或多個(gè)模態(tài)作為輸入和一個(gè)模態(tài)作為輸出的數(shù)據(jù))確保出色的單模態(tài)生成質(zhì)量。
最后,通過為每個(gè)擴(kuò)散器添加交叉注意力模塊和一個(gè)環(huán)境編碼器V來實(shí)現(xiàn)的,將不同LDM的潛變量投影到共享的潛空間。之后再固定LDM的參數(shù),只訓(xùn)練交叉注意力參數(shù)和V。由于不同模態(tài)的環(huán)境編碼器是對(duì)齊的,LDM可以通過插值表示的V與任何組合的共同生成模態(tài)進(jìn)行交叉注意力。這使得CoDi能夠無縫地生成任何模態(tài)組合,而無需對(duì)所有可能的生成組合進(jìn)行訓(xùn)練。
這三個(gè)分別是文本、圖片、下雨的聲音。這三個(gè)結(jié)合起來,就生成了一個(gè)泰迪熊在雨中過街的畫面。網(wǎng)上有一些評(píng)論,說這篇論文真正運(yùn)用的時(shí)候差距很大,因?yàn)槎嗄B(tài)需要大量的數(shù)據(jù)支持才可能做好。它還是學(xué)術(shù)級(jí),離跨越鴻溝還有很遠(yuǎn)的距離。
-04-
未來音視頻創(chuàng)新機(jī)會(huì)在哪
我接下來的思考是,未來音視頻AIGC成熟且能大規(guī)模應(yīng)用在什么時(shí)候?
這個(gè)圖摘自紅杉的報(bào)告。紅色部分屬于很不成熟的,黃色部分屬于正在發(fā)展的,綠色部分就是成熟的。在這個(gè)預(yù)測(cè)里可以看到,文本和code在2023年能夠做到很成熟,但是圖片可能要到25年才能做到非??煽亍⒖僧a(chǎn)品化,3D和視頻預(yù)測(cè)要到2030年才能成熟。
不管是應(yīng)用還是論文,基本上都是基于Diffusion的改良,甚至很多模型都是基于Diffusion模型的一種擴(kuò)散,今天的很多更高級(jí)的視頻、3D的生成框架,也離不開擴(kuò)散。如果某天視頻真的要參與化的時(shí)候,是不是需要有一種更原生的底層邏輯的突破、比擴(kuò)散還高一個(gè)維度的突破才能做到?但是今天我們基于已有的技術(shù),加上一些工程化的努力,我相信應(yīng)該可以做很多東西了。
關(guān)于音視頻的應(yīng)用,如果和行業(yè)數(shù)據(jù)相關(guān),我認(rèn)為用好開源,加上一些工程上的產(chǎn)品級(jí)創(chuàng)新,再結(jié)合大模型,把向量工程、提示工程做好,基本就能解決大量的需求了。
-05-
關(guān)于PPIO邊緣云
最后介紹一下我們的PPIO邊緣云。PPIO 于 2018年由 PPTV 創(chuàng)始人姚欣和我聯(lián)合創(chuàng)立,作為中國領(lǐng)先的獨(dú)立邊緣云服務(wù)提供商,PPIO在全國30多個(gè)省,超過1000多個(gè)縣市及區(qū)域,為客戶提供符合低時(shí)延、高帶寬、海量數(shù)據(jù)分布處理需求的邊緣云計(jì)算服務(wù)和解決方案。
PPIO的核心是以算力為本。這個(gè)圖是運(yùn)營商的骨干圖,能夠幫助理解邊緣帶寬。圖中拿移動(dòng)來舉例,我們覆蓋的范圍并不是很大很多,而是相對(duì)分散的一些節(jié)點(diǎn),但是這種節(jié)點(diǎn)的SOA也是可保證的。
從城域網(wǎng)的角度看,備用節(jié)點(diǎn)覆蓋在BRAS這一層,甚至?xí)胖迷贛EC。 把算力資源放下后,就能做一些邊緣的推理服務(wù)。我們可以提供基于裸金屬和GPU容器的的服務(wù),同時(shí)也能提供上面調(diào)度的邏輯。另外我們還可以支持推理加速的框架,例如Oneflow、AITemplate、TensorRT等。
基于 PPIO 在邊緣算力上的優(yōu)勢(shì),我們構(gòu)建了專門適用于 AI 推理場(chǎng)景的架構(gòu)。它主要包含三個(gè)層面的服務(wù):裸金屬,容器,推理網(wǎng)關(guān)。
? 裸金屬服務(wù),主要適用于大模型的場(chǎng)景,例如:一個(gè)大語言模型的推理服務(wù)需要占用 4~10 張顯卡,甚至要多機(jī)聯(lián)合推理的情形??蛻艨梢灾苯油ㄟ^ IaaS 控制臺(tái)或 OpenAPI 來申請(qǐng)、啟動(dòng)、停止和釋放裸金屬機(jī)。
? 容器服務(wù),主要適用于可以靈活調(diào)度的場(chǎng)景,一般這類模型相對(duì)較小,一個(gè)推理服務(wù)實(shí)例只需要 1 張左右顯卡,例如 StableDiffusion 的推理。容器服務(wù)實(shí)例由 PPIO k8s@Edge 系統(tǒng)管理,該系統(tǒng)保持與原生 k8s 兼容,可以滿足客戶按需彈性調(diào)度的需求。
? 推理網(wǎng)關(guān)服務(wù),是上層用戶請(qǐng)求層的智能調(diào)度服務(wù),它可以根據(jù)后端推理實(shí)例的負(fù)載情況,動(dòng)態(tài)地將用戶的請(qǐng)求調(diào)度到最合適的實(shí)例上,并且它支持客戶設(shè)置個(gè)性化的調(diào)度策略。另外當(dāng)部分節(jié)點(diǎn)或?qū)嵗收蠒r(shí),該網(wǎng)關(guān)也可以智能地將其剔除,避免用戶請(qǐng)求打到該實(shí)例上,對(duì)于已經(jīng)調(diào)度到這些實(shí)例上的請(qǐng)求,網(wǎng)關(guān)將自動(dòng)將這些請(qǐng)求重新轉(zhuǎn)發(fā)到其他健康實(shí)例上去處理,整個(gè)過程對(duì)于請(qǐng)求方完全無感。
此外,在服務(wù)客戶的過程中,我們發(fā)現(xiàn)有些時(shí)候顯卡在接受較大的用戶請(qǐng)求時(shí),偶爾會(huì)出現(xiàn)顯存不足的情況。比如 在 3090 24G 上,剛好有一個(gè)模型要跑 30G 多一些怎么辦?這時(shí)候很容易想到,將一部分內(nèi)存來“充當(dāng)”那顯存使用,臨時(shí)性地將顯存的內(nèi)容搬運(yùn)到內(nèi)存里,當(dāng)這些顯存的內(nèi)容需要被訪問時(shí)再搬回去,這樣可以讓上層的應(yīng)用勉強(qiáng)能跑起來。為此我們基于 Nvidia 的 Unifed Memory 和 Cuda 劫持技術(shù),構(gòu)建了用戶態(tài)的虛擬 GPU,實(shí)現(xiàn)了這一功能。該項(xiàng)技術(shù)使得推理服務(wù)在處理用戶的較大請(qǐng)求過程中,顯存的問題得到了極大的緩解。但是該技術(shù)也會(huì)使得顯存和內(nèi)存之間的 swap 操作變多,從而影響性能,因此在對(duì)性能有較高要求的場(chǎng)景,不建議設(shè)置太大的虛擬顯存。
我們也有基于 Stable Diffusion WebUI 的一些應(yīng)用,采用界面和算力分離的架構(gòu),不用 GPU,不用安裝 WebUI,入門門檻低,也容易整合到用戶自有的工作流中。用戶也不用下載和維護(hù)模型,一方面我們已經(jīng)集成了很多模型了,另一方面用戶還可以添加自己的模型。
我們還提供了基于 Stable Diffusion 的 AI 圖片生成和圖片編輯的 API 平臺(tái),基本上從工程階段已經(jīng)做到了快、便宜,同樣也能夠支持各種模型,也能實(shí)現(xiàn) 文生圖,圖生圖,ControlNet,Upscaling,Inpainting,Outpainting,摳圖,和擦除等系列功能,可以滿足游戲素材生成,電商圖片的修改等場(chǎng)景。
另外,我們也針對(duì)一些場(chǎng)景實(shí)現(xiàn)了主體固定的解決方案,就是能生成一系列圖片,但保持主體不變、背景變換,特別適合當(dāng)前流行的兒童插畫,小說配圖生成等場(chǎng)景。 最后,我最近經(jīng)常也在思考,我們?nèi)祟悶槭裁从兄悄堋T倏纯?AI 的高速發(fā)展,距離我們?nèi)祟愒絹碓浇?,現(xiàn)在AI的原理越來越和我們的大腦近似,也是類似的矩陣、向量的計(jì)算,所以我頓時(shí)感覺人類的智慧沒有想象中那么偉大。
或者再過十年,計(jì)算機(jī)超越人類是完全有可能的。而我們作為音視頻行業(yè)從業(yè)者,需要積極擁抱新的技術(shù)創(chuàng)造更大的價(jià)值。
編輯:黃飛
?
評(píng)論
查看更多