電子發(fā)燒友網(wǎng)報道(文/周凱揚)自文本與圖片類的AIGC爆火以來,幾乎所有互聯(lián)網(wǎng)公司和應(yīng)用開發(fā)商都在跟進(jìn)。然而近期隨著Sora的爆火,決定開發(fā)同類應(yīng)用的廠商卻少之又少,這就不得不談到硬件成本的問題,畢竟一個能夠?qū)崿F(xiàn)文生視頻的應(yīng)用,服務(wù)器成本要遠(yuǎn)遠(yuǎn)高于GPT類應(yīng)用。
從文生視頻模型的配置談硬件成本
對于目前市面上的一些文生視頻模型而言,其配置往往決定了體驗的好壞。就拿Runway的Gen-2模型來說,其最大的特點在于可以生成4K級別分辨率的視頻,且具備影視級別的構(gòu)圖和運鏡,支持圖片和文本的指令輸入。
然后是最近一炮走紅的Sora,其將最大時長做到了1分鐘,且支持符合部分物理規(guī)律的世界模型,以及多鏡頭的切換等。不過與Gen-2模型一樣,其對分辨率也進(jìn)行了限制,甚至只能生成1080p的視頻。
其他文生視頻模型的配置則更加捉襟見肘,比如Meta的Emu Video只能生成最長4秒的512x512分辨率視頻等等。從以上文生視頻模型看來,由于為了確保畫面一致性,視頻分辨率、視頻長度和每秒幀數(shù)往往決定了生成單個視頻的硬件負(fù)載。目前對于硬件要求最高的應(yīng)該是Runway的Gen-2和OpenAI的Sora。
這也是為何文生視頻應(yīng)用均采用訂閱模式,甚至是按量訂閱的付費策略,比如生成視頻的項目數(shù)量、存儲空間、導(dǎo)出質(zhì)量等,文生視頻考驗的不僅是服務(wù)器算力,還有存儲成本。畢竟為了方便用戶回溯,這些生成的視頻依然需要存儲在服務(wù)器上一段時間。
就以Runway為例,要想完全無限制地生成視頻功能,每月訂閱費用高達(dá)76美元,且這僅僅意味著450s的Gen-2視頻生成,如果用戶需要生成更多內(nèi)容,則還需要額外購買。可見為了維持服務(wù)器費用,文生視頻應(yīng)用面臨的成本壓力要遠(yuǎn)大于GPT類應(yīng)用。
不只是云端,硬件成本也決定了本地部署的難度
從ChatGPT和Stable Diffusion這兩個最火的AIGC應(yīng)用就可以看出,硬件是開發(fā)這類應(yīng)用的最大門檻之一?;诘统杀居布蛟斓念怌hatGPT應(yīng)用響應(yīng)時間慢,生成內(nèi)容質(zhì)量差。而Stable Diffusion這類文生圖模型,已經(jīng)可以在消費級硬件上實現(xiàn)不錯的效果,甚至可以普及到一些低功耗的端側(cè)設(shè)備上。
但對于Sora這類文生視頻的模型而言,要想在消費級實現(xiàn)本地部署可謂是難于登天,在完成內(nèi)容的基本生成工作后,還需要經(jīng)歷風(fēng)格化、分鏡、遮罩、渲染和自定義等一系列流程,可以說不僅考驗硬件的AI算力,也對視頻渲染能力提出了更高的要求。
據(jù)了解,一批開源開發(fā)者已經(jīng)在構(gòu)建OpenAI Sora的復(fù)制版本,且可以在使用消費級英偉達(dá)GPU的高配電腦上跑通。不過馬斯克也評論道,他也認(rèn)為這是可行的,但是幀渲染速率會非常低。如果需要花上數(shù)小時,才能生成出一個質(zhì)量較差的4秒視頻,對于絕大多數(shù)用戶來說,必然不是好的體驗。
寫在最后
要論硬件成本的話,對于應(yīng)用開發(fā)者和用戶而言,文生視頻目前還是一個較為昂貴的“玩具”。但我們也不能否認(rèn)其前景,隨著算力成本逐漸下降,未來文生視頻不僅可以作為內(nèi)容創(chuàng)作途徑,也可以作為輔助工具,替代掉一部分重復(fù)性工作,尤其是在廣告視頻行業(yè)。
不過這類應(yīng)用的出現(xiàn),也會讓我們開始重新審視起GPU在AIGC硬件市場的地位,畢竟多出了圖形渲染這一額外的硬件要求,其他的ASIC方案在這方面固然會遜色GPU一籌。再加上英偉達(dá)GPU在物理仿真上的優(yōu)勢,或許文生視頻會給英偉達(dá)帶來更多的市場機遇。
-
AI
+關(guān)注
關(guān)注
87文章
28877瀏覽量
266254 -
AIGC
+關(guān)注
關(guān)注
1文章
332瀏覽量
1374 -
大模型
+關(guān)注
關(guān)注
2文章
2136瀏覽量
1985 -
Sora
+關(guān)注
關(guān)注
0文章
75瀏覽量
176
發(fā)布評論請先 登錄
相關(guān)推薦
評論