0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Sora還在PPT階段,“中國(guó)版Sora”已經(jīng)開放使用了!

Hobby觀察 ? 來源:電子發(fā)燒友 ? 作者:梁浩斌 ? 2024-06-17 09:07 ? 次閱讀

電子發(fā)燒友網(wǎng)報(bào)道(文/梁浩斌)今年春節(jié)期間,OpenAI的AI文字生成視頻模型Sora驚艷全世界,極高的視頻生成效果、長(zhǎng)達(dá)60秒的視頻生成長(zhǎng)度,讓過去Pika Labs推出的Pika 1.0、去年Runway推出的Gen-1、谷歌團(tuán)隊(duì)發(fā)布的VideoPoet等各種文生視頻模型都黯然失色。

然而,Sora在發(fā)布近4個(gè)月的時(shí)間里,依然沒有開放普通用戶使用,同時(shí)也沒有更多的視頻案例流出,目前只有官方發(fā)布的演示視頻。

最近,快手旗下的名為“可靈”的文生視頻大模型上線,與Sora不同的是,可靈發(fā)布即開放申請(qǐng)使用,目前已經(jīng)有大量用戶獲得使用名額,社交平臺(tái)上已經(jīng)有不少用戶上傳了可靈生成的視頻,甚至在海外AI圈迅速爆火。

對(duì)比Sora,可靈的效果如何?

快手在推出可靈時(shí),很明確地表示可靈是“首個(gè)效果對(duì)標(biāo)Sora且面向用戶開放的文生視頻大模型”。既然對(duì)標(biāo)Sora,那么就要看下雙方的實(shí)際表現(xiàn)如何了。

首先從生成視頻的指標(biāo)上看,Sora宣稱能夠輸出1080p分辨率,最長(zhǎng)60秒的視頻,從OpenAI展示出的Demo來看,Sora的強(qiáng)大之處更在于物體模型的穩(wěn)定,不僅是在單鏡頭運(yùn)動(dòng)中物體建模能夠保持一致性,即使是多鏡頭的畫面切換中,依然能夠保持色彩、畫面風(fēng)格的一致。

可靈官方宣稱的指標(biāo)是,支持長(zhǎng)達(dá)2分鐘的電影級(jí)畫面輸出,支持720p和1080p視頻輸出,幀率30fps,同時(shí)支持多種寬高比??伸`采用3D時(shí)空聯(lián)合注意力機(jī)制,能夠更好地建模復(fù)雜時(shí)空運(yùn)動(dòng),生成較大幅度運(yùn)動(dòng)的視頻內(nèi)容,同時(shí)能夠符合運(yùn)動(dòng)規(guī)律。

f2995ac7b0584a00af00995fcbc7dab8~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20240617091711EBF48DEC4FE63F87A0A1&x-expires=2147483647&x-signature=E8pc3thbmfHkHatUiux2GjkkaRU%3D

提示詞:小男孩在花園里騎自行車經(jīng)歷秋冬春夏四季變換

在一些演示視頻中,也可以看到可靈的物理建模比較穩(wěn)定,在一分多鐘的長(zhǎng)鏡頭畫面中,整體畫面一致性表現(xiàn)較為理想。

7a9605de5a65453b8af6284b93f6204e~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20240617091711EBF48DEC4FE63F87A0A1&x-expires=2147483647&x-signature=MjQ1FFHJra1ZBGSZcPOngB70Ejg%3D

提示詞:微距鏡頭,火山在一個(gè)咖啡杯中噴發(fā)

文生視頻的一個(gè)重要應(yīng)用就是生成現(xiàn)實(shí)中不存在的畫面,能夠充分將人的想象力轉(zhuǎn)化成視頻。Sora發(fā)布之初在咖啡杯中的海盜船令人印象深刻,可靈官方演示視頻中也有類似的案例。

af5f4fcea2374eecba97160d26e6ecd3~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20240617091711EBF48DEC4FE63F87A0A1&x-expires=2147483647&x-signature=PfB671WcgzCU92GiwDBZHY%2BrM3E%3D

提示詞:一個(gè)戴眼鏡的中國(guó)男孩在快餐店內(nèi)閉眼享受美味的芝士漢堡

在“吃漢堡”的場(chǎng)景中,Sora此前的演示視頻已經(jīng)較為真實(shí)地展示了漢堡的咬痕,但可靈添加了更多細(xì)節(jié),不僅是漢堡在被咬后的缺口,同時(shí)小男孩咬下漢堡后嘴邊殘留的碎屑也展現(xiàn)出來了,更加符合物理規(guī)律。

不過,目前可靈內(nèi)測(cè)的版本只支持5秒、720p分辨率的視頻,有博主測(cè)試同樣提示詞,可靈有時(shí)候理解相對(duì)Sora會(huì)較弱。

比如提示詞:動(dòng)畫場(chǎng)景特寫了一個(gè)跪在融化的紅燭旁的毛茸茸的小怪物。藝術(shù)風(fēng)格是3D和現(xiàn)實(shí)主義的,重點(diǎn)是照明和紋理。這幅畫的基調(diào)是驚奇和好奇,因?yàn)楣治锉牬笱劬堉炷曋鹧?。它的姿?shì)和表情傳達(dá)出一種天真和頑皮的感覺,就好像它是第一次探索周圍的世界。暖色和戲劇性燈光的使用進(jìn)一步增強(qiáng)了圖像的舒適氛圍。

這串細(xì)節(jié)描寫豐富的提示詞,Sora官網(wǎng)展示的效果是這樣的:

399ac79eaeae48f79a0ef5aa7cd4f8dc~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20240617091711EBF48DEC4FE63F87A0A1&x-expires=2147483647&x-signature=4W2ULy%2BlAa0Hi0CeUAA0uaBKq%2BY%3D

而可靈是這樣的:

a5444151ab6b48e0af8bc57d193c5451~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20240617091711EBF48DEC4FE63F87A0A1&x-expires=2147483647&x-signature=n3jPrQTCNDxnuhwgUMNZBlv%2FxlY%3D

當(dāng)然,由于模型的不同,可能可靈的提示詞優(yōu)化方向會(huì)與Sora有所區(qū)別。

但從效果來看,可靈與Sora已經(jīng)十分接近,更重要的是,可靈已經(jīng)開放公眾測(cè)試,Sora目前依然處于PPT階段。

文生視頻模型即將迎來大爆發(fā)?

盡管Sora表現(xiàn)依然有所領(lǐng)先,但此前Sora火爆出圈的短片《氣球人》被爆經(jīng)過大量后期調(diào)整,三個(gè)人的團(tuán)隊(duì)花了1.5至2周的時(shí)間才做出來,團(tuán)隊(duì)自曝Sora生成的視頻素材最終用到影片里的只有1/300。

所以,Sora一直未開放使用或許也有實(shí)際效果不如預(yù)期的考慮。因此,可靈的強(qiáng)大之處在于,實(shí)打?qū)嵉亻_放給創(chuàng)作者使用,目前在快手旗下的快影APP中就能申請(qǐng)使用資格,截至6月14日,已經(jīng)有8萬人在排隊(duì)審核中。

同時(shí),快手上已經(jīng)出現(xiàn)大量采用可靈制作的短片,通過多個(gè)5秒的短鏡頭拼接而成,實(shí)際效果可見即可得。

而近期除了可靈之外,Luma AI也對(duì)外開放了其文生視頻模型Dream Machine,更是宣稱可以輸出120秒120幀的高質(zhì)量視頻。

目前文生視頻模型,包括可靈、Sora等都采用了Diffusion Transformer作為整體架構(gòu),有觀點(diǎn)認(rèn)為,Sora并不是技術(shù)性的突破,而是產(chǎn)品性的突破。即文生視頻實(shí)際上也是大模型應(yīng)用的一個(gè)方向,而Sora就是其中一個(gè)突破性產(chǎn)品。

可靈領(lǐng)銜的文生視頻模型大規(guī)模應(yīng)用,更是代表著這類產(chǎn)品的新高度。從產(chǎn)品上看,可以預(yù)見,未來半年里,國(guó)內(nèi)外可能將會(huì)陸續(xù)涌現(xiàn)更多高質(zhì)量的文生視頻大模型產(chǎn)品,并大大加快迭代的進(jìn)度。

文生視頻大模型的爆發(fā),將會(huì)有很大可能,徹底改變未來短視頻創(chuàng)作的生態(tài)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Sora
    +關(guān)注

    關(guān)注

    0

    文章

    75

    瀏覽量

    176
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Sora的最強(qiáng)競(jìng)爭(zhēng)對(duì)手,來自中國(guó)

    今年2月發(fā)布的Sora,先是引得業(yè)界“哇聲一片”,馬斯克直接表態(tài)「人類愿賭服輸」;周鴻祎說借助Sora人類實(shí)現(xiàn)AGI將縮減至一兩年。大佬的彩虹屁不是白吹的。利用
    的頭像 發(fā)表于 05-13 17:11 ?171次閱讀
    <b class='flag-5'>Sora</b>的最強(qiáng)競(jìng)爭(zhēng)對(duì)手,來自<b class='flag-5'>中國(guó)</b>

    Sora短期不會(huì)向公眾開放 還處于反饋獲取階段

    Sora短期不會(huì)向公眾開放 還處于反饋獲取階段 據(jù)外媒報(bào)道Sora核心團(tuán)隊(duì)在一次采訪中透露,Sora短期不會(huì)向公眾
    的頭像 發(fā)表于 03-14 14:55 ?551次閱讀

    面對(duì)Sora中國(guó)AI可以不急不躁不焦慮

    AISora
    腦極體
    發(fā)布于 :2024年02月23日 00:51:52

    sora模型是什么意思 sora模型引發(fā)行業(yè)變革

    約為290億美元),且文生視頻大模型將會(huì)大幅推動(dòng)人工智能基礎(chǔ)設(shè)施的需求,英偉達(dá)、OpenAI、軟銀等巨頭公司都被曝正在進(jìn)行AI芯片的制造布局,英偉達(dá)也因大模型訓(xùn)練需要GPU算力支持而股價(jià)大漲 。與此同時(shí),受Sora發(fā)布的影響,美國(guó)圖片供應(yīng)商Shutterstock的股價(jià)大跌。 在
    的頭像 發(fā)表于 02-22 17:00 ?1638次閱讀

    sora模型中國(guó)可以使用嗎 sora模型是哪個(gè)公司

    。 Sora是一種擴(kuò)散模型,具備從噪聲中生成完整視頻的能力,它生成的視頻一開始看起來像靜態(tài)噪音,通過多個(gè)步驟逐漸去除噪聲后,視頻也從最初的隨機(jī)像素轉(zhuǎn)化為清晰的圖像場(chǎng)景 ,其能夠一次生成多幀預(yù)測(cè),確保畫面主體在暫時(shí)離開視野時(shí)仍保持一致。 sora模型
    的頭像 發(fā)表于 02-22 16:52 ?2917次閱讀

    sora模型上市公司 sora模型對(duì)現(xiàn)實(shí)的影響

    sora模型的上市公司目前沒有相關(guān)官方的報(bào)道,因此無法給出準(zhǔn)確的回答。 Sora能夠獲取現(xiàn)有視頻并對(duì)其進(jìn)行擴(kuò)展或填充缺失的幀,這一功能在視頻編輯、電影特效等領(lǐng)域具有應(yīng)用前景,可以幫助用戶快速完成視頻
    的頭像 發(fā)表于 02-22 16:46 ?980次閱讀

    sora模型怎么使用 sora模型對(duì)現(xiàn)實(shí)的影響

    美國(guó)當(dāng)?shù)貢r(shí)間2024年2月15日 ,OpenAI正式發(fā)布文生視頻模型Sora ,并發(fā)布了48個(gè)文生視頻案例和技術(shù)報(bào)告 ,正式入局視頻生成領(lǐng)域 。Sora能夠根據(jù)提示詞生成60s的連貫視頻,“碾壓”了
    的頭像 發(fā)表于 02-22 16:42 ?1044次閱讀

    Sora來了,會(huì)砸掉誰的飯碗?反觀第一撥靠Sora賺錢的人已經(jīng)出現(xiàn)

    Sora來了,會(huì)砸掉誰的飯碗?第一撥靠Sora賺錢的人已經(jīng)出現(xiàn) 人工智能的快速演進(jìn)使得大家的緊迫感再次加大,特別是Sora來了,Sora文生
    的頭像 發(fā)表于 02-22 14:11 ?975次閱讀

    sora如何使用 sora是什么軟件

    Sora是一種擴(kuò)散模型,具備從噪聲中生成完整視頻的能力,它生成的視頻一開始看起來像靜態(tài)噪音,通過多個(gè)步驟逐漸去除噪聲后,視頻也從最初的隨機(jī)像素轉(zhuǎn)化為清晰的圖像場(chǎng)景,其能夠一次生成多幀預(yù)測(cè),確保畫面
    的頭像 發(fā)表于 02-21 17:20 ?2027次閱讀

    sora最新消息 sora是什么意思

    Sora,是美國(guó)人工智能研究公司OpenAI發(fā)布的人工智能文生視頻大模型(但OpenAI并未單純將其視為視頻模型,而是作為“世界模擬器”,于2024年2月15日(美國(guó)當(dāng)?shù)貢r(shí)間)正式對(duì)外發(fā)布
    的頭像 發(fā)表于 02-21 16:38 ?1698次閱讀

    sora系列是哪個(gè)公司的 sora視頻怎么用

    sora系列是哪個(gè)公司的 Sora,美國(guó)人工智能研究公司OpenAI發(fā)布的人工智能文生視頻大模型(但OpenAI并未單純將其視為視頻模型,而是作為“世界模擬器”,于2024年2月15日(美國(guó)當(dāng)?shù)貢r(shí)間
    的頭像 發(fā)表于 02-21 16:35 ?4063次閱讀

    openai sora如何使用?Sora 使用指南:快速上手

    內(nèi)容。 快速啟動(dòng)指南 步驟一:設(shè)置賬戶 登錄OpenAI賬戶 :訪問OpenAI官網(wǎng)并登錄您的賬戶。 訪問Sora界面 :在儀表板中找到Sora服務(wù)并點(diǎn)擊進(jìn)入。 但是現(xiàn)處于內(nèi)測(cè)階段需要申請(qǐng)內(nèi)測(cè)資格的賬號(hào)才可以使用,內(nèi)測(cè)資格賬號(hào)申
    的頭像 發(fā)表于 02-20 11:19 ?3906次閱讀

    Sora到底懂不懂物理世界? Sora開啟更多可能

    ,但是視頻效果已經(jīng)足以震撼人心,而且OpenAI自己也認(rèn)為確實(shí)還是有很多問題,比如Sora可能會(huì)混淆左右,比如Sora難以準(zhǔn)確體現(xiàn)隨時(shí)間推移而發(fā)生的事件,但是這些問題似乎都不會(huì)是Sora
    的頭像 發(fā)表于 02-20 11:08 ?594次閱讀

    成都匯陽投資關(guān)于Sora 橫空出世,AI 產(chǎn)業(yè)鏈風(fēng)云再起!

    Sora 在視頻生成和模擬能力實(shí)現(xiàn)重大突破】 2 月16 日,OpenAI 發(fā)布最新文生視頻大模型 Sora ,并在官網(wǎng)發(fā)布由其生成的 48 個(gè)視頻樣例。 目前,Sora 仍處于測(cè)試階段
    的頭像 發(fā)表于 02-20 09:43 ?704次閱讀
    成都匯陽投資關(guān)于<b class='flag-5'>Sora</b> 橫空出世,AI 產(chǎn)業(yè)鏈風(fēng)云再起!

    奧特曼發(fā)布王炸模型Sora OpenAI首個(gè)文生視頻模型Sora正式亮相

    ;可以說是王炸級(jí)的文生視頻大模型。目前Sora模型正面向部分成員開放,以評(píng)估關(guān)鍵領(lǐng)域的潛在危害或風(fēng)險(xiǎn)。 Sora是一種擴(kuò)散模型,相較其他模型,看起來似乎是已經(jīng)具備了“理解”和“思考”能
    的頭像 發(fā)表于 02-18 17:41 ?863次閱讀