0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI又打出王炸!一句話生成60秒視頻,馬斯克:人類認(rèn)輸吧

Hobby觀察 ? 來(lái)源:電子發(fā)燒友網(wǎng) ? 作者:梁浩斌 ? 2024-02-19 09:02 ? 次閱讀

電子發(fā)燒友網(wǎng)報(bào)道(文/梁浩斌)在大年初七,春節(jié)假期的尾聲,OpenAI突然發(fā)布的AI文字生成視頻模型Sora被全網(wǎng)刷屏,馬斯克甚至感嘆“gg Humans”(gg是good game的縮寫,在競(jìng)技游戲中原意為稱贊對(duì)方打得不錯(cuò),但目前主流的含義是代表認(rèn)輸退出)。

文字生成視頻的AI模型其實(shí)之前也有不少,比如去年11月美國(guó)AI初創(chuàng)公司Pika Labs發(fā)布的Pika 1.0;去年Runway推出了文生視頻模型Gen-1,并完成了兩次迭代;還有谷歌團(tuán)隊(duì)發(fā)布的視頻生成模型VideoPoet。但問(wèn)題在于,此前市面上的文生視頻模型只能生成數(shù)秒,最高十多秒的視頻。而Sora一上來(lái)就是60秒的視頻長(zhǎng)度,且生成視頻的細(xì)節(jié)、質(zhì)量幾乎“秒殺”其他文生視頻模型,這足以顛覆目前的視頻生成模型初創(chuàng)公司的格局。

視頻生成質(zhì)量炸裂,好萊塢時(shí)代要結(jié)束了?

Sora生成的視頻效果有多強(qiáng)?下面是OpenAI在官網(wǎng)展示的第一個(gè)視頻,也是最能夠表現(xiàn)Sora實(shí)力的視頻。


這個(gè)視頻的提示詞為“一位時(shí)尚女士走在東京的街道上,街道上充滿了溫暖的霓虹燈和動(dòng)畫城市標(biāo)志。她穿著黑色皮夾克、紅色長(zhǎng)裙和黑色靴子,拿著一個(gè)黑色錢包。她戴著太陽(yáng)鏡,涂著紅色口紅。她走路自信而隨意。街道潮濕且反光,形成了五顏六色燈光的鏡面效果。許多行人四處走動(dòng)?!?br />
從視頻中,無(wú)論是運(yùn)鏡還是人物、地面、背景的細(xì)節(jié),還有拉進(jìn)鏡頭后人物面部上的皺紋、毛發(fā)、墨鏡上的反光,都幾乎可以以假亂真,畫面穩(wěn)定不錯(cuò)位。在長(zhǎng)達(dá)60秒的視頻里,畫面隨鏡頭的大幅度運(yùn)動(dòng)并沒(méi)有出現(xiàn)錯(cuò)位的情況,整體風(fēng)格保持了驚人的一致性。

在復(fù)雜場(chǎng)景方面,另一個(gè)演示視頻同樣展現(xiàn)了Sora的炸裂效果。下面這個(gè)視頻使用的提示詞為:“一段美麗的自制視頻展示了2056年尼日利亞拉各斯的人們。用手機(jī)相機(jī)拍攝?!?br />
同樣是運(yùn)鏡幅度巨大的場(chǎng)景,同時(shí)背景有大量的人物。在以往的文生圖模型中,類似這種背景有人群的圖片都會(huì)產(chǎn)生很多錯(cuò)位,很容易看出AI的痕跡,而在Sora生成的這個(gè)視頻里,背景人群不仔細(xì)看很難發(fā)現(xiàn)有錯(cuò)誤,特別是在動(dòng)態(tài)的視頻當(dāng)中。另一方面在視頻后半段的人物近景里,大幅度運(yùn)動(dòng)的鏡頭同樣沒(méi)有對(duì)人物造成影響,畫面細(xì)節(jié)極為穩(wěn)定。

Sora生成視頻的穩(wěn)定,不止于單鏡頭的運(yùn)動(dòng),即使是多鏡頭的畫面切換中,依然能夠保持色彩、畫面風(fēng)格的一致

除了真實(shí)場(chǎng)景之外,Sora還能以動(dòng)畫風(fēng)格生成視頻。比如使用提示詞:“動(dòng)畫場(chǎng)景特寫了一個(gè)跪在融化的紅燭旁的毛茸茸的小怪物。藝術(shù)風(fēng)格是3D和現(xiàn)實(shí)主義的,重點(diǎn)是照明和紋理。這幅畫的基調(diào)是驚奇和好奇,因?yàn)楣治锉牬笱劬堉炷曋鹧妗K淖藙?shì)和表情傳達(dá)出一種天真和頑皮的感覺(jué),就好像它是第一次探索周圍的世界。暖色和戲劇性燈光的使用進(jìn)一步增強(qiáng)了圖像的舒適氛圍?!?br />

生成出的動(dòng)畫形象與皮克斯電影幾乎不相上下,此前在動(dòng)畫電影中大費(fèi)周章渲染出的毛發(fā),如今AI直接一鍵生成!難怪會(huì)有網(wǎng)友表示“好萊塢的時(shí)代要結(jié)束了”。

有博主將Sora跟Pika、Runway、Stable Video等幾個(gè)模型進(jìn)行對(duì)比,對(duì)其輸入同樣的提示詞:“美麗、多雪的東京城熙熙攘攘。鏡頭穿過(guò)熙熙攘攘的城市街道,跟隨幾個(gè)享受美麗的下雪天氣和在附近攤位購(gòu)物的人。絢麗的櫻花花瓣隨著雪花隨風(fēng)飛舞。”

結(jié)果Sora生成的視頻無(wú)論是時(shí)間長(zhǎng)度、還是運(yùn)鏡、畫面細(xì)節(jié),都完勝其他幾個(gè)模型生成出的視頻。比如Pika和Runway生成的視頻在短短幾秒時(shí)間里都只有固定鏡頭畫面,Stable Video有鏡頭移動(dòng)的變化,但時(shí)長(zhǎng)太短。

Sora還未完美,OpenAI揭秘背后技術(shù)

目前Sora還未對(duì)大眾開(kāi)放,OpenAI表示Sora正在面向部分用戶開(kāi)放,以評(píng)估關(guān)鍵領(lǐng)域的潛在危害或風(fēng)險(xiǎn)。同時(shí),OpenAI也邀請(qǐng)了一批視覺(jué)藝術(shù)家、設(shè)計(jì)師和電影制作人加入以推動(dòng)模型的發(fā)展。

當(dāng)然,在驚艷的演示視頻外,Sora的視頻生成也并非完美。OpenAI也表示,目前的模型可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理特性,也可能不理解因果關(guān)系的具體實(shí)例,比如一個(gè)人咬了一口餅干,餅干上可能沒(méi)有咬痕。Sora生成的視頻還可能混淆提示詞中關(guān)于空間的細(xì)節(jié)(比如左右),并且難以準(zhǔn)確描述隨時(shí)間發(fā)生的事件,比如跟隨特定的鏡頭軌跡等。


比如上面動(dòng)圖中所使用的提示詞為“五只灰狼崽在一條偏僻的碎石路上嬉戲追逐,周圍都是草地。小狗們奔跑跳躍,相互追逐,相互撕咬,嬉戲玩?!?,但實(shí)際畫面中灰狼數(shù)量出錯(cuò),并且部分是憑空出現(xiàn)又憑空消失,出現(xiàn)身體互相重疊等現(xiàn)象。

對(duì)于Sora背后使用的技術(shù),OpenAI在官網(wǎng)上發(fā)布了一篇報(bào)告進(jìn)行了介紹,但只提到了方便大模型進(jìn)行訓(xùn)練的數(shù)據(jù)處理方式和對(duì)Sora局限性的評(píng)價(jià),沒(méi)有太多技術(shù)細(xì)節(jié)。

根據(jù)介紹,Sora是一種diffusion模型,它從一個(gè)看起來(lái)像靜態(tài)噪聲的視頻開(kāi)始生成視頻,并通過(guò)多個(gè)步驟去除噪聲來(lái)逐漸轉(zhuǎn)換視頻。與GPT相似,Sora算法層面也采用了transformer,以釋放出強(qiáng)大的擴(kuò)展性能。

OpenAI表示,Sora是以過(guò)于公司對(duì)DALL·E和GPT模型的研究作為基礎(chǔ),使用了DALL·E 3中的重新標(biāo)注技術(shù)。通過(guò)用一個(gè)能夠生成詳細(xì)描述的標(biāo)注模型,為訓(xùn)練集中的所有視頻生成詳細(xì)的文字說(shuō)明,這能夠提高文字準(zhǔn)確性的同時(shí),還能提升視頻的整體質(zhì)量。

與DALL·E 3類似,OpenAI也使用了GPT將簡(jiǎn)短的用戶提示詞轉(zhuǎn)換為更詳細(xì)的文本,所以Sora能夠準(zhǔn)確理解用戶提示,并生成對(duì)應(yīng)視頻。

另外,OpenAI還透露了Sora的其他能力,包括接受圖像和文本說(shuō)明輸出視頻、能夠以時(shí)間線向前或向后擴(kuò)展視頻、生成圖像、改變視頻風(fēng)格和環(huán)境、無(wú)縫連接兩個(gè)不同視頻等等。

業(yè)界大佬評(píng)價(jià):“真的非常?!薄爸忻繟I差距進(jìn)一步拉大”

Sora的“刷屏”,引起了多位業(yè)內(nèi)大佬的關(guān)注。前阿里技術(shù)副總裁賈揚(yáng)清也感嘆“Sora真的非常牛”,并認(rèn)為對(duì)標(biāo)OpenAI的公司有一波被其他大廠因?yàn)楹ε洛e(cuò)過(guò)AI而收購(gòu)相關(guān)公司的機(jī)會(huì)。對(duì)于其他算法小廠,賈揚(yáng)清建議“要不就算法上媲美OpenAI,要不就垂直領(lǐng)域深耕應(yīng)用,要不就開(kāi)源”,最后他預(yù)言AI infra(AI基礎(chǔ)設(shè)施)的需求會(huì)繼續(xù)猛增。

360董事長(zhǎng)周鴻祎則回應(yīng)了如何看待Sora的問(wèn)題,他認(rèn)為科技競(jìng)爭(zhēng)最終比拼的是讓人才密度和深厚積累,“很多人說(shuō) Sora的效果吊打Pika和Runway。這很正常,和創(chuàng)業(yè)者團(tuán)隊(duì)比,OpenAl 這種有核心技術(shù)的公司實(shí)力還是非常強(qiáng)勁的。有人認(rèn)為有了AI以后創(chuàng)業(yè)公司只需要做個(gè)體戶就行,實(shí)際今天再次證明這種想法是非??尚Φ摹!?br />
周鴻祎還表示,AI不一定那么快顛覆所有行業(yè),但它能激發(fā)更多人的創(chuàng)作力。關(guān)于國(guó)內(nèi)外的AI大模型差距,周鴻祎認(rèn)為國(guó)內(nèi)大模型發(fā)展距離GPT-4.0還有一年半的差距,并且相信OpenAl手里應(yīng)該還藏著一些秘密武器?!皧W特曼是個(gè)營(yíng)銷大師,知道怎樣掌握節(jié)奏,他們手里的武器并沒(méi)有全拿出來(lái)。這樣看來(lái)中國(guó)跟美國(guó)的AI差距可能還在加大?!?br />
關(guān)于大模型本身,周鴻祎對(duì)Sora理解為OpenAl利用它的大語(yǔ)言模型優(yōu)勢(shì),把LLM和 Diffusion結(jié)合起來(lái)訓(xùn)練,讓Sora實(shí)現(xiàn)了對(duì)現(xiàn)實(shí)世界的理解和對(duì)世界的模擬兩層能力,這樣產(chǎn)生的視頻才是真實(shí)的,才能跳出2D的范圍模擬真實(shí)的物理世界。而得益于大量視頻的訓(xùn)練,周鴻祎認(rèn)為AI對(duì)世界的理解將遠(yuǎn)超文字學(xué)習(xí),可能未來(lái)一到兩年就能實(shí)現(xiàn)AGI(通用人工智能)。

而作為去年年底爆火的AI視頻生成初創(chuàng)公司Pika創(chuàng)始人,郭文景將Sora的發(fā)布視為動(dòng)力,表示“我們覺(jué)得這是一個(gè)很振奮人心的消息,我們已經(jīng)在籌備直接沖,將直接對(duì)標(biāo) Sora?!?br />

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28877

    瀏覽量

    266221
  • 算力
    +關(guān)注

    關(guān)注

    1

    文章

    836

    瀏覽量

    14572
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    988

    瀏覽量

    6252
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2136

    瀏覽量

    1979
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    文生視頻Pika 1.0爆火!一句話生成視頻,普通人也能當(dāng)“導(dǎo)演”

    幾乎不需要任何門檻,用戶只需要輸入一句話,就可以生成想要的各種風(fēng)格的視頻,并通過(guò)簡(jiǎn)單的描述,更改視頻中的形象和風(fēng)格。 ? Pika labs官方宣傳
    的頭像 發(fā)表于 12-01 01:08 ?3529次閱讀
    文生<b class='flag-5'>視頻</b>Pika 1.0爆火!<b class='flag-5'>一句話</b><b class='flag-5'>生成</b><b class='flag-5'>視頻</b>,普通人也能當(dāng)“導(dǎo)演”

    一句話讓你理解線程和進(jìn)程

    今天給大家分享下線程與進(jìn)程,主要包含以下幾部分內(nèi)容:一句話說(shuō)明線程和進(jìn)程操作系統(tǒng)為什么需要進(jìn)程為什么要引入線程圖說(shuō)明線程和進(jìn)程的關(guān)系一句話讓你理解進(jìn)程和線程進(jìn)程:是指?個(gè)內(nèi)存中運(yùn)?
    的頭像 發(fā)表于 06-04 08:04 ?796次閱讀
    <b class='flag-5'>一句話</b>讓你理解線程和進(jìn)程

    馬斯克也給英偉達(dá)打工了

    馬斯克融來(lái)的60億美元巨資,讓xAI彎道超車,估值躍成為全球第二大AI獨(dú)角獸。但馬斯克在AI行業(yè)內(nèi)積累的人望,以及此刻大模型創(chuàng)業(yè)之激烈,他的入局遠(yuǎn)遠(yuǎn)談不上眾望所歸。而xAI由此被拉起
    的頭像 發(fā)表于 06-03 08:04 ?196次閱讀
    <b class='flag-5'>馬斯克</b>也給英偉達(dá)打工了

    馬斯克指責(zé)OpenAI背離初衷,OpenAI否認(rèn)并予以回應(yīng)

    身為多家知名企業(yè)如特斯拉、SpaceX以及社交網(wǎng)絡(luò)平臺(tái)X的創(chuàng)始人,馬斯克早在2015年OpenAI創(chuàng)立之初便同薩姆·奧爾特曼聯(lián)手合作。然而自2018年退出公司之后,馬斯克開(kāi)始對(duì)OpenAI
    的頭像 發(fā)表于 03-07 09:43 ?519次閱讀

    新火種AI|馬斯克OpenAI開(kāi)戰(zhàn)!神秘Q星細(xì)節(jié)曝光,GPT-5被迫延遲?

    OpenAI的聯(lián)合創(chuàng)始人和總裁Greg Brockman告上了法庭。這對(duì)于風(fēng)頭正盛的OpenAI來(lái)說(shuō),無(wú)異于枚“深水炸彈”。 在馬斯克的訴狀里,他重點(diǎn)提及當(dāng)年
    的頭像 發(fā)表于 03-05 21:13 ?348次閱讀
    新火種AI|<b class='flag-5'>馬斯克</b><b class='flag-5'>OpenAI</b>開(kāi)戰(zhàn)!神秘Q星細(xì)節(jié)曝光,GPT-5被迫延遲?

    馬斯克狀告OpenAI,OpenAI回應(yīng)馬斯克訴訟

    馬斯克在長(zhǎng)達(dá)46頁(yè)、1.4萬(wàn)字的訴訟文件中,控訴OpenAI背離了其初衷——即致力于開(kāi)發(fā)開(kāi)源人工通用智能(AGI)并服務(wù)全人類。
    的頭像 發(fā)表于 03-04 15:33 ?766次閱讀

    馬斯克控告OpenAI違約、要求恢復(fù)開(kāi)源;OpenAI否認(rèn)三連

    2024年3月1日,特斯拉CEO埃隆·馬斯克 (Elon Musk) 向美國(guó)舊金山高等法院提起訴訟,起訴OpenAI和該公司CEO山姆·阿爾特曼 (Sam Altman) ,OpenAI聯(lián)合創(chuàng)始人
    的頭像 發(fā)表于 03-04 13:59 ?552次閱讀
    <b class='flag-5'>馬斯克</b>控告<b class='flag-5'>OpenAI</b>違約、要求恢復(fù)開(kāi)源;<b class='flag-5'>OpenAI</b>否認(rèn)三連

    馬斯克:AI發(fā)展速度前所未見(jiàn) 但馬斯克起訴OpenAI及其創(chuàng)始人

    馬斯克:AI發(fā)展速度前所未見(jiàn)? 現(xiàn)在市場(chǎng)上對(duì)于任何OpenAI的消息都非常敏感,我們分享一下馬斯克對(duì)OpenAI起訴的些事項(xiàng)。
    的頭像 發(fā)表于 03-02 15:29 ?1155次閱讀

    OpenAI 在 AI 生成視頻領(lǐng)域扔出枚“”,視頻生成模型“Sora”

    ABSTRACT摘要2月16日凌晨,也就是中國(guó)大年初七,OpenAI在AI生成視頻領(lǐng)域扔出枚“
    的頭像 發(fā)表于 02-22 08:25 ?291次閱讀
    <b class='flag-5'>OpenAI</b> 在 AI <b class='flag-5'>生成</b><b class='flag-5'>視頻</b>領(lǐng)域扔出<b class='flag-5'>一</b>枚“<b class='flag-5'>王</b><b class='flag-5'>炸</b>”,<b class='flag-5'>視頻生成</b>模型“Sora”

    馬斯克稱特斯拉視頻生成技術(shù)超過(guò)Sora

    特斯拉CEO埃隆·馬斯克在社交媒體平臺(tái)上發(fā)表言論,聲稱特斯拉所掌握的視頻生成技術(shù)超越了OpenAI最新發(fā)布的Sora模型。馬斯克自信地表示,特斯拉在這
    的頭像 發(fā)表于 02-20 14:16 ?491次閱讀

    Sora助推OpenAI估值飆升275%

    近日,人工智能領(lǐng)域的領(lǐng)軍企業(yè)OpenAI發(fā)布了其首個(gè)文生視頻模型——Sora。這款模型具備令人驚嘆的能力:用戶只需通過(guò)一句話,便能生成長(zhǎng)達(dá)1分鐘的高清
    的頭像 發(fā)表于 02-20 14:12 ?432次閱讀

    OpenAI新年開(kāi)出視頻生成模型Sora問(wèn)世

    近日,OpenAI在AI生成視頻領(lǐng)域取得重大突破,發(fā)布了全新的生成式人工智能模型“Sora”。該模型在視頻生成方面展現(xiàn)出了驚人的能力,通過(guò)文
    的頭像 發(fā)表于 02-20 11:46 ?637次閱讀

    馬斯克贊賞特斯拉真實(shí)世界模擬與視頻生成技術(shù)

    OpenAI在本周四的官方網(wǎng)站上公布了Sora模型,并陳列了該系統(tǒng)所生成的部分視頻。緊接著,馬斯克在社交媒體上分享了特斯拉在去年所發(fā)布的部分新型視頻
    的頭像 發(fā)表于 02-19 10:06 ?324次閱讀

    奧特曼發(fā)布模型Sora OpenAI首個(gè)文生視頻模型Sora正式亮相

    奧特曼發(fā)布模型Sora OpenAI首個(gè)文生視頻模型Sora正式亮相 2月16日凌晨OpenAI的首個(gè)文生
    的頭像 發(fā)表于 02-18 17:41 ?863次閱讀

    馬斯克再次對(duì)OpenAI首席科學(xué)家拋出橄欖枝

    馬斯克在2015年幫助建立、資助和吸引主要人才加入openai非營(yíng)利組織,并說(shuō)服蘇茨維從谷歌出來(lái)加入openai。2018年,馬斯克因與
    的頭像 發(fā)表于 12-11 09:32 ?403次閱讀