0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌DeepMind重磅發(fā)布了基礎(chǔ)世界模型:Genie(精靈)

vliwulianw ? 來源:軟件質(zhì)量報道 ? 2024-02-28 10:45 ? 次閱讀

大家都喜歡玩游戲吧?因為游戲最大的吸引力是讓我們逃避現(xiàn)實、幻想一個遠(yuǎn)離我們眼前現(xiàn)實的世界,掌控這個虛擬的現(xiàn)實世界?,F(xiàn)在,我們可以想象一下,如果我們有能力創(chuàng)造自己的世界,那該多好了。 讓我們激動的這一天來了! 北美時間26號下午,GoogleGenie團(tuán)隊的負(fù)責(zé)人Tim Rockt?schel非常興奮地宣布:Google DeepMindOpen Endedness團(tuán)隊開發(fā)的基于互聯(lián)網(wǎng)視頻訓(xùn)練的基礎(chǔ)世界模型(foundation world model)——Genie

(幽靈)發(fā)布了,它可以根據(jù)圖像提示生成無窮無盡的可控動作2D世界的各種變化。這個110億參數(shù)大模型Genie,能從一張圖片就能創(chuàng)造出可玩的虛擬世界,動作可控,這也預(yù)示著,AI已經(jīng)真正殺到視頻游戲領(lǐng)域了。

084845f0-d5db-11ee-a297-92fbcf53809c.png

0853455e-d5db-11ee-a297-92fbcf53809c.png

什么是Genie(精靈)?

根據(jù) Google DeepMind 的官方博客文章,Genie 是一個基礎(chǔ)世界模型,它是根據(jù)來自互聯(lián)網(wǎng)的視頻進(jìn)行訓(xùn)練的。該模型可以“從合成圖像、照片甚至草圖中生成無窮無盡的可玩(動作可控)世界”。 研究論文 “Genie:Generative Interactive Environments” 指出,Genie是第一個從未標(biāo)記的互聯(lián)網(wǎng)視頻中以無監(jiān)督方式訓(xùn)練的生成式交互式環(huán)境。在大小方面,Genie 的參數(shù)為 11B,由時空視頻標(biāo)記器(spatiotemporal videotokenizer)、自回歸動力學(xué)模型(autoregressive dynamics model)和簡單且可擴(kuò)展的潛在動作模型(simple and scalable latent action model)組成。

這些技術(shù)規(guī)范允許 Genie 在生成的環(huán)境中逐幀運(yùn)行,即使在沒有訓(xùn)練、標(biāo)注或任何其他特定領(lǐng)域要求的情況下也是如此。

Genie 能做什么的?

根據(jù)這篇研究論文,Genie是一種新型的生成式人工智能,它使任何人(甚至是兒童)都能夢想并進(jìn)入類似于人類設(shè)計的模擬環(huán)境的生成世界??梢蕴崾?Genie 生成一組不同的交互式和可控環(huán)境,盡管它是在純視頻數(shù)據(jù)上訓(xùn)練的。

簡而言之,我們已經(jīng)看到了許多生成式 AI 模型,它們使用語言、圖像甚至視頻生成創(chuàng)意內(nèi)容。Genie 是一個突破,因為它可以從單個圖像提示中創(chuàng)建可玩的環(huán)境。

試著記住《哈利·波特與魔法石》中哈利和他的朋友們在前往格蘭芬多公共休息室的路上進(jìn)入霍格沃茨城堡的場景。年輕的學(xué)生們看到一面墻上掛滿了畫作,每個角色都在他們的畫面中慢慢地移動,這些畫作栩栩如生。Genie能使靜止圖像栩栩如生,賦予我們一個自己的世界。

根據(jù) Google DeepMind 的說法,Genie 可以收到它從未見過的圖像提示,這包括現(xiàn)實世界的照片、草圖,允許人們與他們想象的虛擬世界互動,這就是稱之為“基礎(chǔ)世界模型”。在培訓(xùn)方面,研究論文強(qiáng)調(diào),他們更關(guān)注2D平臺游戲和機(jī)器人技術(shù)的視頻。Genie 使用通用方法進(jìn)行訓(xùn)練,使其能夠在任何類型的域上運(yùn)行,并且可以擴(kuò)展到更大的 Internet 數(shù)據(jù)集。

為什么Genie很重要?

Genie 的突出之處在于它能夠從互聯(lián)網(wǎng)視頻中學(xué)習(xí)和重現(xiàn)游戲中角色的控制。這是值得注意的,因為互聯(lián)網(wǎng)視頻沒有關(guān)于視頻中執(zhí)行的動作的標(biāo)簽,甚至沒有關(guān)于應(yīng)該控制圖像的哪一部分的標(biāo)簽。

Google 博客文章寫道:“Genie不僅可以學(xué)習(xí)觀察的哪些部分通常是可控的,還可以推斷出在生成的環(huán)境中一致的各種潛在行為。請注意,相同的潛在動作如何在不同的提示圖像中產(chǎn)生相似的行為,“ 根據(jù) Google DeepMind 的說法,該模型最獨(dú)特的方面是:它允許您從單個圖像創(chuàng)建一個全新的交互式環(huán)境。這開辟了許多可能性,尤其是創(chuàng)建和進(jìn)入虛擬世界的新方法。為了證明這一點(diǎn),研究人員使用文本到圖像模型Imagen 2創(chuàng)建了一個圖像,然后將其用作創(chuàng)建虛擬世界的提示。草圖也可以做同樣的事情。

有了 Genie,任何人都可以創(chuàng)建自己完全想象的虛擬世界。此外,該模型學(xué)習(xí)和開發(fā)新世界模型的能力標(biāo)志著向通用人工智能代理(一個獨(dú)立的程序或?qū)嶓w,通過傳感器感知其周圍環(huán)境來與環(huán)境交互)的重大飛躍。 開啟另一個旅程:




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6128

    瀏覽量

    104950
  • 人工智能
    +關(guān)注

    關(guān)注

    1789

    文章

    46654

    瀏覽量

    237091
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2274

    瀏覽量

    2358

原文標(biāo)題:基礎(chǔ)世界模型Google Genie誕生了:根據(jù)提示生成無窮無盡的、可交互的2D世界

文章出處:【微信號:軟件質(zhì)量報道,微信公眾號:軟件質(zhì)量報道】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    谷歌DeepMind發(fā)布人工智能模型AlphaFold最新版本

    谷歌DeepMind近日發(fā)布人工智能模型AlphaFold的最新版本——AlphaFold 3,這一革命性的工具將在藥物發(fā)現(xiàn)和疾病治療領(lǐng)域
    的頭像 發(fā)表于 05-10 11:26 ?544次閱讀

    谷歌DeepMind推出新一代藥物研發(fā)AI模型AlphaFold 3

    谷歌DeepMind公司近日重磅推出了一款名為AlphaFold 3的全新藥物研發(fā)AI模型,這一創(chuàng)新技術(shù)將為科學(xué)家們提供前所未有的幫助,使他們能更精確地理解疾病機(jī)制,進(jìn)而開發(fā)出更高效的
    的頭像 發(fā)表于 05-10 09:35 ?352次閱讀

    谷歌發(fā)布用于輔助編程的代碼大模型CodeGemma

    谷歌發(fā)布用于輔助編程的代碼大模型 CodeGemma。CodeGemma 基于谷歌今年 2 月發(fā)布
    的頭像 發(fā)表于 04-17 16:07 ?613次閱讀
    <b class='flag-5'>谷歌</b><b class='flag-5'>發(fā)布</b>用于輔助編程的代碼大<b class='flag-5'>模型</b>CodeGemma

    谷歌發(fā)布全新AI基礎(chǔ)世界模型Genie

    谷歌近日宣布推出其最新研發(fā)的AI基礎(chǔ)世界模型——Genie。這款模型擁有驚人的110億參數(shù),其獨(dú)特之處在于,僅需一張圖片,便能生成一個充滿活
    的頭像 發(fā)表于 03-04 14:02 ?688次閱讀

    谷歌模型軟件有哪些功能

    谷歌模型軟件通常指的是谷歌推出的一系列人工智能模型和軟件工具,其中最具代表性的是Google Gemini。Google Gemini是谷歌
    的頭像 發(fā)表于 03-01 16:20 ?578次閱讀

    谷歌發(fā)布全新AI模型Genie

    谷歌近日發(fā)布其全新的AI模型Genie,這一模型徹底改變了我們與數(shù)字
    的頭像 發(fā)表于 02-28 18:25 ?1611次閱讀

    谷歌發(fā)布基礎(chǔ)世界模型Genie,世界模型領(lǐng)域競爭升溫

    繼OpenAI和Meta之后,谷歌也在世界模型領(lǐng)域公布其最新進(jìn)展。據(jù)谷歌官網(wǎng)介紹,Genie
    的頭像 發(fā)表于 02-28 18:20 ?1372次閱讀

    谷歌發(fā)布AI基礎(chǔ)世界模型Genie

    谷歌近日宣布其生成式AI的全新里程碑——全新AI基礎(chǔ)世界模型Genie。這一創(chuàng)新技術(shù)允許用戶通過單張圖像提示,生成一個可玩的、交互式的虛擬
    的頭像 發(fā)表于 02-28 17:41 ?753次閱讀

    谷歌發(fā)布開源AI大模型Gemma

    近日,谷歌發(fā)布全新AI大模型Gemma,這款模型為各種規(guī)模的組織提供前所未有的機(jī)會,以負(fù)責(zé)任
    的頭像 發(fā)表于 02-28 17:38 ?792次閱讀

    谷歌發(fā)布新型AI模型Genie

    近日,谷歌推出了一款革命性的AI模型——Genie。這款模型能夠?qū)⒑唵蔚奈谋咎崾?、草圖或初步想法迅速轉(zhuǎn)化為一個可以互動和游戲的虛擬世界。這一
    的頭像 發(fā)表于 02-28 10:05 ?679次閱讀

    谷歌公布基礎(chǔ)模型Genie,主攻2D平臺類游戲及機(jī)器人應(yīng)用

    DeepMind指出,Genie有能力根據(jù)最新的文生圖大模型生成初始幀,再借助Genie的能力賦予這些圖像更深層次的含義。Genie作為一個
    的頭像 發(fā)表于 02-28 10:02 ?442次閱讀

    谷歌交互世界模型重磅發(fā)布

    谷歌模型
    北京中科同志科技股份有限公司
    發(fā)布于 :2024年02月28日 09:13:06

    谷歌DeepMind推新AI模型Genie,能生成2D游戲平臺

    據(jù)報道,谷歌公司的DeepMind團(tuán)隊近期發(fā)布AI模型Genie,此
    的頭像 發(fā)表于 02-27 14:53 ?709次閱讀

    谷歌宣布Gemma大模型全球開放使用

    谷歌公司近日宣布,其先進(jìn)的AI大模型Gemma即日起在全球范圍內(nèi)開放使用。這一新模型谷歌DeepMind和其他團(tuán)隊合作開發(fā),并與其最大的A
    的頭像 發(fā)表于 02-23 10:41 ?715次閱讀

    谷歌DeepMind資深A(yù)I研究員創(chuàng)辦AI Agent創(chuàng)企

    近日,剛從谷歌DeepMind離職的資深A(yù)I研究員Ioannis Antonoglou宣布創(chuàng)辦了一家名為“AI Agent”的創(chuàng)企。Ioannis Antonoglou常駐倫敦,此前曾擔(dān)任谷歌
    的頭像 發(fā)表于 02-04 10:02 ?717次閱讀