0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

李飛飛高徒盤點年度十大AI亮點:核聚變、ChatGPT、AlphaFold上榜

穎脈Imgtec ? 2023-01-13 11:10 ? 次閱讀

來源:新智元編輯:Aeneas 昕朋


【導(dǎo)讀】2022年有哪些人工智能的突破?今天,李飛飛高徒Jim Fan盤點了年度十大AI亮點。

人工智能的爆炸正在扭曲我們的時間感。

你能相信Stable Diffusion只有4個月大,而ChatGPT的出現(xiàn)還不到一個月嗎?

打個形象的比喻,只要眨一下眼,你就會錯過一個全新的行業(yè)。

2022年的AI領(lǐng)域,大規(guī)模的生成模型像雨后春筍一樣地冒出,改變了整個AI界的格局。

而且,這些模型正在迅速走出實驗室,在現(xiàn)實中被應(yīng)用。

比如,LLM技術(shù)就啟發(fā)了兩個新興的領(lǐng)域——決策代理(游戲、機器人等等)和 AI4Science。

李飛飛高徒Jim Fan為我們總結(jié)了2022年的十大AI高光時刻。讓我們把時間倒轉(zhuǎn),看看2022年都有哪些令人驚嘆的AI突破。
一、文字-圖像生成

DALLE-2是第一個可以從任意標題生成逼真的高分辨率圖像的大規(guī)模擴散模型。

它啟動了AI的藝術(shù)革命,催生了許多新的應(yīng)用程序、初創(chuàng)公司和思維方式。

但 DALLE-2被保護在OpenAI的圍墻后面,并沒有開源。

在OpenAI之后,LMU的StabilityAI和runwayml邁出了英勇的一步,基于「潛在擴散」算法訓(xùn)練了他們自己的互聯(lián)網(wǎng)規(guī)模的text2image模型。他們稱該模型為「穩(wěn)定擴散」,并開源了代碼和權(quán)值(weighs)。

事實證明,Stable Diffusion的開放性,讓它給游戲帶來了巨變?,F(xiàn)在,許多初創(chuàng)公司和研究實驗室都在Stable Diffusion的基礎(chǔ)上創(chuàng)建新的應(yīng)用程序,Stable Diffusion本身也被開源社區(qū)不斷改進。最近,Stable Diffusion已經(jīng)達到了v2.1版本,可以在單個GPU上運行了。9bcdebf4-9194-11ed-ad0d-dac502259ad0.png

另外,今年還有來自GoogleAI的兩個image2text模型。GoogleAI既沒有發(fā)布模型也沒有發(fā)布API,但從論文中,我們?nèi)匀豢梢钥吹讲簧儆腥さ囊娊狻?/p>

Imagen

Parti

它是一個沒有diffusion的Transformer模型。


二、文字-文字生成大家都知道,我說的是ChatGPT!
這是歷史上唯一一個在5天內(nèi)就獲得了100萬用戶的應(yīng)用程序。ChatGPT也大大啟發(fā)了我們?nèi)祟惖膭?chuàng)造力。

ChatGPT和GPT-3.5都使用了一種叫做RLHF(「從人類反饋中強化學(xué)習(xí)」)的新技術(shù)。

這也就意味著,提示工程或許很快就會消失了。

ChatGPT的流行,已經(jīng)催生了一波新的創(chuàng)業(yè)公司和競爭者,比如Jasper Chat、YouChat、Replit的Ghostwriter chat,以及perplexity_ai。

這些競爭者提供了如此直觀的搜索方式,連谷歌的高管們都開始出汗了!


三、文本- 機器人模型如何給GPT提供胳膊和腿,讓它們能打掃你混亂的廚房?

與NLP不同,機器人模型需要與物理世界互動。

在今年,大的預(yù)訓(xùn)練Transformer終于開始解決機器人領(lǐng)域最難的問題了!

VIMA

10月,我和同事創(chuàng)建了一個 「機器人GPT 」——名為VIMA的tranformer。它可以接收任何混合的文本、圖像和視頻作為prompt,并輸出機器人手臂的控制。我們的模型被稱為VIMA(「VisuoMotor Attention」),已經(jīng)完全開源了?,F(xiàn)在,單個智能體已經(jīng)能夠解決視覺目標、視頻的一次性模仿、新概念基礎(chǔ)、視覺約束等,具有了模型容量和數(shù)據(jù)的強大擴展性。9c40d786-9194-11ed-ad0d-dac502259ad0.gif

RT-1

沿著與VIMA類似的路徑,來自GoogleAI的研究人員發(fā)布了RT-1,這是一種在700項任務(wù)和130K的人類演示上訓(xùn)練的機器人transformer。

這些數(shù)據(jù)是由13個機器人在17個月內(nèi)收集的,是字面意義上的鋼鐵部隊!9c51f002-9194-11ed-ad0d-dac502259ad0.gif
四、文本 - 視頻本質(zhì)上說,視頻就是隨著時間的推移捆綁在一起的一系列圖像,給我們創(chuàng)造了運動的錯覺。

如果我們可以做text2image,那為什么不在里面加上時間軸,來獲得額外的樂趣呢?

目前,文本 - 視頻領(lǐng)域有3個重大的工作,但沒有一個是開源的。

Make-A-Video

首先是Meta AI的Make-A-Video:不需要成對的文本-視頻數(shù)據(jù),就可以得到文本-視頻的生成。

您可以在此處注冊試用訪問權(quán)限:https://makeavevideo.studio

9dcf87d2-9194-11ed-ad0d-dac502259ad0.png論文鏈接:https://arxiv.org/abs/2209.14792

Imagen Video

Google AI的Imagen Video:它能使用擴散模型生成高清視頻,基于Imagen靜態(tài)圖像生成器。

Phenaki

來自谷歌AI的Phenaki: 從開放領(lǐng)域的文本描述中生成可變長度的視頻。


五、文本-3D建模從設(shè)計創(chuàng)新產(chǎn)品到在電影和游戲中創(chuàng)造奇妙的視覺效果,3D建模正成為文本-X生成模型的下一片藍海。令人驚喜的是,2022年出現(xiàn)了許多卓有前途的3D生成模型。在此,F(xiàn)an列舉了3個模型。

DreamFusion

首先登場的,是Google AI研究團隊與UC Berkeley聯(lián)合開發(fā)的DreamFusion。

該模型使用二維文本到圖像的擴散模型來執(zhí)行文本到三維的合成。

基于NeRF算法,DreamFusion可以通過給定文本生成3D模型。

9e9ef81e-9194-11ed-ad0d-dac502259ad0.gif

該模型可以從任何角度查看,在任意照明下可以重新點亮,還可以合成到任何三維環(huán)境當(dāng)中。

Magic3D

第二項成果,是英偉達AI團隊的兩個項目,名為GET3D和Magic3D。

9ebe3b2a-9194-11ed-ad0d-dac502259ad0.pngGET3D論文鏈接:https://nv-tlabs.github.io/GET3D/assets/paper.pdf9ecbbbe2-9194-11ed-ad0d-dac502259ad0.png

Magic3D論文鏈接:https://arxiv.org/pdf/2211.10440.pdf

GET3D僅使用二維圖像進行訓(xùn)練,可生成具有高保真紋理和復(fù)雜幾何細節(jié)的三維圖形。

9edcf722-9194-11ed-ad0d-dac502259ad0.gif

該模型允許用戶立即將其形體導(dǎo)入3D渲染器和游戲引擎,以便進行后續(xù)編輯。

Magic3D與DreamFusion類似,使用文本到圖像模型生成2D圖像,然后優(yōu)化為體積NeRF(神經(jīng)輻射場)數(shù)據(jù),將低分辨率生成的粗略模型優(yōu)化為高分辨率的精細模型。

9ef0a588-9194-11ed-ad0d-dac502259ad0.gif

根據(jù)英偉達AI團隊,由此產(chǎn)生的Magic3D方法,可以比DreamFusion更快地生成3D目標。

Point-E

繼年初推出的DALL-E 2用天才畫筆驚艷所有人之后,周二OpenAI發(fā)布了最新的圖像生成模型「POINT-E」,它可通過文本直接生成3D模型。

相比競爭對手們(如谷歌的DreamFusion)需要幾個GPU工作數(shù)個小時,POINT-E只需單個GPU便可在幾分鐘內(nèi)生成3D圖像。

根據(jù)測試,Prompt輸入后POINT-E基本可以秒出3D圖像,此外輸出圖像還支持自定義編輯、保存等功能。
六、會玩《我的世界》的AI

《我的世界》是一款測試AI通用智能的絕佳游戲。首先,它是一款無限開放的沙盒游戲,極度體現(xiàn)玩家的創(chuàng)造力。

其次,該游戲有1.4億的玩家群體,是英國總?cè)丝诘膬杀?。用戶基礎(chǔ)如此龐大,供AI學(xué)習(xí)的游戲數(shù)據(jù)可謂是源源不絕。

那么,AI能否和人類一樣盡情揮灑想象力呢?

Jim Fan和同事合作開發(fā)了第一個玩《我的世界》的AI「MineDojo」,它可以在自然語言提示下解決許多任務(wù)。

Fan的最終目標是建立一個「具身的ChatGPT」。目前,MineDojo平臺已經(jīng)完全開源。

與此同時,Jeff Clune的團隊宣布了一個名為視頻預(yù)訓(xùn)練(VPT)的模型,該模型可以直接輸出鍵盤和鼠標的動作。

VPT擁有更廣闊的視野,但不受語言條件的限制。在這點上,MineDojo和VPT恰好相輔相成。

七、AI外交官Meta AI推出的CICERO是第一個在《外交》游戲中實現(xiàn)人類水平表現(xiàn)的人工智能智能體。

《外交》是一款七人制經(jīng)典策略游戲,可以說是棋盤游戲Risk、紙牌游戲撲克和電視節(jié)目Survivor的結(jié)合。該游戲需要廣泛的自然語言協(xié)商才能與人類合作和競爭。然而,CICERO的出現(xiàn)表明,人工智能現(xiàn)在已經(jīng)有說服他人和虛張聲勢的能力。

目前,DeepMind也宣布開發(fā)自己的外交官AI智能體。那么,如果CICERO使用這個AI模型,又會發(fā)生什么呢?
八、音頻-文本模型Whisper是OpenAI發(fā)布的一個大型開源語音識別模型,在英語語音識別方面有接近人類水平的魯棒性和準確性。

Whisper經(jīng)過了來自網(wǎng)絡(luò)的680,000小時音頻數(shù)據(jù)的訓(xùn)練。Open AI強調(diào),Whisper的語音識別能力已達到人類水準。

9fb4cfee-9194-11ed-ad0d-dac502259ad0.png

Open AI將Whisper開源,是否是為了解鎖更多文本token,用以訓(xùn)練萬眾矚目的GPT-4呢?
九、核聚變DeepMind與瑞士洛桑聯(lián)邦理工學(xué)院(EPFL)聯(lián)合開發(fā)了第一個核聚變相關(guān)的深度強化學(xué)習(xí)系統(tǒng),可以保持核聚變等離子體在托卡馬克內(nèi)的穩(wěn)定。

9fc47516-9194-11ed-ad0d-dac502259ad0.png

論文鏈接:https://www.nature.com/articles/s41586-021-04301-9

同樣在本月,美國能源部宣布了一項巨大的突破:人類首次實現(xiàn)了核聚變反應(yīng)的凈能量增益!

9fd5c42e-9194-11ed-ad0d-dac502259ad0.jpg

這是人類首次實現(xiàn)這一里程碑。這一生,我們或許會成為聚變文明!
十、應(yīng)用于生物學(xué)的Transformer2021年,AlphaFold開啟了語言模型預(yù)測蛋白質(zhì)3D結(jié)構(gòu)的序幕。

7月,DeepMind宣布了「蛋白質(zhì)宇宙」——將AlphaFold的蛋白質(zhì)數(shù)據(jù)庫擴展到2億個結(jié)構(gòu)!

此外,英偉達AI研究團隊還拓展了BioNeMo大型語言模型的框架,以幫助生物技術(shù)公司和研究人員生成、預(yù)測和理解生物分子數(shù)據(jù)。

以上便是Jim Fan對2022年十大AI亮點的盤點。當(dāng)然,F(xiàn)an也表示,還有無數(shù)令人興奮的作品為人工智能的進步做出了貢獻。

每篇論文都是AI大廈里的一磚一瓦,所有的努力都應(yīng)該慶祝。

不過,F(xiàn)an在最后也強調(diào),隨著人工智能系統(tǒng)變得越來越強大,我們必須意識到潛在的危險和風(fēng)險,并采取措施減輕它們。

無論是通過仔細的培訓(xùn)設(shè)計、適當(dāng)?shù)谋O(jiān)督還是全新的保障方法,人工智能的安全與倫理成為越來越的AI專家所討論的議程。

毫無疑問,2022年是充滿奇跡的一年,也是令人驚嘆的一年。未來一年又會有什么震驚世界的突破?我們與你一起關(guān)注。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28875

    瀏覽量

    266203
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46060

    瀏覽量

    234958
收藏 人收藏

    評論

    相關(guān)推薦

    全國產(chǎn)PSM高壓電源控制系統(tǒng),助力核聚變技術(shù)發(fā)展

    面對日益加劇的能源消耗問題,核聚變作為一種具有巨大潛力的清潔能源,其研究與開發(fā)的重要性日益凸顯。高壓脈沖電源在核聚變反應(yīng)中發(fā)揮著重要作用,它必須具備高電壓、強電流、快速響應(yīng)和精準控制等特性,以適應(yīng)
    的頭像 發(fā)表于 09-18 10:40 ?162次閱讀
    全國產(chǎn)PSM高壓電源控制系統(tǒng),助力<b class='flag-5'>核聚變</b>技術(shù)發(fā)展

    可控核聚變解決方案

    聚變是兩個輕原子核聚合,生成新的更重原子核的過程,其反應(yīng)釋放的能量巨大。因該過程同太陽的發(fā)光發(fā)熱過程一致,可控核聚變又稱為人造太陽。其憑借資源無限、環(huán)境友好等優(yōu)勢,被譽為人類能源的終極解決方案。我國
    發(fā)表于 09-05 10:32 ?0次下載

    解決方案丨持續(xù)注能人造太陽裝置,助力我國可控核聚變技術(shù)研究

    核聚變是兩個輕原子核聚合,生成新的更重原子核的過程,其反應(yīng)釋放的能量巨大。因該過程同太陽的發(fā)光發(fā)熱過程一致,可控核聚變又稱為人造太陽。其憑借資源無限、環(huán)境友好等優(yōu)勢?,被譽為人類能源的終極解決方案
    的頭像 發(fā)表于 08-30 16:37 ?333次閱讀
    解決方案丨持續(xù)注能人造太陽裝置,助力我國可控<b class='flag-5'>核聚變</b>技術(shù)研究

    解決方案丨持續(xù)注能人造太陽裝置,助力我國可控核聚變技術(shù)研究

    可控核聚變技術(shù)和原理是氘氚原子聚變形成氦原子釋放大量的能量,該過程同太陽的發(fā)光發(fā)熱過程一致,因此可控核聚變又稱為人造太陽。因其具有資源無限、環(huán)境友好等特點,被譽為人類能源的終極解決方案。我國在
    的頭像 發(fā)表于 08-28 18:20 ?369次閱讀
    解決方案丨持續(xù)注能人造太陽裝置,助力我國可控<b class='flag-5'>核聚變</b>技術(shù)研究

    業(yè)務(wù)資訊丨森木磊石持續(xù)發(fā)力加速器、核聚變;PPEC電源控制核心走入高校課堂

    粒子加速器和核聚變是當(dāng)今科學(xué)研究和能源開發(fā)領(lǐng)域的重要方向,具有巨大的發(fā)展?jié)摿蛷V泛的應(yīng)用前景。粒子加速器作為提高粒子能量的重要工具,廣泛應(yīng)用于醫(yī)療、輻照加工、環(huán)保、無損檢測等領(lǐng)域。而核聚變是一種模擬
    的頭像 發(fā)表于 07-27 08:23 ?317次閱讀
    業(yè)務(wù)資訊丨森木磊石持續(xù)發(fā)力加速器、<b class='flag-5'>核聚變</b>;PPEC電源控制核心走入高校課堂

    AI浪潮下的十大消費者新趨勢

    人工智能已經(jīng)風(fēng)靡全球,當(dāng)我們沉浸在AI技術(shù)為辦公與生活帶來的各種便利時,一些人也會質(zhì)疑:AI 真的能為我們描繪出更美好的未來畫卷嗎? AI 賦能的十大消費者趨勢 愛立信消費者實驗室的最
    發(fā)表于 06-05 10:30 ?201次閱讀

    度亙核芯榮獲“2023年度中國十大光學(xué)產(chǎn)業(yè)技術(shù)”獎

    5月18日,由光電匯主辦的“2023年中國十大光學(xué)產(chǎn)業(yè)技術(shù)”年度評選頒獎典禮于武漢光谷科技會展中心隆重召開。經(jīng)專家評審、網(wǎng)絡(luò)投票等嚴格評選,度亙核芯“用于車載激光雷達的940nm芯片與光纖模塊”在一
    的頭像 發(fā)表于 05-23 08:28 ?447次閱讀
    度亙核芯榮獲“2023<b class='flag-5'>年度</b>中國<b class='flag-5'>十大</b>光學(xué)產(chǎn)業(yè)技術(shù)”獎

    新火種AI|AI教母飛飛初創(chuàng)AI公司,開啟最前沿AI算法研究

    AI教母飛飛首次創(chuàng)業(yè),瞄準“空間智能”。
    的頭像 發(fā)表于 05-06 16:24 ?225次閱讀
    新火種<b class='flag-5'>AI</b>|<b class='flag-5'>AI</b>教母<b class='flag-5'>李</b><b class='flag-5'>飛飛</b>初創(chuàng)<b class='flag-5'>AI</b>公司,開啟最前沿<b class='flag-5'>AI</b>算法研究

    韓國“人造太陽”在核聚變研究中取得重大突破

    這一進展是邁向?qū)崿F(xiàn)近乎無限清潔能源的關(guān)鍵一步??蒲腥藛T數(shù)年來致力于借助核聚變實現(xiàn)人類無限能源需求,該技術(shù)模擬了恒星內(nèi)部的能量產(chǎn)生過程。核聚變通過高壓、高溫條件下使氫原子轉(zhuǎn)化為氦原子,從而釋放能量。
    的頭像 發(fā)表于 04-15 10:39 ?480次閱讀

    科學(xué)家利用AI預(yù)測核聚變反應(yīng)堆裂變模式,避免重啟反應(yīng)堆

    解決核聚變反應(yīng)中過熱等離子體不可預(yù)測性問題,是實現(xiàn)穩(wěn)定電力產(chǎn)出的最大瓶頸之一。近期,美國普林斯頓等離子體物理實驗室(簡稱 PPPL)取得重要進展,已經(jīng)成功研發(fā)新型AI系統(tǒng),可提前300毫秒預(yù)測聚變中等離子體的“撕裂”行為
    的頭像 發(fā)表于 02-28 16:08 ?577次閱讀

    核電站工作原理 核電站是核聚變還是核裂變

    核電站是通過核裂變反應(yīng)來工作的。核裂變是指重核如鈾、钚等核素被中子撞擊后裂變成兩個或多個較輕的核片,同時釋放出大量的能量。而核聚變則是指兩個輕核聚變成重核的過程。目前,核能發(fā)電主要依靠的是核裂變
    的頭像 發(fā)表于 02-02 16:27 ?1228次閱讀

    睿創(chuàng)微納8微米榮獲“2023年度山東十大科技創(chuàng)新成果”

    1月11日,兩院院士評選“2023年中國/世界十大科技進展新聞”發(fā)布會在煙臺召開,會上公布“2023年度山東省十大科技創(chuàng)新成果”榜單。
    的頭像 發(fā)表于 01-16 09:48 ?438次閱讀
    睿創(chuàng)微納8微米榮獲“2023<b class='flag-5'>年度</b>山東<b class='flag-5'>十大</b>科技創(chuàng)新成果”

    2023年度十大科技名詞

    12月26日,“2023年度十大科技名詞”在京發(fā)布?!按笳Z言模型、生成式人工智能、量子計算、腦機接口、數(shù)據(jù)要素、智慧城市、碳足跡、柔性制造、再生稻、可控核聚變”入選。個最具影響力和代
    的頭像 發(fā)表于 01-03 08:27 ?504次閱讀
    2023<b class='flag-5'>年度</b><b class='flag-5'>十大</b>科技名詞

    ChatGPT入選自然雜志年度十大人物

    在《自然》的2023年度十大人物榜單中發(fā)現(xiàn),除了從全球的重大科學(xué)事件中評選出的位人物,還有一個非?;鸨氖虑?,ChatGPT上榜。同時Op
    的頭像 發(fā)表于 12-14 19:05 ?801次閱讀

    AI再進化丨透過Gartner十大戰(zhàn)略技術(shù)趨勢,看AI如何重塑IT行業(yè)

    共識。 面對不可阻擋的AI大潮,Gartner在新發(fā)布的 2024年十大戰(zhàn)略技術(shù)趨勢 中,對AI的發(fā)展趨勢、AI的風(fēng)險和安全管理、AI的應(yīng)用
    的頭像 發(fā)表于 11-09 17:55 ?652次閱讀
    <b class='flag-5'>AI</b>再進化丨透過Gartner<b class='flag-5'>十大</b>戰(zhàn)略技術(shù)趨勢,看<b class='flag-5'>AI</b>如何重塑IT行業(yè)