无码人妻视频一区二区,亚洲av中文无码乱人伦在线r▽

讓 AI 像人類一樣學(xué)習(xí)和推理，這是人工智能邁向人類智能的重要一步。圖靈獎(jiǎng)得主 Yann LeCun 曾提出自監(jiān)督 + 世界模型的解決方案，如今終于有了第一個(gè)實(shí)實(shí)在在的視覺模型。

去年初，Meta 首席 AI 科學(xué)家 Yann LeCun 針對「如何才能打造出接近人類水平的 AI」提出了全新的思路。他勾勒出了構(gòu)建人類水平 AI 的另一種愿景，指出學(xué)習(xí)世界模型（即世界如何運(yùn)作的內(nèi)部模型）的能力或許是關(guān)鍵。這種學(xué)到世界運(yùn)作方式內(nèi)部模型的機(jī)器可以更快地學(xué)習(xí)、規(guī)劃完成復(fù)雜的任務(wù)，并輕松適應(yīng)不熟悉的情況。

LeCun 認(rèn)為，構(gòu)造自主 AI 需要預(yù)測世界模型，而世界模型必須能夠執(zhí)行多模態(tài)預(yù)測，對應(yīng)的解決方案是一種叫做分層 JEPA（聯(lián)合嵌入預(yù)測架構(gòu)）的架構(gòu)。該架構(gòu)可以通過堆疊的方式進(jìn)行更抽象、更長期的預(yù)測。

6 月 9 日，在 2023 北京智源大會開幕式的 keynote 演講中，LeCun 又再次講解了世界模型的概念，他認(rèn)為基于自監(jiān)督的語言模型無法獲得關(guān)于真實(shí)世界的知識，這些模型在本質(zhì)上是不可控的。

今日，Meta 推出了首個(gè)基于 LeCun 世界模型概念的 AI 模型。該模型名為圖像聯(lián)合嵌入預(yù)測架構(gòu)（Image Joint Embedding Predic tive Architecture， I-JEPA），它通過創(chuàng)建外部世界的內(nèi)部模型來學(xué)習(xí)，比較圖像的抽象表示（而不是比較像素本身）。

I-JEPA 在多項(xiàng)計(jì)算機(jī)視覺任務(wù)上取得非常不錯(cuò)的效果，并且計(jì)算效率遠(yuǎn)高于其他廣泛使用的計(jì)算機(jī)視覺模型。此外 I-JEPA 學(xué)得的表示也可以用于很多不同的應(yīng)用，無需進(jìn)行大量微調(diào)。

舉個(gè)例子，Meta 在 72 小時(shí)內(nèi)使用 16 塊 A100 GPU 訓(xùn)練了一個(gè) 632M 參數(shù)的視覺 transformer 模型，還在 ImageNet 上實(shí)現(xiàn)了 low-shot 分類的 SOTA 性能，其中每個(gè)類只有 12 個(gè)標(biāo)簽樣本。其他方法通常需要 2 到 10 倍的 GPU 小時(shí)數(shù)，并在使用相同數(shù)據(jù)量訓(xùn)練時(shí)誤差率更高。

相關(guān)的論文《Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture》已被 CVPR 2023 接收。當(dāng)然，所有的訓(xùn)練代碼和模型檢查點(diǎn)都將開源。

論文地址：https://arxiv.org/abs/2301.08243

GitHub 地址：https://t.co/DgS9XiwnMz

通過自監(jiān)督學(xué)習(xí)獲取常識型知識

I-JEPA 基于一個(gè)事實(shí)，即人類僅通過被動(dòng)觀察就可以了解關(guān)于世界的大量背景知識，這些常識信息被認(rèn)為是實(shí)現(xiàn)智能行為的關(guān)鍵。

通常，AI 研究人員會設(shè)計(jì)學(xué)習(xí)算法來捕獲現(xiàn)實(shí)世界的常識，并將其編碼為算法可訪問的數(shù)字表征。為了高效，這些表征需要以自監(jiān)督的方式來學(xué)習(xí)，即直接從圖像或聲音等未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)，而不是從手動(dòng)標(biāo)記的數(shù)據(jù)集中學(xué)習(xí)。

在高層級上，JEPA 的一個(gè)輸入中某個(gè)部分的表征是根據(jù)其他部分的表征來預(yù)測的。同時(shí)，通過在高抽象層次上預(yù)測表征而不是直接預(yù)測像素值，JEPA 能夠直接學(xué)習(xí)有用的表征，同時(shí)避免了生成模型的局限性。

相比之下，生成模型會通過刪除或扭曲模型輸入的部分內(nèi)容來學(xué)習(xí)。然而，生成模型的一個(gè)顯著缺點(diǎn)是模型試圖填補(bǔ)每一點(diǎn)缺失的信息，即使現(xiàn)實(shí)世界本質(zhì)上是不可預(yù)測的。因此，生成模型過于關(guān)注不相關(guān)的細(xì)節(jié)，而不是捕捉高級可預(yù)測的概念。

自監(jiān)督學(xué)習(xí)的通用架構(gòu)，其中系統(tǒng)學(xué)習(xí)捕獲其輸入之間的關(guān)系。

邁向能力廣泛的 JEPA 的第一步

I-JEPA 的核心思路是以更類似于人類理解的抽象表征來預(yù)測缺失信息。與在像素 /token 空間中進(jìn)行預(yù)測的生成方法相比，I-JEPA 使用抽象的預(yù)測目標(biāo)，潛在地消除了不必要的像素級細(xì)節(jié)，從而使模型學(xué)習(xí)更多語義特征。

另一個(gè)引導(dǎo) I-JEPA 產(chǎn)生語義表征的核心設(shè)計(jì)是多塊掩碼策略。該研究使用信息豐富的上下文來預(yù)測包含語義信息的塊，并表明這是非常必要的。

I-JEPA 使用單個(gè)上下文塊來預(yù)測源自同一圖像的各種目標(biāo)塊的表征。

I-JEPA 中的預(yù)測器可以看作是一個(gè)原始的（和受限的）世界模型，它能夠從部分可觀察的上下文中模擬靜態(tài)圖像中的空間不確定性。更重要的是，這個(gè)世界模型是語義級的，因?yàn)樗A(yù)測圖像中不可見區(qū)域的高級信息，而不是像素級細(xì)節(jié)。

預(yù)測器如何學(xué)習(xí)建模世界的語義。對于每張圖像，藍(lán)框外的部分被編碼并作為上下文提供給預(yù)測器。然后預(yù)測器輸出它期望在藍(lán)框內(nèi)區(qū)域的表示。為了可視化預(yù)測，Meta 訓(xùn)練了一個(gè)生成模型，它生成了由預(yù)測輸出表示的內(nèi)容草圖，并在藍(lán)框內(nèi)顯示樣本輸出。很明顯，預(yù)測器識別出了應(yīng)該填充哪些部分的語義（如狗的頭部、鳥的腿、狼的前肢、建筑物的另一側(cè)）。

為了理解模型捕獲的內(nèi)容，Meta 訓(xùn)練了一個(gè)隨機(jī)解碼器，將 I-JEPA 預(yù)測的表示映射回像素空間，這展示出了探針操作后在藍(lán)框中進(jìn)行預(yù)測時(shí)的模型輸出。這種定性評估表明，I-JEPA 正確捕獲了位置不確定性，并生成了具有正確姿態(tài)的高級對象部分（如狗的頭部、狼的前肢）。

簡而言之，I-JEPA 能夠?qū)W習(xí)對象部分的高級表示，而不會丟棄它們在圖像中的局部位置信息。

高效率、強(qiáng)性能

I-JEPA 預(yù)訓(xùn)練在計(jì)算上也很高效，在使用更多計(jì)算密集型數(shù)據(jù)增強(qiáng)來生成多個(gè)視圖時(shí)不會產(chǎn)生任何開銷。目標(biāo)編碼器只需要處理圖像的一個(gè)視圖，上下文編碼器只需要處理上下文塊。

實(shí)驗(yàn)發(fā)現(xiàn)，I-JEPA 在不使用手動(dòng)視圖增強(qiáng)的情況下學(xué)習(xí)了強(qiáng)大的現(xiàn)成語義表示，具體可見下圖。此外 I-JEPA 還在 ImageNet-1K 線性探針和半監(jiān)督評估上優(yōu)于像素和 token 重建方法。

ImageNet-1k 數(shù)據(jù)集上的線性評估。

I-JEPA 還能與以往在語義任務(wù)上依賴手動(dòng)數(shù)據(jù)增強(qiáng)的方法競爭。相比之下，I-JEPA 在對象計(jì)數(shù)和深度預(yù)測等低級視覺任務(wù)上取得了更好的性能。通過使用較小剛性歸納偏置的更簡單模型，I-JEPA 適用于更廣泛的任務(wù)集合。

low shot 分類準(zhǔn)確性：使用 1% 標(biāo)簽時(shí) ImageNet-1k 上的半監(jiān)督評估結(jié)果（每類只有 12 張標(biāo)簽圖像）。

AI 智能向人類水平更近了一步

I-JEPA 展示了無需通過手動(dòng)圖像變換來編碼額外知識時(shí)，學(xué)習(xí)有競爭力的現(xiàn)成圖像表示的潛力。繼續(xù)推進(jìn) JEPA 以從更豐富模態(tài)中學(xué)習(xí)更通用世界模型將變得特別有趣，比如人們從一個(gè)短上下文中對視頻中的將來事件做出長期空間和時(shí)間預(yù)測，并利用音頻或文本 prompt 對這些預(yù)測進(jìn)行調(diào)整。

Meta 希望將 JEPA 方法擴(kuò)展到其他領(lǐng)域，比如圖像 - 文本配對數(shù)據(jù)和視頻數(shù)據(jù)。未來，JEPA 模型可以在視頻理解等任務(wù)中得到應(yīng)用。這是應(yīng)用和擴(kuò)展自監(jiān)督方法來學(xué)習(xí)更通用世界模型的重要一步

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1787

文章
46061

瀏覽量
234991
模型

模型

+關(guān)注

關(guān)注
1

文章
3032

瀏覽量
48357
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
487

瀏覽量
10201

原文標(biāo)題：CVPR 2023 | LeCun世界模型首個(gè)研究！自監(jiān)督視覺像人一樣學(xué)習(xí)和推理！

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識學(xué)習(xí)

收集海量的文本數(shù)據(jù)作為訓(xùn)練材料。這些數(shù)據(jù)集不僅包括語法結(jié)構(gòu)的學(xué)習(xí)，還包括對語言的深層次理解，如文化背景、語境含義和情感色彩等。自監(jiān)督學(xué)習(xí)：模型采用

發(fā)表于 08-02 11:03

機(jī)器人視覺與機(jī)器視覺有什么不一樣？

機(jī)器人視覺、機(jī)器視覺傻傻分不清楚。你是不是也有這么個(gè)疑問呢？機(jī)器人視覺和機(jī)器視覺是

發(fā)表于 08-28 10:48

LabVIEW是否能像C語言一樣？

LabVIEW是否能像C語言一樣？

發(fā)表于 09-11 18:41 ?38次下載

機(jī)器魚能像真魚一樣游泳

本周麻省理工學(xué)院的研究人員揭開了一種看上去像魚一樣游泳的軟體機(jī)器人，他們說類似的東西可能會滲透到真正的魚的學(xué)校，并收集有關(guān)他們行為的數(shù)據(jù)。

發(fā)表于 04-30 05:48 ?3406次閱讀

機(jī)器能像嬰兒一樣通過眼睛學(xué)習(xí)世界？

在Facebook人工智能實(shí)驗(yàn)室負(fù)責(zé)人楊樂昆（Yann LeCun）看來，人類既然已經(jīng)教會機(jī)器辨別圖片，甚至能做到人臉識別，那么機(jī)器也能識別視頻。而教會機(jī)器學(xué)習(xí)視頻的方法與嬰兒學(xué)習(xí)相似。即讓機(jī)器

發(fā)表于 05-17 19:21 ?563次閱讀

如何使機(jī)器像人一樣對物理世界直觀理解？

人工智能追求的長期目標(biāo)是使機(jī)器能像人類一樣感知世界和解決問題。對當(dāng)前人工智能而言，解決某些對人類來說屬于智力挑戰(zhàn)的問題可能是相對簡單的，但對看似簡單的與真實(shí)物理世界交互的能力依然非常差

發(fā)表于 08-28 09:11 ?3776次閱讀

世界上第一臺能夠像植物卷須一樣卷曲和攀爬的軟機(jī)器人問世

從機(jī)器人跳躍，跑酷，開門，機(jī)器人正日益成為善于利用人類的技能高手。那么機(jī)器人是否能善于“學(xué)習(xí)”那些植物的技能呢？目前研究人員設(shè)計(jì)出了第

發(fā)表于 01-27 10:42 ?947次閱讀

自監(jiān)督學(xué)習(xí)與Transformer相關(guān)論文

將在明年5月4日舉行，目前，本次大會投稿已經(jīng)結(jié)束，最后共有3013篇論文提交。ICLR 采用公開評審機(jī)制，任何人都可以提前看到這些論文。為了分析最新研究動(dòng)向，我們精選了涵蓋自監(jiān)督學(xué)習(xí)

發(fā)表于 11-02 15:50 ?2601次閱讀

新加坡大學(xué)研發(fā)首個(gè)擁有像人一樣的觸感智能泡沫

隨著人工智能技術(shù)被廣泛應(yīng)用，雖然機(jī)器人越來越智能化，但是卻不能像人類一樣擁有靈敏的觸覺和感知環(huán)境的能力。近日，新加坡國立大學(xué)（NUS）的研究人員發(fā)明了

發(fā)表于 05-29 14:56 ?1744次閱讀

研究團(tuán)隊(duì)設(shè)計(jì)出像大白一樣的擁抱機(jī)器人

你還記得大白嗎？那個(gè)萌萌的會主動(dòng)給人溫暖擁抱的機(jī)器人？現(xiàn)如今，來自德國馬克斯 - 普朗克研究所（MPI-IS）和蘇黎世聯(lián)邦理工學(xué)院（ETH Zürich）的研究團(tuán)隊(duì)就設(shè)計(jì)出了像大白

發(fā)表于 05-31 14:15 ?1635次閱讀

自監(jiān)督學(xué)習(xí)的一些思考

自監(jiān)督學(xué)習(xí)的流行是勢在必然的。在各種主流有監(jiān)督學(xué)習(xí)任務(wù)都做到很成熟之后，數(shù)據(jù)成了最重要的瓶頸。從無標(biāo)注數(shù)據(jù)中學(xué)習(xí)有效信息一直是...

發(fā)表于 01-26 18:50 ?1次下載

人的大腦和自監(jiān)督學(xué)習(xí)模型的相似度有多高？

麥吉爾大學(xué)和魁北克人工智能研究所（Mila）的計(jì)算神經(jīng)科學(xué)家布萊克-理查茲（Blake Richards）說：「我認(rèn)為毫無疑問，大腦所做的90%都是自監(jiān)督學(xué)習(xí)?！?/div>
發(fā)表于 08-19 09:50 ?782次閱讀

像DJ一樣控制 NeoPixels

電子發(fā)燒友網(wǎng)站提供《像DJ一樣控制 NeoPixels.zip》資料免費(fèi)下載

發(fā)表于 12-28 09:28 ?0次下載

LeCun世界模型首項(xiàng)研究來了：自監(jiān)督視覺，已開源

LeCun 認(rèn)為，構(gòu)造自主 AI 需要預(yù)測世界模型，而世界模型必須能夠執(zhí)行多模態(tài)預(yù)測，對應(yīng)的解決方案是一

發(fā)表于 06-14 16:53 ?472次閱讀

基礎(chǔ)模型自監(jiān)督預(yù)訓(xùn)練的數(shù)據(jù)之謎：大量數(shù)據(jù)究竟是福還是禍？

大型語言模型如 ChatGPT 的成功彰顯了海量數(shù)據(jù)在捕捉語言模式和知識方面的巨大潛力，這也推動(dòng)了基于大量數(shù)據(jù)的視覺模型研究。在計(jì)算視覺領(lǐng)域

發(fā)表于 07-24 16:55 ?432次閱讀