Meta宣布推出一個(gè)全新的AI 模型Image Joint Embedding Predictive Architecture (I-JEPA),可通過(guò)對(duì)圖像的自我監(jiān)督學(xué)習(xí)來(lái)學(xué)習(xí)世界的抽象表征,實(shí)現(xiàn)比現(xiàn)有模型更準(zhǔn)確地分析和完成未完成的圖像。
目前相關(guān)的訓(xùn)練代碼和模型已開源,I-JEPA 論文則計(jì)劃在下周的 CVPR 2023 上發(fā)表。
根據(jù)介紹,I-JEPA 結(jié)合了 Meta 首席 AI 科學(xué)家 Yann LeCun 所提倡的類人推理方式,幫助避免 AI 生成圖像常見(jiàn)的一些錯(cuò)誤,比如多出的手指。
I-JEPA 在多項(xiàng)計(jì)算機(jī)視覺(jué)任務(wù)上表現(xiàn)出色,且計(jì)算效率比其他廣泛使用的計(jì)算機(jī)視覺(jué)模型高得多。
I-JEPA 學(xué)習(xí)的表征也可以用于許多不同的應(yīng)用程序,而無(wú)需進(jìn)行大量微調(diào)。
例如,項(xiàng)目團(tuán)隊(duì)在 72 小時(shí)內(nèi)使用 16 個(gè) A100 GPU 訓(xùn)練了一個(gè) 632M 參數(shù)的視覺(jué)轉(zhuǎn)換器模型,I-JEPA 在 ImageNet 上的 low-shot 分類中性能表現(xiàn)最優(yōu),每個(gè)類只有 12 個(gè)標(biāo)記示例。
其他方法通常需要 2 到 10 倍的 GPU 時(shí)間,并且在用相同數(shù)量的數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)錯(cuò)誤率更高。 I-JEPA 背后的想法是以更類似于人類一般理解的抽象表示來(lái)預(yù)測(cè)缺失的信息。
I-JEPA 使用抽象的預(yù)測(cè)目標(biāo),潛在地消除了不必要的 pixel-level 細(xì)節(jié),從而使模型學(xué)習(xí)更多語(yǔ)義特征。
另一個(gè)引導(dǎo) I-JEPA 產(chǎn)生語(yǔ)義表征的核心設(shè)計(jì)選擇是多塊掩碼策略。
具體來(lái)說(shuō),項(xiàng)目團(tuán)隊(duì)證明了使用信息豐富的(空間分布的)上下文來(lái)預(yù)測(cè)包含語(yǔ)義信息(具有足夠大的規(guī)模)的大塊的重要性。
I-JEPA 中的預(yù)測(cè)器可以看作是一個(gè)原始的(和受限的)世界模型,它能夠從部分可觀察的上下文中模擬靜態(tài)圖像中的空間不確定性。
更重要的是,這個(gè)世界模型是語(yǔ)義的,因?yàn)樗A(yù)測(cè)圖像中不可見(jiàn)區(qū)域的高級(jí)信息,而不是 pixel-level 細(xì)節(jié)。
為了解模型捕獲的內(nèi)容,團(tuán)隊(duì)還訓(xùn)練了一個(gè)隨機(jī)解碼器,將 I-JEPA 預(yù)測(cè)的表征映射回像素空間。
這種定性評(píng)估表明該模型正確地捕獲了位置不確定性并生成了具有正確姿勢(shì)的高級(jí)對(duì)象部分(例如,狗的頭、狼的前腿)。
簡(jiǎn)而言之,I-JEPA 能夠?qū)W習(xí)對(duì)象部分的高級(jí)表示,而不會(huì)丟棄它們?cè)趫D像中的局部位置信息。
審核編輯:劉清
-
轉(zhuǎn)換器
+關(guān)注
關(guān)注
27文章
8602瀏覽量
146714 -
gpu
+關(guān)注
關(guān)注
28文章
4673瀏覽量
128594 -
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
8文章
1694瀏覽量
45901
原文標(biāo)題:Meta開源I-JEPA,“類人” AI 模型
文章出處:【微信號(hào):OSC開源社區(qū),微信公眾號(hào):OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論