0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

CV迎來GPT-3時刻:Meta開源“萬物可分割AI”模型

vliwulianw ? 來源:CSDN ? 2023-04-07 09:32 ? 次閱讀

4d55965e-d4d6-11ed-bfe3-dac502259ad0.jpg

通過單擊、交互式點擊即可分割圖像或視頻

英偉達 AI 科學家 Jim Fan 在 Twitter 上驚呼,Meta 發(fā)布的 SAM 讓計算機視覺(CV)迎來 GPT-3 時刻。更不可思議的是,模型和數(shù)據(jù)(1100萬張圖像,10億個掩碼)都已經(jīng)基于 Apache 2.0 許可開源。

4d74a198-d4d6-11ed-bfe3-dac502259ad0.png

今日,Meta 發(fā)布首個可“任意圖像分割”的基礎模型 Segment-Anything Model(SAM)和最大規(guī)模的“任意分割 10 億掩碼數(shù)據(jù)集「Segment Anything 1-Billion mask dataset (SA-1B)」,將自然語言領域的 prompt 范式引入了 CV 領域,進而為 CV 基礎模型提供更廣泛的支持與深度研究。

SAM Demo:https://segment-anything.com/

開源地址:https://github.com/facebookresearch/segment-anything

論文地址:https://ai.facebook.com/research/publications/segment-anything/

SA-1B數(shù)據(jù)集:https://ai.facebook.com/datasets/segment-anything/

1. 圖片、視頻皆可分割

分割,作為 CV 領域的核心任務,被廣泛應用在科學圖像到編輯照片等應用程序員中,但是,為特定任務創(chuàng)建準確的分割模型通常需要技術專家進行高度專業(yè)化的工作,并且需要訪問 AI 培訓基礎設施和大量精心注釋領域內方面的數(shù)據(jù)能力。

SAM 通過 prompt 工程能力即可分割任意想分割的圖像。

4da427f6-d4d6-11ed-bfe3-dac502259ad0.png

截圖自SAM論文

SAM 已經(jīng)學會了物體的一般概念,并且可以為任何圖像或視頻中的任何對象生成掩模,甚至包括在訓練期間沒有遇到過的對象和圖像類型。

SAM 足夠通用,可以涵蓋廣泛的用例,并且可以直接在新的圖像“領域”上使用——無論是水下照片還是細胞顯微鏡——都不需要額外的訓練(這種能力通常稱為零樣本遷移)。

之前,為了解決分割問題,一般會采用兩種分類方法:

第一種是交互式分割,可以對任何類別的對象進行分割,但需要人員通過迭代地細化掩模來指導該方法。

第二種是自動分割,允許預先定義特定對象類別(例如貓或椅子)的分割,但需要大量手動注釋的對象進行訓練(例如數(shù)千甚至數(shù)萬個已經(jīng)過分割處理的貓示例),以及計算資源和技術專業(yè)知識來訓練分割模型。這兩種方法都沒有提供通用、完全自動化的分割方法。

SAM 集合了上面兩種方法,成為一個單一模型,可以輕松執(zhí)行交互式分割和自動分割。

1、SAM 允許用戶通過單擊、交互式點擊或邊界框提示來分割對象;

2、當面臨關于正在分割的對象歧義時,SAM可以輸出多個有效掩碼,這是解決現(xiàn)實世界中分割問題所必需的重要能力;

3、SAM可以自動查找并遮罩圖像中的所有對象;

4、在預計算圖像嵌入后,SAM 可以為任何提示生成實時分割掩碼,從而允許與模型進行實時交互。

SAM 在超過 10億個掩碼組成的多樣化高質量數(shù)據(jù)集上進行訓練(作為該項目的一部分),從而使其能夠推廣到訓練期間未觀察到的新類型對象和圖像之外。這種推廣能力意味著,總體來說,從業(yè)者將不再需要收集自己的分割數(shù)據(jù)并微調用于他們用例場景中的模型。

2. SAM 背后的技術

Meta AI 團隊在官博中直言到,SAM 的研發(fā)靈感來自于自然語言和計算機視覺中的 “prompt 工程”,只需對新數(shù)據(jù)集和任務執(zhí)行零樣本學習和少樣本學習即可使其能夠基于任何提示返回有效的分割掩模。其中,提示可以是前景/背景點、粗略框或掩模、自由文本或者一般情況下指示圖像中需要進行分割的任何信息。有效掩模的要求意味著即使提示不明確并且可能涉及多個對象(例如,在襯衫上的一個點既可能表示襯衫也可能表示穿著它的人),輸出應該是其中一個對象合理的掩模。這項任務用于預訓練模型,并通過提示解決通用下游分割任務。

研發(fā)人員觀察到預訓練任務和交互式數(shù)據(jù)收集對模型設計施加了特定的限制。特別是,為了使標注員能夠在實時交互中高效地進行標注,模型需要在 Web 瀏覽器上以實時方式運行于 CPU 上。雖然運行時間約束意味著質量和運行時間之間存在權衡,但他們發(fā)現(xiàn),簡單的設計在實踐中產(chǎn)生良好的結果。

在模型設計中,圖像編碼器為圖像生成一次性嵌入,而輕量級編碼器實時將任何提示轉換為嵌入向量。然后,在輕量級解碼器中將這兩個信息源組合起來以預測分割掩模。計算出圖像嵌入后,SAM 可以在 Web 瀏覽器中僅用 50 毫秒的時間根據(jù)任何提示生成一個段落。

4dc3401e-d4d6-11ed-bfe3-dac502259ad0.png

在 Web 瀏覽器中,SAM 高效地將圖像特征和一組提示嵌入映射到生成分割掩模。

3. 超 1100 萬張照片,1B+掩碼

數(shù)據(jù)集來自 SAM 收集,而在訓練起初,并無任何數(shù)據(jù),而今天發(fā)布的數(shù)據(jù)集已是迄今為止最大的數(shù)據(jù)了。注釋員使用 SAM 交互式地注釋圖像,然后新注釋的數(shù)據(jù)反過來用于更新 SAM,彼此相互作用,重復執(zhí)行此循環(huán)來改善模型和數(shù)據(jù)集。

使用 SAM 收集新分割掩碼比以往任何時候都更快,僅需約 14 秒即可交互式地注釋掩碼。相對于標記邊界框所需時間約 7 秒鐘(使用最快速度標記接口),每個掩碼標記流程只慢 2 倍左右。與之前大規(guī)模分割數(shù)據(jù)收集努力相比,該模型比 COCO 完全手動基于多邊形遮罩注釋快 6.5 倍,比先前最大的數(shù)據(jù)注釋工作快了 2 倍,并且是基于模型協(xié)助完成任務 。

盡管如此,交互式的標記掩碼依然無法擴展創(chuàng)建 10 億個掩碼數(shù)據(jù)庫,于是便有了用于創(chuàng)建 SA-1B 數(shù)據(jù)庫的“引擎”。該引擎有三個“檔位”。

在第一檔中,模型協(xié)助注釋員,相互作用;

第二檔是完全自動化的注釋與輔助注釋相結合,有助于增加收集到的掩碼的多樣性;

數(shù)據(jù)引擎的最后一個檔位是完全自動遮罩創(chuàng)建,進而使數(shù)據(jù)庫可以擴展。

最終,數(shù)據(jù)集在超過 1100 萬張經(jīng)過許可和隱私保護的圖像上收集到了超過 11 億個分割掩模。SA-1B 比任何現(xiàn)有的分割數(shù)據(jù)集多 400 倍,經(jīng)人類評估驗證,這些掩模具有高質量和多樣性,在某些情況下甚至可以與以前規(guī)模小得多、完全手動注釋的數(shù)據(jù)集中的掩模相媲美。

4dd33dde-d4d6-11ed-bfe3-dac502259ad0.png

4ded0a3e-d4d6-11ed-bfe3-dac502259ad0.png

Segment Anything 是通過使用數(shù)據(jù)引擎收集數(shù)百萬張圖像和掩模進行訓練,從而得到一個超 10 億個分割掩模的數(shù)據(jù)集,這比以往任何分割數(shù)據(jù)集都大400倍。

將來,SAM 可能被用于任何需要在圖像中找到和分割任何對象的領域應用程序。

對于 AI 研究社區(qū)或其他人來說,SAM 可能更普遍理解世界、例如理解網(wǎng)頁視覺和文本內容等更大型 AI 系統(tǒng)中組件;

在 AR/VR 領域,SAM 可以根據(jù)用戶注視選擇一個對象,然后將其“提升”到 3D;

對于內容創(chuàng)作者來說,SAM 可以改進諸如提取碎片或視頻編輯等創(chuàng)意應用程序;

SAM 也可用來輔助科學領域研究,如地球上甚至空間自然現(xiàn)象, 例如通過定位要研究并跟蹤視頻中的動物或物體。

4dfeb5ea-d4d6-11ed-bfe3-dac502259ad0.gif

5076095e-d4d6-11ed-bfe3-dac502259ad0.gif

最后,SAM 團隊表示,通過分享他們的研究和數(shù)據(jù)集,來進一步加速分割更常見的圖像和視頻。可提示式分割模型可以作為較大系統(tǒng)中的組件執(zhí)行分割任務。未來,通過組合系統(tǒng)可擴展單個模型使用,通過提示工程等技術實現(xiàn)可組合系統(tǒng)設計,進而使得比專門針對固定任務集訓練的系統(tǒng)能夠得更廣泛的領域應用。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    29012

    瀏覽量

    266439
  • 開源
    +關注

    關注

    3

    文章

    3153

    瀏覽量

    42097
  • CV
    CV
    +關注

    關注

    0

    文章

    51

    瀏覽量

    16801
  • 計算機視覺
    +關注

    關注

    8

    文章

    1685

    瀏覽量

    45816

原文標題:CV 迎來 GPT-3 時刻:Meta 開源“萬物可分割 AI ”模型

文章出處:【微信號:軟件質量報道,微信公眾號:軟件質量報道】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一文解析人工智能中GPT-3 到底有多厲害?

    對于我個人來說,剛剛步入媒體圈,職業(yè)生涯就將遭遇一次非常嚴重的 AI 威脅。 因為 GPT-3 來了,而且在寫文章、編故事的能力上面比上一代更能打了。 已經(jīng)得到微軟 Azure 算力加持
    的頭像 發(fā)表于 03-19 14:19 ?2w次閱讀

    技術與市場:AI模型的“Linux時刻”降臨

    LLaMA 包括四個不同的參數(shù)版本(70 億/130 億/330 億/650 億),不支持商用,指令數(shù) 據(jù)集基于 OpenAI,模型表現(xiàn)可與 GPT-3 持平或優(yōu)于 GPT-3。其中,70 億和 130 億參數(shù) 版擁有包含 1
    的頭像 發(fā)表于 06-01 16:43 ?1304次閱讀
    技術與市場:<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>的“Linux<b class='flag-5'>時刻</b>”降臨

    線下活動 | 開源工作坊第2期——開源萬物互聯(lián)

    開源工作坊第2期——開源萬物互聯(lián)活動 將于12月18日在深圳市新一代產(chǎn)業(yè)園舉辦,感謝各位開發(fā)者一直以來對開放原子開源基金會及開源社區(qū)及
    發(fā)表于 12-15 14:07

    史上最大AI模型GPT-3你要開始收費了 接下去可能用不起它了

    還記得前不久被捧上天的GPT-3么?那個只有被邀請的用戶才能測試使用的,號稱史上最大AI模型。 OpenAI的1,750億參數(shù)語言模型GPT-3
    的頭像 發(fā)表于 09-25 11:38 ?2968次閱讀
    史上最大<b class='flag-5'>AI</b><b class='flag-5'>模型</b><b class='flag-5'>GPT-3</b>你要開始收費了  接下去可能用不起它了

    微軟獲得AI神器 GPT-3 獨家授權,引來馬斯克等業(yè)內人士怒懟

    今年以來,人工智能領域出現(xiàn)了一個熱詞:GPT-3。由人工智能非營利組織 OpenAI 耗資 1200 美元開發(fā),涵蓋 1750 億個參數(shù),達到了目前最佳 SOTA,寫作水平媲美人類。種種光環(huán)加持下,自然語言處理模型
    的頭像 發(fā)表于 09-29 09:52 ?2086次閱讀

    GPT-3引發(fā)公眾的遐想 能根據(jù)文字產(chǎn)生圖片的AI!

    在全球所有 AI 模型中,OpenAI 的 GPT-3 最能引發(fā)公眾的遐想。 雖然它可以僅憑很少的文本來輸出詩歌、短篇小說和歌曲,并且成功地讓人們相信這是人類的創(chuàng)作。但是,它在同人類對話時還是顯得
    的頭像 發(fā)表于 10-09 18:30 ?2515次閱讀

    史上最大AI模型GPT-3強勢霸榜Github

    最近,GPT-3火了!相信你已經(jīng)在網(wǎng)上看到各種有關GPT-3的演示。這個由OpenAI創(chuàng)建的大型機器學習模型,它不僅可以自己寫論文,還會寫詩歌,就連你寫的代碼都能幫你寫了。 ? 下面還是先讓你看看
    的頭像 發(fā)表于 01-06 17:06 ?2763次閱讀

    GPT系列的“高仿” 最大可達GPT-3大小 自主訓練

    雖然GPT-3沒有開源,卻已經(jīng)有人在復刻GPT系列的模型了。 例如,慕尼黑工業(yè)大學的Connor Leahy,此前用200個小時、6000RMB,復現(xiàn)了
    的頭像 發(fā)表于 02-13 09:24 ?2790次閱讀

    谷歌開發(fā)出超過一萬億參數(shù)的語言模型,秒殺GPT-3

    GPT-3問世僅僅不到一年的時間,Google重磅推出Switch Transformer,直接將參數(shù)量從GPT-3的1750億拉高到1.6萬億,并比之前最大的、由google開發(fā)的語言模型
    的頭像 發(fā)表于 01-27 16:26 ?2058次閱讀
    谷歌開發(fā)出超過一萬億參數(shù)的語言<b class='flag-5'>模型</b>,秒殺<b class='flag-5'>GPT-3</b>

    Eleuther AI:已經(jīng)開源了復現(xiàn)版GPT-3模型參數(shù)

    GPT3終于開源!不過,不是官方開的(別打我 Eleuther AI推出的名為GPT-Neo的開源項目,于晨4點于twitter正式宣布:已
    的頭像 發(fā)表于 03-31 17:46 ?3116次閱讀

    第一篇綜述!分割一切模型(SAM)的全面調研

    SAM 是一個提示型模型,其在 1100 張圖像上訓練了超過 10 億個掩碼,實現(xiàn)了強大的零樣本泛化。許多研究人員認為「這是 CVGPT-3
    的頭像 發(fā)表于 05-24 14:36 ?857次閱讀
    第一篇綜述!<b class='flag-5'>分割</b>一切<b class='flag-5'>模型</b>(SAM)的全面調研

    MEANEST家庭自動化AI(使用GPT-3

    電子發(fā)燒友網(wǎng)站提供《MEANEST家庭自動化AI(使用GPT-3).zip》資料免費下載
    發(fā)表于 06-15 11:33 ?0次下載
    MEANEST家庭自動化<b class='flag-5'>AI</b>(使用<b class='flag-5'>GPT-3</b>)

    Meta推出最強開源模型Llama 3 要挑戰(zhàn)GPT

    Meta推出最強開源模型Llama 3 要挑戰(zhàn)GPT Facebook母公司Meta Platf
    的頭像 發(fā)表于 04-19 17:00 ?723次閱讀

    Jim Fan展望:機器人領域即將迎來GPT-3式突破

    英偉達科學家9月19日,科技媒體The Decoder發(fā)布了一則引人關注的報道,英偉達高級科學家Jim Fan在近期預測,機器人技術將在未來兩到三年內迎來類似GPT-3在語言處理領域的革命性突破,他稱之為機器人領域的“GPT-3
    的頭像 發(fā)表于 09-19 15:13 ?338次閱讀

    英偉達預測機器人領域或迎“GPT-3時刻

    未來2-3年內,機器人基礎模型的研究將迎來重大突破,這一時刻被形象地比喻為機器人領域的“GPT-3時刻
    的頭像 發(fā)表于 09-20 17:05 ?661次閱讀