近日,由魔芯科技、浙江大學(xué)、湖州師范學(xué)院、新加坡科技設(shè)計(jì)大學(xué)(SUTD)、北京航空航天大學(xué)等多單位聯(lián)合發(fā)表學(xué)術(shù)論文,發(fā)現(xiàn)了SAM這一通用大模型在部分下游任務(wù)上的性能表現(xiàn)不佳,并首次提出了將任務(wù)特定知識(shí)和大模型SAM學(xué)到的通用知識(shí)和在下游任務(wù)中結(jié)合,進(jìn)行適應(yīng)調(diào)優(yōu)(而非重新訓(xùn)練)的方法。研究提出了一個(gè)輕量的adapter框架將這些任務(wù)相關(guān)的知識(shí)輸入進(jìn)SAM中,以實(shí)現(xiàn)SAM在下游任務(wù)的針對(duì)性應(yīng)用。該論文的代碼已經(jīng)在GitHub上開(kāi)源。
主頁(yè):https://tianrun-chen.github.io/SAM-Adaptor/ 代碼(已開(kāi)源):https://github.com/tianrun-chen/SAM-Adaptor-PyTorch 論文:https://arxiv.org/abs/2304.09148
這項(xiàng)研究成果開(kāi)辟了利用大型預(yù)訓(xùn)練圖像模型在不同領(lǐng)域和工業(yè)應(yīng)用中進(jìn)行各種下游分割任務(wù)研究的新時(shí)代。它為研究人員和從業(yè)者提供了有價(jià)值的見(jiàn)解,展示了如何利用內(nèi)部知識(shí)和外部控制信號(hào)來(lái)適應(yīng)預(yù)訓(xùn)練模型,以在具有挑戰(zhàn)性的任務(wù)中實(shí)現(xiàn)最先進(jìn)的性能。該研究成果還為醫(yī)學(xué)圖像處理、自然科學(xué)、農(nóng)牧業(yè)、遙感等領(lǐng)域的應(yīng)用提供了新思路。
人工智能研究已經(jīng)見(jiàn)證了一個(gè)由大規(guī)模海量數(shù)據(jù)上訓(xùn)練的模型所帶來(lái)的范式上的轉(zhuǎn)變。這些模型,或稱為基礎(chǔ)模型,如BERT、DALL-E和GPT-3,已經(jīng)在許多語(yǔ)言或視覺(jué)任務(wù)中顯示出有優(yōu)秀的結(jié)果。
在這些基礎(chǔ)模型中,Segment Anything Model(SAM)作為一個(gè)在大型視覺(jué)語(yǔ)料庫(kù)上訓(xùn)練的通用圖像分割模型取得了顯著的突破。事實(shí)證明,SAM在不同的場(chǎng)景下具有成功的分割能力,這使得它在圖像分割和計(jì)算機(jī)視覺(jué)的相關(guān)領(lǐng)域邁出了突破性的一步。
然而,由于計(jì)算機(jī)視覺(jué)包含了廣泛的問(wèn)題,SAM的不完整性是顯而易見(jiàn)的,這與其他基礎(chǔ)模型類似,因?yàn)橛?xùn)練數(shù)據(jù)不能包含整個(gè)語(yǔ)料庫(kù),工作場(chǎng)景也會(huì)有變化。在本研究中,作者首先在一些具有挑戰(zhàn)性的低層次結(jié)構(gòu)分割任務(wù)中測(cè)試SAM,包括偽裝物體檢測(cè)(隱蔽場(chǎng)景)和陰影檢測(cè),作者發(fā)現(xiàn)在一般圖像上訓(xùn)練的SAM模型在這些情況下不能完美地 "分割任何東西",包括影子檢測(cè)、偽裝物體檢測(cè)等。
因此,一個(gè)關(guān)鍵的研究問(wèn)題是:如何高效利用大型模型從大規(guī)模語(yǔ)料庫(kù)中獲得的能力,并利用它們使下游的任務(wù)受益?
在這項(xiàng)工作中,來(lái)自魔芯科技、浙江大學(xué)、新加坡科技設(shè)計(jì)大學(xué)等單位的研究者提出了SAM-adapter,它是一個(gè)針對(duì)上述研究問(wèn)題的優(yōu)秀解決方案。這項(xiàng)開(kāi)創(chuàng)性的工作首次嘗試將大型預(yù)訓(xùn)練的圖像分割一切模型SAM適應(yīng)于特定的下游任務(wù),并提高其性能。正如其名,SAM-adapter是一種非常簡(jiǎn)單而有效的適應(yīng)技術(shù),可以同時(shí)利用來(lái)自大模型的內(nèi)部知識(shí)和針對(duì)下游任務(wù)設(shè)定的外部控制信號(hào)。在該方法中,信息是通過(guò)視覺(jué)提示傳達(dá)給網(wǎng)絡(luò)的,這已被證明了在用最少的額外可訓(xùn)練參數(shù),能高效地將一個(gè)凍結(jié)的大基礎(chǔ)模型適應(yīng)到許多下游任務(wù)工作。
圖:SAM-Adapter (Ours) 在偽裝物體檢測(cè)上的性能測(cè)試
這項(xiàng)工作率先證明了大規(guī)模海量數(shù)據(jù)訓(xùn)練給SAM帶來(lái)的特殊能力可以被應(yīng)用到其他數(shù)據(jù)領(lǐng)域。SAM-Adapter可以被用作這樣的遷移。作者在影子檢測(cè)、偽裝物體檢測(cè)等任務(wù)的數(shù)據(jù)上實(shí)現(xiàn)了超過(guò)已有算法的高性能(SOTA)表現(xiàn)。未來(lái),我們相信SAM-Adapter作為一個(gè)通用框架,可以被應(yīng)用于更多不同領(lǐng)域的各種下游分割任務(wù)中,包括在醫(yī)學(xué)影像診斷、農(nóng)業(yè)、工業(yè)檢測(cè)等不同領(lǐng)域。
審核編輯 :李倩
-
人工智能
+關(guān)注
關(guān)注
1789文章
46652瀏覽量
237090 -
SAM
+關(guān)注
關(guān)注
0文章
111瀏覽量
33480
原文標(biāo)題:SAM無(wú)法分割一切?SAM-Adapter:首次讓SAM在下游任務(wù)適應(yīng)調(diào)優(yōu)!
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論