三个老头拥着躁我一个视频,大香伊蕉在人线国产最新75

實例分割的任務(wù)是將圖像中的像素分組為單個事物的實例，并用類標(biāo)簽（可計數(shù)的對象，如人、動物、汽車等，并為每個對象分配獨(dú)特的標(biāo)識符，如 car_1 和 car_2）來標(biāo)識這些事物。實例分割作為一項核心的計算機(jī)視覺任務(wù)，對許多下游應(yīng)用至關(guān)重要，如自動駕駛汽車、機(jī)器人、醫(yī)學(xué)成像和照片編輯。

近年來，深度學(xué)習(xí) （Deep learning）在使用 Mask R-CNN 之類的架構(gòu)解決實例分割問題方面取得了重大進(jìn)展。然而，這些方法依賴于收集大型的標(biāo)簽實例分割數(shù)據(jù)集。但不同于收集邊界框標(biāo)簽的方法，如 Extreme clicking，可以實現(xiàn)每個實例 7 秒的收集速度，收集實例分割標(biāo)簽（稱為“掩碼”）時，每個實例用時可能需要高達(dá) 80 秒，該方式較高的成本，拉高了這項研究的門檻。另一個相關(guān)任務(wù)——泛型分割，甚至需要更多的標(biāo)簽數(shù)據(jù)。

Mask R-CNN

https://arxiv.org/abs/1703.06870

Extreme clicking

https://arxiv.org/abs/1708.02750

高達(dá) 80 秒

https://arxiv.org/abs/1405.0312

部分監(jiān)督的實例分割環(huán)境（即只用實例分割掩碼給一小部分類加標(biāo)簽，其余大部分類只用邊界框來加標(biāo)簽）這一方法有可能減少對人工創(chuàng)建的掩碼標(biāo)簽的依賴，從而大大降低開發(fā)實例分割模型的門檻。不過，這種部分監(jiān)督的方法也需要更強(qiáng)的模型泛化形式來處理訓(xùn)練時沒有遇到過的新類別，例如，只用動物掩碼進(jìn)行訓(xùn)練，然后讓模型針對建筑物或植物產(chǎn)生準(zhǔn)確的實例分割。此外，還有簡單的方法，例如訓(xùn)練一個與類無關(guān)的 Mask R-CNN，同時忽略任何沒有掩碼標(biāo)簽的實例的掩碼損失（Loss function），但這些方法效果并不好。例如，在典型的 “VOC/Non-VOC” 基準(zhǔn)中，Mask R-CNN 針對 COCO 中 20 個類的子集（稱為“已見類”）進(jìn)行掩碼訓(xùn)練，并在其余 60 個類（稱為“未見類”）上進(jìn)行測試，一個帶有 Resnet-50 主干的典型 Mask R-CNN 在未見類上的掩碼 mAP（即平均精度，數(shù)值越高越好）只能達(dá)到約 18%，而在全監(jiān)督時，在同一集合上的掩碼 mAP 則高出很多，超過了 34%。

部分監(jiān)督的實例分割環(huán)境

https://arxiv.org/abs/1711.10370

在即將發(fā)布于 ICCV 2021 的“掩碼頭部架構(gòu)對新類別分割的驚人影響（The surprising impact of mask-head architecture on novel class segmentation）”一文中，我們確定了 Mask R-CNN 在新類別上表現(xiàn)不佳的主要原因，并提出了兩個易于實施的修復(fù)方法（訓(xùn)練協(xié)議修復(fù)；掩碼頭部架構(gòu)修復(fù)），這兩種方法協(xié)同作用，可以縮小與全監(jiān)督性能之間的差距。

掩碼頭部架構(gòu)對新類別分割的驚人影響

https://arxiv.org/abs/2104.00613

我們證明了這種方法普遍適用于裁剪-分割模型，即 Mask R-CNN 或類似 Mask R-CNN 的架構(gòu)：計算整個圖像的特征表征，然后將每個實例的裁剪傳遞給第二階段的掩碼預(yù)測網(wǎng)絡(luò)（也稱為掩碼頭部網(wǎng)絡(luò)）。對發(fā)現(xiàn)結(jié)果進(jìn)行整合，我們提出了基于 Mask R-CNN 的模型，該模型的掩碼 mAP 遠(yuǎn)高于目前最先進(jìn)的模型，提升了 4.7%，且無需更復(fù)雜的輔助損失函數(shù)、離線訓(xùn)練的先驗因素或先前研究中提出的權(quán)重轉(zhuǎn)移函數(shù)。我們還開放了該模型兩個版本的代碼庫，分別稱為 Deep-MAC 和 Deep-MARC，并發(fā)布了一個 colab，從而以互動方式生成掩碼，如下面的視頻演示所示。

Deep-MAC

https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/deepmac.md

Deep-MARC

https://github.com/tensorflow/models/tree/master/official/vision/beta/projects/deepmac_maskrcnn

colab

https://github.com/tensorflow/models/blob/master/research/object_detection/colab_tutorials/deepmac_colab.ipynb

模型 DeepMAC 的演示版，即使是訓(xùn)練時未見過的類，該模型也可以學(xué)習(xí)預(yù)測準(zhǔn)確的掩碼，以及給定用戶所指定的邊框。親自在 colab 中試試吧。圖片來源：Chris Briggs、維基百科和 Europeana

部分監(jiān)督環(huán)境中裁剪方法的影響

裁剪是裁剪-分割模型的一個重要步驟，通過裁剪特征圖以及對應(yīng)每個實例的邊界框的實際掩碼來訓(xùn)練 Mask R-CNN。將這些裁剪過的特征傳遞給另一個神經(jīng)網(wǎng)絡(luò)（稱為掩碼頭部網(wǎng)絡(luò)），該網(wǎng)絡(luò)計算出最終的掩碼預(yù)測，然后將其與掩碼損失函數(shù)中的實際裁剪進(jìn)行比較。裁剪有兩種選擇：（1）直接對實例的實際邊界框進(jìn)行裁剪，（2）對模型預(yù)測的邊界框（稱為建議）進(jìn)行裁剪。在測試時始終通過建議來執(zhí)行裁剪，因為要假設(shè)實際邊界框不可用。

“對實際邊界框的裁剪”對比“訓(xùn)練過程中對模型預(yù)測的建議裁剪”。標(biāo)準(zhǔn) Mask R-CNN 實現(xiàn)使用上述兩種類型的裁剪，但我們已經(jīng)證明，只對實際邊界框進(jìn)行裁剪在新類別上表現(xiàn)出顯著的性能優(yōu)勢

我們考慮了一個類似于 Mask R-CNN 的一般架構(gòu)系列，與典型的 Mask R-CNN 訓(xùn)練環(huán)境相比，存在一個微小但關(guān)鍵的區(qū)別：我們在訓(xùn)練時使用實際邊界框（而不是建議邊界框）裁剪

典型的 Mask R-CNN 實現(xiàn)將兩種類型的裁剪都傳遞給掩碼頭部。然而，在傳統(tǒng)的觀點中，這個選擇是一個不重要的實施細(xì)節(jié)，因為它在全監(jiān)督環(huán)境中不會對性能產(chǎn)生顯著影響。相反，對于部分監(jiān)督環(huán)境，我們發(fā)現(xiàn)裁剪方法起著重要的作用，雖然在訓(xùn)練過程中，只對實際邊界框進(jìn)行裁剪不會使全監(jiān)督環(huán)境下的結(jié)果發(fā)生明顯變化，但在部分監(jiān)督環(huán)境中卻有著驚人的顯著積極影響，在未見類上的表現(xiàn)明顯改善。

利用建議和實際邊界框（默認(rèn)設(shè)置）或只用實際邊界框進(jìn)行訓(xùn)練時，Mask R-CNN 在未見類上的性能。只用實際邊界框訓(xùn)練掩碼頭部時，在未見類上的性能有明顯的提升，mAP 超過 9%。我們報告了 ResNet-101-FPN 主干加持下的性能

ResNet-101-FPN

https://arxiv.org/pdf/1703.06870.pdf

解鎖掩碼頭部的完全泛化潛力

更令人驚訝的是，上述方法引發(fā)了一個新現(xiàn)象：在訓(xùn)練過程中啟用實際裁剪， Mask R-CNN 的掩碼頭部對模型的泛化能力（泛化至未見類）起著異常重要的作用。舉個例子，我們在下圖中比較了幾個模型，對象為停車計時器、手機(jī)和披薩（訓(xùn)練期間未見過的類）。每個模型都已啟用實際邊界框裁剪，但使用的開箱即用掩碼頭部架構(gòu)不同。

使用四種不同的掩碼頭部架構(gòu)對未見類進(jìn)行掩碼預(yù)測（從左到右分別是：ResNet-4、ResNet-12、ResNet-20、Hourglass-20，其中數(shù)字是指神經(jīng)網(wǎng)絡(luò)的層數(shù)）盡管從未見過“停車計時器”、“披薩”或“手機(jī)”類中的掩碼，但最右的掩碼頭部架構(gòu)可以正確分割這些類。我們展示的掩碼頭部架構(gòu)在掩碼預(yù)測方面的性能從左到右依次遞增。此外，這種差異只有在未見類上進(jìn)行評估時才比較明顯，如果在已見類上進(jìn)行評估，所有四個架構(gòu)會表現(xiàn)出類似的性能

ResNet-4

https://arxiv.org/abs/1512.03385

ResNet-12

https://arxiv.org/abs/1512.03385

ResNet-20

https://arxiv.org/abs/1512.03385

Hourglass-20

https://arxiv.org/abs/1603.0693

特別需要注意的是，在全監(jiān)督環(huán)境中，掩碼頭部架構(gòu)之間在這些方面的差異并不明顯。順便說一下，這可能解釋了為什么先前的實例分割研究幾乎只使用淺層（即低層數(shù)）掩碼頭部，因為增加復(fù)雜性無法帶來任何優(yōu)勢。下面我們比較了三種不同的掩碼頭部架構(gòu)在已見與未見類上的掩碼 mAP。所有這三種模型在已見類的集合上展現(xiàn)了同樣優(yōu)越的性能，但應(yīng)用于未見類時，深沙漏型掩碼頭部脫穎而出。我們發(fā)現(xiàn)，在所嘗試的架構(gòu)中，沙漏型掩碼頭部效果是最好的，并且在使用 50 層以上的沙漏型掩碼頭部時獲得了最佳結(jié)果。

ResNet-4、Hourglass-10 和 Hourglass-52 掩碼頭部架構(gòu)在已見類和未見類上的性能。盡管在已見類上的性能幾乎沒有變化，但在未見類上的性能卻有很大差別

沙漏型

https://arxiv.org/abs/1603.06937

最后，我們證明這一發(fā)現(xiàn)具有普遍性，適用于各種主干（如 ResNet、SpineNet 和 Hourglass）和檢測器架構(gòu)，包括基于錨和無錨的檢測器，甚至在根本沒有檢測器的情況下也適用。

基于錨

https://arxiv.org/abs/1506.01497

無錨的檢測器

https://arxiv.org/abs/1904.07850

總結(jié)

為了得出最完善的結(jié)果，我們整合了上述發(fā)現(xiàn)：我們在高分辨率圖像（1280x1280）上利用 SpineNet 主干訓(xùn)練了一個啟用實際邊界框裁剪且?guī)в猩?Hourglass-52 掩碼頭部的 Mask R-CNN 模型。我們稱此模型為 Deep-MARC （Deep Mask heads Above R-CNN）。在不使用任何離線訓(xùn)練或其他手動先驗因素的情況下，Deep-MARC 超過了之前最先進(jìn)的模型，掩碼 mAP 提高了 4.5%（絕對值）以上。為證明這種方法的普遍性，我們還訓(xùn)練了基于 CenterNet（而非基于 Mask R-CNN）的模型（稱為 Deep-MAC），該模型同樣展現(xiàn)出強(qiáng)大的性能，也超越了之前最先進(jìn)的水平。

結(jié)論

我們開發(fā)的實例分割模型能夠泛化到不屬于訓(xùn)練集的類。這其中要強(qiáng)調(diào)兩個關(guān)鍵因素的作用，這兩個因素可以應(yīng)用于任何裁剪-分割模型（如 Mask R-CNN）：（1）訓(xùn)練過程中的實際邊界框裁剪，（2）強(qiáng)大的掩碼頭部架構(gòu)。雖然這兩個因素對訓(xùn)練期間有掩碼的類影響不大，但在訓(xùn)練期間沒有掩碼的新類別上，采用這兩個因素會帶來明顯的改善。此外，這兩個因素足以在部分監(jiān)督的 COCO 基準(zhǔn)上實現(xiàn)最先進(jìn)的性能。最后，我們的研究結(jié)果具有普遍性，也可能對相關(guān)的任務(wù)產(chǎn)生影響，如全景分割和姿勢預(yù)測。

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3032

瀏覽量
48346
架構(gòu)

架構(gòu)

+關(guān)注

關(guān)注
1

文章
501

瀏覽量
25374
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5422

瀏覽量
120587

原文標(biāo)題：重新審視模型架構(gòu)的掩碼頭部，用于新類別實例分割

文章出處：【微信號：tensorflowers，微信公眾號：Tensorflowers】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

PyTorch深度學(xué)習(xí)開發(fā)環(huán)境搭建指南

PyTorch作為一種流行的深度學(xué)習(xí)框架，其開發(fā)環(huán)境的搭建對于深度學(xué)習(xí)研究者和開發(fā)者來說至關(guān)重要。在Windows操作系統(tǒng)上搭建PyTorc

發(fā)表于 07-16 18:29 ?518次閱讀

深度學(xué)習(xí)中反卷積的原理和應(yīng)用

像分割、圖像重建和生成對抗網(wǎng)絡(luò)（GANs）等，反卷積展現(xiàn)出了其獨(dú)特的優(yōu)勢和廣泛的應(yīng)用前景。本文將詳細(xì)探討深度學(xué)習(xí)中的反卷積技術(shù)，包括其定義、原理、實現(xiàn)方式、應(yīng)用場景以及與其他上采樣方法的比較，以期為讀者提供一個全面而深入的理解。

發(fā)表于 07-14 10:22 ?674次閱讀

機(jī)器學(xué)習(xí)中的數(shù)據(jù)分割方法

在機(jī)器學(xué)習(xí)中，數(shù)據(jù)分割是一項至關(guān)重要的任務(wù)，它直接影響到模型的訓(xùn)練效果、泛化能力以及最終的性能評估。本文將從多個方面詳細(xì)探討機(jī)器學(xué)習(xí)中數(shù)據(jù)分割的方法，包括常見的

發(fā)表于 07-10 16:10 ?610次閱讀

神經(jīng)網(wǎng)絡(luò)如何用無監(jiān)督算法訓(xùn)練

神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的重要組成部分，其訓(xùn)練方式多樣，其中無監(jiān)督學(xué)習(xí)是一種重要的訓(xùn)練策略。無監(jiān)督學(xué)習(xí)旨在從未標(biāo)記的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的結(jié)構(gòu)、模

發(fā)表于 07-09 18:06 ?573次閱讀

圖像分割與語義分割中的CNN模型綜述

圖像分割與語義分割是計算機(jī)視覺領(lǐng)域的重要任務(wù)，旨在將圖像劃分為多個具有特定語義含義的區(qū)域或?qū)ο蟆＞矸e神經(jīng)網(wǎng)絡(luò)（CNN）作為深度學(xué)習(xí)的一種核心模型，在圖像

發(fā)表于 07-09 11:51 ?330次閱讀

深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述

應(yīng)用中往往難以實現(xiàn)。因此，無監(jiān)督學(xué)習(xí)在深度學(xué)習(xí)中扮演著越來越重要的角色。本文旨在綜述深度學(xué)習(xí)中的無監(jiān)督學(xué)

發(fā)表于 07-09 10:50 ?216次閱讀

深度學(xué)習(xí)中的模型權(quán)重

在深度學(xué)習(xí)這一充滿無限可能性的領(lǐng)域中，模型權(quán)重（Weights）作為其核心組成部分，扮演著至關(guān)重要的角色。它們不僅是模型學(xué)習(xí)的基石，更是模型智能的源泉。本文將從模型權(quán)重的定義、作用、優(yōu)

發(fā)表于 07-04 11:49 ?417次閱讀

深度學(xué)習(xí)的基本原理與核心算法

處理、語音識別等領(lǐng)域取得了革命性的突破。本文將詳細(xì)闡述深度學(xué)習(xí)的原理、核心算法以及實現(xiàn)方式，并通過一個具體的代碼實例進(jìn)行說明。

發(fā)表于 07-04 11:44 ?1071次閱讀

深度解析深度學(xué)習(xí)下的語義SLAM

隨著深度學(xué)習(xí)技術(shù)的興起，計算機(jī)視覺的許多傳統(tǒng)領(lǐng)域都取得了突破性進(jìn)展，例如目標(biāo)的檢測、識別和分類等領(lǐng)域。近年來，研究人員開始在視覺SLAM算法中引入深度學(xué)習(xí)技術(shù)，使得

發(fā)表于 04-23 17:18 ?992次閱讀

動態(tài)場景下的自監(jiān)督單目深度估計方案

自監(jiān)督單目深度估計的訓(xùn)練可以在大量無標(biāo)簽視頻序列來進(jìn)行，訓(xùn)練集獲取很方便。但問題是，實際采集的視頻序列往往會有很多動態(tài)物體，而自監(jiān)督訓(xùn)練本身就是基于靜態(tài)環(huán)境假設(shè)，動態(tài)

發(fā)表于 11-28 09:21 ?471次閱讀

基于深度學(xué)習(xí)的3D點云實例分割方法

3D實例分割（3DIS）是3D領(lǐng)域深度學(xué)習(xí)的核心問題。給定由點云表示的 3D 場景，我們尋求為每個點分配語義類和唯一的實例標(biāo)簽。 3DIS

發(fā)表于 11-13 10:34 ?1626次閱讀

深度學(xué)習(xí)圖像語義分割指標(biāo)介紹

深度學(xué)習(xí)在圖像語義分割上已經(jīng)取得了重大進(jìn)展與明顯的效果，產(chǎn)生了很多專注于圖像語義分割的模型與基準(zhǔn)數(shù)據(jù)集，這些基準(zhǔn)數(shù)據(jù)集提供了一套統(tǒng)一的批判模型的標(biāo)準(zhǔn)，多數(shù)時候我們評價一個模型的性能會從

發(fā)表于 10-09 15:26 ?328次閱讀

深度學(xué)習(xí)的由來深度學(xué)習(xí)的經(jīng)典算法有哪些

深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個分支，其學(xué)習(xí)方法可以分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。兩種方法都具有其獨(dú)特的

發(fā)表于 10-09 10:23 ?483次閱讀

只要MLP就能實現(xiàn)的三維實例分割！

實例分割問題，主要障礙在于點云本身是無序、非結(jié)構(gòu)化和非均勻的。廣泛使用的卷積神經(jīng)網(wǎng)絡(luò)需要對三維點云進(jìn)行體素化處理，從而產(chǎn)生高昂的計算和內(nèi)存成本。

發(fā)表于 09-26 10:13 ?390次閱讀

視覺深度學(xué)習(xí)遷移學(xué)習(xí)訓(xùn)練框架Torchvision介紹

Torchvision是基于Pytorch的視覺深度學(xué)習(xí)遷移學(xué)習(xí)訓(xùn)練框架，當(dāng)前支持的圖像分類、對象檢測、實例分割、語義

發(fā)表于 09-22 09:49 ?747次閱讀