国产自在自线午夜精品视频,久久人人97超碰精品amp,亚洲国产热久久综合

實(shí)例分割概念

圖像實(shí)例分割是在對(duì)象檢測(cè)的基礎(chǔ)上進(jìn)一步細(xì)化，分離對(duì)象的前景與背景，實(shí)現(xiàn)像素級(jí)別的對(duì)象分離。所以圖像實(shí)例分割是基于對(duì)象檢測(cè)的基礎(chǔ)上進(jìn)一步提升。圖像實(shí)例分割在目標(biāo)檢測(cè)、人臉檢測(cè)、表情識(shí)別、醫(yī)學(xué)圖像處理與疾病輔助診斷、視頻監(jiān)控與對(duì)象跟蹤、零售場(chǎng)景的貨架空缺識(shí)別等場(chǎng)景下均有應(yīng)用。很多人會(huì)把圖像語義分割跟實(shí)例分割搞混淆，其實(shí)圖像的語義分割(Semantic Segmentation)與圖像的實(shí)例分割(Instance Segmentation)是兩個(gè)不同的概念，看下圖：

圖-1（來自COCO數(shù)據(jù)集論文）

左側(cè)是圖像語義分割的結(jié)果，幾個(gè)不同的類別人、羊、狗、背景分別用不同的顏色表示；右側(cè)是圖像實(shí)例分割的結(jié)果，對(duì)每只羊都用不同的顏色表示，而且把每個(gè)對(duì)象從背景中分離出來。這個(gè)就是語義分割跟實(shí)例分割的區(qū)別，直白點(diǎn)可以說就是語義分割是對(duì)每個(gè)類別、實(shí)例分割是針對(duì)每個(gè)對(duì)象（多個(gè)對(duì)象可能屬于同一個(gè)類別）。

常見的實(shí)例分割網(wǎng)絡(luò)

Mask-RCNN實(shí)例分割網(wǎng)絡(luò)

圖像實(shí)例分割是在對(duì)象檢測(cè)的基礎(chǔ)上再多出個(gè)基于ROI的分割分支，基于這樣思想的實(shí)例分割Mask-RCNN就是其經(jīng)典代表，它的網(wǎng)絡(luò)結(jié)構(gòu)如下：

圖-2（來自Mask-RCNN的論文）

Mask-RCNN可以簡(jiǎn)單地認(rèn)為是Faster-RCNN的基礎(chǔ)上加上一個(gè)實(shí)例分割分支。

RetinaMask實(shí)例分割網(wǎng)絡(luò)

RetinaMask可以看成RetinaNet對(duì)象檢測(cè)網(wǎng)絡(luò)跟Mask-RCNN實(shí)例分割網(wǎng)絡(luò)的兩個(gè)優(yōu)勢(shì)組合，基于特征金字塔實(shí)現(xiàn)了更好的Mask預(yù)測(cè)，網(wǎng)絡(luò)結(jié)構(gòu)圖示如下：

圖-3（來自RetinaMask論文）

PANet實(shí)例分割網(wǎng)絡(luò)

PANet主要工作是基于Mask-RCNN網(wǎng)絡(luò)上改進(jìn)所得，作者通過改進(jìn)Backbone部分提升了特征提取能力，通過自適應(yīng)的池化操作得到更多融合特征，基于全鏈接融合產(chǎn)生mask，最終取得了比Mask-RCNN更好的實(shí)例分割效果，該模型的結(jié)構(gòu)如下：

圖-4（來自PANet論文）

其中全鏈接特征融合mask分支如下圖：

圖-5（來自PANet論文）

YOLACT實(shí)例分割網(wǎng)絡(luò)

該實(shí)例分割網(wǎng)絡(luò)也是基于RetinaNet對(duì)象檢測(cè)網(wǎng)絡(luò)的基礎(chǔ)上，添加一個(gè)Mask分支，不過在添加Mask分支的時(shí)候它的Mask分支設(shè)計(jì)跟RetinaMask有所不同，該網(wǎng)絡(luò)的結(jié)構(gòu)圖示如下：

圖-6（來自YOLACT作者論文）

CenterMask實(shí)例分割網(wǎng)絡(luò)

該實(shí)例網(wǎng)絡(luò)是基于FCOS對(duì)象檢測(cè)框架的基礎(chǔ)上，設(shè)計(jì)一個(gè)Mask分支輸出，該Mask分支被稱為空間注意力引導(dǎo)蒙板(Spatial Attention Guided Mask)，該網(wǎng)絡(luò)的結(jié)構(gòu)如下：

圖-7（來自CenterMask論文）

OpenVINO 支持Mask-RCNN模型

OpenVINO 中支持兩種實(shí)例分割模型分別是Mask-RCNN與YOLACT模型，其中Mask-RCNN模型支持來自英特爾官方庫文件、而YOLACT則來自公開的第三方提供。我們這里以官方的Mask-RCNN模型instance-segmentation-security-0050為例說明，該模型基于COCO數(shù)據(jù)集訓(xùn)練，支持80個(gè)類別的實(shí)例分割，加上背景為81個(gè)類別。

OpenVINO 支持部署Faster-RCNN與Mask-RCNN網(wǎng)絡(luò)時(shí)候輸入的解析都是基于兩個(gè)輸入層，它們分別是：

im_data : NCHW=[1x3x480x480]

im_info: 1x3 三個(gè)值分別是H、W、Scale=1.0

輸出有四個(gè)，名稱與輸出格式及解釋如下：

name: raw_masks, shape: [100, 81, 28, 28] Box ROI區(qū)域的實(shí)例分割輸出，81表示類別（包含背景），28x28表示ROI大小，注意：此模型輸出大小為14x14

模型實(shí)例分割代碼演示

因?yàn)槟Ｐ偷募虞d與推理部分的代碼跟前面系列文章的非常相似，這里就不再給出。代碼演示部分重點(diǎn)在輸出的解析，為了簡(jiǎn)化，我用了兩個(gè)for循環(huán)設(shè)置了輸入與輸出數(shù)據(jù)精度，然后直接通過hardcode的輸出層名稱來獲取推理之后各個(gè)輸出層對(duì)應(yīng)的數(shù)據(jù)部分，首先獲取類別，根據(jù)類別ID與Box的索引，直接獲取實(shí)例分割mask，然后隨機(jī)生成顏色，基于mask實(shí)現(xiàn)與原圖BOX ROI的疊加，產(chǎn)生了實(shí)例分割之后的效果輸出。解析部分的代碼首先需要獲取推理以后的數(shù)據(jù)，獲取數(shù)據(jù)的代碼如下：

float w_rate = static_cast(im_w) / 480.0;

float h_rate = static_cast(im_h) / 480.0;

auto scores = infer_request.GetBlob("scores");

auto boxes = infer_request.GetBlob("boxes");

auto clazzes = infer_request.GetBlob("classes");

auto raw_masks = infer_request.GetBlob("raw_masks");

const float* score_data = static_cast::value_type*>(scores->buffer());

const float* boxes_data = static_cast::value_type*>(boxes->buffer());

const float* clazzes_data = static_cast::value_type*>(clazzes->buffer());

const auto raw_masks_data = static_cast::value_type*>(raw_masks->buffer());

const SizeVector scores_outputDims = scores->getTensorDesc().getDims();

const SizeVector boxes_outputDims = boxes->getTensorDesc().getDims();

const SizeVector mask_outputDims = raw_masks->getTensorDesc().getDims();

const int max_count = scores_outputDims[0];

const int object_size = boxes_outputDims[1];

printf("mask NCHW=[%d, %d, %d, %d] ", mask_outputDims[0], mask_outputDims[1], mask_outputDims[2], mask_outputDims[3]);

int mask_h = mask_outputDims[2];

int mask_w = mask_outputDims[3];

size_t box_stride = mask_h * mask_w * mask_outputDims[1];

然后根據(jù)輸出數(shù)據(jù)格式開始解析Box框與Mask，這部分的代碼如下：

for (int n = 0; n < max_count; n++) {

float confidence = score_data[n];

float xmin = boxes_data[n*object_size] * w_rate;

float ymin = boxes_data[n*object_size + 1] * h_rate;

float xmax = boxes_data[n*object_size + 2] * w_rate;

float ymax = boxes_data[n*object_size + 3] * h_rate;

if (confidence > 0.5) {

cv::Scalar color(rng.uniform(0, 255), rng.uniform(0, 255), rng.uniform(0, 255));

cv::Rect box;

float x1 = std::max(0.0f, xmin), static_cast(im_w));

float y1 = std::max(0.0f, ymin), static_cast(im_h));

float x2 = std::max(0.0f, xmax), static_cast(im_w));

float y2 = std::max(0.0f, ymax), static_cast(im_h));

box.x = static_cast(x1);

box.y = static_cast(y1);

box.width = static_cast(x2 - x1);

box.height = static_cast(y2 - y1);

int label = static_cast(clazzes_data[n]);

std::cout << "confidence: " << confidence << " class name: " << coco_labels[label] << std::endl;

// 解析mask

float* mask_arr = raw_masks_data + box_stride * n + mask_h * mask_w * label;

cv::Mat mask_mat(mask_h, mask_w, CV_32FC1, mask_arr);

cv::Mat roi_img = src(box);

cv::Mat resized_mask_mat(box.height, box.width, CV_32FC1);

cv::resize(mask_mat, resized_mask_mat, cv::Size(box.width, box.height));

cv::Mat uchar_resized_mask(box.height, box.width, CV_8UC3, color);

roi_img.copyTo(uchar_resized_mask, resized_mask_mat <= 0.5);

cv::addWeighted(uchar_resized_mask, 0.7, roi_img, 0.3, 0.0f, roi_img);

cv::putText(src, coco_labels[label].c_str(), box.tl() + (box.br() - box.tl()) / 2, cv::FONT_HERSHEY_PLAIN, 1.0, cv::Scalar(0, 0, 255), 1, 8);

}

其中Mask部分的時(shí)候有個(gè)技巧的地方，首先獲取類別，然后根據(jù)類別，直接獲取Mask中對(duì)應(yīng)的通道數(shù)據(jù)生成二值Mask圖像，添加上顏色，加權(quán)混合到ROI區(qū)域即可得到輸出結(jié)果。

責(zé)任編輯：lq6

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

圖像

圖像

+關(guān)注

關(guān)注
2

文章
1079

瀏覽量
40375

原文標(biāo)題：OpenVINO? 實(shí)現(xiàn)圖像實(shí)例分割

文章出處：【微信號(hào)：英特爾物聯(lián)網(wǎng)，微信公眾號(hào)：英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

圖像語義分割的實(shí)用性是什么

圖像語義分割是一種重要的計(jì)算機(jī)視覺任務(wù)，它旨在將圖像中的每個(gè)像素分配到相應(yīng)的語義類別中。這項(xiàng)技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用，如自動(dòng)駕駛、醫(yī)學(xué)圖像分析、機(jī)器人導(dǎo)航等。一、

發(fā)表于 07-17 09:56 ?337次閱讀

圖像分割和語義分割的區(qū)別與聯(lián)系

圖像分割和語義分割是計(jì)算機(jī)視覺領(lǐng)域中兩個(gè)重要的概念，它們?cè)?b class='flag-5'>圖像處理和分析中發(fā)揮著關(guān)鍵作用。 1. 圖像分

發(fā)表于 07-17 09:55 ?625次閱讀

圖像分割與目標(biāo)檢測(cè)的區(qū)別是什么

圖像分割與目標(biāo)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的兩個(gè)重要任務(wù)，它們?cè)谠S多應(yīng)用場(chǎng)景中都發(fā)揮著關(guān)鍵作用。然而，盡管它們?cè)谀承┓矫嬗邢嗨浦帲鼈兊哪繕?biāo)、方法和應(yīng)用場(chǎng)景有很大的不同。本文將介紹圖像

發(fā)表于 07-17 09:53 ?1027次閱讀

圖像識(shí)別算法有哪幾種

圖像識(shí)別算法是計(jì)算機(jī)視覺領(lǐng)域的核心技術(shù)之一，它通過分析和處理圖像數(shù)據(jù)，實(shí)現(xiàn)對(duì)圖像中的目標(biāo)、場(chǎng)景和物體的識(shí)別和分類。圖像識(shí)別算法的發(fā)展歷程圖像

發(fā)表于 07-16 11:22 ?896次閱讀

圖像分割與語義分割中的CNN模型綜述

圖像分割與語義分割是計(jì)算機(jī)視覺領(lǐng)域的重要任務(wù)，旨在將圖像劃分為多個(gè)具有特定語義含義的區(qū)域或?qū)ο?。卷積神經(jīng)網(wǎng)絡(luò)（CNN）作為深度學(xué)習(xí)的一種核心模型，在

發(fā)表于 07-09 11:51 ?599次閱讀

機(jī)器人視覺技術(shù)中常見的圖像分割方法

、場(chǎng)景理解、導(dǎo)航和交互等任務(wù)至關(guān)重要。以下是一些常見的圖像分割方法：閾值分割法（Thresholding）閾值分割法是一種基于像素強(qiáng)度的

發(fā)表于 07-09 09:31 ?403次閱讀

機(jī)器人視覺技術(shù)中圖像分割方法有哪些

機(jī)器人視覺技術(shù)是人工智能領(lǐng)域的一個(gè)重要分支，它涉及到圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)等多個(gè)學(xué)科。圖像分割是機(jī)器人視覺技術(shù)中的一個(gè)重要環(huán)節(jié)，它的目標(biāo)是從一幅圖像中將目標(biāo)物體與背景分離出來，以

發(fā)表于 07-04 11:34 ?685次閱讀

STM32單片機(jī)有哪幾種常見的開發(fā)環(huán)境？

STM32單片機(jī)是一款廣泛應(yīng)用于嵌入式系統(tǒng)開發(fā)的單片機(jī)，針對(duì)其開發(fā)，有以下幾種常見的方式：STM32單片機(jī)有哪幾種

發(fā)表于 05-18 08:04 ?2790次閱讀

變壓器的調(diào)壓方式有哪幾種？

常見的大功率級(jí)別的調(diào)壓方式有哪些？變壓器調(diào)壓又分為哪幾種形式？調(diào)壓入合調(diào)壓出合調(diào)壓入分調(diào)壓出分這幾個(gè)概念分別是什么意思？

發(fā)表于 02-21 15:11

改進(jìn)棉花根系圖像分割方法

棉花是錦葵科棉屬植物，棉花生產(chǎn)的纖維是我國(guó)各類衣服、家具布和工業(yè)用布的材料，目前我國(guó)的棉花產(chǎn)量也非常高，主要以新疆地區(qū)為主。根系是植物組成的重要部分，其生長(zhǎng)發(fā)育至關(guān)重要。根系圖像分割是根系表型分析

發(fā)表于 01-18 16:18 ?266次閱讀

【愛芯派 Pro 開發(fā)板試用體驗(yàn)】+ 圖像分割和填充的Demo測(cè)試

上進(jìn)行了訓(xùn)練——準(zhǔn)確地說，在1100萬張圖像中，有超過10億個(gè)掩碼。這是一個(gè)相當(dāng)大的數(shù)字。即便如此，SAM 如何知道要在圖像中分割出哪些對(duì)象？我們需要提示SAM精確細(xì)分哪個(gè)區(qū)域。目前版

發(fā)表于 12-26 11:22

三項(xiàng)SOTA！MasQCLIP：開放詞匯通用圖像分割新網(wǎng)絡(luò)

MasQCLIP在開放詞匯實(shí)例分割、語義分割和全景分割三項(xiàng)任務(wù)上均實(shí)現(xiàn)了SOTA，漲點(diǎn)非常明顯。這里也推薦工坊推出的新課程《徹底搞懂視覺-慣性SLAM：VINS-Fusion原理精講與

發(fā)表于 12-12 11:23 ?734次閱讀

什么是步進(jìn)電機(jī)？步進(jìn)電機(jī)分哪幾種?

電子發(fā)燒友網(wǎng)站提供《什么是步進(jìn)電機(jī)？步進(jìn)電機(jī)分哪幾種?.pdf》資料免費(fèi)下載

發(fā)表于 11-28 14:21 ?1次下載

NeurlPS'23開源 | 首個(gè)！開放詞匯3D實(shí)例分割！

我們介紹了開放詞匯3D實(shí)例分割的任務(wù)。當(dāng)前的3D實(shí)例分割方法通常只能從訓(xùn)練數(shù)據(jù)集中標(biāo)注的預(yù)定義的封閉類集中識(shí)別對(duì)象類別。這給現(xiàn)實(shí)世界的應(yīng)用程序帶來了很大的限制，在現(xiàn)實(shí)世界的應(yīng)用程序中，

發(fā)表于 11-14 15:53 ?564次閱讀

基于深度學(xué)習(xí)的3D點(diǎn)云實(shí)例分割方法

3D實(shí)例分割（3DIS）是3D領(lǐng)域深度學(xué)習(xí)的核心問題。給定由點(diǎn)云表示的 3D 場(chǎng)景，我們尋求為每個(gè)點(diǎn)分配語義類和唯一的實(shí)例標(biāo)簽。 3DIS 是一項(xiàng)重要的 3D 感知任務(wù)，在自動(dòng)駕駛、增強(qiáng)現(xiàn)實(shí)和機(jī)器人導(dǎo)航等領(lǐng)域有著廣泛的應(yīng)用，其中

發(fā)表于 11-13 10:34 ?2106次閱讀