欧美激情国产精品视频一区二,国产线播放免费人成视频播放

圖像語義分割是圖像處理和是機器視覺技術(shù)中關(guān)于圖像理解的重要任務(wù)。語義分割即是對圖像中每一個像素點進行分類，確定每個點的類別，從而進行區(qū)域劃分，為了能夠幫助大家更好的了解語義分割領(lǐng)域，我們精選知乎文章。作者Xavier CHEN針對語義分割進行系統(tǒng)的介紹，從原理解析到算法發(fā)展總結(jié)，文章思路清晰，總結(jié)全面，推薦大家閱讀。

本文作者為Xavier CHEN，畢業(yè)于浙江大學(xué)，在知乎持續(xù)分享前沿文章。

前言

之前做了一個語義分割的綜述報告，現(xiàn)在把報告總結(jié)成文章。這篇文章將分為三個部分：

1.語義分割基本介紹：明確語義分割解決的是什么問題。

2.從FCN到Deeplab v3+：解讀語義分割模型的發(fā)展，常用方法與技巧

3.代碼實戰(zhàn)中需要注意的問題。

語義分割基本介紹

2.1 概念

語義分割（semantic segmentation） : 就是按照“語義”給圖像上目標類別中的每一點打一個標簽，使得不同種類的東西在圖像上被區(qū)分開來?？梢岳斫獬上袼丶墑e的分類任務(wù)。

輸入：（H*W*3）就是正常的圖片

輸出：( H*W*class )可以看為圖片上每個點的one-hot表示，每一個channel對應(yīng)一個class,對每一個pixel位置，都有class數(shù)目個channel,每個channel的值對應(yīng)那個像素屬于該class的預(yù)測概率。

figure1

2.2評價準則

1.像素精度（pixel accuracy ）：每一類像素正確分類的個數(shù)/ 每一類像素的實際個數(shù)。

2.均像素精度（mean pixel accuracy ）：每一類像素的精度的平均值。

3.平均交并比（Mean Intersection over Union）：求出每一類的IOU取平均值。IOU指的是兩塊區(qū)域相交的部分/兩個部分的并集，如figure2中綠色部分/總面積。

4.權(quán)頻交并比（Frequency Weight Intersection over Union）：每一類出現(xiàn)的頻率作為權(quán)重

figure2

從FCN 到Deeplab V3+

語義分割的原理和常用技巧

3.1 FCN

FCN是語義分割的開山之作，主要特色有兩點：

1.全連接層換成卷積層

2.不同尺度的信息融合FCN-8S,16s,32s

看詳細講解推薦：

https://zhuanlan.zhihu.com/p/30195134

3.1.1 全連接層換成卷積層

figure3

以Alexnet的拓撲結(jié)構(gòu)為例

原本的結(jié)構(gòu)：224大小的圖片經(jīng)過一系列卷積，得到大小為1/32 = 7的feature map，經(jīng)過三層全連接層，得到基于FC的分布式表示。

我們把三層全連接層全都換成卷積層，卷積核的大小和個數(shù)如下圖中間行所示，我們?nèi)サ袅巳B接層，但是得到了另外一種基于不同channel的分布式表示：Heatmap

舉一個例子，我們有一個大小為384的圖片，經(jīng)過替換了FC的Alexnet,得到的是6*6*1000的Heatmap,相當于原來的Alexnet 以stride = 32在輸入圖片上滑動，經(jīng)過上采樣之后，就可以得到粗略的分割結(jié)果。

figure4

3.1.2 不同尺度的信息融合

就像剛剛舉的Alexnet的例子，對于任何的分類神經(jīng)網(wǎng)絡(luò)我們都可以用卷積層替換FC層，只是換了一種信息的分布式表示。如果我們直接把Heatmap上采樣，就得到FCN-32s。如下圖

figure5

但是我們知道，隨著一次次的池化，雖然感受野不斷增大，語義信息不斷增強。但是池化造成了像素位置信息的丟失：直觀舉例，1/32大小的Heatmap上采樣到原圖之后，在Heatmap上如果偏移一個像素，在原圖就偏移32個像素，這是不能容忍的。

見figure6,前面的層雖然語義信息較少，但是位置信息較多，作者就把1/8 1/16 1/32的三個層的輸出融合起來了。先把1/32的輸出上采樣到1/16,和Pool4的輸出做elementwose addition , 結(jié)果再上采樣到1/8,和Pool3的輸出各個元素相加。得到1/8的結(jié)果，上采樣8倍，求Loss。

figure6

3.2 U-net

figure7

U-net用于解決小樣本的簡單問題分割，比如醫(yī)療影片的分割。它遵循的基本原理與FCN一樣：

1.Encoder-Decoder結(jié)構(gòu)：前半部分為多層卷積池化，不斷擴大感受野，用于提取特征。后半部分上采樣回復(fù)圖片尺寸。

2.更豐富的信息融合：如灰色剪頭，更多的前后層之間的信息融合。這里是把前面層的輸出和后面層concat(串聯(lián))到一起，區(qū)別于FCN的逐元素加和。不同F(xiàn)eature map串聯(lián)到一起后，后面接卷積層，可以讓卷積核在channel上自己做出選擇。注意的是，在串聯(lián)之前，需要把前層的feature map crop到和后層一樣的大小。

3.3 SegNet

figure 8

在結(jié)構(gòu)上看，SegNet和U-net其實大同小異，都是編碼-解碼結(jié)果。區(qū)別在意，SegNet沒有直接融合不同尺度的層的信息，為了解決為止信息丟失的問題，SegNet使用了帶有坐標（index）的池化。如下圖所示，在Max pooling時，選擇最大像素的同時，記錄下該像素在Feature map的位置（左圖）。在反池化的時候，根據(jù)記錄的坐標，把最大值復(fù)原到原來對應(yīng)的位置，其他的位置補零（右圖）。后面的卷積可以把0的元素給填上。這樣一來，就解決了由于多次池化造成的位置信息的丟失。

figure 9

3.4 Deeplab V1

figure10

這篇論文不同于之前的思路，他的特色有兩點：

1.由于Pooling-Upsample會丟失位置信息而且多層上下采樣開銷較大，把控制感受野大小的方法化成：帶孔卷積（Atrous conv）

2.加入CRF(條件隨機場)，利用像素之間的關(guān)連信息：相鄰的像素，或者顏色相近的像素有更大的可能屬于同一個class。

3.4.1 Atrous Conv

如右下圖片所示，一個擴張率為2的帶孔卷積接在一個擴張率為1的正常卷積后面，可以達到大小為7的感受野，但是輸出的大小并沒有減小，參數(shù)量也沒有增大。

figure 11

3.4.2 條件隨機場CRF

figure 12

3.5 PSPnet

figure13

原理都大同小異，前面的不同level的信息融合都是融合淺層和后層的Feature Map,因為后層的感受野大，語義特征強，淺層的感受野小，局部特征明顯且位置信息豐富。

PSPnet則使用了空間金字塔池化，得到一組感受野大小不同的feature map,將這些感受野不同的map concat到一起，完成多層次的語義特征融合。

3.6 Deeplab V2

figure 14

Deeplab v2在v1的基礎(chǔ)上做出了改進，引入了ASPP(Atrous Spatial Pyramid Pooling)的結(jié)構(gòu)，如上圖所示。我們注意到，Deeplab v1使用帶孔卷積擴大感受野之后，沒有融合不同層之間的信息。

ASPP層就是為了融合不同級別的語義信息：選擇不同擴張率的帶孔卷積去處理Feature Map，由于感受野不同，得到的信息的Level也就不同，ASPP層把這些不同層級的feature map concat到一起，進行信息融合。

3.7 Deeplab v3

Deeplab v3在原有基礎(chǔ)上的改動是：

1.改進了ASPP模塊

2.引入Resnet Block

3.丟棄CRF

figure15

新的ASPP模塊：

1.加入了Batch Norm

2.加入特征的全局平均池化（在擴張率很大的情況下，有效權(quán)重會變?。?。如圖14中的（b）Image Pooling就是全局平均池化，它的加入是對全局特征的強調(diào)、加強。

在舊的ASPP模塊中：我們以為在擴張率足夠大的時候，感受野足夠大，所以獲得的特征傾向于全局特征。但實際上，擴張率過大的情況下，Atrous conv出現(xiàn)了“權(quán)值退化”的問題，感受野過大，都已近擴展到了圖像外面，大多數(shù)的權(quán)重都和圖像外圍的zero padding進行了點乘，這樣并沒有獲取圖像中的信息。有效的權(quán)值個數(shù)很少，往往就是1。于是我們加了全局平均池化，強行利用全局信息。

3.8 Deeplab v3+

figure16

可以看成是把Deeplab v3作為編碼器（上半部分）。后面再進行解碼，并且在解碼的過程中在此運用了不同層級特征的融合。

此外，在encoder部分加入了Xception的結(jié)構(gòu)減少了參數(shù)量，提高運行速遞。關(guān)于Xception如何減少參數(shù)量，提高速度。建議閱讀論文 : Mobilenet

https://arxiv.org/pdf/1704.04861.pdf

3.9 套路總結(jié)

看完這么多論文，會發(fā)現(xiàn)他們的方法都差不多，總結(jié)為一下幾點。在自己設(shè)計語義分割模型的時候，遵循一下規(guī)則，都是可以漲點的。但是要結(jié)合自己的項目要求，選擇合適的方法。

1.全卷積網(wǎng)絡(luò)，滑窗的形式

2.感受野的控制：Pooling+Upsample => Atrous convolution

3.不同Level的特征融合：統(tǒng)一尺寸之后Add / Concat+Conv, SPP, ASPP…

4.考慮相鄰像素之間的關(guān)系：CRF

5.在條件允許的情況下，圖像越大越好。

6.分割某一個特定的類別，可以考慮使用先驗知識+ 對結(jié)果進行圖像形態(tài)學(xué)處理

7.此外還有一些其他的研究思路：實時語義分割，視頻語義分割

責任編輯：xj

原文標題：一文速覽！語義分割算法盤點

文章出處：【微信公眾號：新機器視覺】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

算法

算法

+關(guān)注

關(guān)注
23

文章
4587

瀏覽量
92501
FC

FC

+關(guān)注

關(guān)注
1

文章
77

瀏覽量
41973
卷積

卷積

+關(guān)注

關(guān)注
0

文章
95

瀏覽量
18487

原文標題：一文速覽！語義分割算法盤點

文章出處：【微信號：vision263com，微信公眾號：新機器視覺】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

手冊上新 |迅為RK3568開發(fā)板NPU例程測試

測試 6.1 deeplabv3語義分割 6.2 lite_transformer 6.3 LPRNet車牌識別 6.4 mobilenet圖像分類 6.5 PPOCR-Rec文字識別 6.6

發(fā)表于 10-23 14:06

語義分割25種損失函數(shù)綜述和展望

語義圖像分割，即將圖像中的每個像素分類到特定的類別中，是許多視覺理解系統(tǒng)中的重要組成部分。作為評估統(tǒng)計模型性能的主要標準，損失函數(shù)對于塑造基于深度學(xué)習(xí)的分割

發(fā)表于 10-22 08:04 ?92次閱讀

<b class='flag-5'>語義</b><b class='flag-5'>分割</b>25種損失函數(shù)綜述和展望

畫面分割器怎么調(diào)試

畫面分割器，通常指的是視頻畫面分割器，它是一種可以將一個視頻信號分割成多個小畫面的設(shè)備。這種設(shè)備廣泛應(yīng)用于監(jiān)控系統(tǒng)、視頻會議、多畫面顯示等場景。調(diào)試畫面

發(fā)表于 10-17 09:32 ?219次閱讀

手冊上新 |迅為RK3568開發(fā)板NPU例程測試

測試 6.1 deeplabv3語義分割 6.2 lite_transformer 6.3 LPRNet車牌識別 6.4 mobilenet圖像分類 6.5 PPOCR-Rec文字識別 6.6

發(fā)表于 08-12 11:03

圖像語義分割的實用性是什么

圖像語義分割是一種重要的計算機視覺任務(wù)，它旨在將圖像中的每個像素分配到相應(yīng)的語義類別中。這項技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用，如自動駕駛、醫(yī)學(xué)圖像分析、機器人導(dǎo)航等。一、圖像語義

發(fā)表于 07-17 09:56 ?336次閱讀

圖像分割和語義分割的區(qū)別與聯(lián)系

圖像分割和語義分割是計算機視覺領(lǐng)域中兩個重要的概念，它們在圖像處理和分析中發(fā)揮著關(guān)鍵作用。 1. 圖像分割簡介圖像分割是將圖像劃分為多個區(qū)

發(fā)表于 07-17 09:55 ?622次閱讀

迅為RK3568手冊上新 | RK3568開發(fā)板NPU例程測試

deeplabv3語義分割 6.2 lite_transformer 6.3 LPRNet車牌識別 6.4 mobilenet圖像分類 6.5 PPOCR-Rec文字識別 6.6 PPOCR-Det語義

發(fā)表于 07-12 14:44

圖像分割與語義分割中的CNN模型綜述

圖像分割與語義分割是計算機視覺領(lǐng)域的重要任務(wù)，旨在將圖像劃分為多個具有特定語義含義的區(qū)域或?qū)ο?。卷積神經(jīng)網(wǎng)絡(luò)（CNN）作為深度學(xué)習(xí)的一種核心模型，在圖像

發(fā)表于 07-09 11:51 ?599次閱讀

算法系列：彩色轉(zhuǎn)灰度

今天和大俠簡單聊一聊彩色轉(zhuǎn)灰度的算法，話不多說，上貨。一、基礎(chǔ)　對于彩色轉(zhuǎn)灰度，有一個很著名的心理學(xué)公式： Gray = R*0.299 + G*0.587 + B*0.114 二

發(fā)表于 05-22 19:02

算法系列：基于 FPGA 的圖像邊緣檢測系統(tǒng)設(shè)計（sobel算法）

方法，將其轉(zhuǎn)換為灰度：浮點算法：Gray=0.299R+0.587G+0.114B 平均值法：Gray=(R+G+B)/3; 僅取單色（如綠色）：Gray=G；將計算出來的Gray值同時賦值給

發(fā)表于 03-26 16:40

計算機視覺領(lǐng)域的十大核心技術(shù)算法

圖像分割算法是計算機視覺領(lǐng)域的基礎(chǔ)算法之一，它的主要任務(wù)是將圖像分割成不同的區(qū)域或?qū)ο?。常見的圖像分割算

發(fā)表于 02-25 09:38 ?904次閱讀

助力移動機器人下游任務(wù)！Mobile-Seed用于聯(lián)合語義分割和邊界檢測

精確、快速地劃定清晰的邊界和魯棒的語義對于許多下游機器人任務(wù)至關(guān)重要，例如機器人抓取和操作、實時語義建圖以及在邊緣計算單元上執(zhí)行的在線傳感器校準。

發(fā)表于 02-20 10:30 ?802次閱讀

計算機視覺的十大算法

隨著科技的不斷發(fā)展，計算機視覺領(lǐng)域也取得了長足的進步。本文將介紹計算機視覺領(lǐng)域的十大算法，包括它們的基本原理、應(yīng)用場景和優(yōu)缺點。這些算法在圖像處理、目標檢測、人臉識別等領(lǐng)域有著廣泛的應(yīng)用，對計算機

發(fā)表于 02-19 13:26 ?1176次閱讀

三項SOTA！MasQCLIP：開放詞匯通用圖像分割新網(wǎng)絡(luò)

MasQCLIP在開放詞匯實例分割、語義分割和全景分割三項任務(wù)上均實現(xiàn)了SOTA，漲點非常明顯。這里也推薦工坊推出的新課程《徹底搞懂視覺-慣性SLAM：VINS-Fusion原理精講與

發(fā)表于 12-12 11:23 ?734次閱讀

一種在線激光雷達語義分割框架MemorySeg

本文提出了一種在線激光雷達語義分割框架MemorySeg，它利用三維潛在記憶來改進當前幀的預(yù)測。傳統(tǒng)的方法通常只使用單次掃描的環(huán)境信息來完成語義分割任務(wù)，而忽略了觀測的時間連續(xù)性所蘊含

發(fā)表于 11-21 10:48 ?532次閱讀