0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于視覺的動態(tài)手勢識別的ResNeXt網(wǎng)絡(luò)詳解

新機器視覺 ? 來源:每刻深思智能科技 ? 2024-03-05 10:35 ? 次閱讀

01

ResNeXt網(wǎng)絡(luò)詳解

一、ResNeXt—VGG、ResNeXt、Inception的結(jié)合體

ResNeXt網(wǎng)絡(luò)可以看作基于VGG、ResNeXt和Inception的一個經(jīng)典神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),目前已經(jīng)被廣泛應(yīng)用于各種視覺任務(wù)。它結(jié)合了以上三種網(wǎng)絡(luò)的特點:

堆疊多個重復(fù)的block(基于VGG)

每個block中包含了多種變換(基于Inception)

使用殘差進行跨層連接(基于ResNet)

1、VGG

VGG是基于AlexNet進行改進得到的網(wǎng)絡(luò)模型結(jié)構(gòu)。AlexNet使用如11*11、7*7、5*5等較大卷積核,而VGG則采用連續(xù)的3*3卷積核進行堆疊。在VGG中,使用3個3*3的卷積核代替7*7的卷積核,使用2個3*3卷積核代替5*5的卷積核,在保證相同感知野的前提下,增加網(wǎng)絡(luò)深度來處理較為復(fù)雜的問題。同時,較小卷積核的引入也降低了參數(shù)量。VGG16家族網(wǎng)絡(luò)結(jié)構(gòu)如圖。

6c237744-da85-11ee-a297-92fbcf53809c.png

可以看到,VGG家族網(wǎng)絡(luò)采用多個block堆疊的方式進行構(gòu)建,每一個block中包含若干個3*3的卷積核,block之間使用maxpool進行下采樣。
ResNeXt延續(xù)了VGG這種相同block堆疊的方式,使用ResNeXt block堆疊的方式構(gòu)建ResNeXt網(wǎng)絡(luò)。

2、Inception

對于神經(jīng)網(wǎng)絡(luò)來說,增加網(wǎng)絡(luò)性能一般通過增加網(wǎng)絡(luò)的深度和寬度來實現(xiàn)。增加深度及增加網(wǎng)絡(luò)層數(shù),增加寬度代表增加每一層特征圖的通道數(shù)。但是一味地增加深度和寬度會導(dǎo)致網(wǎng)絡(luò)的參數(shù)量過于龐大,很可能產(chǎn)生過擬合。有研究表明,增加網(wǎng)絡(luò)的稀疏性可以解決以上問題,Inception正是基于此邏輯進行設(shè)計的。
Inception的核心思想是,在一層中同時使用不同尺寸的卷積核,提取不同尺寸的特征,然后再將結(jié)果通過concact進行連接。于是有了如下的Inception模塊的第一版設(shè)計。

6c28b02e-da85-11ee-a297-92fbcf53809c.png

在該模塊中,使用1*1、3*3、5*5三種不同尺寸大小的卷積核,和一個3*3的最大池化,增加了網(wǎng)絡(luò)在不同尺度上的感知能力。為了減少計算資源消耗,后續(xù)對該模塊進行改進,在卷積前使用1*1的卷積核對特征圖進行降維,然后再對通道數(shù)減少的特征圖進行卷積操作。Inception-v1最終的模塊如下圖。

6c3e9c72-da85-11ee-a297-92fbcf53809c.png

這種在一層中使用不同尺寸卷積核進行卷積的方式,被稱為split-transform-merge策略。簡單來說就是,針對輸入先進行特征分離(split),然后分別進行不同的處理(transform),最后再將所有結(jié)果進行合并(merge)。使用這種策略構(gòu)建起的網(wǎng)絡(luò),雖然能使用較小的參數(shù)實現(xiàn)較多的特征提取,但是該網(wǎng)絡(luò)的每一個分支都需要經(jīng)過精心的設(shè)計,導(dǎo)致模型結(jié)構(gòu)復(fù)雜、泛化能力不強。

ResNeXt在設(shè)計上沿用了split-transform-merge策略,同時對該策略進行了一定程度的改進,規(guī)避了模型結(jié)構(gòu)復(fù)雜這一弱點。

3、ResNet

回到頂部

是否網(wǎng)絡(luò)層數(shù)不斷增加,模型準確率就能不斷增加呢?ResNet的作者做了一個實驗,實驗結(jié)果表明,隨著網(wǎng)絡(luò)層數(shù)不斷增加,模型準確率先是上升,之后卻開始下降。也就是說,層數(shù)較多的網(wǎng)絡(luò)效果有可能不如層數(shù)較少的網(wǎng)絡(luò)。如圖,作者在CIFAR-10數(shù)據(jù)集上進行了實驗,實驗結(jié)果表明,56層網(wǎng)絡(luò)的準確率反而不如20層網(wǎng)絡(luò)。作者將這一現(xiàn)象稱之為模型退化,同時提出了ResNet網(wǎng)絡(luò)以解決模型退化問題,使得神經(jīng)網(wǎng)絡(luò)的深度首次突破了100層。

6c42806c-da85-11ee-a297-92fbcf53809c.png

ResNet的核心思想是,在每一個block中加入shortcut connection(快捷連接),如下圖。在每一個ResNet塊中,輸入x經(jīng)過一系列變換得到F(x),然后再將F(x)和x加在一起得到最終輸出H(x)=F(x)+x。這種網(wǎng)絡(luò)結(jié)構(gòu)也叫做殘差網(wǎng)絡(luò)。

6c79e2dc-da85-11ee-a297-92fbcf53809c.png

實驗表明,ResNet在上百層的網(wǎng)絡(luò)結(jié)構(gòu)中也有著很好的表現(xiàn)。以34層ResNet為例,網(wǎng)絡(luò)結(jié)構(gòu)如下圖。

6c7de134-da85-11ee-a297-92fbcf53809c.png

ResNeXt網(wǎng)絡(luò)是對ResNet網(wǎng)絡(luò)進行改造,借鑒了VGG中block堆疊的設(shè)計原則和Inception中split-transform-merge的策略并對其進行改進。ResNeXt基本結(jié)果如圖所示,可以看到,該模塊在ResNet模塊的基礎(chǔ)上,使用了Inception的策略,但是所有分支結(jié)構(gòu)相同,簡化網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計。

6c969404-da85-11ee-a297-92fbcf53809c.png

二、ResNeXt系列網(wǎng)絡(luò)結(jié)構(gòu)

ResNeXt block一共有三種表現(xiàn)形式,這三種形式完全等價。

6cc7a242-da85-11ee-a297-92fbcf53809c.png

其中最基本的形式為圖中的(a),一共設(shè)計了32個分支,先使用1*1的卷積核對輸入特征圖進行降維,然后使用3*3卷積核進行卷積操作,最后使用1*1卷積核進行升維,然后將所有分支結(jié)果相加,然后進行殘差操作,再與輸入相加,最終得到輸出結(jié)果。

為了方便工程化實現(xiàn),作者將(a)中的結(jié)構(gòu)轉(zhuǎn)化為(b),及先將32個分支卷積結(jié)果進行concact連接,然后使用1*1卷積進行升維,最后和輸入相加得到輸出。

經(jīng)過研究,作者發(fā)現(xiàn)(b)中的結(jié)構(gòu)可以使用分組卷積進行替代。及先使用1*1卷積核對輸入特征圖進行降維,得到128個通道的特征圖,然后將128個通道分為32組,每組4個通道,使用3*3卷積核分別對每組的4個通道進行卷積操作,然后再將32組結(jié)果在通道維度進行聚合,獲得最終的128通道的特征圖。之后進行同樣的1*1卷積升維以及殘差操作,得到最終輸出。
基于上述ResNeXt block構(gòu)建整體網(wǎng)絡(luò),以ResNeXt-50為例,和ResNet-50對比如下。

6ce6f462-da85-11ee-a297-92fbcf53809c.png

可以看到ResNeXt集合了VGG、Inception和ResNet的特點,整體結(jié)構(gòu)和ResNet類似,參數(shù)量(params)和計算量(FLOPs)也與ResNet基本相等,其中網(wǎng)絡(luò)細節(jié)如下:

conv3、conv4、conv5三個block的第一個3*3卷積核的stride=2,實現(xiàn)下采樣功能

當feature map進行下采樣操作后,通道數(shù)變?yōu)樵瓉淼?倍

每一個卷積后面附帶一個Batch Normalization層和Relu激活層,BN層用于加快模型收斂速度,保證模型訓(xùn)練過程中的穩(wěn)定性,一定程度上消除梯度消失或者梯度爆炸問題。

和ResNet一樣,ResNeXt也可以進行拓展,比較常用的有ResNeXt-50、ResNeXt-101、ResNeXt-152。在下文中,將使用ResNeXt-101完成手勢識別任務(wù)。

三、ResNeXt性能分析

ResNeXt作者在ImageNet數(shù)據(jù)集上對不同配置的ResNeXt-50網(wǎng)絡(luò)和ResNeXt-101的性能進行了評估,并且和同等層數(shù)的ResNet網(wǎng)絡(luò)進行了對比,結(jié)果如下,其中setting表示conv2中3*3卷積核的配置情況,“*”前的數(shù)字表示分組數(shù)量,之后的數(shù)字表示每組通道數(shù)。如2*40d表示分2組、每組通道數(shù)為40。top-1 error為錯誤率??梢钥吹?,隨著分組數(shù)的增加,網(wǎng)絡(luò)性能會逐步提高。

6d201684-da85-11ee-a297-92fbcf53809c.png

作者還將ResNeXt-101網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集上和其余網(wǎng)絡(luò)進行了對比,包括ResNet和Inception家族中的部分網(wǎng)絡(luò)結(jié)構(gòu),結(jié)果如圖。可以看到,和這些網(wǎng)絡(luò)相比,ResNeXt-101都表現(xiàn)出了更高的性能。

6d399320-da85-11ee-a297-92fbcf53809c.png

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:基于ResNeXt網(wǎng)絡(luò)實現(xiàn)基于視覺的動態(tài)手勢識別 之 ResNeXt網(wǎng)絡(luò)詳解

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    基于BP神經(jīng)網(wǎng)絡(luò)手勢識別系統(tǒng)

    本文給出了采用ADXL335加速度傳感器來采集五個手指和手背的加速度三軸信息,并通過ZigBee無線網(wǎng)絡(luò)傳輸來提取手勢特征量,同時利用BP神經(jīng)網(wǎng)絡(luò)算法進行誤差分析來實現(xiàn)手勢
    發(fā)表于 07-14 10:55 ?2742次閱讀
    基于BP神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b>的<b class='flag-5'>手勢</b><b class='flag-5'>識別</b>系統(tǒng)

    基于毫米波雷達的手勢識別神經(jīng)網(wǎng)絡(luò)

    ,本文介紹了一種基于神經(jīng)網(wǎng)絡(luò)手勢識別方法。我們使用毫米波雷達來捕捉手勢運動的原始信號,隨后,通過預(yù)處理和神經(jīng)網(wǎng)絡(luò)技術(shù),我們可以捕捉時間和空
    發(fā)表于 05-23 12:12

    基于毫米波雷達的手勢識別算法

    不夠,即他們無法識別距離相當大的噪聲運動超過一米的手勢。在本文中,我們利用一種新的數(shù)據(jù)處理方法和定制的人工卷積神經(jīng)網(wǎng)絡(luò)(CNN)設(shè)計了一個遠程手勢
    發(fā)表于 06-05 19:09

    ELMOS用于手勢識別的光電傳感器E527.16

      德國艾爾默斯半導(dǎo)體公司(ELMOS)日前宣布推出一款用于手勢識別的非接觸式光電傳感器芯片E527.16.該款芯片是基于HALIOS的基本工作原理:一個LED管發(fā)射出經(jīng)過調(diào)制的紅外光,當這些紅外光
    發(fā)表于 11-13 16:00

    基于BP神經(jīng)網(wǎng)絡(luò)手勢識別系統(tǒng)

      摘 要:本文給出了采用ADXL335加速度傳感器來采集五個手指和手背的加速度三軸信息,并通過ZigBee無線網(wǎng)絡(luò)傳輸來提取手勢特征量,同時利用BP神經(jīng)網(wǎng)絡(luò)算法進行誤差分析來實現(xiàn)手勢
    發(fā)表于 11-13 16:04

    代做電容觸控手勢識別,有償

    有沒有人幫忙代做電容觸控手勢識別的,只要識別幾個數(shù)字就行,有償
    發(fā)表于 04-09 16:45

    基于肌電信號和加速度信號的動態(tài)手勢識別方法

    為了增強手勢識別的多樣性和簡便性,提出了一種基于肌電信號( EMG)和加速度(ACC)信息融合的方法來識別動態(tài)手勢。首先,利用MYO傳感器采集EMG和ACC的
    發(fā)表于 11-28 09:58 ?6次下載
    基于肌電信號和加速度信號的<b class='flag-5'>動態(tài)</b><b class='flag-5'>手勢</b><b class='flag-5'>識別</b>方法

    基于加鎖機制的靜態(tài)手勢識別運動中的手勢

    基于 RGB-D( RGB-Depth)的靜態(tài)手勢識別的速度高于其動態(tài)手勢識別,但是存在冗余手勢
    發(fā)表于 12-15 13:34 ?0次下載
    基于加鎖機制的靜態(tài)<b class='flag-5'>手勢</b><b class='flag-5'>識別</b>運動中的<b class='flag-5'>手勢</b>

    基于視覺手勢識別系統(tǒng)的設(shè)計與研究

    基于視覺手勢識別方法交互自然便利,適于普及應(yīng)用,且更能反映機器模擬人類視覺的功能,所以目前是手勢識別的
    的頭像 發(fā)表于 03-26 16:42 ?4349次閱讀
    基于<b class='flag-5'>視覺</b>的<b class='flag-5'>手勢</b><b class='flag-5'>識別</b>系統(tǒng)的設(shè)計與研究

    基于Kinect傳感器的動態(tài)手勢識別方法

    基于Kinect傳感器的動態(tài)手勢識別方法
    發(fā)表于 06-23 16:44 ?20次下載

    手勢識別產(chǎn)品特性和主要應(yīng)用領(lǐng)域

    2020年,新冠疫情席卷全球,“保持距離”成為了防疫的必要措施,這讓許多主打“零接觸”的產(chǎn)品得到消費者青睞,如手勢感應(yīng)泡沫劑、手勢感應(yīng)水龍頭、手勢感應(yīng)開關(guān)、手勢
    的頭像 發(fā)表于 04-10 15:27 ?1062次閱讀
    <b class='flag-5'>手勢</b><b class='flag-5'>識別</b>產(chǎn)品特性和主要應(yīng)用領(lǐng)域

    計算機視覺中手語識別研究

    計算機視覺中手語識別研究 手語識別的目的就是通過計算機提供一種有效的、準確的機制將聾啞人常用的手語手勢識別出來,使得他們與健全人之間的交互變
    的頭像 發(fā)表于 04-14 16:11 ?1123次閱讀

    手勢識別技術(shù)及其應(yīng)用

    手勢識別技術(shù)是一種通過計算機視覺和人工智能技術(shù)來分析和識別人類手勢動作的技術(shù)。它主要利用傳感器、攝像頭等設(shè)備捕捉
    的頭像 發(fā)表于 06-14 18:12 ?1811次閱讀

    手勢識別技術(shù)的挑戰(zhàn)和未來發(fā)展

    ,手勢識別的準確率受到多種因素的影響,如光照、背景、手勢速度等,如何消除這些因素的影響是手勢識別技術(shù)需要解決的問題之一。此外,由于
    的頭像 發(fā)表于 06-14 18:27 ?1078次閱讀

    使用手勢識別的游戲控制

    電子發(fā)燒友網(wǎng)站提供《使用手勢識別的游戲控制.zip》資料免費下載
    發(fā)表于 06-25 15:32 ?0次下載
    使用<b class='flag-5'>手勢</b><b class='flag-5'>識別的</b>游戲控制