0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):膠囊網(wǎng)絡(luò)

8g3K_AI_Thinker ? 來源:工程師曾玲 ? 2019-02-02 09:25 ? 次閱讀

注:為了便于理解,我在翻譯的時候可能不完全遵循原文句子,部分內(nèi)容經(jīng)過理解使用了自己的表達;論文部分原文是英文,我也將其翻譯了。

什么是膠囊網(wǎng)絡(luò)?

膠囊網(wǎng)絡(luò)是Geoffrey Hinton提出的一種新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),為了解決卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)的一些缺點,提出了膠囊網(wǎng)絡(luò)。

話不多說,來看看這個聽起來就像「一顆一顆藥擺在你面前」的網(wǎng)絡(luò)是怎么樣的。

卷積網(wǎng)絡(luò)有平移不變性

平移不變性是什么呢?假設(shè)我們有一個可以分類貓的模型,你給這個模型看一張貓的圖片,它會預(yù)測出這是一只貓。然后你把貓向左移一下,再展示給這個模型看,它依然會認為這是一只貓,而不會預(yù)測出其他的信息。

這樣看來好像不錯,意味著無論這只貓放在圖片的哪個位置,我們的模型都能識別出這是一只貓,好像它表現(xiàn)得還不錯。但是有的時候我們需要的是平移同變性。

也就是當我們給這個模型展示一張移動到右邊的貓的圖片時,模型預(yù)測的是一只移動到右邊的貓;展示一張移動到左邊的貓的圖片時,模型預(yù)測的是一只移動到左邊的貓。

為什么要平移同變性呢?一般我們給一個模型輸入一張人臉的圖片的時候,五官都是在正常的位置的,眼睛在眼睛的位置上,鼻子在鼻子的位置上。

但是我們?nèi)绻蜒劬Ψ旁陬~頭上,耳朵放在下巴那,一般的卷積神經(jīng)網(wǎng)絡(luò)還是會認為這是一張臉,因為它有平移不變性,也就是它只認為一張有鼻子有眼睛有嘴巴等特征的臉,就是人臉。讓我們來看一下這樣一張奇怪的人臉是怎樣的。

一種新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):膠囊網(wǎng)絡(luò)

如果膠囊網(wǎng)絡(luò)像我們所說的那樣有平移同變性,那么它就能夠識別到人臉的某一部分與另一部分的相對位置不正確,并且把這一部分正確的標注出來:

一種新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):膠囊網(wǎng)絡(luò)

卷積網(wǎng)絡(luò)需要大量的數(shù)據(jù)來泛化

為了使卷積神經(jīng)網(wǎng)絡(luò)具有平移不變量,模型必須為每個不同的觀測角度學習不同的濾波器,而這樣就需要大量的數(shù)據(jù)來進行。

卷積網(wǎng)絡(luò)在人類視覺系統(tǒng)上的表現(xiàn)很差

根據(jù)Hinton所說的,當視覺刺激被觸發(fā)的時候,大腦里面有一種內(nèi)在的機制,將低層次的視覺數(shù)據(jù)「導航」到它認為可以最好地處理這些數(shù)據(jù)的部分。而卷及網(wǎng)絡(luò)使用多層濾波器來從底層可視數(shù)據(jù)中提取高級信息,所以這種導航機制就不存在了。

一種新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):膠囊網(wǎng)絡(luò)

而且,當人類在看一個物體的時候,視覺系統(tǒng)會在坐標系上表示這個物體。就好比我們可以知道一個圖形是不是給翻轉(zhuǎn)了。

一種新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):膠囊網(wǎng)絡(luò)

當我們看到上面的這個字母時,我們是會在腦里邊默默地把他旋轉(zhuǎn)到一個它們一般所放置的參考點,類似于:

一種新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):膠囊網(wǎng)絡(luò)

而由于卷積網(wǎng)絡(luò)其設(shè)計的特性,它就不會有這樣的操作。那么稍后,我們將探討如何設(shè)置一個邊框,并對對象進行相對于其坐標的旋轉(zhuǎn)。

膠囊網(wǎng)絡(luò)是怎么解決這些問題的?

你可以把(電腦)視覺想象成「逆圖像 」——Geoffrey Hinton

什么是逆圖像呢?簡單地說,它就是電腦在屏幕上渲染的物體的一個相反映射。(這聽起來好像有點難理解,但是當你看完下面的文字和圖片,應(yīng)該會有較大幫助)

為了把一個網(wǎng)格物體變成像素在屏幕上顯示出來,電腦會取這整個物體的姿態(tài),然后與一個變換矩陣相乘。這樣就會在一個較低的維度(2D)輸出物體部分的姿態(tài),這就是我們在屏幕上所看到的畫面了。

一種新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):膠囊網(wǎng)絡(luò)

那么為什么我們不能反過來做呢?讓低維空間的像素圖片去乘以變換矩陣的逆,來得到整個物體的姿態(tài)。

一種新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):膠囊網(wǎng)絡(luò)

這樣做可不可以的呢?答案是:可以的(不過只是在近似的水平上)!這樣做的話,我們就可以把一個物體作為整體表示,而把部分的姿態(tài)作為權(quán)重矩陣來表示,并且表現(xiàn)出兩者的關(guān)系。

而這些權(quán)重矩陣是視角不變的,也就是說,不管部分的姿態(tài)怎么變化,我們都使用同樣的權(quán)重矩陣可以得到整體的姿態(tài)。

這讓我們在權(quán)重矩陣中完全獨立于物體的觀測角度。平移不變性現(xiàn)在只在權(quán)重矩陣中表現(xiàn)出來了,而不是在(網(wǎng)絡(luò))神經(jīng)活動中表現(xiàn)。

得到權(quán)重矩陣

來看看在膠囊網(wǎng)絡(luò)的論文中是怎么講的。

注:圖片內(nèi)容由英語原文翻譯。

一種新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):膠囊網(wǎng)絡(luò)

在Hinton的論文中,他說膠囊網(wǎng)絡(luò)使用了一個重構(gòu)的損失函數(shù)來作為正則化方法,類似于自編碼器的操作。這樣為什么會有效呢?

一種新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):膠囊網(wǎng)絡(luò)

為了從較低維度空間中重構(gòu)輸入,編碼器和譯碼器需要學習一個好的矩陣表示,來聯(lián)系潛在空間和輸入的關(guān)系,聽起來是不是很熟悉?

總之,利用重構(gòu)的損失函數(shù)作為正則方法,膠囊網(wǎng)絡(luò)能夠通過無監(jiān)督學習,在在整個物體和物體的姿態(tài)之間學習一個全局線性復(fù)本來作為權(quán)重矩陣。

因此,平移不變性就封裝在這個權(quán)重矩陣中而不是在神經(jīng)活動中,這樣就使得神經(jīng)網(wǎng)絡(luò)有平移同變性。因此,在某種意義上,當圖片和全局線性復(fù)本相乘時,就是在做一個「旋轉(zhuǎn)和平移」的操作。

動態(tài)路徑規(guī)劃

路徑規(guī)劃是把信息傳播給另一個能夠更加高效處理信息的操作者的行為。路徑規(guī)劃在卷積網(wǎng)絡(luò)中就是通過池化層來進行的,而且基本上都是使用的極大值池化。

極大值池化是做路徑規(guī)劃的一個很原始的方式,它只讓在池化中最活躍的神經(jīng)元起作用。而膠囊網(wǎng)絡(luò)就不同了,它會把信息傳給上層中最擅長處理的膠囊。

一種新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):膠囊網(wǎng)絡(luò)

結(jié)論

膠囊網(wǎng)絡(luò)使用一個模仿人類視覺系統(tǒng)的的新架構(gòu),來獲得平移同變性,代替原來的平移不變性,使得它在不同的視角下可以使用更少的數(shù)據(jù)得到更廣的泛化。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:膠囊網(wǎng)絡(luò),是什么?

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    粒子群優(yōu)化模糊神經(jīng)網(wǎng)絡(luò)在語音識別中的應(yīng)用

    定的早熟收斂問題,引入一種自適應(yīng)動態(tài)改變慣性因子的PSO算法,使算法具有較強的全局搜索能力.將此算法訓練的模糊神經(jīng)網(wǎng)絡(luò)應(yīng)用于語音識別中,結(jié)果表明,與BP算法相比,粒子群優(yōu)化的模糊神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 05-06 09:05

    【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

    一種常用的無監(jiān)督學習策略,在使用改策略時,網(wǎng)絡(luò)的輸出神經(jīng)元相互競爭,每時刻只有個競爭獲勝的神經(jīng)
    發(fā)表于 07-21 04:30

    人工神經(jīng)網(wǎng)絡(luò)實現(xiàn)方法有哪些?

    人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是一種類似生物神經(jīng)網(wǎng)絡(luò)的信息處理結(jié)構(gòu),它的提出是為了解決些非線性
    發(fā)表于 08-01 08:06

    神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索有什么優(yōu)勢?

    ,稍有不同就無法復(fù)現(xiàn)論文的結(jié)果。而網(wǎng)絡(luò)結(jié)構(gòu)作為一種特殊的超參數(shù),在深度學習整個環(huán)節(jié)中扮演著舉足輕重的角色。在圖像分類任務(wù)上大放異彩的ResNet、在機器翻譯任務(wù)上稱霸的Transformer等網(wǎng)絡(luò)結(jié)構(gòu)
    發(fā)表于 09-11 11:52

    如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?

    原文鏈接:http://tecdat.cn/?p=5725 神經(jīng)網(wǎng)絡(luò)一種基于現(xiàn)有數(shù)據(jù)創(chuàng)建預(yù)測的計算系統(tǒng)。如何構(gòu)建神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)包括:輸入層:根據(jù)現(xiàn)有數(shù)據(jù)獲取輸入的層隱藏層:使用反
    發(fā)表于 07-12 08:02

    隱藏技術(shù): 一種基于前沿神經(jīng)網(wǎng)絡(luò)理論的新型人工智能處理器

    隱藏技術(shù): 一種基于前沿神經(jīng)網(wǎng)絡(luò)理論的新型人工智能處理器 Copy東京理工大學的研究人員開發(fā)了一種名為“ Hiddenite”的新型加速器芯
    發(fā)表于 03-17 19:15

    基于自適應(yīng)果蠅算法的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)訓練

    基于自適應(yīng)果蠅算法的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)訓練_霍慧慧
    發(fā)表于 01-03 17:41 ?0次下載

    一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)改進方法「ReZero」

    近日,來自加州大學圣迭戈分校(UCSD)的研究者提出一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)改進方法「ReZero」,它能夠動態(tài)地加快優(yōu)質(zhì)梯度和任意深層信號的傳播。
    的頭像 發(fā)表于 04-17 09:30 ?5348次閱讀
    <b class='flag-5'>一種</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)</b>改進方法「ReZero」

    一種改進的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索方法

    為提升網(wǎng)絡(luò)結(jié)構(gòu)的尋優(yōu)能力,提岀一種改進的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索方法。針對網(wǎng)絡(luò)結(jié)構(gòu)間距難以度量的問題,結(jié)合神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 03-16 14:05 ?3次下載
    <b class='flag-5'>一種</b>改進的深度<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)</b>搜索方法

    幾種典型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的比較與分析

    幾種典型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的比較與分析說明。
    發(fā)表于 04-28 10:11 ?3次下載

    卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

    卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) 卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)是一種前饋神經(jīng)網(wǎng)絡(luò),常用于圖像處理、自然語言處理等領(lǐng)域中。它是
    的頭像 發(fā)表于 08-17 16:30 ?1177次閱讀

    人工神經(jīng)網(wǎng)絡(luò)和bp神經(jīng)網(wǎng)絡(luò)的區(qū)別

    人工神經(jīng)網(wǎng)絡(luò)和bp神經(jīng)網(wǎng)絡(luò)的區(qū)別? 人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)是一種模仿人腦神經(jīng)元網(wǎng)絡(luò)結(jié)構(gòu)
    的頭像 發(fā)表于 08-22 16:45 ?4170次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別

    。它們在處理不同類型的數(shù)據(jù)和解決不同問題時具有各自的優(yōu)勢和特點。本文將從多個方面比較循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別。 基本概念 循環(huán)神經(jīng)網(wǎng)絡(luò)一種具有循環(huán)連接的
    的頭像 發(fā)表于 07-04 14:24 ?1009次閱讀

    遞歸神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)樣嗎

    神經(jīng)網(wǎng)絡(luò)一種基于樹結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)模型,它通過遞歸地將輸入數(shù)據(jù)分解為更小的子問題來處理序列數(shù)據(jù)。RvNN的核心思想是將復(fù)雜的序列問題
    的頭像 發(fā)表于 07-05 09:28 ?623次閱讀

    遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)形式主要分為

    結(jié)構(gòu)形式。 Elman網(wǎng)絡(luò) Elman網(wǎng)絡(luò)一種基本的遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),由Elman于1990年提出。其
    的頭像 發(fā)表于 07-05 09:32 ?434次閱讀