国产成人午夜福利在线观看视频,久久国产精品高潮一级毛片,国产精品无码aV一区二区三区

如何快速簡(jiǎn)單地訓(xùn)練神經(jīng)網(wǎng)絡(luò)？谷歌大腦研究人員研究了CNN的可訓(xùn)練性，提出了一種簡(jiǎn)單的初始化策略，不需要使用殘差連接或批標(biāo)準(zhǔn)化，就能訓(xùn)練10000層的原始CNN。作者表示，他們的這項(xiàng)工作清除了在訓(xùn)練任意深度的原始卷積網(wǎng)絡(luò)時(shí)存在的所有主要的障礙。

2015年，ResNet橫空出世，以令人難以置信的3.6％的錯(cuò)誤率（人類水平為5-10％），贏得了當(dāng)年ImageNet競(jìng)賽冠軍，在圖像分類、目標(biāo)檢測(cè)和語義分割各個(gè)分項(xiàng)都取得最好成績(jī)，152層順序堆疊的殘差模塊讓業(yè)界大為贊嘆。

此后，ResNet作為訓(xùn)練“極”深網(wǎng)絡(luò)的簡(jiǎn)單框架，得到了廣泛的應(yīng)用，包括最強(qiáng)版本的AlphaGo——AlphaGo Zero。

此后，隨著神經(jīng)網(wǎng)絡(luò)向著更深、更大的規(guī)模發(fā)展，性能不斷提高的同時(shí)，也為訓(xùn)練這樣的網(wǎng)絡(luò)帶來了越來越大的挑戰(zhàn)。雖然現(xiàn)在有類似谷歌AutoML的項(xiàng)目，將設(shè)計(jì)和優(yōu)化神經(jīng)網(wǎng)絡(luò)的工作，交給神經(jīng)網(wǎng)絡(luò)自己去做，而且效果還比人做得更好。但是，AI研究者還是在思考，為什么殘差連接、批標(biāo)準(zhǔn)化等方法，會(huì)有助于解決梯度消失或爆炸的問題。

在谷歌大腦研究人員發(fā)表于ICML 2018的論文《CNN動(dòng)態(tài)等距和平均場(chǎng)論》（Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks）中，他們對(duì)CNN的可訓(xùn)練性和信號(hào)在卷積網(wǎng)絡(luò)中的傳輸特點(diǎn)進(jìn)行了研究，并拓展了此前關(guān)于深度學(xué)習(xí)平均場(chǎng)論（Mean Field Theory）的工作。

他們發(fā)現(xiàn)，卷積核在空間上的分布情況扮演了很重要的角色：當(dāng)使用在空間上均勻分布的卷積核對(duì)CNN做初始化時(shí)，CNN在深度上會(huì)表現(xiàn)得像全連接層；而使用在空間上不均勻分布的卷積核時(shí)，信號(hào)在深度網(wǎng)絡(luò)中就表現(xiàn)出了多種傳輸模式。

基于這一觀察，他們提出了一個(gè)簡(jiǎn)單的初始化策略，能夠訓(xùn)練10000層乃至更深的原始CNN結(jié)構(gòu)。

不用殘差連接，也不用批標(biāo)準(zhǔn)化，只用一個(gè)簡(jiǎn)單的初始化策略，就能訓(xùn)練10000層深度的網(wǎng)絡(luò)。上圖為在MNIST數(shù)據(jù)集的結(jié)果，下圖是CIFAR10，實(shí)線是測(cè)試，訓(xùn)練是訓(xùn)練。來源：論文

作者表示，他們的這項(xiàng)工作提供了對(duì)殘差連接、批標(biāo)準(zhǔn)化等實(shí)踐方法的理論理解?！皻埐钸B接和批標(biāo)準(zhǔn)化（Batch Normalization）這些結(jié)構(gòu)上的特征，可能在定義好的模型類（model class）中有著重要的作用，而不是僅僅簡(jiǎn)單地能夠提高訓(xùn)練的效率。”

CNN可以被訓(xùn)練的深度，就是信號(hào)能完全通過的層數(shù)

在物理學(xué)和概率論中，平均場(chǎng)論（Mean Field Theory，MFT）是對(duì)大且復(fù)雜的隨機(jī)模型的一種簡(jiǎn)化。未簡(jiǎn)化前的模型通常包含數(shù)量巨大且存在相互作用的小個(gè)體。

平均場(chǎng)理論則做了這樣的近似：對(duì)于某個(gè)獨(dú)立的小個(gè)體，所有其他個(gè)體對(duì)它產(chǎn)生的作用可以用一個(gè)平均的量給出，這樣簡(jiǎn)化后的模型就成了一個(gè)單體問題。

這種思想源于皮埃爾·居里（對(duì)，就是居里夫人的老公）和法國(guó)物理學(xué)家皮埃爾·外斯（Pierre-Ernest Weiss）對(duì)相變的研究?，F(xiàn)在，平均場(chǎng)論廣泛用于如傳染病模型、排隊(duì)論、計(jì)算機(jī)網(wǎng)絡(luò)性能和博弈論當(dāng)中。

在深度學(xué)習(xí)領(lǐng)域，平均場(chǎng)論也得到了研究。這些研究都揭示了一點(diǎn)，那就是在初始化階段，信號(hào)能在網(wǎng)絡(luò)中傳輸?shù)纳疃却嬖谝粋€(gè)最大值，而深度網(wǎng)絡(luò)之所以能夠被訓(xùn)練，恰恰是因?yàn)樾盘?hào)能夠全部通過這些層。

平均場(chǎng)論預(yù)測(cè)信號(hào)在網(wǎng)絡(luò)中傳輸深度存在一個(gè)最大值，這也就是網(wǎng)絡(luò)可以被訓(xùn)練的深度

在這項(xiàng)工作中，作者基于平均場(chǎng)論開發(fā)了一個(gè)理論框架，研究深度CNN中信號(hào)的傳播情況。通過研究信號(hào)在網(wǎng)絡(luò)中向前和向后傳播而不衰減的必要條件，他們得出了一個(gè)初始化方案，在不對(duì)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行任優(yōu)化（比如做殘差連接、批標(biāo)準(zhǔn)化）的情況下，這個(gè)方案能幫助訓(xùn)練超級(jí)深——10000乃至更深的原始CNN。

簡(jiǎn)單初始化策略，訓(xùn)練10000層原始CNN

那么，這個(gè)初始化方案是什么呢？先從結(jié)論說起，就是這個(gè)算法：

這是一個(gè)生成隨機(jī)正交卷積核的算法，目的是為了實(shí)現(xiàn)動(dòng)態(tài)等距（dynamical isometry）。

大家都知道，深度神經(jīng)網(wǎng)絡(luò)中權(quán)重的初始化會(huì)對(duì)學(xué)習(xí)速度有很大的影響。實(shí)際上，深度學(xué)習(xí)建立在這樣一個(gè)觀察之上，即無監(jiān)督的預(yù)訓(xùn)練為隨后通過反向傳播進(jìn)行的微調(diào)提供了一組好的初始權(quán)重。

這些隨機(jī)權(quán)重的初始化主要是由一個(gè)原理驅(qū)動(dòng)，即深度網(wǎng)絡(luò)雅可比矩陣輸入-輸出的平均奇異值應(yīng)該保持在1附近。這個(gè)條件意味著，隨機(jī)選擇的誤差向量在反向傳播時(shí)將保持其范數(shù)。由于誤差信息在網(wǎng)絡(luò)中進(jìn)行忠實(shí)地、等距地反向傳播，因此這個(gè)條件就被稱為“動(dòng)態(tài)等距”。

對(duì)深度線性網(wǎng)絡(luò)學(xué)習(xí)的非線性動(dòng)力學(xué)的精確解進(jìn)行理論分析后發(fā)現(xiàn)，滿足了動(dòng)態(tài)等距的權(quán)重初始化能夠大大提高學(xué)習(xí)速度。對(duì)于這樣的線性網(wǎng)絡(luò)，正交權(quán)重初始化實(shí)現(xiàn)了動(dòng)態(tài)等距，并且它們的學(xué)習(xí)時(shí)間（以學(xué)習(xí)輪數(shù)的數(shù)量來衡量）變得與深度無關(guān)。

這表明深度網(wǎng)絡(luò)雅可比矩陣奇異值的整個(gè)分布形狀，會(huì)對(duì)學(xué)習(xí)速度產(chǎn)生巨大的影響。只有控制二階矩，避免指數(shù)級(jí)的梯度消失和爆炸，才能留下顯著的性能優(yōu)勢(shì)。

現(xiàn)在，最新的這項(xiàng)研究發(fā)現(xiàn)，在卷積神經(jīng)網(wǎng)絡(luò)中也存在類似的情況。作者將要傳播的信號(hào)分解為獨(dú)立的傅里葉模式，促進(jìn)這些信號(hào)進(jìn)行均勻的傳播。由此證明了可以比較容易地訓(xùn)練10000層或更多的原始CNN。

清除訓(xùn)練任意深度原始CNN的所有主要障礙

在ICLR 2017的一篇論文中，谷歌的研究人員，包括深度學(xué)習(xí)教父 Geoffrey Hinton 和谷歌技術(shù)大牛 Jeff Dean在內(nèi)，提出了一個(gè)超大規(guī)模的神經(jīng)網(wǎng)絡(luò)——稀疏門控混合專家層（Sparsely-Gated Mixture-of-Experts layer，MoE）。

MoE 包含上萬個(gè)子網(wǎng)絡(luò)（也即“專家”），每個(gè)專家都有一個(gè)簡(jiǎn)單的前饋神經(jīng)網(wǎng)絡(luò)和一個(gè)可訓(xùn)練的門控網(wǎng)絡(luò)（gating network），門控網(wǎng)絡(luò)會(huì)選擇專家的一個(gè)稀疏組合來處理每個(gè)輸入。

嵌入在循環(huán)語言模型中的混合專家（Mixture of Experts，MoE）模塊。在這種情況下，稀疏門函數(shù)選擇兩個(gè)專家來執(zhí)行計(jì)算，它們的輸出由門控網(wǎng)絡(luò)的輸出控制。

最終的網(wǎng)絡(luò)雖然是含有1370億個(gè)參數(shù)的龐然大物，但由于實(shí)現(xiàn)了條件計(jì)算的好處，模型容量得到了超過1000倍的提升，而計(jì)算效率只有相對(duì)微小的損失。MoE在大規(guī)模語言建模和機(jī)器翻譯基準(zhǔn)測(cè)試中，花費(fèi)很小的計(jì)算力實(shí)現(xiàn)了性能的顯著提升。這項(xiàng)工作也是深度網(wǎng)絡(luò)條件計(jì)算在產(chǎn)業(yè)實(shí)踐中的首次成功。

2017年6月，F(xiàn)acebook人工智能實(shí)驗(yàn)室與應(yīng)用機(jī)器學(xué)習(xí)團(tuán)隊(duì)合作，提出了一種新的方法，能夠大幅加速機(jī)器視覺任務(wù)的模型訓(xùn)練過程，僅 1 小時(shí)就訓(xùn)練完ImageNet這樣超大規(guī)模的數(shù)據(jù)集。Facebook 團(tuán)隊(duì)提出的方法是增加一個(gè)新的預(yù)熱階段（a new warm-up phase），隨著時(shí)間的推移逐漸提高學(xué)習(xí)率和批量大小，從而幫助保持較小的批次的準(zhǔn)確性。

現(xiàn)在，谷歌大腦的這項(xiàng)工作，提供了對(duì)這些實(shí)踐方法的理論理解。作者在論文中寫道，

我們的結(jié)果表明，我們已經(jīng)清除了在訓(xùn)練任意深度的原始卷積網(wǎng)絡(luò)時(shí)存在的所有主要的障礙。在這樣做的過程中，我們也為解決深度學(xué)習(xí)社區(qū)中的一些突出問題奠定了基礎(chǔ)，例如單憑深度是否可以提高泛化性能。

我們的初步結(jié)果表明，在一定的深度上，在幾十或幾百層的這個(gè)數(shù)量級(jí)上，原始卷積結(jié)構(gòu)的測(cè)試性能已經(jīng)飽和。

這些觀察結(jié)果表明，殘差連接和批標(biāo)準(zhǔn)化（Batch Normalization）這些結(jié)構(gòu)上的特征，可能在定義好的模型類（model class）中有著重要的作用，而不是僅僅簡(jiǎn)單地能夠提高訓(xùn)練的效率。

這一發(fā)現(xiàn)對(duì)深度學(xué)習(xí)研究社區(qū)有著重大的意義。不用批標(biāo)準(zhǔn)化，也不用殘差連接，僅僅通過一個(gè)初始化函數(shù)，就訓(xùn)練10000層的原始CNN。

即使你不訓(xùn)練10000層，這個(gè)初始化帶來的訓(xùn)練速度提升也是可觀。

不過，作者目前只在MNIST和CIFAR10數(shù)據(jù)集上驗(yàn)證了他們的結(jié)果，推廣到更大的數(shù)據(jù)集后情況會(huì)如何，還有待觀察。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4734

瀏覽量
100420
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5466

瀏覽量
120891
cnn

cnn

+關(guān)注

關(guān)注
3

文章
350

瀏覽量
22134

原文標(biāo)題：【谷歌ICML】簡(jiǎn)單初始化，訓(xùn)練10000層CNN

文章出處：【微信號(hào)：AI_era，微信公眾號(hào)：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

人工神經(jīng)網(wǎng)絡(luò)原理及下載

這個(gè)網(wǎng)絡(luò)輸入和相應(yīng)的輸出來“訓(xùn)練”這個(gè)網(wǎng)絡(luò)，網(wǎng)絡(luò)根據(jù)輸入和輸出不斷地調(diào)節(jié)自己的各節(jié)點(diǎn)之間的權(quán)值來滿足輸入和輸出。這樣，當(dāng)訓(xùn)練結(jié)束后，我們給定

發(fā)表于 06-19 14:40

神經(jīng)網(wǎng)絡(luò)教程（李亞非）

　　第1章概述　　1.1 人工神經(jīng)網(wǎng)絡(luò)研究與發(fā)展　　1.2 生物神經(jīng)元　　1.3 人工神經(jīng)網(wǎng)絡(luò)的構(gòu)成　　第2章人工神經(jīng)網(wǎng)絡(luò)基本模型　　2.1 MP模型　　2.2 感知器模型　　2.3

發(fā)表于 03-20 11:32

當(dāng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)用于應(yīng)用的時(shí)候，權(quán)值是不是不能變了？

當(dāng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)用于應(yīng)用的時(shí)候，權(quán)值是不是不能變了？？？？就是已經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)是不是相當(dāng)于得到一個(gè)公式了，權(quán)值不能變了

發(fā)表于 10-24 21:55

請(qǐng)問Labveiw如何調(diào)用matlab訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型呢？

我在matlab中訓(xùn)練好了一個(gè)神經(jīng)網(wǎng)絡(luò)模型，想在labview中調(diào)用，請(qǐng)問應(yīng)該怎么做呢？或者labview有自己的神經(jīng)網(wǎng)絡(luò)工具包嗎？

發(fā)表于 07-05 17:32

【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

元，它決定了該輸入向量在地位空間中的位置。SOM神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目的就是為每個(gè)輸出層神經(jīng)元找到合適的權(quán)向量，以達(dá)到保持拓?fù)浣Y(jié)構(gòu)的目的。SOM的訓(xùn)練過程其實(shí)很

發(fā)表于 07-21 04:30

簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)

最簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)

發(fā)表于 09-11 11:57

【AI學(xué)習(xí)】第3篇--人工神經(jīng)網(wǎng)絡(luò)

`本篇主要介紹：人工神經(jīng)網(wǎng)絡(luò)的起源、簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)模型、更多神經(jīng)網(wǎng)絡(luò)模型、機(jī)器學(xué)習(xí)的步驟：訓(xùn)練與預(yù)測(cè)、訓(xùn)練

發(fā)表于 11-05 17:48

基于光學(xué)芯片的神經(jīng)網(wǎng)絡(luò)訓(xùn)練解析，不看肯定后悔

基于光學(xué)芯片的神經(jīng)網(wǎng)絡(luò)訓(xùn)練解析，不看肯定后悔

發(fā)表于 06-21 06:33

matlab實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò) 精選資料分享

習(xí)神經(jīng)神經(jīng)網(wǎng)絡(luò)，對(duì)于神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)是如何一直沒有具體實(shí)現(xiàn)一下：現(xiàn)看到一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)模型用于訓(xùn)練

發(fā)表于 08-18 07:25

優(yōu)化神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法有哪些？

優(yōu)化神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法有哪些？

發(fā)表于 09-06 09:52

如何進(jìn)行高效的時(shí)序圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練

現(xiàn)有的圖數(shù)據(jù)規(guī)模極大，導(dǎo)致時(shí)序圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要格外長(zhǎng)的時(shí)間，因此使用多GPU進(jìn)行訓(xùn)練變得成為尤為重要，如何有效地將多GPU用于時(shí)序圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練

發(fā)表于 09-28 10:37

如何訓(xùn)練和優(yōu)化神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是人工智能領(lǐng)域的重要分支，廣泛應(yīng)用于圖像識(shí)別、自然語言處理、語音識(shí)別等多個(gè)領(lǐng)域。然而，要使神經(jīng)網(wǎng)絡(luò)在實(shí)際應(yīng)用中取得良好效果，必須進(jìn)行有效的訓(xùn)練和優(yōu)化。本文將從神經(jīng)網(wǎng)絡(luò)的

發(fā)表于 07-01 14:14 ?380次閱讀

卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的是什么

、訓(xùn)練過程以及應(yīng)用場(chǎng)景。 1. 卷積神經(jīng)網(wǎng)絡(luò)的基本概念 1.1 卷積神經(jīng)網(wǎng)絡(luò)的定義卷積神經(jīng)網(wǎng)絡(luò)是一種前饋深度學(xué)習(xí)模型，其核心思想是利用卷積操作提取輸入數(shù)據(jù)的局部特征，并通過多層結(jié)構(gòu)進(jìn)

發(fā)表于 07-03 09:15 ?319次閱讀

怎么對(duì)神經(jīng)網(wǎng)絡(luò)重新訓(xùn)練

重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)是一個(gè)復(fù)雜的過程，涉及到多個(gè)步驟和考慮因素。引言 神經(jīng)網(wǎng)絡(luò)是一種強(qiáng)大的機(jī)器學(xué)習(xí)模型，廣泛應(yīng)用于圖像識(shí)別、自然語言處理、語音識(shí)別等領(lǐng)域。然而，隨著時(shí)間的推移，數(shù)據(jù)分布可能會(huì)

發(fā)表于 07-11 10:25 ?402次閱讀

脈沖神經(jīng)網(wǎng)絡(luò)怎么訓(xùn)練

脈沖神經(jīng)網(wǎng)絡(luò)（SNN, Spiking Neural Network）的訓(xùn)練是一個(gè)復(fù)雜但充滿挑戰(zhàn)的過程，它模擬了生物神經(jīng)元通過脈沖（或稱為尖峰）進(jìn)行信息傳遞的方式。以下是對(duì)脈沖神經(jīng)網(wǎng)絡(luò)

發(fā)表于 07-12 10:13 ?449次閱讀

搜索歷史

如何快速簡(jiǎn)單地訓(xùn)練神經(jīng)網(wǎng)絡(luò)？

評(píng)論

人工神經(jīng)網(wǎng)絡(luò)原理及下載

神經(jīng)網(wǎng)絡(luò)教程（李亞非）

當(dāng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)用于應(yīng)用的時(shí)候，權(quán)值是不是不能變了？

請(qǐng)問Labveiw如何調(diào)用matlab訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型呢？

【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)

【AI學(xué)習(xí)】第3篇--人工神經(jīng)網(wǎng)絡(luò)

基于光學(xué)芯片的神經(jīng)網(wǎng)絡(luò)訓(xùn)練解析，不看肯定后悔

matlab實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò) 精選資料分享

優(yōu)化神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法有哪些？

如何進(jìn)行高效的時(shí)序圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練

如何訓(xùn)練和優(yōu)化神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的是什么

怎么對(duì)神經(jīng)網(wǎng)絡(luò)重新訓(xùn)練

脈沖神經(jīng)網(wǎng)絡(luò)怎么訓(xùn)練