荡公乱妇HD电影中文字幕,国产婷婷精品任我爽欧美,久久京东热AV男人的天堂

深度學(xué)習(xí)的網(wǎng)絡(luò)訓(xùn)練損失問題一直是學(xué)術(shù)界關(guān)注的熱點(diǎn)。過去，利用梯度下降法找到的一般都是局部最優(yōu)解。近日，CMU、MIT和北京大學(xué)的研究人員分別對深度全連接前饋神經(jīng)網(wǎng)絡(luò)、ResNet和卷積ResNet進(jìn)行了分析，并表明利用梯度下降可以找到全局最小值，在多項(xiàng)式時(shí)間內(nèi)實(shí)現(xiàn)零訓(xùn)練損失。

在目標(biāo)函數(shù)非凸的情況下，梯度下降在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)中也能夠找到全局最小值。本文證明，對于具有殘差連接的超參數(shù)化的深度神經(jīng)網(wǎng)絡(luò)（ResNet），采用梯度下降可以在多項(xiàng)式時(shí)間內(nèi)實(shí)現(xiàn)零訓(xùn)練損失。

本文的分析基于由神經(jīng)網(wǎng)絡(luò)架構(gòu)建立的Gram矩陣的特定結(jié)構(gòu)。該結(jié)構(gòu)顯示在整個(gè)訓(xùn)練過程中，Gram矩陣是穩(wěn)定的，并且這種穩(wěn)定性意味著梯度下降算法的全局最優(yōu)性。使用ResNet可以獲得相對于全連接的前饋網(wǎng)絡(luò)架構(gòu)的優(yōu)勢。

對于前饋神經(jīng)網(wǎng)絡(luò)，邊界要求每層網(wǎng)絡(luò)中的神經(jīng)元數(shù)量隨網(wǎng)絡(luò)深度的增加呈指數(shù)級增長。對于ResNet，只要求每層的神經(jīng)元數(shù)量隨著網(wǎng)絡(luò)深度的實(shí)現(xiàn)多項(xiàng)式縮放。我們進(jìn)一步將此類分析擴(kuò)展到深度殘余卷積神經(jīng)網(wǎng)絡(luò)上，并獲得了類似的收斂結(jié)果。

找到梯度下降全局最優(yōu)解，實(shí)現(xiàn)訓(xùn)練零損失

深度學(xué)習(xí)中的一個(gè)難題是隨機(jī)初始化的一階方法，即使目標(biāo)函數(shù)是非凸的，梯度下降也會實(shí)現(xiàn)零訓(xùn)練損失。一般認(rèn)為過參數(shù)化是這種現(xiàn)象的主要原因，因?yàn)橹挥挟?dāng)神經(jīng)網(wǎng)絡(luò)具有足夠大的容量時(shí)，該神經(jīng)網(wǎng)絡(luò)才有可能適合所有訓(xùn)練數(shù)據(jù)。在實(shí)踐中，許多神經(jīng)網(wǎng)絡(luò)架構(gòu)呈現(xiàn)高度的過參數(shù)化。

訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的第二個(gè)神秘現(xiàn)象是“越深層的網(wǎng)絡(luò)越難訓(xùn)練”。為了解決這個(gè)問題，采用提出了深度殘差網(wǎng)絡(luò)（ResNet）架構(gòu)，該架構(gòu)使得隨機(jī)初始化的一階方法能夠訓(xùn)練具有更多層數(shù)的數(shù)量級的神經(jīng)網(wǎng)絡(luò)。

從理論上講，線性網(wǎng)絡(luò)中的殘余鏈路可以防止大的零鄰域中的梯度消失，但對于具有非線性激活的神經(jīng)網(wǎng)絡(luò)，使用殘差連接的優(yōu)勢還不是很清楚。

本文揭開了這兩個(gè)現(xiàn)象的神秘面紗。我們考慮設(shè)置n個(gè)數(shù)據(jù)點(diǎn)，神經(jīng)網(wǎng)絡(luò)有H層，寬度為m。然后考慮最小二乘損失，假設(shè)激活函數(shù)是Lipschitz和平滑的。這個(gè)假設(shè)適用于許多激活函數(shù)，包括soft-plus。

論文鏈接：

https://arxiv.org/pdf/1811.03804.pdf

首先考慮全連接前饋神經(jīng)網(wǎng)絡(luò)，在神經(jīng)元數(shù)量m=Ω（poly（n）2O（H））的情況下，隨機(jī)初始化的梯度下降會以線性速度收斂至零訓(xùn)練損失。

接下來考慮ResNet架構(gòu)。只要神經(jīng)元數(shù)量m =Ω（poly（n，H）），那么隨機(jī)初始化的梯度下降會以線性速率收斂到零訓(xùn)練損失。與第一個(gè)結(jié)果相比，ResNet對網(wǎng)絡(luò)層數(shù)的依賴性呈指數(shù)級上升。這證明了使用殘差連接的優(yōu)勢。

最后，用相同的技術(shù)來分析卷積ResNet。結(jié)果表明，如果m = poly（n，p，H），其中p是patch數(shù)量，則隨機(jī)初始化的梯度下降也可以實(shí)現(xiàn)零訓(xùn)練損失。

本文的研究證據(jù)建立在先前關(guān)于兩層神經(jīng)網(wǎng)絡(luò)梯度下降的研究理念之上。首先，作者分析了預(yù)測的動(dòng)力學(xué)情況，其收斂性由神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)引出的Gram矩陣的最小特征值確定，為了降低其最小特征值的下限，從初始化階段限制每個(gè)權(quán)重矩陣的距離就可以了。

其次，作者使用Li和Liang[2018]的觀察結(jié)果，如果神經(jīng)網(wǎng)絡(luò)是過參數(shù)化的，那么每個(gè)權(quán)重矩陣都接近其初始化狀態(tài)。本文在分析深度神經(jīng)網(wǎng)絡(luò)時(shí)，需要構(gòu)建更多深度神經(jīng)網(wǎng)絡(luò)的架構(gòu)屬性和新技術(shù)。

本文附錄中給出了詳細(xì)的數(shù)學(xué)證明過程

接下來，論文分別給出了全連接前饋神經(jīng)網(wǎng)絡(luò)、ResNet和卷積ResNet的分析過程，并在長達(dá)20余頁的附錄部分（本文含附錄共計(jì)45頁）給出了詳細(xì)的數(shù)學(xué)證明過程，對自己的數(shù)學(xué)功底有自信的讀者可以自行參看論文。這里僅就ResNet分析過程中，Gram矩陣的構(gòu)建和研究假設(shè)做簡要說明。

Gram矩陣的構(gòu)建

以上是網(wǎng)絡(luò)寬度m趨于無限時(shí)的漸進(jìn)Gram矩陣。我們特做出如下假設(shè)，該假設(shè)條件決定了收斂速度和過參數(shù)化數(shù)量。

注意，這里的λ和全連接前饋神經(jīng)網(wǎng)絡(luò)中的不同，因?yàn)檫@里的λ只由K（0）決定，一般來說，除非兩個(gè)數(shù)據(jù)點(diǎn)是平行的，否則λ總是正數(shù)。

研究結(jié)論和局限：目前還不是隨機(jī)梯度下降

在本文中，我們表明深度過度參數(shù)化網(wǎng)絡(luò)上的梯度下降可以獲得零訓(xùn)練損失。其中關(guān)鍵是證明了Gram矩陣在過參數(shù)化條件下會越來越穩(wěn)定，因此梯度下降的每一步都以幾何速率減少損失。

最后列出未來的一些潛在研究方向：

1.本文主要關(guān)注訓(xùn)練損失，但沒有解決測試損失的問題。如何找到梯度下降的低測試損失的解決方案將是一個(gè)重要問題。尤其是現(xiàn)有的成果只表明梯度下降在與kernel方法和隨機(jī)特征方法相同的情況下才起作用。

2.網(wǎng)絡(luò)層的寬度m是ResNet架構(gòu)的所有參數(shù)的多項(xiàng)式，但仍然非常大。而在現(xiàn)實(shí)網(wǎng)絡(luò)中，數(shù)量較大的是參數(shù)的數(shù)量，而不是網(wǎng)絡(luò)層的寬度，數(shù)據(jù)點(diǎn)數(shù)量n是個(gè)很大的常量。如何改進(jìn)分析過程，使其涵蓋常用的網(wǎng)絡(luò)，是一個(gè)重要的、有待解決的問題。

3、目前的分析只是梯度下降，不是隨機(jī)梯度下降。我們認(rèn)為這一分析可以擴(kuò)展到隨機(jī)梯度下降，同時(shí)仍然保持線性收斂速度。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4717

瀏覽量
99997
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5422

瀏覽量
120587

原文標(biāo)題：Reddit熱文：MIT\北大\CMU合作, 找到深度神經(jīng)網(wǎng)絡(luò)全局最優(yōu)解

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

AI知識科普 | 從無人相信到萬人追捧的神經(jīng)網(wǎng)絡(luò)

在一起，計(jì)算機(jī)就會判定這是一只貓！ C、遞歸神經(jīng)網(wǎng)絡(luò)遞歸神經(jīng)網(wǎng)絡(luò)是一種深度神經(jīng)網(wǎng)絡(luò)，它將相同的權(quán)重遞歸地應(yīng)用在神經(jīng)網(wǎng)絡(luò)架構(gòu)上，以拓?fù)渑判虻姆?/div>

發(fā)表于 06-05 10:11

【PYNQ-Z2試用體驗(yàn)】神經(jīng)網(wǎng)絡(luò)基礎(chǔ)知識

學(xué)習(xí)和認(rèn)知科學(xué)領(lǐng)域，是一種模仿生物神經(jīng)網(wǎng)絡(luò)（動(dòng)物的中樞神經(jīng)系統(tǒng)，特別是大腦）的結(jié)構(gòu)和功能的數(shù)學(xué)模型或計(jì)算模型，用于對函數(shù)進(jìn)行估計(jì)或近似。神經(jīng)網(wǎng)絡(luò)由

發(fā)表于 03-03 22:10

【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

的拓?fù)?b class='flag-5'>結(jié)構(gòu)，即將高位空間中相似的樣本點(diǎn)映射到網(wǎng)絡(luò)輸出層中的鄰近神經(jīng)元。SOM神經(jīng)網(wǎng)絡(luò)中的輸出層神經(jīng)元以矩

發(fā)表于 07-21 04:30

卷積神經(jīng)網(wǎng)絡(luò)的層級結(jié)構(gòu)和常用框架

　　卷積神經(jīng)網(wǎng)絡(luò)的層級結(jié)構(gòu)　　卷積神經(jīng)網(wǎng)絡(luò)的常用框架

發(fā)表于 12-29 06:16

如何構(gòu)建神經(jīng)網(wǎng)絡(luò)？

原文鏈接：http://tecdat.cn/?p=5725 神經(jīng)網(wǎng)絡(luò)是一種基于現(xiàn)有數(shù)據(jù)創(chuàng)建預(yù)測的計(jì)算系統(tǒng)。如何構(gòu)建神經(jīng)網(wǎng)絡(luò)？神經(jīng)網(wǎng)絡(luò)包括：輸入層：根據(jù)現(xiàn)有數(shù)據(jù)獲取輸入的層隱藏層：使用反

發(fā)表于 07-12 08:02

基于BP神經(jīng)網(wǎng)絡(luò)的PID控制

神經(jīng)網(wǎng)絡(luò)可以建立參數(shù)Kp,Ki,Kd自整定的PID控制器。基于BP神經(jīng)網(wǎng)絡(luò)的PID控制系統(tǒng)結(jié)構(gòu)框圖如下圖所示：控制器由兩部分組成：經(jīng)典增量式

發(fā)表于 09-07 07:43

神經(jīng)網(wǎng)絡(luò)移植到STM32的方法

問題，一個(gè)是神經(jīng)網(wǎng)絡(luò)的移植，另一個(gè)是STM32的計(jì)算速度。神經(jīng)網(wǎng)絡(luò)的移植網(wǎng)絡(luò)采用的是最簡單的BP神經(jīng)網(wǎng)絡(luò)，基本原理可以自己去了解一下，大概就是通過若干次

發(fā)表于 01-11 06:20

卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

十余年來快速發(fā)展的嶄新領(lǐng)域，越來越受到研究者的關(guān)注。卷積神經(jīng)網(wǎng)絡(luò)（CNN）模型是深度學(xué)習(xí)模型中最重要的一種經(jīng)典結(jié)構(gòu)，其性能在近年來深度學(xué)習(xí)任務(wù)上逐步提高。由于可以自動(dòng)學(xué)習(xí)樣本數(shù)據(jù)的特征表示，卷積

發(fā)表于 08-02 10:39

卷積神經(jīng)網(wǎng)絡(luò)簡介：什么是機(jī)器學(xué)習(xí)？

模型。第 3 部分將研究使用專用 AI 微控制器測試模型的特定用例。什么是卷積神經(jīng)網(wǎng)絡(luò)？神經(jīng)網(wǎng)絡(luò)是系統(tǒng)或神經(jīng)元結(jié)構(gòu)，使人工智能能夠更好地理解

發(fā)表于 02-23 20:11

如何構(gòu)建神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是模擬人體生物神經(jīng)元原理構(gòu)建的，比較基礎(chǔ)的有M-P模型，它按照生物 神經(jīng)元的結(jié)構(gòu)和工作原理構(gòu)造出來的一個(gè)抽象和簡化的模型。

發(fā)表于 02-24 16:06 ?1645次閱讀

卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

Learning）的應(yīng)用，通過運(yùn)用多層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，可以自動(dòng)地進(jìn)行特征提取和學(xué)習(xí)，進(jìn)而實(shí)現(xiàn)圖像分類、物體識別、目標(biāo)檢測、語音識別和自然語言翻譯等任務(wù)。卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)包括：輸入層、卷積層、激活函數(shù)、池化層和全連接層。

發(fā)表于 08-17 16:30 ?1106次閱讀

FPGA加速神經(jīng)網(wǎng)絡(luò)的矩陣乘法

電子發(fā)燒友網(wǎng)站提供《FPGA加速神經(jīng)網(wǎng)絡(luò)的矩陣乘法.pdf》資料免費(fèi)下載

發(fā)表于 09-15 14:50 ?0次下載

神經(jīng)網(wǎng)絡(luò)架構(gòu)有哪些

神經(jīng)網(wǎng)絡(luò)架構(gòu)是機(jī)器學(xué)習(xí)領(lǐng)域中的核心組成部分，它們模仿了生物神經(jīng)網(wǎng)絡(luò)的運(yùn)作方式，通過復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)信息的處理、存儲和傳遞。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展，各種

發(fā)表于 07-01 14:16 ?338次閱讀

構(gòu)建神經(jīng)網(wǎng)絡(luò)模型方法有幾種

（Feedforward Neural Networks）前饗神經(jīng)網(wǎng)絡(luò)是一種最基本的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，由輸入層、隱藏層和輸出層組成。前饗神經(jīng)網(wǎng)絡(luò)的特點(diǎn)是信息只在一個(gè)方向上流動(dòng)，即從輸入層

發(fā)表于 07-02 10:15 ?213次閱讀

基于神經(jīng)網(wǎng)絡(luò)算法的模型構(gòu)建方法

神經(jīng)網(wǎng)絡(luò)是一種強(qiáng)大的機(jī)器學(xué)習(xí)算法，廣泛應(yīng)用于各種領(lǐng)域，如圖像識別、自然語言處理、語音識別等。本文詳細(xì)介紹了基于神經(jīng)網(wǎng)絡(luò)算法的模型構(gòu)建方法，包括數(shù)據(jù)預(yù)處理、網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)、訓(xùn)練過程優(yōu)化、模

發(fā)表于 07-02 11:21 ?298次閱讀

搜索歷史

基于由神經(jīng)網(wǎng)絡(luò)架構(gòu)建立的Gram矩陣的特定結(jié)構(gòu)

評論

AI知識科普 | 從無人相信到萬人追捧的神經(jīng)網(wǎng)絡(luò)

【PYNQ-Z2試用體驗(yàn)】神經(jīng)網(wǎng)絡(luò)基礎(chǔ)知識

【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)的層級結(jié)構(gòu)和常用框架

如何構(gòu)建神經(jīng)網(wǎng)絡(luò)？

基于BP神經(jīng)網(wǎng)絡(luò)的PID控制

神經(jīng)網(wǎng)絡(luò)移植到STM32的方法

卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

卷積神經(jīng)網(wǎng)絡(luò)簡介：什么是機(jī)器學(xué)習(xí)？

如何構(gòu)建神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

FPGA加速神經(jīng)網(wǎng)絡(luò)的矩陣乘法

神經(jīng)網(wǎng)絡(luò)架構(gòu)有哪些

構(gòu)建神經(jīng)網(wǎng)絡(luò)模型方法有幾種

基于神經(jīng)網(wǎng)絡(luò)算法的模型構(gòu)建方法