0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深入淺出的介紹了深度學(xué)習(xí)的理論——用理論的力量橫掃深度學(xué)習(xí)!

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-07-12 09:25 ? 次閱讀

目前深度學(xué)習(xí)的應(yīng)用較為廣泛,尤其是各種開源庫的使用,導(dǎo)致很多從業(yè)人員只注重應(yīng)用的開發(fā),卻往往忽略了對理論的深究與理解。普林斯頓大學(xué)教授Sanjeev Arora近期公開的77頁PPT,言簡意賅、深入淺出的介紹了深度學(xué)習(xí)的理論——用理論的力量橫掃深度學(xué)習(xí)?。ㄎ哪└絇PT下載地址)

深度學(xué)習(xí)歷史

學(xué)習(xí)任何一門知識都應(yīng)該先從其歷史開始,把握了歷史,也就抓住了現(xiàn)在與未來?!狟ryanLJ

由圖可以簡單看出深度學(xué)習(xí)的發(fā)展歷史,在經(jīng)歷了單調(diào)、不足與完善后,發(fā)展到了如今“動輒DL”的態(tài)勢。

定義與基本概念

神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)圖:

定義:

θ:深度網(wǎng)絡(luò)參數(shù)

訓(xùn)練集:(x1, y1),(x2, y2),…,(xn, yn)

損失函數(shù)ζ(θ,x,y):表示網(wǎng)絡(luò)的輸出與點x對應(yīng)的y的匹配度

目標: argminθEi[ζ(θ,x1, y1)]

梯度下降:

結(jié)合GPUs、大型數(shù)據(jù)集,優(yōu)化概念已經(jīng)塑造了深度學(xué)習(xí):

反向傳播:用線性時間算法來計算梯度;

隨機梯度下降:通過訓(xùn)練集的小樣本評估

梯度、解空間推動形成了殘差網(wǎng)絡(luò)(resnet)、WaveNet及Batch-Normalization等;

理論的目標:通過整理定理,得出新的見解和概念。

深度學(xué)習(xí)中的優(yōu)化

困難:深度學(xué)習(xí)中大多數(shù)優(yōu)化問題是非凸(non-convex)的,最壞的情況是NP難問題(NP-hard)。

維數(shù)災(zāi)難:指在涉及到向量的計算的問題中,隨著維數(shù)的增加,計算量呈指數(shù)倍增長的一種現(xiàn)象

深度學(xué)習(xí)“黑盒”分析:

原因:

1、無法確定解空間;

2、沒有明確的(xi, yi)數(shù)學(xué)描述;

所以,求全局最優(yōu)解是不可行的。

未知解空間中的控制梯度下降:

?≠0→?下降方向,但如果二階導(dǎo)數(shù)比較高,允許波動很大。為了確保下降,采用由平滑程度(可由高斯平滑?f來定義)決定的小步驟。

平滑:

要求:滿足且與成正比。

非“黑盒”分析:

很多機器學(xué)習(xí)問題是深度為2的子案例,例如,輸入層和輸出層之間的一個隱含層。通常假設(shè)網(wǎng)絡(luò)的結(jié)構(gòu)、數(shù)據(jù)分布,等等。比起GD/SGD,可以使用不同算法,例如張量分解、最小化交替以及凸優(yōu)化等等。

過度參數(shù)化(over-parametrization)和泛化(generalization)理論

教科書中說:大型模型會導(dǎo)致過擬合

很多人認為:SGD +正則化消除了網(wǎng)絡(luò)的“過剩容量”(excess capacity),但是過剩容量依舊還是存在的,如下圖所示:

事實上,在線性模型中也存在同樣的問題。

泛化理論:

測試損失(Test Loss)-訓(xùn)練損失(Training Loss)≤

其中,N是“有效能力”。

“真實容量”(true capacity)的非空估計被證明是難以捉摸的:

“真實參數(shù)”(true parameters)的非空邊界被證明是難以捉摸的:

深度網(wǎng)絡(luò)噪聲穩(wěn)定性(可以視作深度網(wǎng)絡(luò)的邊緣概念):

噪聲注入:為一個層的輸出x添加高斯η。

測量更高層次的變化,若變化是小的,那么網(wǎng)絡(luò)就是噪聲穩(wěn)定的。

VGG19的噪聲穩(wěn)定性:

當高斯粒子經(jīng)過更高層時的衰減過程

與泛化相關(guān)定性實驗:

墊層(layer cushion)在正常數(shù)據(jù)上的訓(xùn)練要比在損壞數(shù)據(jù)上的訓(xùn)練高得多

在正常數(shù)據(jù)訓(xùn)練過程中的進化

“深度”的作用

深度的作用是什么?

理想的結(jié)果是:當遇到自然學(xué)習(xí)問題時,不能用深度d來完成,但可以用深度d+1來完成。但是目前,由于理論依據(jù)不足,缺乏“自然”學(xué)習(xí)問題的數(shù)學(xué)形式化,還無法達到理想的結(jié)果。

深度的增加對深度學(xué)習(xí)是有益還是有害的?

支持:會出現(xiàn)更好的表現(xiàn)(正如上面實驗結(jié)果所示);

反對:使優(yōu)化更加困難(梯度消失(vanishing gradient)、梯度爆炸(exploding gradient),除非像殘差網(wǎng)絡(luò)這樣的特殊架構(gòu))。

生成模型與生成對抗網(wǎng)絡(luò)(GAN)理論

無監(jiān)督學(xué)習(xí):“流行假設(shè)”(Mainfold Assumption):

學(xué)習(xí)概率密度p(X|Z)的典型模型

其中,X是圖像,Z是流行上的編碼。目的是使用大量未標簽的數(shù)據(jù)集來學(xué)習(xí)圖像→編碼匹配(code mapping)。

深度生成模型(deep generative model)

隱含假設(shè): Dreal是由合理大小的深度網(wǎng)絡(luò)生成的。

生成對抗網(wǎng)絡(luò)(GANs)

動機:

(1)標準對數(shù)似然函數(shù)值(log-likelihood)目標傾向于輸出模糊圖像。

(2)利用深度學(xué)習(xí)的力量(即鑒別器網(wǎng)絡(luò),discriminator net)來改進生成模型,而不是對數(shù)似然函數(shù)。

u:生成網(wǎng)絡(luò)可訓(xùn)練參數(shù)

v:鑒別器網(wǎng)絡(luò)可訓(xùn)練參數(shù)

鑒別器在訓(xùn)練后,真實輸入為1,合成輸入為0。

生成器訓(xùn)練來產(chǎn)生合成輸出,使得鑒別器輸出值較高。

GANs噩夢:模式崩潰(mode collapse)

因為鑒別器只能從少數(shù)樣本中學(xué)習(xí),所以它可能無法教會生成器產(chǎn)生足夠大的多樣性分布。

評估來自著名GANs的支持大小(support size)

CelaA:200k訓(xùn)練圖像

DC-GAN:重復(fù)500個樣本,500x500 =250K

BiGAN和所有支持大小,1000x1000 =1M

(結(jié)果與CIFAR10相似)

深度學(xué)習(xí)—自由文本嵌入

無監(jiān)督學(xué)習(xí)文字嵌入經(jīng)典流程

常用方法:復(fù)發(fā)性神經(jīng)網(wǎng)絡(luò)或LSTM等

手工業(yè)(cottage industry)的文本嵌入是線性的:

最簡單的:構(gòu)成詞(constituent word)的詞嵌入求和

加權(quán)求和:通過適應(yīng)段落數(shù)據(jù)集來學(xué)習(xí)權(quán)重

性能(相似性、蘊涵任務(wù)):

較先進的句子嵌入方法與下游分類(downstream classification)任務(wù)的比較:

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:普林斯頓大學(xué)教授:用理論的力量橫掃深度學(xué)習(xí)(77PPT)

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    單片機學(xué)習(xí)資料。深入淺出通俗易懂,用錢買的。

    單片機學(xué)習(xí)資料。深入淺出通俗易懂,用錢買的。
    發(fā)表于 02-04 22:46

    ARM7 深入淺出學(xué)習(xí)

    深入淺出ARM7 LPC213x_214 學(xué)習(xí)
    發(fā)表于 12-04 17:28

    深入淺出排序學(xué)習(xí)使用指南

    深入淺出排序學(xué)習(xí):寫給程序員的算法系統(tǒng)開發(fā)實踐
    發(fā)表于 09-16 11:38

    深度學(xué)習(xí)入門之基于python的理論與實現(xiàn)

    深度學(xué)習(xí)入門-基于python的理論與實現(xiàn)(2)
    發(fā)表于 06-19 11:22

    深入淺出Cortex-M0學(xué)習(xí)資料

    深入淺出Cortex-M0學(xué)習(xí)資料
    發(fā)表于 06-18 10:50 ?0次下載
    <b class='flag-5'>深入淺出</b>Cortex-M0<b class='flag-5'>學(xué)習(xí)</b>資料

    [CPLD-FPGA]《深入淺出玩轉(zhuǎn)FPGA視頻學(xué)習(xí)課程》35講全[wmv]

    [CPLD-FPGA]《深入淺出玩轉(zhuǎn)FPGA視頻學(xué)習(xí)課程》35講全[wmv] 附件比較大所以整理了視頻迅雷種子。
    發(fā)表于 09-04 14:51 ?519次下載

    STM32深入淺出之新手篇

    STM32深入淺出之新手篇,很好的單片機學(xué)習(xí)資料。
    發(fā)表于 03-21 17:43 ?128次下載

    如何理解深度學(xué)習(xí)深度學(xué)習(xí)理論探索分析

    普林斯頓大學(xué)計算機科學(xué)系教授Sanjeev Arora做了深度學(xué)習(xí)理論理解探索的報告,包括三個部分:
    的頭像 發(fā)表于 10-03 12:41 ?3599次閱讀

    深度學(xué)習(xí)入門基于python的理論與實現(xiàn)PDF電子書免費下載

    本書是深度學(xué)習(xí)真正意義上的入門書,深入淺出地剖析深度學(xué)習(xí)的原理和相關(guān)技術(shù)。書中使用Python
    發(fā)表于 12-09 08:00 ?15次下載
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>入門基于python的<b class='flag-5'>理論</b>與實現(xiàn)PDF電子書免費下載

    基于Python的理論與實現(xiàn)進行深度學(xué)習(xí)的入門教程

    本書是深度學(xué)習(xí)真正意義上的入門書,深入淺出地剖析深度學(xué)習(xí)的原理和相關(guān)技術(shù)。書中使用Python
    發(fā)表于 11-11 08:00 ?6次下載

    深度學(xué)習(xí)入門基于Python的理論與實現(xiàn)的PDF電子書免費下載

    本書是深度學(xué)習(xí)真正意義上的入門書,深入淺出地剖析深度學(xué)習(xí)的原理和相關(guān)技術(shù)。書中使用Python
    發(fā)表于 01-27 08:00 ?0次下載
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>入門基于Python的<b class='flag-5'>理論</b>與實現(xiàn)的PDF電子書免費下載

    深入淺出學(xué)習(xí)250個通信原理資源下載

    深入淺出學(xué)習(xí)250個通信原理資源下載
    發(fā)表于 04-12 09:16 ?28次下載

    深入淺出學(xué)習(xí)低功耗藍牙協(xié)議棧

    深入淺出學(xué)習(xí)低功耗藍牙協(xié)議棧
    發(fā)表于 06-23 10:35 ?56次下載

    深入淺出學(xué)習(xí)eTs(七)如何判斷密碼是否正確

    本項目Gitee倉地址: 深入淺出eTs學(xué)習(xí): 帶大家深入淺出學(xué)習(xí)eTs (gitee.com) 一、基本界面 本項目基于#深入淺出
    的頭像 發(fā)表于 05-13 13:20 ?810次閱讀
    <b class='flag-5'>深入淺出</b><b class='flag-5'>學(xué)習(xí)</b>eTs(七)如何判斷密碼是否正確

    OpenCV庫在圖像處理和深度學(xué)習(xí)中的應(yīng)用

    本文深入淺出地探討了OpenCV庫在圖像處理和深度學(xué)習(xí)中的應(yīng)用。從基本概念和操作,到復(fù)雜的圖像變換和深度學(xué)習(xí)模型的使用,文章以詳盡的代碼和解
    的頭像 發(fā)表于 08-18 11:33 ?748次閱讀