前言
PyTorch提供了兩個(gè)主要特性:
(1) 一個(gè)n維的Tensor,與numpy相似但是支持GPU運(yùn)算。
(2) 搭建和訓(xùn)練神經(jīng)網(wǎng)絡(luò)的自動(dòng)微分功能。
我們將會(huì)使用一個(gè)全連接的ReLU網(wǎng)絡(luò)作為實(shí)例。該網(wǎng)絡(luò)有一個(gè)隱含層,使用梯度下降來(lái)訓(xùn)練,目標(biāo)是最小化網(wǎng)絡(luò)輸出和真實(shí)輸出之間的歐氏距離。
目錄
Tensors(張量)
Warm-up:numpy
PyTorch:Tensors
Autograd(自動(dòng)梯度)
PyTorch:Variables and autograd (變量和自動(dòng)梯度)
PyTorch : Defining new autograd functions(定義新的自動(dòng)梯度函數(shù))
TensorFlow: Static Graphs (靜態(tài)圖)
nn module
PyTorch: nn
PyTorch: optim
PyTorch: Custom nn Modules (定制nn模塊)
PyTorch: Control Flow + Weight Sharing (控制流+權(quán)重分享)
Tensors(張量)
Warm-up:numpy
在介紹PyTorch之前,我們先使用numpy來(lái)實(shí)現(xiàn)一個(gè)網(wǎng)絡(luò)。
Numpy提供了一個(gè)n維數(shù)組對(duì)象,以及操作這些數(shù)組的函數(shù)。Numpy是一個(gè)通用的科學(xué)計(jì)算框架。它不是專(zhuān)門(mén)為計(jì)算圖、深度學(xué)習(xí)或者梯度計(jì)算而生,但是我們能用它來(lái)把一個(gè)兩層的網(wǎng)絡(luò)擬合到隨機(jī)數(shù)據(jù)上,只要我們手動(dòng)把numpy運(yùn)算在網(wǎng)絡(luò)上前向和反向執(zhí)行即可。
Numpy是一個(gè)了不起的框架,但是它很遺憾地不能支持GPU運(yùn)算,無(wú)法對(duì)數(shù)值計(jì)算進(jìn)行GPU加速。對(duì)于現(xiàn)在的深度神經(jīng)網(wǎng)絡(luò),GPU一般能提供50倍以上的加速,所以numpy由于對(duì)GPU缺少支持,不能滿(mǎn)足深度神經(jīng)網(wǎng)絡(luò)的計(jì)算需求。
這里介紹一下最基本的PyTorch概念:Tensor。一個(gè)PyTorch Tensor在概念上等價(jià)于numpy array:Tensor是一個(gè)n維的array,PyTorch提供了很多函數(shù)來(lái)在Tensors上進(jìn)行運(yùn)算。像numpy arrays一樣,PyTorch Tensors也不是為深度學(xué)習(xí)、計(jì)算圖、梯度而生;他們是一個(gè)科學(xué)計(jì)算的通用工具。
PyTorch Tensors可以利用GPU來(lái)加速數(shù)值計(jì)算。為了能在GPU上跑Tensor,我們只需要將它轉(zhuǎn)到新的數(shù)據(jù)類(lèi)型。
我們使用PyTorch Tensors來(lái)擬合2層的網(wǎng)絡(luò)。與上面的numpy例子一樣,我們需要手動(dòng)執(zhí)行網(wǎng)絡(luò)上的前向和反向過(guò)程。
Autograd(自動(dòng)梯度)
PyTorch:Variables and autograd (變量和自動(dòng)梯度)
在上面的例子中,我們必須手動(dòng)執(zhí)行網(wǎng)絡(luò)的前向和反向通道。對(duì)于一個(gè)兩層的小網(wǎng)絡(luò)來(lái)說(shuō),手動(dòng)反向執(zhí)行不是什么大事,但是對(duì)于大型網(wǎng)絡(luò)來(lái)說(shuō),就非常費(fèi)勁了。
幸運(yùn)的是,我們可以使用自動(dòng)微分來(lái)自動(dòng)計(jì)算神經(jīng)網(wǎng)絡(luò)的反向通道。PyTorch的autograd 包就提供了此項(xiàng)功能。當(dāng)使用autograd的時(shí)候,你的網(wǎng)絡(luò)的前向通道定義一個(gè)計(jì)算圖(computational graph),圖中的節(jié)點(diǎn)(node)是Tensors,邊(edge)將會(huì)是根據(jù)輸入Tensor來(lái)產(chǎn)生輸出Tensor的函數(shù)。這個(gè)圖的反向傳播將會(huì)允許你很輕松地去計(jì)算梯度。
這個(gè)聽(tīng)起來(lái)復(fù)雜,但是實(shí)際操作非常簡(jiǎn)單。我們把PyTorch Tensors打包到Variable 對(duì)象中,一個(gè)Variable代表一個(gè)計(jì)算圖中的節(jié)點(diǎn)。如果x是一個(gè)Variable,那么x. data 就是一個(gè)Tensor 。并且x.grad是另一個(gè)Variable,該Variable保持了x相對(duì)于某個(gè)標(biāo)量值得梯度。
PyTorch的Variable具有與PyTorch Tensors相同的API。差不多所有適用于Tensor的運(yùn)算都能適用于Variables。區(qū)別在于,使用Variables定義一個(gè)計(jì)算圖,令我們可以自動(dòng)計(jì)算梯度。
下面我們使用PyTorch 的Variables和自動(dòng)梯度來(lái)執(zhí)行我們的兩層的神經(jīng)網(wǎng)絡(luò)。我們不再需要手動(dòng)執(zhí)行網(wǎng)絡(luò)的反向通道了。
PyTorch : Defining new autograd functions(定義新的自動(dòng)梯度函數(shù))
在底層,每一個(gè)原始的自動(dòng)梯度運(yùn)算符實(shí)際上是兩個(gè)在Tensor上運(yùn)行的函數(shù)。其中,forward函數(shù)計(jì)算從輸入Tensors獲得的輸出Tensors。而backward函數(shù)接收輸出Tensors相對(duì)于某個(gè)標(biāo)量值的梯度,并且計(jì)算輸入Tensors相對(duì)于該相同標(biāo)量值的梯度。
在PyTorch中,我們可以很容易地定義自己的自動(dòng)梯度運(yùn)算符。具體來(lái)講,就是先定義torch.autograd.Function的子類(lèi),然后實(shí)現(xiàn)forward和backward函數(shù)。之后我們就可以使用這個(gè)新的自動(dòng)梯度運(yùn)算符了。使用該運(yùn)算符的方式是創(chuàng)建一個(gè)實(shí)例,并且像一個(gè)函數(shù)一樣去調(diào)用它,傳遞包含輸入數(shù)據(jù)的Variables。
在這個(gè)例子中,我們定義自己的定制自動(dòng)梯度函數(shù)來(lái)執(zhí)行ReLU非線性,然后使用它執(zhí)行我們的兩層網(wǎng)絡(luò)。
TensorFlow: Static Graphs(靜態(tài)圖)
PyTorch自動(dòng)梯度看起來(lái)非常像TensorFlow:在兩個(gè)框架中,我們都定義計(jì)算圖,使用自動(dòng)微分來(lái)計(jì)算梯度。兩者最大的不同就是TensorFlow的計(jì)算圖是靜態(tài)的,而PyTorch使用動(dòng)態(tài)的計(jì)算圖。
在TensorFlow中,我們定義計(jì)算圖一次,然后重復(fù)執(zhí)行這個(gè)相同的圖,可能會(huì)提供不同的輸入數(shù)據(jù)。而在PyTorch中,每一個(gè)前向通道定義一個(gè)新的計(jì)算圖。
靜態(tài)圖的好處在于你可以預(yù)先對(duì)圖進(jìn)行優(yōu)化。例如,一個(gè)框架可能要融合一些圖運(yùn)算來(lái)提升效率,或者產(chǎn)生一個(gè)策略來(lái)將圖分布到多個(gè)GPU或機(jī)器上。如果你重復(fù)使用相同的圖,前期優(yōu)化的消耗就會(huì)被分?jǐn)傞_(kāi),因?yàn)橄嗤膱D在多次重復(fù)運(yùn)行。
靜態(tài)圖和動(dòng)態(tài)圖的一個(gè)不同之處是控制流。對(duì)于一些模型,我們希望對(duì)每個(gè)數(shù)據(jù)點(diǎn)執(zhí)行不同的計(jì)算。例如,一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)可能對(duì)于每個(gè)數(shù)據(jù)點(diǎn)執(zhí)行不同的時(shí)間步數(shù),這個(gè)展開(kāi)(unrolling)可以作為一個(gè)循環(huán)來(lái)實(shí)現(xiàn)。對(duì)于一個(gè)靜態(tài)圖,循環(huán)結(jié)構(gòu)要作為圖的一部分。因此,TensorFlow提供了運(yùn)算符(例如tf .scan)來(lái)把循環(huán)嵌入到圖當(dāng)中。對(duì)于動(dòng)態(tài)圖來(lái)說(shuō),情況更加簡(jiǎn)單:既然我們?yōu)槊總€(gè)例子即時(shí)創(chuàng)建圖,我們可以使用正常的解釋流控制來(lái)為每個(gè)輸入執(zhí)行不同的計(jì)算。
為了與上面的PyTorch自動(dòng)梯度實(shí)例做對(duì)比,我們使用TensorFlow來(lái)擬合一個(gè)簡(jiǎn)單的2層網(wǎng)絡(luò)。
計(jì)算圖和自動(dòng)梯度是非常強(qiáng)大的范式,可用于定義復(fù)雜的運(yùn)算符和自動(dòng)求導(dǎo)數(shù)。然而,對(duì)于一個(gè)大型的網(wǎng)絡(luò)來(lái)說(shuō),原始的自動(dòng)梯度有點(diǎn)太低級(jí)別了。
在建立神經(jīng)網(wǎng)絡(luò)的時(shí)候,我們經(jīng)常把計(jì)算安排在層(layers)中。某些層有可學(xué)習(xí)的參數(shù),將會(huì)在學(xué)習(xí)中進(jìn)行優(yōu)化。
在TensorFlow中,Keras,TensorFlow-Slim和TFLearn這些包提供了原始計(jì)算圖之上的高級(jí)抽象,這對(duì)于構(gòu)建神經(jīng)網(wǎng)絡(luò)大有裨益。
在PyTorch中, nn包服務(wù)于相同的目的。nn包定義了一系列Modules,大體上相當(dāng)于神經(jīng)網(wǎng)絡(luò)的層。一個(gè)Module接收輸入Variables,計(jì)算輸出Variables,但是也可以保持一個(gè)內(nèi)部狀態(tài),例如包含了可學(xué)習(xí)參數(shù)的Variables。nn 包還定義了一系列在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)常用的損失函數(shù)。
在下面例子中,我們使用nn包來(lái)實(shí)現(xiàn)我們的兩層神經(jīng)網(wǎng)絡(luò)。
目前,我們已經(jīng)通過(guò)手動(dòng)改變持有可學(xué)習(xí)參數(shù)的Variables的 .data成員來(lái)更新模型的權(quán)重。對(duì)于簡(jiǎn)單的優(yōu)化算法(例如隨機(jī)梯度下降)來(lái)說(shuō)這不是一個(gè)大的負(fù)擔(dān),但是實(shí)際上我們經(jīng)常使用更加復(fù)雜的優(yōu)化器來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò),例如AdaGrad, RMSProp, Adam等。
PyTorch的optim包將優(yōu)化算法進(jìn)行抽象,并提供了常用的優(yōu)化算法的實(shí)現(xiàn)。
下面這個(gè)例子,我們將會(huì)使用 nn包來(lái)定義模型,使用optim包提供的Adam算法來(lái)優(yōu)化這個(gè)模型。
有時(shí)候,需要設(shè)定比現(xiàn)有模塊序列更加復(fù)雜的模型。這時(shí),你可以通過(guò)生成一個(gè)nn.Module的子類(lèi)來(lái)定義一個(gè)forward。該forward可以使用其他的modules或者其他的自動(dòng)梯度運(yùn)算來(lái)接收輸入Variables,產(chǎn)生輸出Variables。
在這個(gè)例子中,我們實(shí)現(xiàn)兩層神經(jīng)網(wǎng)絡(luò)作為一個(gè)定制的Module子類(lèi)。
我們實(shí)現(xiàn)一個(gè)非常奇怪的模型來(lái)作為動(dòng)態(tài)圖和權(quán)重分享的例子。這個(gè)模型是一個(gè)全連接的ReLU網(wǎng)絡(luò)。每一個(gè)前向通道選擇一個(gè)1至4之間的隨機(jī)數(shù),在很多隱含層中使用。多次使用相同的權(quán)重來(lái)計(jì)算最內(nèi)層的隱含層。
這個(gè)模型我們使用正常的Python流控制來(lái)實(shí)現(xiàn)循環(huán)。在定義前向通道時(shí),通過(guò)多次重復(fù)使用相同的Module來(lái)實(shí)現(xiàn)權(quán)重分享。
我們實(shí)現(xiàn)這個(gè)模型作為一個(gè)Module的子類(lèi)。
總結(jié)
本文介紹了PyTorch中的重點(diǎn)模塊和使用,對(duì)于開(kāi)展之后的實(shí)戰(zhàn)練習(xí)非常重要。所以,我們需要認(rèn)真練習(xí)一下本文的所有模塊。最好手敲代碼走一遍。
責(zé)任編輯:xj
-
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5463瀏覽量
120890 -
pytorch
+關(guān)注
關(guān)注
2文章
802瀏覽量
13115
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論