前言
本文參考PyTorch官網(wǎng)的教程,分為五個(gè)基本模塊來介紹PyTorch。為了避免文章過長,這五個(gè)模塊分別在五篇博文中介紹。
Part1:PyTorch簡單知識(shí)
Part2:PyTorch的自動(dòng)梯度計(jì)算
Part3:使用PyTorch構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò)
Part4:訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)分類器
Part5:數(shù)據(jù)并行化
本文是關(guān)于Part3的內(nèi)容。
Part3:使用PyTorch構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)可以使用touch.nn來構(gòu)建。nn依賴于autograd來定義模型,并且對(duì)其求導(dǎo)。一個(gè)nn.Module包含網(wǎng)絡(luò)的層(layers),同時(shí)forward(input)可以返回output。
例如,下面的網(wǎng)絡(luò)(卷積網(wǎng)絡(luò))是用來對(duì)數(shù)字圖像進(jìn)行分類的。
這是一個(gè)簡單的前饋網(wǎng)絡(luò)。它接受輸入,然后一層一層向前傳播,最后輸出一個(gè)結(jié)果。
訓(xùn)練神經(jīng)網(wǎng)絡(luò)的典型步驟如下:
(1) 定義神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)包含一些可以學(xué)習(xí)的參數(shù)(如權(quán)重)
(2) 在輸入數(shù)據(jù)集上進(jìn)行迭代
(3) 使用網(wǎng)絡(luò)對(duì)輸入數(shù)據(jù)進(jìn)行處理
(4) 計(jì)算loss(輸出值距離正確值有多遠(yuǎn))
(5) 將梯度反向傳播到網(wǎng)絡(luò)參數(shù)中
(6) 更新網(wǎng)絡(luò)的權(quán)重,使用簡單的更新法則:weight = weight - learning_rate* gradient,即:新的權(quán)重=舊的權(quán)重-學(xué)習(xí)率*梯度值。
1 定義網(wǎng)絡(luò)
我們先定義一個(gè)網(wǎng)絡(luò):
import torch from torch.autograd import Variable import torch.nn as nn import torch.nn.functional as F class Net(nn.Module): def __init__(self): super(Net, self).__init__() # 1 input image channel, 6 output channels, 5x5 square convolution # kernel self.conv1 = nn.Conv2d(1, 6, 5) self.conv2 = nn.Conv2d(6, 16, 5) # an affine operation: y = Wx + b self.fc1 = nn.Linear(16 * 5 * 5, 120) self.fc2 = nn.Linear(120, 84) self.fc3 = nn.Linear(84, 10) def forward(self, x): # Max pooling over a (2, 2) window x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2)) # If the size is a square you can only specify a single number x = F.max_pool2d(F.relu(self.conv2(x)), 2) x = x.view(-1, self.num_flat_features(x)) x = F.relu(self.fc1(x)) x = F.relu(self.fc2(x)) x = self.fc3(x) return x def num_flat_features(self, x): size = x.size()[1:] # all dimensions except the batch dimension num_features = 1 for s in size: num_features *= s return num_features net = Net() print(net)
預(yù)期輸出:
Net(
(conv1):Conv2d(1,6,kernel_size=(5,5),stride=(1,1))
(conv2):Conv2d(6,16,kernel_size=(5,5),stride=(1,1))
(fc1):Linear(400->120)
(fc2):Linear(120->84)
(fc3):Linear(84->10)
)
你只需要定義forward函數(shù),那么backward函數(shù)(梯度在此函數(shù)中計(jì)算)就會(huì)利用autograd來自動(dòng)定義。你可以在forward函數(shù)中使用Tensor的任何運(yùn)算。
學(xué)習(xí)到的參數(shù)可以被net.parameters()返回。
params = list(net.parameters()) print(len(params)) print(params[0].size()) # conv1's .weight
預(yù)期輸出:
10
torch.Size([6,1,5,5])
前向計(jì)算的輸入和輸出都是autograd.Variable,注意,這個(gè)網(wǎng)絡(luò)(LeNet)的輸入尺寸是32*32。為了在MNIST數(shù)據(jù)集上使用這個(gè)網(wǎng)絡(luò),請(qǐng)把圖像大小轉(zhuǎn)變?yōu)?2*32。
input = Variable(torch.randn(1, 1, 32, 32)) out = net(input) print(out)
預(yù)期輸出:
Variable containing: -0.0796 0.0330 0.0103 0.0250 0.1153 -0.0136 0.0234 0.0881 0.0374 -0.0359 [torch.FloatTensor of size 1x10]
將梯度緩沖區(qū)歸零,然后使用隨機(jī)梯度值進(jìn)行反向傳播。
net.zero_grad() out.backward(torch.randn(1, 10))
注意:torch.nn只支持mini-batches. 完整的torch.nn package只支持mini-batch形式的樣本作為輸入,并且不能只包含一個(gè)樣本。例如,nn.Conv2d會(huì)采用一個(gè)4D的Tensor(nSamples* nChannels * Height * Width)。如果你有一個(gè)單樣本,可以使用input.unsqueeze(0)來添加一個(gè)虛假的批量維度。
在繼續(xù)之前,讓我們回顧一下迄今為止所見過的所有類。
概述:
(1) torch.Tensor——多維數(shù)組
(2) autograd.Variable——包裝了一個(gè)Tensor,并且記錄了應(yīng)用于其上的運(yùn)算。與Tensor具有相同的API,同時(shí)增加了一些新東西例如backward()。并且有相對(duì)于該tensor的梯度值。
(3) nn.Module——神經(jīng)網(wǎng)絡(luò)模塊。封裝參數(shù)的簡便方式,對(duì)于參數(shù)向GPU移動(dòng),以及導(dǎo)出、加載等有幫助。
(4) nn.Parameter——這是一種變量(Variable),當(dāng)作為一個(gè)屬性(attribute)分配到一個(gè)模塊(Module)時(shí),可以自動(dòng)注冊(cè)為一個(gè)參數(shù)(parameter)。
(5) autograd.Function——執(zhí)行自動(dòng)求導(dǎo)運(yùn)算的前向和反向定義。每一個(gè)Variable運(yùn)算,創(chuàng)建至少一個(gè)單獨(dú)的Function節(jié)點(diǎn),該節(jié)點(diǎn)連接到創(chuàng)建了Variable并且編碼了它的歷史的函數(shù)身上。
2 損失函數(shù)(Loss Function)
損失函數(shù)采用輸出值和目標(biāo)值作為輸入?yún)?shù),來計(jì)算輸出值距離目標(biāo)值還有多大差距。在nn package中有很多種不同的損失函數(shù),最簡單的一個(gè)loss就是nn.MSELoss,它計(jì)算輸出值和目標(biāo)值之間的均方差。
例如:
output = net(input) target = Variable(torch.arange(1, 11)) # a dummy target, for example criterion = nn.MSELoss() loss = criterion(output, target) print(loss)
現(xiàn)在,從反向看loss,使用.grad_fn屬性,你會(huì)看到一個(gè)計(jì)算graph如下:
input -> conv2d -> relu -> maxpool2d -> conv2d -> relu -> maxpool2d -> view -> linear -> relu -> linear -> relu -> linear -> MSELoss -> loss
當(dāng)我們調(diào)用loss.backward(),整個(gè)的graph關(guān)于loss求導(dǎo),graph中的所有Variables都會(huì)有他們自己的.grad變量。
為了理解,我們進(jìn)行幾個(gè)反向步驟。
print(loss.grad_fn) # MSELoss print(loss.grad_fn.next_functions[0][0]) # Linear print(loss.grad_fn.next_functions[0][0].next_functions[0][0]) # ReLU
預(yù)期輸出:
<torch.autograd.function.MSELossBackwardobjectat0x7fb3c0dcf4f8>
<torch.autograd.function.AddmmBackwardobjectat0x7fb3c0dcf408>
<AccumulateGradobjectat0x7fb3c0db79e8>
3 反向傳播(Backprop)
可以使用loss.backward()進(jìn)行誤差反向傳播。你需要清除已經(jīng)存在的梯度值,否則梯度將會(huì)積累到現(xiàn)有的梯度上。
現(xiàn)在,我們調(diào)用loss.backward(),看一看conv1的bias 梯度在backward之前和之后的值。
net.zero_grad() # zeroes the gradient buffers of all parameters print('conv1.bias.grad before backward') print(net.conv1.bias.grad) loss.backward() print('conv1.bias.grad after backward') print(net.conv1.bias.grad)
4 更新權(quán)重
實(shí)踐當(dāng)中最簡單的更新法則就是隨機(jī)梯度下降法( StochasticGradient Descent (SGD))
weight = weight - learning_rate * gradient
執(zhí)行這個(gè)操作的python代碼如下:
learning_rate = 0.01 for f in net.parameters(): f.data.sub_(f.grad.data * learning_rate)
但是當(dāng)你使用神經(jīng)網(wǎng)絡(luò)的時(shí)候,你可能會(huì)想要嘗試多種不同的更新法則,例如SGD,Nesterov-SGD, Adam, RMSProp等。為了實(shí)現(xiàn)此功能,有一個(gè)package叫做torch.optim已經(jīng)實(shí)現(xiàn)了這些。使用它也很方便:
import torch.optim as optim # create your optimizer optimizer = optim.SGD(net.parameters(), lr=0.01) # in your training loop: optimizer.zero_grad() # zero the gradient buffers output = net(input) loss = criterion(output, target) loss.backward() optimizer.step() # Does the update
責(zé)任編輯:xj
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4733瀏覽量
100420 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5463瀏覽量
120890 -
pytorch
+關(guān)注
關(guān)注
2文章
802瀏覽量
13115
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論