前言

本文參考PyTorch官網(wǎng)的教程，分為五個(gè)基本模塊來介紹PyTorch。為了避免文章過長，這五個(gè)模塊分別在五篇博文中介紹。

Part1：PyTorch簡單知識(shí)

Part2：PyTorch的自動(dòng)梯度計(jì)算

Part3：使用PyTorch構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò)

Part4：訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)分類器

Part5：數(shù)據(jù)并行化

本文是關(guān)于Part3的內(nèi)容。

Part3：使用PyTorch構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)可以使用touch.nn來構(gòu)建。nn依賴于autograd來定義模型，并且對(duì)其求導(dǎo)。一個(gè)nn.Module包含網(wǎng)絡(luò)的層（layers），同時(shí)forward（input）可以返回output。

例如，下面的網(wǎng)絡(luò)（卷積網(wǎng)絡(luò)）是用來對(duì)數(shù)字圖像進(jìn)行分類的。

convnet

這是一個(gè)簡單的前饋網(wǎng)絡(luò)。它接受輸入，然后一層一層向前傳播，最后輸出一個(gè)結(jié)果。

訓(xùn)練神經(jīng)網(wǎng)絡(luò)的典型步驟如下：

（1）定義神經(jīng)網(wǎng)絡(luò)，該網(wǎng)絡(luò)包含一些可以學(xué)習(xí)的參數(shù)（如權(quán)重）

（2）在輸入數(shù)據(jù)集上進(jìn)行迭代

（3）使用網(wǎng)絡(luò)對(duì)輸入數(shù)據(jù)進(jìn)行處理

（4）計(jì)算loss（輸出值距離正確值有多遠(yuǎn)）

（5）將梯度反向傳播到網(wǎng)絡(luò)參數(shù)中

（6）更新網(wǎng)絡(luò)的權(quán)重，使用簡單的更新法則：weight = weight - learning_rate* gradient，即：新的權(quán)重=舊的權(quán)重-學(xué)習(xí)率*梯度值。

1 定義網(wǎng)絡(luò)

我們先定義一個(gè)網(wǎng)絡(luò)：

import torch
from torch.autograd import Variable
import torch.nn as nn
import torch.nn.functional as F


class Net(nn.Module):

    def __init__(self):
        super(Net, self).__init__()
        # 1 input image channel, 6 output channels, 5x5 square convolution
        # kernel
        self.conv1 = nn.Conv2d(1, 6, 5)
        self.conv2 = nn.Conv2d(6, 16, 5)
        # an affine operation: y = Wx + b
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        # Max pooling over a (2, 2) window
        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))
        # If the size is a square you can only specify a single number
        x = F.max_pool2d(F.relu(self.conv2(x)), 2)
        x = x.view(-1, self.num_flat_features(x))
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

    def num_flat_features(self, x):
        size = x.size()[1:]  # all dimensions except the batch dimension
        num_features = 1
        for s in size:
            num_features *= s
        return num_features


net = Net()
print(net)

預(yù)期輸出：

Net(

(conv1):Conv2d(1,6,kernel_size=(5,5),stride=(1,1))

(conv2):Conv2d(6,16,kernel_size=(5,5),stride=(1,1))

(fc1):Linear(400->120)

(fc2):Linear(120->84)

(fc3):Linear(84->10)

)

你只需要定義forward函數(shù)，那么backward函數(shù)（梯度在此函數(shù)中計(jì)算）就會(huì)利用autograd來自動(dòng)定義。你可以在forward函數(shù)中使用Tensor的任何運(yùn)算。

學(xué)習(xí)到的參數(shù)可以被net.parameters（）返回。

params = list(net.parameters())
print(len(params))
print(params[0].size())  # conv1's .weight

預(yù)期輸出：

torch.Size([6,1,5,5])

前向計(jì)算的輸入和輸出都是autograd.Variable，注意，這個(gè)網(wǎng)絡(luò)（LeNet）的輸入尺寸是32*32。為了在MNIST數(shù)據(jù)集上使用這個(gè)網(wǎng)絡(luò)，請(qǐng)把圖像大小轉(zhuǎn)變?yōu)?2*32。

input = Variable(torch.randn(1, 1, 32, 32))
out = net(input)
print(out)

預(yù)期輸出：

Variable containing:
-0.0796  0.0330  0.0103  0.0250  0.1153 -0.0136  0.0234  0.0881  0.0374 -0.0359
[torch.FloatTensor of size 1x10]

將梯度緩沖區(qū)歸零，然后使用隨機(jī)梯度值進(jìn)行反向傳播。

net.zero_grad()
out.backward(torch.randn(1, 10))

注意：torch.nn只支持mini-batches. 完整的torch.nn package只支持mini-batch形式的樣本作為輸入，并且不能只包含一個(gè)樣本。例如，nn.Conv2d會(huì)采用一個(gè)4D的Tensor（nSamples* nChannels * Height * Width）。如果你有一個(gè)單樣本，可以使用input.unsqueeze（0）來添加一個(gè)虛假的批量維度。

在繼續(xù)之前，讓我們回顧一下迄今為止所見過的所有類。

概述：

（1） torch.Tensor——多維數(shù)組

（2） autograd.Variable——包裝了一個(gè)Tensor，并且記錄了應(yīng)用于其上的運(yùn)算。與Tensor具有相同的API，同時(shí)增加了一些新東西例如backward（）。并且有相對(duì)于該tensor的梯度值。

（3） nn.Module——神經(jīng)網(wǎng)絡(luò)模塊。封裝參數(shù)的簡便方式，對(duì)于參數(shù)向GPU移動(dòng)，以及導(dǎo)出、加載等有幫助。

（4） nn.Parameter——這是一種變量（Variable），當(dāng)作為一個(gè)屬性（attribute）分配到一個(gè)模塊（Module）時(shí)，可以自動(dòng)注冊(cè)為一個(gè)參數(shù)（parameter）。

（5） autograd.Function——執(zhí)行自動(dòng)求導(dǎo)運(yùn)算的前向和反向定義。每一個(gè)Variable運(yùn)算，創(chuàng)建至少一個(gè)單獨(dú)的Function節(jié)點(diǎn)，該節(jié)點(diǎn)連接到創(chuàng)建了Variable并且編碼了它的歷史的函數(shù)身上。

2 損失函數(shù)（Loss Function）

損失函數(shù)采用輸出值和目標(biāo)值作為輸入?yún)?shù)，來計(jì)算輸出值距離目標(biāo)值還有多大差距。在nn package中有很多種不同的損失函數(shù)，最簡單的一個(gè)loss就是nn.MSELoss，它計(jì)算輸出值和目標(biāo)值之間的均方差。

例如：

output = net(input)
target = Variable(torch.arange(1, 11))  # a dummy target, for example
criterion = nn.MSELoss()

loss = criterion(output, target)
print(loss)

現(xiàn)在，從反向看loss，使用.grad_fn屬性，你會(huì)看到一個(gè)計(jì)算graph如下：

input -> conv2d -> relu -> maxpool2d -> conv2d -> relu -> maxpool2d
      -> view -> linear -> relu -> linear -> relu -> linear
      -> MSELoss
      -> loss

當(dāng)我們調(diào)用loss.backward（），整個(gè)的graph關(guān)于loss求導(dǎo)，graph中的所有Variables都會(huì)有他們自己的.grad變量。

為了理解，我們進(jìn)行幾個(gè)反向步驟。

print(loss.grad_fn)  # MSELoss
print(loss.grad_fn.next_functions[0][0])  # Linear
print(loss.grad_fn.next_functions[0][0].next_functions[0][0])  # ReLU

預(yù)期輸出：

<torch.autograd.function.MSELossBackwardobjectat0x7fb3c0dcf4f8>

<torch.autograd.function.AddmmBackwardobjectat0x7fb3c0dcf408>

3 反向傳播（Backprop）

可以使用loss.backward（）進(jìn)行誤差反向傳播。你需要清除已經(jīng)存在的梯度值，否則梯度將會(huì)積累到現(xiàn)有的梯度上。

現(xiàn)在，我們調(diào)用loss.backward（），看一看conv1的bias 梯度在backward之前和之后的值。

net.zero_grad()     # zeroes the gradient buffers of all parameters

print('conv1.bias.grad before backward')
print(net.conv1.bias.grad)

loss.backward()

print('conv1.bias.grad after backward')
print(net.conv1.bias.grad)

4 更新權(quán)重

實(shí)踐當(dāng)中最簡單的更新法則就是隨機(jī)梯度下降法（ StochasticGradient Descent （SGD））

weight = weight - learning_rate * gradient

執(zhí)行這個(gè)操作的python代碼如下：

learning_rate = 0.01
for f in net.parameters():
    f.data.sub_(f.grad.data * learning_rate)

但是當(dāng)你使用神經(jīng)網(wǎng)絡(luò)的時(shí)候，你可能會(huì)想要嘗試多種不同的更新法則，例如SGD，Nesterov-SGD， Adam， RMSProp等。為了實(shí)現(xiàn)此功能，有一個(gè)package叫做torch.optim已經(jīng)實(shí)現(xiàn)了這些。使用它也很方便：

import torch.optim as optim

# create your optimizer
optimizer = optim.SGD(net.parameters(), lr=0.01)

# in your training loop:
optimizer.zero_grad()   # zero the gradient buffers
output = net(input)
loss = criterion(output, target)
loss.backward()
optimizer.step()    # Does the update

責(zé)任編輯：xj

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4733

瀏覽量
100420
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5463

瀏覽量
120890
pytorch

pytorch

+關(guān)注

關(guān)注
2

文章
802

瀏覽量
13115

評(píng)論

相關(guān)推薦

Pytorch深度學(xué)習(xí)訓(xùn)練的方法

掌握這 17 種方法，用最省力的方式，加速你的 Pytorch 深度學(xué)習(xí)訓(xùn)練。

發(fā)表于 10-28 14:05 ?119次閱讀

<b class='flag-5'>Pytorch</b><b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>訓(xùn)練的方法

pytorch怎么在pycharm中運(yùn)行

第一部分：PyTorch和PyCharm的安裝 1.1 安裝PyTorch PyTorch是一個(gè)

發(fā)表于 08-01 16:22 ?1131次閱讀

如何構(gòu)建多層神經(jīng)網(wǎng)絡(luò)

構(gòu)建多層神經(jīng)網(wǎng)絡(luò)（MLP, Multi-Layer Perceptron）模型是一個(gè)在機(jī)器學(xué)習(xí)和深度

發(fā)表于 07-19 17:19 ?649次閱讀

PyTorch深度學(xué)習(xí)開發(fā)環(huán)境搭建指南

PyTorch作為一種流行的深度學(xué)習(xí)框架，其開發(fā)環(huán)境的搭建對(duì)于深度學(xué)習(xí)研究者和開發(fā)者來說至關(guān)重要

發(fā)表于 07-16 18:29 ?699次閱讀

PyTorch如何實(shí)現(xiàn)多層全連接神經(jīng)網(wǎng)絡(luò)

在PyTorch中實(shí)現(xiàn)多層全連接神經(jīng)網(wǎng)絡(luò)（也稱為密集連接神經(jīng)網(wǎng)絡(luò)或DNN）是一個(gè)相對(duì)直接的過程，涉及定義

發(fā)表于 07-11 16:07 ?987次閱讀

如何在PyTorch中實(shí)現(xiàn)LeNet-5網(wǎng)絡(luò)

在PyTorch中實(shí)現(xiàn)LeNet-5網(wǎng)絡(luò)是一個(gè)涉及深度學(xué)習(xí)基礎(chǔ)知識(shí)、

發(fā)表于 07-11 10:58 ?662次閱讀

pytorch中有神經(jīng)網(wǎng)絡(luò)模型嗎

當(dāng)然，PyTorch是一個(gè)廣泛使用的深度學(xué)習(xí)框架，它提供了許多預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型。

發(fā)表于 07-11 09:59 ?602次閱讀

PyTorch神經(jīng)網(wǎng)絡(luò)模型構(gòu)建過程

PyTorch，作為一個(gè)廣泛使用的開源深度學(xué)習(xí)庫，提供了豐富的工具和模塊，幫助開發(fā)者構(gòu)建、訓(xùn)練和

發(fā)表于 07-10 14:57 ?419次閱讀

PyTorch的介紹與使用案例

學(xué)習(xí)領(lǐng)域的一個(gè)重要工具。PyTorch底層由C++實(shí)現(xiàn)，提供了豐富的API接口，使得開發(fā)者能夠高效地構(gòu)建和訓(xùn)練

發(fā)表于 07-10 14:19 ?334次閱讀

PyTorch的特性和使用方法

使用Python重新寫了很多內(nèi)容，使其更加靈活易用。它不僅是一個(gè)擁有自動(dòng)求導(dǎo)功能的深度神經(jīng)網(wǎng)絡(luò)框架，還可以看作是一

發(fā)表于 07-02 14:27 ?451次閱讀

如何使用PyTorch建立網(wǎng)絡(luò)模型

PyTorch是一個(gè)基于Python的開源機(jī)器學(xué)習(xí)庫，因其易用性、靈活性和強(qiáng)大的動(dòng)態(tài)圖特性，在深度學(xué)習(xí)

發(fā)表于 07-02 14:08 ?339次閱讀

TensorFlow與PyTorch深度學(xué)習(xí)框架的比較與選擇

深度學(xué)習(xí)作為人工智能領(lǐng)域的一個(gè)重要分支，在過去十年中取得了顯著的進(jìn)展。在構(gòu)建和訓(xùn)練深度

發(fā)表于 07-02 14:04 ?847次閱讀

使用PyTorch構(gòu)建神經(jīng)網(wǎng)絡(luò)

PyTorch是一個(gè)流行的深度學(xué)習(xí)框架，它以其簡潔的API和強(qiáng)大的靈活性在學(xué)術(shù)界和工業(yè)界得到了廣泛應(yīng)用。在本文中，我們將深入探討如何使用

發(fā)表于 07-02 11:31 ?618次閱讀

如何使用Python進(jìn)行神經(jīng)網(wǎng)絡(luò)編程

神經(jīng)網(wǎng)絡(luò)簡介 神經(jīng)網(wǎng)絡(luò)是一種受人腦啟發(fā)的機(jī)器學(xué)習(xí)模型，由大量的節(jié)點(diǎn)（或稱為“神經(jīng)元”）組成，這些節(jié)點(diǎn)在網(wǎng)

發(fā)表于 07-02 09:58 ?335次閱讀

詳解深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

在如今的網(wǎng)絡(luò)時(shí)代，錯(cuò)綜復(fù)雜的大數(shù)據(jù)和網(wǎng)絡(luò)環(huán)境，讓傳統(tǒng)信息處理理論、人工智能與人工神經(jīng)網(wǎng)絡(luò)都面臨巨大的挑戰(zhàn)。近些年，深度學(xué)習(xí)逐漸走進(jìn)人們的視線

發(fā)表于 01-11 10:51 ?1840次閱讀

搜索歷史

基于PyTorch的深度學(xué)習(xí)入門教程之使用PyTorch構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò)

前言

評(píng)論

Pytorch深度學(xué)習(xí)訓(xùn)練的方法

pytorch怎么在pycharm中運(yùn)行

如何構(gòu)建多層神經(jīng)網(wǎng)絡(luò)

PyTorch深度學(xué)習(xí)開發(fā)環(huán)境搭建指南

PyTorch如何實(shí)現(xiàn)多層全連接神經(jīng)網(wǎng)絡(luò)

如何在PyTorch中實(shí)現(xiàn)LeNet-5網(wǎng)絡(luò)

pytorch中有神經(jīng)網(wǎng)絡(luò)模型嗎

PyTorch神經(jīng)網(wǎng)絡(luò)模型構(gòu)建過程

PyTorch的介紹與使用案例

PyTorch的特性和使用方法

如何使用PyTorch建立網(wǎng)絡(luò)模型

TensorFlow與PyTorch深度學(xué)習(xí)框架的比較與選擇

使用PyTorch構(gòu)建神經(jīng)網(wǎng)絡(luò)

如何使用Python進(jìn)行神經(jīng)網(wǎng)絡(luò)編程

詳解深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用