日日摸夜夜爽无码,成人日韩熟女高清视频一区,在线日本va午夜中文字幕

盼望已久，Pytorch終于更新了！Pytroch 1.1.0的發(fā)布除了修復了已有bug之外，最大的亮點就是可以更快、更好的支持自定義RNN，以及TensorBoard對可視化和模型調試提供了一流的本地支持。

Pytorch 1.1.0，來了！

可以說是一大波更新來襲了，話不多說上亮點：

TorchScript(Pytorch JIT)更快、更好的支持自定義RNN；

TensorBoard對可視化和模型調試提供了一流的本地支持；

可以在ScriptModule上通過使用torch.jit包裝屬性來分配屬性；

TorchScript現(xiàn)在對列表和字典類型提供了魯棒性的支持；

對于更復雜的有狀態(tài)操作，TorchScript現(xiàn)在支持使用@torch.jit.script注釋類；

nn.parallel.DistributedDataParallel：現(xiàn)在可以包裝多GPU模塊，它可以在一臺服務器上實現(xiàn)模型并行和跨服務器的數(shù)據(jù)并行等用例。

注：不再支持CUDA 8.0。

此更新一出，在Reddit上也引發(fā)了一波熱議，大部分網友們表示：

“贊！”、“好用！”、“愛了！”

用TorchScript優(yōu)化CUDA遞歸神經網絡

Pytorch添加的一個新特性是更好地支持帶有TorchScript (PyTorch JIT)的快速自定義遞歸神經網絡(fastrnns)。

RNN是一種流行的模型，在各種NLP任務上都表現(xiàn)出了良好的性能。PyTorch可以實現(xiàn)許多最流行的變體，例如Elman RNN、GRU和LSTM，以及多層和雙向變體。

然而，許多用戶希望實現(xiàn)他們自己的自定義RNN。將層規(guī)范化應用于LSTM就是這樣一種用例。由于PyTorch CUDA LSTM實現(xiàn)使用融合內核，因此很難插入規(guī)范化甚至修改基本LSTM實現(xiàn)。

許多用戶已經轉向使用標準PyTorch運算符編寫自定義實現(xiàn)，但是這樣的代碼遭受高開銷：大多數(shù)PyTorch操作在GPU上啟動至少一個內核，并且RNN由于其重復性質通常運行許多操作。但是可以應用TorchScript來融合操作并自動優(yōu)化代碼，在GPU上啟動更少、更優(yōu)化的內核。

此次更新的目標之一是讓用戶能夠在TorchScript中編寫快速，自定義的RNN，而無需編寫專門的CUDA內核來實現(xiàn)類似的性能。接下來將提供如何使用TorchScript編寫自己的快速RNN的教程。

編寫自定義RNN

首先，可以使用下方鏈接中的文件作為模板來編寫自己的自定義RNN。

https://github.com/pytorch/pytorch/blob/master/benchmarks/fastrnns/custom_lstms.py

如果想獲得TorchScript當前提供的速度/優(yōu)化（如運算符融合，批量矩陣乘法等），請遵循以下指南。

如果定制操作都是element-wise的，那就可以自動獲得PyTorch JIT操作符fusion的優(yōu)勢！

如果有更復雜的操作（例如，reduce和element-wise的渾南和操作），請考慮分別對reduce操作和element-wise操作進行分組。

如果想知道自定義RNN中融合了什么，可以使用graph_for檢查操作的優(yōu)化圖。以LSTMCell為例：

#getinputsandstatesforLSTMCellinputs=get_lstm_inputs()#instantiateaScriptModulecell=LSTMCell(input_size,hidden_size)#printtheoptimizedgraphusinggraph_forout=cell(inputs)print(cell.graph_for(inputs))

這將提供的專用輸入生成優(yōu)化的TorchScript圖形（a.k.a PyTorch JIT IR）：

graph(%x:Float(*,*),%hx:Float(*,*),%cx:Float(*,*),%w_ih:Float(*,*),%w_hh:Float(*,*),%b_ih:Float(*),%b_hh:Float(*)):%hy:Float(*,*),%cy:Float(*,*)=prim::DifferentiableGraph_0(%cx,%b_hh,%b_ih,%hx,%w_hh,%x,%w_ih)%30:(Float(*,*),Float(*,*))=prim::TupleConstruct(%hy,%cy)return(%30)withprim::DifferentiableGraph_0=graph(%13:Float(*,*),%29:Float(*),%33:Float(*),%40:Float(*,*),%43:Float(*,*),%45:Float(*,*),%48:Float(*,*)):%49:Float(*,*)=aten::t(%48)%47:Float(*,*)=aten::mm(%45,%49)%44:Float(*,*)=aten::t(%43)%42:Float(*,*)=aten::mm(%40,%44)...somebroadcastsizesoperations...%hy:Float(*,*),%287:Float(*,*),%cy:Float(*,*),%outgate.1:Float(*,*),%cellgate.1:Float(*,*),%forgetgate.1:Float(*,*),%ingate.1:Float(*,*)=prim::FusionGroup_0(%13,%346,%345,%344,%343)...somebroadcastsizesoperations...return(%hy,%cy,%49,%44,%196,%199,%340,%192,%325,%185,%ingate.1,%forgetgate.1,%cellgate.1,%outgate.1,%395,%396,%287)withprim::FusionGroup_0=graph(%13:Float(*,*),%71:Tensor,%76:Tensor,%81:Tensor,%86:Tensor):...somechunks,constants,andaddoperations...%ingate.1:Float(*,*)=aten::sigmoid(%38)%forgetgate.1:Float(*,*)=aten::sigmoid(%34)%cellgate.1:Float(*,*)=aten::tanh(%30)%outgate.1:Float(*,*)=aten::sigmoid(%26)%14:Float(*,*)=aten::mul(%forgetgate.1,%13)%11:Float(*,*)=aten::mul(%ingate.1,%cellgate.1)%cy:Float(*,*)=aten::add(%14,%11,%69)%4:Float(*,*)=aten::tanh(%cy)%hy:Float(*,*)=aten::mul(%outgate.1,%4)return(%hy,%4,%cy,%outgate.1,%cellgate.1,%forgetgate.1,%ingate.1)

從上圖中可以看到它有一個prim :: FusionGroup_0子圖，它融合了LSTMCell中的所有element-wise操作（轉置和矩陣乘法不是element-wise操作）。

可變長度序列最佳實踐

TorchScript不支持PackedSequence。通常，當處理可變長度序列時，最好將它們填充到單個張量中并通過TorchScript LSTM發(fā)送該張量。例如：

sequences=[...]#List[Tensor],eachTensorisT'xCpadded=torch.utils.rnn.pad_sequence(sequences)lengths=[seq.size(0)forseqinsequences]padded#TxNxC,whereNisbatchsizeandTisthemaxofallT'model=LSTM(...)output,hiddens=model(padded)output#TxNxC

當然，output可能在填充區(qū)域中有一些垃圾數(shù)據(jù)；使用lengths來跟蹤你不需要的部分。

優(yōu)化

現(xiàn)在將解釋PyTorch JIT為加速自定義RNN所執(zhí)行的優(yōu)化。將在TorchScript中使用一個簡單的自定義LSTM模型來說明優(yōu)化，但其中許多是通用的并適用于其他RNN。

為了說明所做的優(yōu)化以及如何從這些優(yōu)化中獲益，將運行一個用TorchScript編寫的簡單自定義LSTM模型（可以參考custom_lstm.py中的代碼或下面的代碼片段）并計算更改。

在配備2個Intel Xeon芯片和一個Nvidia P100的機器中設置環(huán)境，安裝了cuDNN v7.3，CUDA 9.2。 LSTM模型的基本設置如下：

input_size=512hidden_size=512mini_batch=64numLayers=1seq_length=100

PyTorch JIT最重要的是將python程序編譯為PyTorch JIT IR，這是一個用于對程序圖形結構進行建模的中間表示。然后，該IR可以從整個程序優(yōu)化，硬件加速中受益，并且總體上具有提供大量計算增益的潛力。

接下來，將解釋在如何提高訓練或推理性能方面所做的主要優(yōu)化，從LSTMCell和LSTMLayer開始，以及一些misc優(yōu)化。

LSTM Cell(前向)

LSTM中的幾乎所有計算都發(fā)生在LSTMCell中，因此重要的是看看它包含的計算以及如何提高它們的速度。下面是TorchScript中的LSTMCell實現(xiàn)示例：

classLSTMCell(jit.ScriptModule):def__init__(self,input_size,hidden_size):super(LSTMCell,self).__init__()self.input_size=input_sizeself.hidden_size=hidden_sizeself.weight_ih=Parameter(torch.randn(4*hidden_size,input_size))self.weight_hh=Parameter(torch.randn(4*hidden_size,hidden_size))self.bias_ih=Parameter(torch.randn(4*hidden_size))self.bias_hh=Parameter(torch.randn(4*hidden_size))@jit.script_methoddefforward(self,input,state):#type:(Tensor,Tuple[Tensor,Tensor])->Tuple[Tensor,Tuple[Tensor,Tensor]]hx,cx=stategates=(torch.mm(input,self.weight_ih.t())+self.bias_ih+torch.mm(hx,self.weight_hh.t())+self.bias_hh)ingate,forgetgate,cellgate,outgate=gates.chunk(4,1)ingate=torch.sigmoid(ingate)forgetgate=torch.sigmoid(forgetgate)cellgate=torch.tanh(cellgate)outgate=torch.sigmoid(outgate)cy=(forgetgate*cx)+(ingate*cellgate)hy=outgate*torch.tanh(cy)returnhy,(hy,cy)

TorchScript生成的此圖形表示（IR）可實現(xiàn)多種優(yōu)化和可伸縮計算。除了可以做的典型編譯器優(yōu)化（CSE，常量傳播等）之外，還可以運行其他IR轉換以使代碼運行得更快。

LSTM層(前向)

classLSTMLayer(jit.ScriptModule):def__init__(self,cell,*cell_args):super(LSTMLayer,self).__init__()self.cell=cell(*cell_args)@jit.script_methoddefforward(self,input,state):#type:(Tensor,Tuple[Tensor,Tensor])->Tuple[Tensor,Tuple[Tensor,Tensor]]inputs=input.unbind(0)outputs=torch.jit.annotate(List[Tensor],[])foriinrange(len(inputs)):out,state=self.cell(inputs[i],state)outputs+=[out]returntorch.stack(outputs),state

在為TorchScript LSTM生成的IR上做了一些技巧來提高性能，團隊做了一些示例優(yōu)化：

循環(huán)展開(Loop Unrolling)：自動在代碼中展開循環(huán)（對于大循環(huán)，展開它的一小部分），然后授權對for循環(huán)控制流進行進一步的優(yōu)化。例如，fuser可以將循環(huán)體的迭代中的操作融合在一起，這導致對于諸如LSTM的控制流密集型模型的良好性能改進。

批量矩陣乘法：對于輸入預乘的RNN（即模型具有大量相同LHS或RHS的矩陣乘法），可以將這些操作一起有效地批量處理為單個矩陣乘法，同時對輸出進行分塊以實現(xiàn)等效語義。

通過應用這些技術，將前向傳播的時間減少了1.6ms，達到8.4ms(1.2倍加速)，后向傳播的時間減少了7ms，達到20ms左右(1.35倍加速)。

LSTM層(后向)

“樹結構”批處理矩陣Muplication：通常情況是在LSTM反向圖中多次重復使用單個權重，形成一個樹，其中葉子是矩陣乘法，節(jié)點是相加的。這些節(jié)點可以通過在不同維度上連接LHS和RHS來組合在一起，然后計算為單個矩陣乘法。等價公式可表示如下：

$L1 * R1 + L2 * R2 = torch.cat((L1, L2), dim=1) * torch.cat((R1, R2), dim=0)$

Autograd是使PyTorch成為如此優(yōu)雅的ML框架的關鍵組件。因此，將其應用到PyTorch JIT，但是使用了一種新的自動微分(AD)機制，該機制在IR級別上工作。JIT自動微分將把正向圖分割成符號可微分的子圖，并為這些子圖生成向后節(jié)點。以上面的IR為例，對于具有AD公式的操作，我們將圖節(jié)點分組為一個prim :: DifferentiableGraph_0。對于沒有添加到AD公式中的操作，我們將在執(zhí)行期間返回到Autograd。

優(yōu)化反向路徑是困難的，隱式broadcasting語義使得自動微分的優(yōu)化更加困難。 PyTorch可以方便地編寫張量操作，而無需通過broadcasting張量來擔心形狀。對于性能而言，反向的痛點是需要對這種可broadcasting操作進行求和。這導致每個可broadcasting操作的導數(shù)后跟一個求和。由于目前無法融合減少操作，這會導致FusionGroups分成多個小組，從而導致性能下降。要解決這個問題，請參閱Thomas Viehmann撰寫的文章：http://lernapparat.de/fast-lstm-pytorch/。

更多這方面的優(yōu)化內容可參考Pytorch團隊博客原文：

https://pytorch.org/blog/optimizing-cuda-rnn-with-torchscript/

更多新功能

運算符

torch.tril_indices, torch.triu_indices:添加了與NumPy具有相同行為的運算符；

torch.combinations, torch.cartesian_prod:添加了類似于itertools的新運算符；

torch.repeat_interleave:新運算符類似于numpy.repeat；

torch.from_file:類似于Storage.from_file的新運算符，但返回一個張量；

torch.unique_consecutive:新的運算符，其語義類似于C ++中的std :: unique；

torch.tril, torch.triu, torch.trtrs:現(xiàn)在支持批處理；

torch.gather:添加對sparse_grad選項的支持；

torch.std, torch.max_values, torch.min_values, torch.logsumexp現(xiàn)在可以同時在多個維度上運行；

torch.cdist:添加了與scipy.spatial.distance.cdist等效的運算符；

torch.__config__.show():報告所有庫的詳細版本。

nn.MultiheadedAttention:從注意力中實現(xiàn)MultiheadedAttention的新模塊；

nn.functional.interpolate:增加了對bicubic的支持；

nn.SyncBatchNorm:支持同步批量標準化；

nn.Conv:通過mode ='circular'添加了對Circular Padding的支持；

nn.EmbeddingBag:現(xiàn)在支持可訓練的`per_sample_weights；

nn.EmbeddingBag:添加對from_pretrained方法的支持，如nn.Embedding中所示；

RNNs:通過enforce_sorted自動處理未排序的可變長度序列；

nn.Identity:便于模型surgery的新模塊。

更多有關張量/dtypes、性能提高、bug修復、棄用的項目等內容可查看Pytorch在GitHub發(fā)布的項目原文：

https://github.com/pytorch/pytorch/releases/tag/v1.1.0

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

gpu

gpu

+關注

關注
28

文章
4678

瀏覽量
128613
可視化

可視化

+關注

關注
1

文章
1168

瀏覽量
20863
pytorch

pytorch

+關注

關注
2

文章
802

瀏覽量
13121

原文標題：Pytorch 1.1.0駕到！小升級大變動，易用性更強，支持自定義RNN

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

PyTorch 數(shù)據(jù)加載與處理方法

PyTorch 是一個流行的開源機器學習庫，它提供了強大的工具來構建和訓練深度學習模型。在構建模型之前，一個重要的步驟是加載和處理數(shù)據(jù)。 1. PyTorch 數(shù)據(jù)加載基礎在 PyTorch 中

發(fā)表于 11-05 17:37 ?255次閱讀

Pytorch深度學習訓練的方法

掌握這 17 種方法，用最省力的方式，加速你的 Pytorch 深度學習訓練。

發(fā)表于 10-28 14:05 ?123次閱讀

pytorch怎么在pycharm中運行

第一部分：PyTorch和PyCharm的安裝 1.1 安裝PyTorch PyTorch是一個開源的機器學習庫，用于構建和訓練神經網絡。要在PyCharm中使用PyTorch，首先需

發(fā)表于 08-01 16:22 ?1147次閱讀

pycharm如何調用pytorch

引言 PyTorch是一個開源的機器學習庫，廣泛用于計算機視覺、自然語言處理等領域。PyCharm是一個流行的Python集成開發(fā)環(huán)境（IDE），提供了代碼編輯、調試、測試等功能。將PyTorch

發(fā)表于 08-01 15:41 ?489次閱讀

pytorch環(huán)境搭建詳細步驟

PyTorch作為一個廣泛使用的深度學習框架，其環(huán)境搭建對于從事機器學習和深度學習研究及開發(fā)的人員來說至關重要。以下將介紹PyTorch環(huán)境搭建的詳細步驟，包括安裝Anaconda、配置清華鏡像源

發(fā)表于 08-01 15:38 ?662次閱讀

PyTorch深度學習開發(fā)環(huán)境搭建指南

PyTorch作為一種流行的深度學習框架，其開發(fā)環(huán)境的搭建對于深度學習研究者和開發(fā)者來說至關重要。在Windows操作系統(tǒng)上搭建PyTorch環(huán)境，需要綜合考慮多個方面，包括軟件安裝、環(huán)境配置以及版本兼容性等。以下是一個詳細的PyTor

發(fā)表于 07-16 18:29 ?724次閱讀

pytorch如何訓練自己的數(shù)據(jù)

本文將詳細介紹如何使用PyTorch框架來訓練自己的數(shù)據(jù)。我們將從數(shù)據(jù)準備、模型構建、訓練過程、評估和測試等方面進行講解。環(huán)境搭建首先，我們需要安裝PyTorch?？梢酝ㄟ^訪問PyTorch官網

發(fā)表于 07-11 10:04 ?424次閱讀

pytorch中有神經網絡模型嗎

當然，PyTorch是一個廣泛使用的深度學習框架，它提供了許多預訓練的神經網絡模型。 PyTorch中的神經網絡模型 1. 引言深度學習是一種基于人工神經網絡的機器學習技術，它在圖像識別、自然語言

發(fā)表于 07-11 09:59 ?606次閱讀

PyTorch的介紹與使用案例

PyTorch是一個基于Python的開源機器學習庫，它主要面向深度學習和科學計算領域。PyTorch由Meta Platforms（原Facebook）的人工智能研究團隊開發(fā)，并逐漸發(fā)展成為深度

發(fā)表于 07-10 14:19 ?338次閱讀

tensorflow和pytorch哪個更簡單?

PyTorch更簡單。選擇TensorFlow還是PyTorch取決于您的具體需求和偏好。如果您需要一個易于使用、靈活且具有強大社區(qū)支持的框架，PyTorch可能是一個更好的選擇。如果您需要一個在

發(fā)表于 07-05 09:45 ?719次閱讀

PyTorch的特性和使用方法

PyTorch是一個開源的Python機器學習庫，由Meta Platforms（前身為Facebook）的人工智能研究團隊開發(fā)，并于2017年1月正式推出。PyTorch基于Torch庫，但

發(fā)表于 07-02 14:27 ?457次閱讀

如何使用PyTorch建立網絡模型

PyTorch是一個基于Python的開源機器學習庫，因其易用性、靈活性和強大的動態(tài)圖特性，在深度學習領域得到了廣泛應用。本文將從PyTorch的基本概念、網絡模型構建、優(yōu)化方法、實際應用等多個方面，深入探討使用PyTorch建

發(fā)表于 07-02 14:08 ?343次閱讀

使用PyTorch構建神經網絡

PyTorch是一個流行的深度學習框架，它以其簡潔的API和強大的靈活性在學術界和工業(yè)界得到了廣泛應用。在本文中，我們將深入探討如何使用PyTorch構建神經網絡，包括從基礎概念到高級特性的全面解析。本文旨在為讀者提供一個完整的、技術性的指南，幫助理解并實踐

發(fā)表于 07-02 11:31 ?624次閱讀

PyTorch中激活函數(shù)的全面概覽

為了更清晰地學習Pytorch中的激活函數(shù)，并對比它們之間的不同，這里對最新版本的Pytorch中的激活函數(shù)進行了匯總，主要介紹激活函數(shù)的公式、圖像以及使用方法，具體細節(jié)可查看官方文檔。

發(fā)表于 04-30 09:26 ?490次閱讀

TorchFix:基于PyTorch的代碼靜態(tài)分析

TorchFix是我們最近開發(fā)的一個新工具，旨在幫助PyTorch用戶維護健康的代碼庫并遵循PyTorch的最佳實踐。首先，我想要展示一些我們努力解決的問題的示例。

發(fā)表于 12-18 15:20 ?1021次閱讀

搜索歷史

Pytorch 1.1.0，來了！

評論

PyTorch 數(shù)據(jù)加載與處理方法

Pytorch深度學習訓練的方法

pytorch怎么在pycharm中運行

pycharm如何調用pytorch

pytorch環(huán)境搭建詳細步驟

PyTorch深度學習開發(fā)環(huán)境搭建指南

pytorch如何訓練自己的數(shù)據(jù)

pytorch中有神經網絡模型嗎

PyTorch的介紹與使用案例

tensorflow和pytorch哪個更簡單?

PyTorch的特性和使用方法

如何使用PyTorch建立網絡模型

使用PyTorch構建神經網絡

PyTorch中激活函數(shù)的全面概覽

TorchFix:基于PyTorch的代碼靜態(tài)分析

搜索歷史

Pytorch 1.1.0，來了！

評論

Pytorch 1.1.0，來了！