午夜无码无遮挡在线视频,无码不卡成人网站在线观看,99re在线视频精品888

張量收縮是機(jī)器學(xué)習(xí)、計(jì)算化學(xué)和量子計(jì)算中許多重要工作的核心。隨著科學(xué)家和工程師們對(duì)不斷增長(zhǎng)的問題的研究，基礎(chǔ)數(shù)據(jù)變得越來(lái)越大，計(jì)算時(shí)間也越來(lái)越長(zhǎng)。

當(dāng)張量收縮不再適合單個(gè) GPU 時(shí)，或者如果在單個(gè) GPU 上花費(fèi)的時(shí)間太長(zhǎng)，自然下一步是將收縮分布到多個(gè) GPU 上。我們一直在用這個(gè)新功能擴(kuò)展 cuTENSOR ，并將其作為一個(gè)名為 cuTENSORMg （多 GPU ）的新庫(kù)發(fā)布。它在塊循環(huán)分布張量上提供單進(jìn)程多 GPU 功能。

cuTENSORMg 的copy和contrac tion操作大致分為句柄、張量描述符和描述符。在這篇文章中，我們將解釋句柄和張量描述符，以及復(fù)制操作是如何工作的，并演示如何執(zhí)行張量收縮。然后，我們將展示如何測(cè)量各種工作負(fù)載和 GPU 配置下收縮操作的性能。

庫(kù)把手

庫(kù)句柄表示參與計(jì)算的設(shè)備集。句柄還包含跨調(diào)用重用的數(shù)據(jù)和資源。通過將設(shè)備列表傳遞給cutensorMgCreate函數(shù)，可以創(chuàng)建庫(kù)句柄：

cutensorMgCreate(&handle, numDevices, devices);

cuTENSORMg 中的所有對(duì)象都是堆分配的。因此，必須通過匹配的destroy調(diào)用釋放它們。為了簡(jiǎn)潔起見，我們?cè)谶@篇文章中沒有展示這些，但是生產(chǎn)代碼應(yīng)該銷毀它創(chuàng)建的所有對(duì)象，以避免泄漏。

cutensorMgDestroy(handle);

所有庫(kù)調(diào)用都返回cutensorStatus_t類型的錯(cuò)誤代碼。在生產(chǎn)中，您應(yīng)該始終檢查錯(cuò)誤代碼，以便盡早檢測(cè)故障或使用問題。為了簡(jiǎn)潔起見，我們?cè)诒疚闹惺÷粤诉@些檢查，但它們包含在相應(yīng)的示例代碼中。

除了錯(cuò)誤代碼， cuTENSORMg 還提供與 cuTENSOR 類似的日志記錄功能 ?？梢酝ㄟ^適當(dāng)設(shè)置CUTENSORMG_LOG_LEVEL環(huán)境變量來(lái)激活這些日志。例如，CUTENSORMG_LOG_LEVEL=1將為您提供有關(guān)返回的錯(cuò)誤代碼的附加信息。

張量描述符

張量描述符描述了張量在內(nèi)存中的布局以及在設(shè)備中的分布。對(duì)于每種模式，有三個(gè)核心概念來(lái)確定布局：

extent：每個(gè)模式的邏輯大小。

blockSize：將extent細(xì)分為大小相等的塊，但最后的剩余塊除外。

deviceCount：確定塊在設(shè)備上的分布方式。

圖 1 顯示了extent和block size如何細(xì)分二維張量。

A 3x3 square showing block size vs extent. Block size accounts for a 1x1 block whereas extent is a large square layered on top of several blocks but does not exceed the full parameter of the 3x3 square.

圖 1 帶有范圍和塊的張量數(shù)據(jù)布局。綠色表示二維張量，藍(lán)色表示塊大小導(dǎo)致的塊。

A 3x3 square showing deviceCount [0] on the Y axis and deviceCount[1] on the X axis.

圖 2 以塊循環(huán)方式在設(shè)備上分布?jí)K張量；不同的顏色代表不同的設(shè)備。

塊以循環(huán)方式分布，這意味著連續(xù)的塊被分配給不同的設(shè)備。圖 2 顯示了塊到設(shè)備的逐塊分布，將設(shè)備分配到使用另一個(gè)數(shù)組devices編碼的塊。該陣列是一個(gè)密集的柱狀主張量，其范圍與設(shè)備計(jì)數(shù)類似。

A 4x4 block with Y axis as blockStride[0] and X axis blockStride[1]. This block is comprised of smaller by 4x4 blocks with elementStride[1] as the X axis and and elementStride[0] as the Y axis.

圖 3 使用元素步距和塊步距的設(shè)備上數(shù)據(jù)布局。

最后，設(shè)備上的確切數(shù)據(jù)布局由每種模式的elementStride和blockStride 值決定。它們分別以元素為單位在線性存儲(chǔ)器中確定給定模式下兩個(gè)相鄰元素和相鄰塊的位移（圖 3 ）。

這些屬性都是使用cutensorMgCreateTensorDescriptor調(diào)用設(shè)置的：

cutensorMgCreateTensorDescriptor(handle, &desc, numModes, extent, elementStride, blockSize, blockStride, deviceCount, numDevices, devices, type);

可以將NULL傳遞給elementStride、blockSize、blockStride和deviceCount。

如果elementStride是NULL，則使用通用列主布局假定數(shù)據(jù)布局密集。如果blockSize是NULL，則等于extent。如果blockStride是NULL，則它等于blockSize * elementStride，這將產(chǎn)生交錯(cuò)塊格式。如果deviceCount為NULL，則所有設(shè)備計(jì)數(shù)都設(shè)置為 1 。在這種情況下，張量是分布式的，完全駐留在devices［0］的內(nèi)存中。

通過將CUTENSOR_MG_DEVICE_HOST作為所屬設(shè)備傳遞，可以指定 tensor 位于主機(jī)上的固定、托管或定期分配的內(nèi)存中。

復(fù)制操作

copy操作可以更改數(shù)據(jù)布局，包括將張量重新分配到不同的設(shè)備。其參數(shù)是源和目標(biāo)張量描述符（descSrc和descDst），以及源和目標(biāo)模式列表（modesSrc和modesDst）。這兩個(gè)張量在重合模式下的范圍必須匹配，但它們的其他方面可能不同。一個(gè)可能位于主機(jī)上，另一個(gè)跨設(shè)備，它們可能具有不同的阻塞和步幅。

與 cuTENSORMg 中的所有操作一樣，它分三步進(jìn)行：

cutensorMgCopyDescriptor_t：編碼應(yīng)該執(zhí)行的操作。

cutensorMgCopyPlan_t：編碼操作的執(zhí)行方式。

cutensorMgCopy：根據(jù)計(jì)劃執(zhí)行操作。

第一步是創(chuàng)建復(fù)制描述符：

cutensorMgCreateCopyDescriptor(handle, &desc, descDst, modesDst, descSrc, modesSrc);

有了拷貝描述符，您可以查詢所需的設(shè)備端和主機(jī)端工作空間的數(shù)量。deviceWorkspaceSize陣列的元素?cái)?shù)量與手柄中的設(shè)備數(shù)量相同。i-th 元素是句柄中i-th 設(shè)備所需的工作空間量。

cutensorMgCopyGetWorkspace(handle, desc, deviceWorkspaceSize, &hostWorkspaceSize);

確定工作空間大小后，規(guī)劃副本。你可以傳遞一個(gè)更大的工作空間大小，呼叫可能會(huì)利用更多的工作空間，或者你可以嘗試傳遞一個(gè)更小的大小。規(guī)劃可能能夠適應(yīng)這一點(diǎn)，否則可能會(huì)產(chǎn)生錯(cuò)誤。

cutensorMgCreateCopyPlan(handle, &plan, desc, deviceWorkspaceSize, hostWorkspaceSize

最后，計(jì)劃完成后，執(zhí)行copy操作。

cutensorMgCopy(handle, plan, ptrDst, ptrSrc, deviceWorkspace, hostWorkspace, streams);

在這個(gè)調(diào)用中，ptrDst和ptrSrc是指針數(shù)組。它們包含對(duì)應(yīng)的張量描述符中每個(gè)設(shè)備的一個(gè)指針。在本例中，ptrDst[0]對(duì)應(yīng)于作為devices[0]傳遞給cutensorMgCreateTensorDescriptor的設(shè)備。

另一方面，deviceWorkspace和streams也是數(shù)組，其中每個(gè)條目對(duì)應(yīng)一個(gè)設(shè)備。它們是根據(jù)庫(kù)句柄中設(shè)備的順序排序的，例如deviceWorkspace[0]和streams[0]對(duì)應(yīng)于在devices[0]傳遞給cutensorMgCreate的設(shè)備。工作空間必須至少與傳遞給cutensorMgCreateCopyPlan的工作空間大小相同。

收縮手術(shù)

cuTENSORMg 庫(kù)的核心是contraction操作。它目前實(shí)現(xiàn)了一個(gè)或多個(gè)設(shè)備上張量的張量收縮，但將來(lái)可能支持主機(jī)上的張量。作為復(fù)習(xí)，收縮是以下形式的操作：

$D_{M,N,L} \leftarrow \alpha \sum_{K} A_{K,M,L} \cdot B_{K,N,L} + \beta C_{M,N,L^{3}}$

其中 $A$ 、 $B$ 、 $C$ 和 $D$ 是張量， $M$ 、 $N$ 、 $L$ 和 $K$ 是可以任意排列和交錯(cuò)的模式列表。

與copy操作一樣，它分三個(gè)階段進(jìn)行：

cutensorMgCreateContractionDescriptor：對(duì)問題進(jìn)行編碼。
cutensorMgCreateContractionPlan：對(duì)實(shí)現(xiàn)進(jìn)行編碼。
cutensorMgContraction：使用計(jì)劃并執(zhí)行實(shí)際收縮。

首先，根據(jù)張量描述符、模式列表和所需的計(jì)算類型（例如計(jì)算期間可能使用的最低精度數(shù)據(jù)）創(chuàng)建收縮描述符。

cutensorMgCreateContractionDescriptor(handle, &desc, descA, modesA, descB, modesB, descC, modesC, descD, modesD, compute);

由于收縮操作有更多的自由度，您還必須初始化find對(duì)象，以便更好地控制給定問題描述符的計(jì)劃創(chuàng)建。目前，這個(gè)find對(duì)象只有一個(gè)默認(rèn)設(shè)置：

cutensorMgCreateContractionFind(handle, &find, CUTENSORMG_ALGO_DEFAULT);

然后，您可以按照為copy操作所做的操作來(lái)查詢工作空間需求。與該操作相比，您還傳入了find和workspace首選項(xiàng)：

cutensorMgContractionGetWorkspace(handle, desc, find, CUTENSOR_WORKSPACE_RECOMMENDED, deviceWorkspaceSize, &hostWorkspaceSize);

創(chuàng)建一個(gè)計(jì)劃：

cutensorMgCreateContractionPlan(handle, &plan, desc, find, deviceWorkspaceSize, hostWorkspaceSize);

最后，使用計(jì)劃執(zhí)行收縮：

cutensorMgContraction(handle, plan, alpha, ptrA, ptrB, beta, ptrC, ptrD, deviceWorkspace, hostWorkspace, streams);

在這個(gè)調(diào)用中， alpha 和 beta 是與 $D$ 張量類型相同的主機(jī)指針，除非 $D$ 張量是半精度或BFloat16精度，在這種情況下是single precision。不同數(shù)組ptrA、ptrB、ptrC和ptrD中指針的順序?qū)?yīng)于它們?cè)诿枋龇?code style="font-size:inherit;color:inherit;margin:0px;padding:0px;border:0px;font-style:inherit;font-variant:inherit;font-weight:inherit;line-height:inherit;vertical-align:baseline;background-color:rgb(244,244,244);">devices數(shù)組中的順序。deviceWorkspace和streams數(shù)組中指針的順序與庫(kù)句柄的devices數(shù)組中的順序相對(duì)應(yīng)。

表演

你可以在CUDA 庫(kù)樣本GitHub 回購(gòu)。我們將其擴(kuò)展為兩個(gè)參數(shù)： GPU 的數(shù)量和比例因子。您可以隨意嘗試其他收縮、塊大小和縮放模式。它是以這樣一種方式編寫的，即在保持 K 不變的情況下，將 M 和 N 放大。它實(shí)現(xiàn)了形狀的幾乎 GEMM 形狀的張量收縮：

$C_{M^{0}N^{0}M^{1}N^{1}M^{2}N^{2}} \leftarrow A_{M^{0}K^{0}M^{1}K^{1}M^{2}K^{2} B_K^{0}N^{0}K^{1}N^{1}K^{2}N^{2}}$

M1和N1按比例放大，這些尺寸中的塊大小保持負(fù)載大致平衡。下圖顯示了在 DGX A100 上測(cè)量時(shí)的比例關(guān)系。

關(guān)于作者

Markus Hoehnerbach 是 cuTENSOR 和 cuTENSORMg 的高級(jí)軟件工程師。他擁有 RWTH 亞琛大學(xué)計(jì)算機(jī)科學(xué)博士學(xué)位。他感興趣的領(lǐng)域是結(jié)構(gòu)化和非結(jié)構(gòu)化張量的高性能計(jì)算及其在機(jī)器學(xué)習(xí)和計(jì)算科學(xué)中的應(yīng)用。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

gpu

gpu

+關(guān)注

關(guān)注
27

文章
4591

瀏覽量
128153
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8306

瀏覽量
131848

評(píng)論

相關(guān)推薦

BOPP煙膜熱收縮性能檢測(cè)方法

擠技術(shù)，以確保薄膜具有優(yōu)化的性能組合。測(cè)試BOPP煙膜的熱收縮性能至關(guān)重要，BOPP煙膜的熱收縮性能直接影響煙盒的成型和密封效果。如果熱

發(fā)表于 05-11 16:29 ?235次閱讀

BOPP煙膜熱<b class='flag-5'>收縮</b><b class='flag-5'>性能</b>檢測(cè)方法

電機(jī)負(fù)載測(cè)試設(shè)備

電機(jī)負(fù)載測(cè)試設(shè)備是現(xiàn)代工業(yè)生產(chǎn)中不可或缺的一種設(shè)備。它的主要作用是對(duì)電機(jī)進(jìn)行負(fù)載測(cè)試，以確保電機(jī)在各種工作條件下的性能穩(wěn)定可靠。本文將詳細(xì)介

發(fā)表于 03-20 15:51 ?617次閱讀

電機(jī)<b class='flag-5'>負(fù)載</b>測(cè)試設(shè)備

CC工作模式下電子負(fù)載運(yùn)用

電子負(fù)載是測(cè)試電源、電池和其他電子設(shè)備性能的設(shè)備。在真實(shí)世界負(fù)載的模擬條件下。CC工作模式是電子負(fù)載

發(fā)表于 03-04 16:21 ?806次閱讀

最常見的直流負(fù)載工作方式

最常見的直流負(fù)載工作方式? 直流負(fù)載工作方式是指在直流電路中使用的各種負(fù)載方式。直流

發(fā)表于 01-18 15:12 ?558次閱讀

MulticoreWare與Imagination一同按下汽車計(jì)算工作負(fù)載的“加速鍵”

和高級(jí)駕駛輔助系統(tǒng)（ADAS）常見工作負(fù)載性能的躍升。此次合作使得在高分辨率（3200x2000）圖像上使用GPU運(yùn)行StereoBM（StereoBlockMatc

發(fā)表于 01-09 08:27 ?263次閱讀

蓄電池?zé)o負(fù)載和有負(fù)載電壓測(cè)量方法

蓄電池?zé)o負(fù)載和有負(fù)載電壓測(cè)量方法蓄電池是一種儲(chǔ)存電能的裝置，廣泛應(yīng)用于汽車、UPS電源、太陽(yáng)能系統(tǒng)等領(lǐng)域。在使用蓄電池時(shí)，需要了解其電壓情況，以確保其正常工作和維護(hù)。本文將介紹蓄電池

發(fā)表于 01-05 14:04 ?1529次閱讀

路由器負(fù)載均衡怎么配置

路由器負(fù)載均衡是一種重要的網(wǎng)絡(luò)技術(shù)，它能夠?qū)⒍鄠€(gè)網(wǎng)絡(luò)連接的流量分配到多個(gè)路由器上，以提高網(wǎng)絡(luò)的性能和穩(wěn)定性。本文將詳細(xì)介紹路由器負(fù)載均衡的配置方法，包括

發(fā)表于 12-13 11:17 ?2576次閱讀

盤點(diǎn)GPU Fabric典型拓?fù)浣Y(jié)構(gòu)

當(dāng)前，許多超大規(guī)模廠商正在競(jìng)相構(gòu)建大型 GPU 集群，以適應(yīng)GenAI訓(xùn)練工作負(fù)載。本文探討了針對(duì)GenAI訓(xùn)練工作負(fù)載進(jìn)行優(yōu)化的

發(fā)表于 12-03 09:56 ?2414次閱讀

大功率電子負(fù)載儀的工作模式有哪些？

： 1. 恒流模式恒流模式是最常見和常用的工作模式之一。在這種模式下，電子負(fù)載儀會(huì)設(shè)定一個(gè)恒定的電流值，并通過調(diào)節(jié)負(fù)載的電阻來(lái)實(shí)現(xiàn)。這樣可以模擬電子設(shè)備在不同

發(fā)表于 11-17 11:22 ?613次閱讀

什么是負(fù)載？電子負(fù)載有什么用途？為什么要給電子負(fù)載進(jìn)行老化測(cè)試？

用于模擬負(fù)荷和測(cè)試電源設(shè)備的儀器。它可以用于測(cè)量、分析和調(diào)試各種電源設(shè)備，以確保其性能和可靠性。電子負(fù)載的用途十分廣泛。首先，它可以用于測(cè)試電源設(shè)備的輸出特性。通過模擬

發(fā)表于 11-16 11:01 ?1224次閱讀

電子負(fù)載是什么？為什么會(huì)需要電子負(fù)載？

電子系統(tǒng)、通信設(shè)備、醫(yī)療設(shè)備等領(lǐng)域中的測(cè)試、研發(fā)和產(chǎn)線應(yīng)用。為什么會(huì)需要電子負(fù)載呢？ 1. 測(cè)試和驗(yàn)證電源和電池性能：電子負(fù)載模擬了各種負(fù)載

發(fā)表于 11-16 11:01 ?1476次閱讀

什么是回饋式電子負(fù)載？有幾種電子負(fù)載反饋的操作模式？

什么是回饋式電子負(fù)載？有幾種電子負(fù)載反饋的操作模式？回饋式電子負(fù)載是一種用于測(cè)試和模擬負(fù)載的設(shè)備，它可以直接連接到電源上，以模擬真實(shí)的

發(fā)表于 11-10 15:57 ?1097次閱讀

變頻電源在各種性質(zhì)的負(fù)載下的輸出特性

變頻電源在各種性質(zhì)的負(fù)載下的輸出特性變頻電源是一種可以根據(jù)需求改變輸出頻率的電源，它在各種性質(zhì)的負(fù)載下

發(fā)表于 11-10 15:46 ?500次閱讀

直流電子負(fù)載的工作模式

直流電子負(fù)載的工作模式? 直流電子負(fù)載是一種用于檢測(cè)和模擬負(fù)載對(duì)直流電源的需求的設(shè)備。它可以對(duì)直流電源進(jìn)行負(fù)載測(cè)試，以確保其

發(fā)表于 11-07 10:08 ?490次閱讀

直流電子負(fù)載的幾種工作模式原理詳解

直流電子負(fù)載的幾種工作模式原理詳解? 直流電子負(fù)載是一種測(cè)試電源能力的設(shè)備，其工作原理是通過將一個(gè)可控的電阻與負(fù)載相連，使

發(fā)表于 10-26 11:38 ?1582次閱讀

搜索歷史

如何測(cè)量各種工作負(fù)載和GPU配置下收縮操作的性能

評(píng)論

BOPP煙膜熱收縮性能檢測(cè)方法

電機(jī)負(fù)載測(cè)試設(shè)備

CC工作模式下電子負(fù)載運(yùn)用

最常見的直流負(fù)載工作方式

MulticoreWare與Imagination一同按下汽車計(jì)算工作負(fù)載的“加速鍵”

蓄電池?zé)o負(fù)載和有負(fù)載電壓測(cè)量方法

路由器負(fù)載均衡怎么配置

盤點(diǎn)GPU Fabric典型拓?fù)浣Y(jié)構(gòu)

大功率電子負(fù)載儀的工作模式有哪些？

什么是負(fù)載？電子負(fù)載有什么用途？為什么要給電子負(fù)載進(jìn)行老化測(cè)試？

電子負(fù)載是什么？為什么會(huì)需要電子負(fù)載？

什么是回饋式電子負(fù)載？有幾種電子負(fù)載反饋的操作模式？

變頻電源在各種性質(zhì)的負(fù)載下的輸出特性

直流電子負(fù)載的工作模式

直流電子負(fù)載的幾種工作模式原理詳解