0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Triton 系列文章(8):用戶端其他特性

NVIDIA英偉達企業(yè)解決方案 ? 來源:未知 ? 2022-12-20 19:45 ? 次閱讀

前面文章用 Triton 開源項目提供的 image_client.py 用戶端作示范,在這個范例代碼里調(diào)用大部分 Triton 用戶端函數(shù),并使用多種參數(shù)來配置執(zhí)行的功能,本文內(nèi)容就是簡單剖析 image_client.py 的代碼,為讀者提供撰寫 Triton 用戶端的流程



為了滿足大部分網(wǎng)路環(huán)境的用戶端請求,Triton 在服務器與用戶端之間提供 HTTP 與 gRPC 兩種通信協(xié)議,如下架構(gòu)圖所示:



當我們啟動 Triton 服務器之后,最后狀態(tài)會停留在如下截屏的地方:



顯示的信息表示,系統(tǒng)提供 8001 端口給 gRPC 協(xié)議使用、提供 8000 端口給 HTTP 協(xié)議使用。此時服務器處于接收用戶端請求的狀態(tài),因此“指定通信協(xié)議”是執(zhí)行 Triton 用戶端的第一個工作。


這個范例支持兩種通信協(xié)議,一開始先導入tritonclient.httptritonclient.grpc兩個模塊,如下:


import tritonclient.grpc as grpcclient
import tritonclient.http as httpclient


代碼使用“-i”或“--protocal”其中一種參數(shù)指定“HTTP”或“gRPC”協(xié)議類型,如果不指定就使用“HTTP”預設值。再根據(jù)協(xié)議種類調(diào)用 httpcclient.InferenceServerClient() 或 grpcclient.InferenceServerClient() 函數(shù)創(chuàng)建 triton_client 對象,如下所示:


try:
if FLAGS.protocol.lower() == "grpc":
# Create gRPC client for communicating with the server
triton_client = grpcclient.InferenceServerClient(
url=FLAGS.url, verbose=FLAGS.verbose)
else:
# Specify large enough concurrency to handle the
# the number of requests.
concurrency = 20 if FLAGS.async_set else 1
triton_client = httpclient.InferenceServerClient(
url=FLAGS.url, verbose=FLAGS.verbose, concurrency=concurrency)


最后啟用 triton_client.infer() 函數(shù)對 Triton 服務器發(fā)出推理要求,當然得將所需要的參數(shù)提供給這個函數(shù),如下所示:


responses.append(
triton_client.infer(FLAGS.model_name,
inputs,
request_id=str(sent_count),
model_version=FLAGS.model_version,
outputs=outputs))


不過 image_client.py 代碼中并未設定 gRPC 所需要的 8001 端口,因此使用這個通訊協(xié)議時,需要用“-u”參數(shù)設定“IP:端口”,例如下面指令:


$  python3 image_client.py  -m  inception_graphdef  -s  INCEPTION VGG  ${HOME}/images/mug.jpg  -i  GRPC  -u  <服務器IP>:8001

?在 examples 范例目錄下還有20 個基于 gRPC 協(xié)議的范例以及 10 個基于 HTTP 協(xié)議的范例,則是在代碼內(nèi)直接指定個別通信協(xié)議與端口號的范例,讀者可以根據(jù)需求去修改特定的范例代碼。


  • 調(diào)用異步模式(async mode)與數(shù)據(jù)流(streaming)


大部分讀者比較熟悉的并行計算模式,就是在同一個時鐘脈沖(clock puls)讓不同計算核執(zhí)行相同的工作,也就是所謂的 SIMD(單指令多數(shù)據(jù))并行計算,通常適用于數(shù)據(jù)量大而且持續(xù)的密集型計算任務。


對 Triton 推理服務器而言,并不能確認所收到的推理要求是否為密集型的計算。事實上很大比例的推理要求是屬于零碎型計算,這種狀況下調(diào)用“異步模式”會讓系統(tǒng)更加有效率,因為它允許不同計算核(線程)在同一個時鐘脈沖段里執(zhí)行不同指令,這樣能大大提高執(zhí)行彈性進而優(yōu)化計算性能。


當 Triton 服務器端啟動之后,就能接收來自用戶端的“異步模式”請求,不過在 HTTP 協(xié)議與 gRPC 協(xié)議的處理方式不太一樣。


在代碼中用 httpclient.InferenceServerClient() 函數(shù)創(chuàng)建 HTTP 的 triton_client 對象時,需要給定“concurrnecy(并發(fā)數(shù)量)”參數(shù),而創(chuàng)建 gRPC 的用戶端時就不需要這個參數(shù)。


調(diào)用異步模式有時會需要搭配數(shù)據(jù)流(stream)的處理器(handle),因此在實際推理的函數(shù)就有 triton_client.async_infer()triton_client.async_stream_infer() 兩種,使用 gRPC 協(xié)議創(chuàng)建的 triton_client,在調(diào)用無 stream 模式的 async_infer() 函數(shù)進行推理時,需要提供 partial(completion_callback, user_data) 參數(shù)。


由于異步處理與數(shù)據(jù)流處理有比較多底層線程管理的細節(jié),初學者只需要范例目錄下的代碼,包括 image_client.py 與兩個 simple_xxxx_async_infer_client.py 的代碼就可以,細節(jié)部分還是等未來更熟悉系統(tǒng)之后再進行深入。


  • 使用共享內(nèi)存(share memory)


如果發(fā)起推理請求的 Triton 用戶端與 Triton 服務器在同一臺機器時,就可以使用共享內(nèi)存的功能,這包含一般系統(tǒng)內(nèi)存與 CUDA 顯存兩種,這項功能可以非常高效地降低數(shù)據(jù)傳輸?shù)拈_銷,對提升推理性能有明顯的效果。


在 image_client.py 范例中并未提供這項功能,在 Python 范例下有 6 個帶有“shm”文件名的代碼,就是支持共享內(nèi)存調(diào)用的范例,其中 simple_http_shm_client.py 與 simple_grpc_shm_client.py 為不同通信協(xié)議提供了使用共享系統(tǒng)內(nèi)存的代碼,下面以 simple_grpc_shm_client.py 內(nèi)容為例,簡單說明一下主要執(zhí)行步驟:


# 1.為兩個輸入張量創(chuàng)建數(shù)據(jù):第1個初始化為一整數(shù)、第2個初始化為所有整數(shù)
input0_data = np.arange(start=0, stop=16, dtype=np.int32)
input1_data = np.ones(shape=16, dtype=np.int32)


input_byte_size = input0_data.size * input0_data.itemsize
output_byte_size = input_byte_size


# 2. 為輸出創(chuàng)建共享內(nèi)存區(qū)域,并存儲共享內(nèi)存管理器
shm_op_handle = shm.create_shared_memory_region("output_data",
"/output_simple",
output_byte_size * 2)


# 3.使用Triton Server注冊輸出的共享內(nèi)存區(qū)域
triton_client.register_system_shared_memory("output_data", "/output_simple",
output_byte_size * 2)


# 4. 將輸入數(shù)據(jù)值放入共享內(nèi)存
shm_ip_handle = shm.create_shared_memory_region("input_data",
"/input_simple",
input_byte_size * 2)


# 5. 將輸入數(shù)據(jù)值放入共享內(nèi)存
shm.set_shared_memory_region(shm_ip_handle, [input0_data])
shm.set_shared_memory_region(shm_ip_handle, [input1_data],
offset=input_byte_size)


# 6. 使用Triton Server注冊輸入的共享內(nèi)存區(qū)域
triton_client.register_system_shared_memory("input_data", "/input_simple",
input_byte_size * 2)


# 7. 設置參數(shù)以使用共享內(nèi)存中的數(shù)據(jù)
inputs = []
inputs.append(grpcclient.InferInput('INPUT0', [1, 16], "INT32"))
inputs[-1].set_shared_memory("input_data", input_byte_size)


inputs.append(grpcclient.InferInput('INPUT1', [1, 16], "INT32"))
inputs[-1].set_shared_memory("input_data",
input_byte_size,
offset=input_byte_size)


outputs = []
outputs.append(grpcclient.InferRequestedOutput('OUTPUT0'))
outputs[-1].set_shared_memory("output_data", output_byte_size)


outputs.append(grpcclient.InferRequestedOutput('OUTPUT1'))
outputs[-1].set_shared_memory("output_data",
output_byte_size,
offset=output_byte_size)


results = triton_client.infer(model_name=model_name,
inputs=inputs,
outputs=outputs)


# 8. 從共享內(nèi)存讀取結(jié)果
output0=results.get_output("OUTPUT0")


至于范例中有兩個 simple_xxxx_cudashm_client.py 這是針對 CUDA 顯存共享的返利代碼,主要邏輯與上面的代碼相似,主要將上面“shm.”開頭的函數(shù)改成“cudashm.”開頭的函數(shù),當然處理流程也更加復雜一些,需要有足夠 CUDA 編程基礎(chǔ)才有能力駕馭,因此初學者只要大致了解流程就行。


以上就是 Triton 用戶端會用到的基本功能,不過缺乏足夠的說明文件,因此其他功能函數(shù)的內(nèi)容必須自行在開源文件內(nèi)尋找,像 C++ 版本的功能得在 src/c++/library 目錄下的 common.h、grpc_client.h 與 http_client.h 里找到細節(jié),Python 版本的函數(shù)分別在 src/python/library/triton_client 下的 grpc、http、utils 下的 __init__.py 代碼內(nèi),獲取功能與函數(shù)定義的細節(jié)。


推薦閱讀

NVIDIA Jetson Nano 2GB 系列文章(1):開箱介紹

NVIDIA Jetson Nano 2GB 系列文章(2):安裝系統(tǒng)

NVIDIA Jetson Nano 2GB 系列文章(3):網(wǎng)絡設置及添加 SWAPFile 虛擬內(nèi)存

NVIDIA Jetson Nano 2GB 系列文章(4):體驗并行計算性能

NVIDIA Jetson Nano 2GB 系列文章(5):體驗視覺功能庫



NVIDIA Jetson Nano 2GB 系列文章(6):安裝與調(diào)用攝像頭


NVIDIA Jetson Nano 2GB 系列文章(7):通過 OpenCV 調(diào)用 CSI/USB 攝像頭

NVIDIA Jetson Nano 2GB 系列文章(8):執(zhí)行常見機器視覺應用


NVIDIA Jetson Nano 2GB 系列文章(9):調(diào)節(jié) CSI 圖像質(zhì)量

NVIDIA Jetson Nano 2GB 系列文章(10):顏色空間動態(tài)調(diào)節(jié)技巧

NVIDIA Jetson Nano 2GB 系列文章(11):你應該了解的 OpenCV

NVIDIA Jetson Nano 2GB 系列文章(12):人臉定位


NVIDIA Jetson Nano 2GB 系列文章(13):身份識別


NVIDIA Jetson Nano 2GB 系列文章(14):Hello AI World

NVIDIA Jetson Nano 2GB 系列文章(15):Hello AI World 環(huán)境安裝


NVIDIA Jetson Nano 2GB 系列文章(16):10行代碼威力



NVIDIA Jetson Nano 2GB 系列文章(17):更換模型得到不同效果

NVIDIA Jetson Nano 2GB 系列文章(18):Utils 的 videoSource 工具

NVIDIA Jetson Nano 2GB 系列文章(19):Utils 的 videoOutput 工具

NVIDIA Jetson Nano 2GB 系列文章(20):“Hello AI World” 擴充參數(shù)解析功能

NVIDIA Jetson Nano 2GB 系列文章(21):身份識別

NVIDIA Jetson Nano 2GB 系列文章(22):“Hello AI World” 圖像分類代碼

NVIDIA Jetson Nano 2GB 系列文章(23):“Hello AI World 的物件識別應用

NVIDIAJetson Nano 2GB 系列文章(24): “Hello AI World” 的物件識別應用

NVIDIAJetson Nano 2GB 系列文章(25): “Hello AI World” 圖像分類的模型訓練

NVIDIAJetson Nano 2GB 系列文章(26): “Hello AI World” 物件檢測的模型訓練

NVIDIAJetson Nano 2GB 系列文章(27): DeepStream 簡介與啟用

NVIDIAJetson Nano 2GB 系列文章(28): DeepStream 初體驗

NVIDIAJetson Nano 2GB 系列文章(29): DeepStream 目標追蹤功能

NVIDIAJetson Nano 2GB 系列文章(30): DeepStream 攝像頭“實時性能”

NVIDIAJetson Nano 2GB 系列文章(31): DeepStream 多模型組合檢測-1

NVIDIAJetson Nano 2GB 系列文章(32): 架構(gòu)說明與deepstream-test范例

NVIDIAJetsonNano 2GB 系列文章(33): DeepStream 車牌識別與私密信息遮蓋

NVIDIA Jetson Nano 2GB 系列文章(34): DeepStream 安裝Python開發(fā)環(huán)境

NVIDIAJetson Nano 2GB 系列文章(35): Python版test1實戰(zhàn)說明

NVIDIAJetson Nano 2GB 系列文章(36): 加入USB輸入與RTSP輸出

NVIDIAJetson Nano 2GB 系列文章(37): 多網(wǎng)路模型合成功能

NVIDIAJetson Nano 2GB 系列文章(38): nvdsanalytics視頻分析插件

NVIDIAJetson Nano 2GB 系列文章(39): 結(jié)合IoT信息傳輸

NVIDIAJetson Nano 2GB 系列文章(40): Jetbot系統(tǒng)介紹

NVIDIAJetson Nano 2GB 系列文章(41): 軟件環(huán)境安裝

NVIDIAJetson Nano 2GB 系列文章(42): 無線WIFI的安裝與調(diào)試

NVIDIAJetson Nano 2GB 系列文章(43): CSI攝像頭安裝與測試

NVIDIAJetson Nano 2GB 系列文章(44): Jetson的40針引腳

NVIDIAJetson Nano 2GB 系列文章(45): I2C總線與PiOLED

NVIDIAJetson Nano 2GB 系列文章(46): 機電控制設備的安裝

NVIDIAJetson Nano 2GB 系列文章(47): 組裝過程的注意細節(jié)

NVIDIAJetson Nano 2GB 系列文章(48): 用鍵盤與搖桿控制行動

NVIDIAJetson Nano 2GB 系列文章(49): 智能避撞之現(xiàn)場演示

NVIDIAJetson Nano 2GB 系列文章(50): 智能避障之模型訓練

NVIDIAJetson Nano 2GB 系列文章(51): 圖像分類法實現(xiàn)找路功能

NVIDIAJetson Nano 2GB 系列文章(52): 圖像分類法實現(xiàn)找路功能

NVIDIAJetson Nano 2GB 系列文章(53): 簡化模型訓練流程的TAO工具套件

NVIDIA Jetson Nano 2GB 系列文章(54):NGC的內(nèi)容簡介與注冊密鑰

NVIDIA Jetson Nano 2GB 系列文章(55):安裝TAO模型訓練工具

NVIDIA Jetson Nano 2GB 系列文章(56):啟動器CLI指令集與配置文件

NVIDIA Jetson Nano 2GB 系列文章(57):視覺類腳本的環(huán)境配置與映射

NVIDIA Jetson Nano 2GB 系列文章(58):視覺類的數(shù)據(jù)格式

NVIDIA Jetson Nano 2GB 系列文章(59):視覺類的數(shù)據(jù)增強

NVIDIA Jetson Nano 2GB 系列文章(60):圖像分類的模型訓練與修剪

NVIDIA Jetson Nano 2GB 系列文章(61):物件檢測的模型訓練與優(yōu)化

NVIDIA Jetson Nano 2GB 系列文章(62):物件檢測的模型訓練與優(yōu)化-2

NVIDIA Jetson Nano 2GB 系列文章(63):物件檢測的模型訓練與優(yōu)化-3

NVIDIA Jetson Nano 2GB 系列文章(64):將模型部署到Jetson設備

NVIDIA Jetson Nano 2GB 系列文章(65):執(zhí)行部署的 TensorRT 加速引擎

NVIDIA Jetson 系列文章(1):硬件開箱

NVIDIA Jetson 系列文章(2):配置操作系統(tǒng)

NVIDIA Jetson 系列文章(3):安裝開發(fā)環(huán)境

NVIDIA Jetson 系列文章(4):安裝DeepStream

NVIDIA Jetson 系列文章(5):使用Docker容器的入門技巧

NVIDIA Jetson 系列文章(6):使用容器版DeepStream

NVIDIA Jetson 系列文章(7):配置DS容器Python開發(fā)環(huán)境

NVIDIA Jetson 系列文章(8):用DS容器執(zhí)行Python范例

NVIDIA Jetson 系列文章(9):為容器接入USB攝像頭

NVIDIA Jetson 系列文章(10):從頭創(chuàng)建Jetson的容器(1)

NVIDIA Jetson 系列文章(11):從頭創(chuàng)建Jetson的容器(2)

NVIDIA Jetson 系列文章(12):創(chuàng)建各種YOLO-l4t容器

NVIDIA Triton系列文章(1):應用概論

NVIDIA Triton系列文章(2):功能與架構(gòu)簡介

NVIDIA Triton系列文章(3):開發(fā)資源說明

NVIDIA Triton系列文章(4):創(chuàng)建模型倉

NVIDIA Triton 系列文章(5):安裝服務器軟件

NVIDIA Triton 系列文章(6):安裝用戶端軟件

NVIDIA Triton 系列文章(7):image_client 用戶端參數(shù)


原文標題:NVIDIA Triton 系列文章(8):用戶端其他特性

文章出處:【微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英偉達
    +關(guān)注

    關(guān)注

    22

    文章

    3637

    瀏覽量

    89855

原文標題:NVIDIA Triton 系列文章(8):用戶端其他特性

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    智能電表用戶端口的折返限流應用說明

    電子發(fā)燒友網(wǎng)站提供《智能電表用戶端口的折返限流應用說明.pdf》資料免費下載
    發(fā)表于 09-13 09:43 ?0次下載
    智能電表<b class='flag-5'>用戶端</b>口的折返限流應用說明

    NVIDIA助力提供多樣、靈活的模型選擇

    在本案例中,Dify 以模型中立以及開源生態(tài)的優(yōu)勢,為廣大 AI 創(chuàng)新者提供豐富的模型選擇。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和Triton 推理服務器產(chǎn)品,為
    的頭像 發(fā)表于 09-09 09:19 ?315次閱讀

    變電所、配電室、機房、箱變等用戶端供配電配電室綜合監(jiān)測系統(tǒng)

    、水泵)、門禁監(jiān)控子系統(tǒng)(讀卡器、開門按鈕、磁力鎖)、安防監(jiān)控子系統(tǒng)(雙鑒檢測器)。 應用場所: 適用于35kV及以下新建或改擴建的變電所、配電室、機房、箱變等用戶端供配電自動化系統(tǒng)工程設計、施工和運行維護。 實時監(jiān)測 能夠
    的頭像 發(fā)表于 03-28 13:15 ?478次閱讀
    變電所、配電室、機房、箱變等<b class='flag-5'>用戶端</b>供配電配電室綜合監(jiān)測系統(tǒng)

    牽手NVIDIA 元戎啟行模型將搭載 DRIVE Thor芯片

    NVIDIA的DRIVE Thor芯片適配公司的智能駕駛模型。據(jù)悉,元戎啟行是業(yè)內(nèi)首批能用 DRIVE Thor芯片適配模型的企
    發(fā)表于 03-25 11:49 ?258次閱讀
    牽手<b class='flag-5'>NVIDIA</b> 元戎啟行<b class='flag-5'>端</b>到<b class='flag-5'>端</b>模型將搭載 DRIVE Thor芯片

    適用于35kV及以下新建或改擴建的用戶端Acrel-2000Z電力監(jiān)控

    的組網(wǎng)方式。 應用場所: 適用于35kV及以下新建或改擴建的用戶端供配電自動化系統(tǒng)工程設計、施工和運行維護。 云平臺結(jié)構(gòu) 云平臺功能 實時監(jiān)測 直觀顯示配電網(wǎng)的運行狀態(tài),實時監(jiān)測各回路電參數(shù)信息,動態(tài)監(jiān)視各配電回路有關(guān)故障、告警等信號。
    的頭像 發(fā)表于 03-08 16:56 ?233次閱讀
    適用于35kV及以下新建或改擴建的<b class='flag-5'>用戶端</b>Acrel-2000Z電力監(jiān)控

    使用NVIDIA Triton推理服務器來加速AI預測

    這家云計算巨頭的計算機視覺和數(shù)據(jù)科學服務使用 NVIDIA Triton 推理服務器來加速 AI 預測。
    的頭像 發(fā)表于 02-29 14:04 ?458次閱讀

    在AMD GPU上如何安裝和配置triton?

    最近在整理python-based的benchmark代碼,反過來在NV的GPU上又把Triton裝了一遍,發(fā)現(xiàn)Triton的github repo已經(jīng)給出了對應的llvm的commit id以及對應的編譯細節(jié),然后跟著走了一遍,也順利的安裝成功,只需要按照如下方式即可完
    的頭像 發(fā)表于 02-22 17:04 ?1983次閱讀
    在AMD GPU上如何安裝和配置<b class='flag-5'>triton</b>?

    一文淺談電能管理系統(tǒng)

    ? 功能: 用戶端消耗著整個電網(wǎng)80%的電能,用戶端智能化用電管理對用戶可靠、安全、節(jié)約用電有十分重要的意義。構(gòu)建智能用電服務體系,全面推廣用戶端智能儀表、智能用電管理終端等設備用電管
    的頭像 發(fā)表于 01-31 15:45 ?240次閱讀
    一文淺談電能管理系統(tǒng)

    ACRELADL系列多功能電能表在迪拜大廈EMS中的應用

    in Dubai Building’s EMS 摘要:用戶端消耗著整個電網(wǎng)80%的電能,用戶端智能化用電管理對用戶可靠、安全、節(jié)約用電有十分重要的意義。構(gòu)建智能用電服務體系,推廣用戶端
    的頭像 發(fā)表于 01-30 14:27 ?254次閱讀
    ACRELADL<b class='flag-5'>系列</b>多功能電能表在迪拜大廈EMS中的應用

    RA8系列用戶手冊

    電子發(fā)燒友網(wǎng)站提供《RA8系列用戶手冊.pdf》資料免費下載
    發(fā)表于 01-29 14:06 ?0次下載
    RA<b class='flag-5'>8</b><b class='flag-5'>系列</b><b class='flag-5'>用戶</b>手冊

    【BBuf的CUDA筆記】OpenAI Triton入門筆記一

    這里來看官方的介紹:https://openai.com/research/triton ,從官方的介紹中我們可以看到OpenAI Triton的產(chǎn)生動機以及它的目標是什么,還可以看到一些經(jīng)典算法的實現(xiàn)例子展示。
    的頭像 發(fā)表于 01-23 10:00 ?2233次閱讀
    【BBuf的CUDA筆記】OpenAI <b class='flag-5'>Triton</b>入門筆記一

    利用NVIDIA產(chǎn)品技術(shù)組合提升用戶體驗

    本案例通過利用NVIDIA TensorRT-LLM加速指令識別深度學習模型,并借助NVIDIA Triton推理服務器在NVIDIA V100 GPU上進行高效部署,幫助必優(yōu)科技的文
    的頭像 發(fā)表于 01-17 09:30 ?567次閱讀

    什么是Triton-shared?Triton-shared的安裝和使用

    經(jīng)過前面幾章關(guān)于triton在nv gpu上調(diào)優(yōu)的講解,我們這章開始來看看triton的一個third_party庫,該庫是為了讓triton去支持更多其他的backend。該項目的地
    的頭像 發(fā)表于 12-19 09:47 ?850次閱讀
    什么是<b class='flag-5'>Triton</b>-shared?<b class='flag-5'>Triton</b>-shared的安裝和使用

    Triton編譯器的原理和性能

    Triton是一種用于編寫高效自定義深度學習原語的語言和編譯器。Triton的目的是提供一個開源環(huán)境,以比CUDA更高的生產(chǎn)力編寫快速代碼,但也比其他現(xiàn)有DSL具有更大的靈活性。Triton
    的頭像 發(fā)表于 12-16 11:22 ?2212次閱讀
    <b class='flag-5'>Triton</b>編譯器的原理和性能

    周四研討會預告 | 注冊報名 NVIDIA AI Inference Day - 大模型推理線上研討會

    ,使用 NVIDIA Triton TM? 推理服務器進行部署 LLM Serving,以及金融行業(yè)的 AI、NLP/LLM 應用場景、客戶案例。 通過本次活動,您將了解基于上述
    的頭像 發(fā)表于 10-26 09:05 ?284次閱讀