免费看V网站农村姑娘AV,久久久久中文字幕亚洲精品

前面文章用 Triton 開源項目提供的 image_client.py 用戶端作示范，在這個范例代碼里調(diào)用大部分 Triton 用戶端函數(shù)，并使用多種參數(shù)來配置執(zhí)行的功能，本文內(nèi)容就是簡單剖析 image_client.py 的代碼，為讀者提供撰寫 Triton 用戶端的流程。

指定通信協(xié)議

為了滿足大部分網(wǎng)路環(huán)境的用戶端請求，Triton 在服務器與用戶端之間提供 HTTP 與 gRPC 兩種通信協(xié)議，如下架構(gòu)圖所示：

當我們啟動 Triton 服務器之后，最后狀態(tài)會停留在如下截屏的地方：

顯示的信息表示，系統(tǒng)提供 8001 端口給 gRPC 協(xié)議使用、提供 8000 端口給 HTTP 協(xié)議使用。此時服務器處于接收用戶端請求的狀態(tài)，因此“指定通信協(xié)議”是執(zhí)行 Triton 用戶端的第一個工作。

這個范例支持兩種通信協(xié)議，一開始先導入tritonclient.http與tritonclient.grpc兩個模塊，如下：

import tritonclient.grpc as grpcclient
import tritonclient.http as httpclient

代碼使用“-i”或“--protocal”其中一種參數(shù)指定“HTTP”或“gRPC”協(xié)議類型，如果不指定就使用“HTTP”預設值。再根據(jù)協(xié)議種類調(diào)用 httpcclient.InferenceServerClient() 或 grpcclient.InferenceServerClient() 函數(shù)創(chuàng)建 triton_client 對象，如下所示：

try:
        if FLAGS.protocol.lower() == "grpc":
            # Create gRPC client for communicating with the server
            triton_client = grpcclient.InferenceServerClient(
                url=FLAGS.url, verbose=FLAGS.verbose)
        else:
            # Specify large enough concurrency to handle the
            # the number of requests.
            concurrency = 20 if FLAGS.async_set else 1
            triton_client = httpclient.InferenceServerClient(
                url=FLAGS.url, verbose=FLAGS.verbose, concurrency=concurrency)

最后啟用 triton_client.infer() 函數(shù)對 Triton 服務器發(fā)出推理要求，當然得將所需要的參數(shù)提供給這個函數(shù)，如下所示：

responses.append(
   triton_client.infer(FLAGS.model_name,
                  inputs,
                  request_id=str(sent_count),
                  model_version=FLAGS.model_version,
                  outputs=outputs))

不過 image_client.py 代碼中并未設定 gRPC 所需要的 8001 端口，因此使用這個通訊協(xié)議時，需要用“-u”參數(shù)設定“IP:端口”，例如下面指令：

$  python3 image_client.py  -m  inception_graphdef  -s  INCEPTION VGG  ${HOME}/images/mug.jpg  -i  GRPC  -u  <服務器IP>:8001

?在 examples 范例目錄下還有20 個基于 gRPC 協(xié)議的范例以及 10 個基于 HTTP 協(xié)議的范例，則是在代碼內(nèi)直接指定個別通信協(xié)議與端口號的范例，讀者可以根據(jù)需求去修改特定的范例代碼。

調(diào)用異步模式（async mode）與數(shù)據(jù)流（streaming）

大部分讀者比較熟悉的并行計算模式，就是在同一個時鐘脈沖（clock puls）讓不同計算核執(zhí)行相同的工作，也就是所謂的 SIMD（單指令多數(shù)據(jù)）并行計算，通常適用于數(shù)據(jù)量大而且持續(xù)的密集型計算任務。

對 Triton 推理服務器而言，并不能確認所收到的推理要求是否為密集型的計算。事實上很大比例的推理要求是屬于零碎型計算，這種狀況下調(diào)用“異步模式”會讓系統(tǒng)更加有效率，因為它允許不同計算核（線程）在同一個時鐘脈沖段里執(zhí)行不同指令，這樣能大大提高執(zhí)行彈性進而優(yōu)化計算性能。

當 Triton 服務器端啟動之后，就能接收來自用戶端的“異步模式”請求，不過在 HTTP 協(xié)議與 gRPC 協(xié)議的處理方式不太一樣。

在代碼中用 httpclient.InferenceServerClient() 函數(shù)創(chuàng)建 HTTP 的 triton_client 對象時，需要給定“concurrnecy（并發(fā)數(shù)量）”參數(shù)，而創(chuàng)建 gRPC 的用戶端時就不需要這個參數(shù)。

調(diào)用異步模式有時會需要搭配數(shù)據(jù)流（stream）的處理器（handle），因此在實際推理的函數(shù)就有 triton_client.async_infer() 與 triton_client.async_stream_infer() 兩種，使用 gRPC 協(xié)議創(chuàng)建的 triton_client，在調(diào)用無 stream 模式的 async_infer() 函數(shù)進行推理時，需要提供 partial(completion_callback, user_data) 參數(shù)。

由于異步處理與數(shù)據(jù)流處理有比較多底層線程管理的細節(jié)，初學者只需要范例目錄下的代碼，包括 image_client.py 與兩個 simple_xxxx_async_infer_client.py 的代碼就可以，細節(jié)部分還是等未來更熟悉系統(tǒng)之后再進行深入。

使用共享內(nèi)存（share memory）

如果發(fā)起推理請求的 Triton 用戶端與 Triton 服務器在同一臺機器時，就可以使用共享內(nèi)存的功能，這包含一般系統(tǒng)內(nèi)存與 CUDA 顯存兩種，這項功能可以非常高效地降低數(shù)據(jù)傳輸?shù)拈_銷，對提升推理性能有明顯的效果。

在 image_client.py 范例中并未提供這項功能，在 Python 范例下有 6 個帶有“shm”文件名的代碼，就是支持共享內(nèi)存調(diào)用的范例，其中 simple_http_shm_client.py 與 simple_grpc_shm_client.py 為不同通信協(xié)議提供了使用共享系統(tǒng)內(nèi)存的代碼，下面以 simple_grpc_shm_client.py 內(nèi)容為例，簡單說明一下主要執(zhí)行步驟：

# 1.為兩個輸入張量創(chuàng)建數(shù)據(jù)：第1個初始化為一整數(shù)、第2個初始化為所有整數(shù)
    input0_data = np.arange(start=0, stop=16, dtype=np.int32)
    input1_data = np.ones(shape=16, dtype=np.int32)


    input_byte_size = input0_data.size * input0_data.itemsize
    output_byte_size = input_byte_size


# 2. 為輸出創(chuàng)建共享內(nèi)存區(qū)域，并存儲共享內(nèi)存管理器
    shm_op_handle = shm.create_shared_memory_region("output_data",
                                                    "/output_simple",
                                                    output_byte_size * 2)


# 3.使用Triton Server注冊輸出的共享內(nèi)存區(qū)域
    triton_client.register_system_shared_memory("output_data", "/output_simple",
                                                output_byte_size * 2)


# 4. 將輸入數(shù)據(jù)值放入共享內(nèi)存
    shm_ip_handle = shm.create_shared_memory_region("input_data",
                                                    "/input_simple",
                                                    input_byte_size * 2)


# 5. 將輸入數(shù)據(jù)值放入共享內(nèi)存
    shm.set_shared_memory_region(shm_ip_handle, [input0_data])
    shm.set_shared_memory_region(shm_ip_handle, [input1_data],
                                 offset=input_byte_size)


# 6. 使用Triton Server注冊輸入的共享內(nèi)存區(qū)域
    triton_client.register_system_shared_memory("input_data", "/input_simple",
                                                input_byte_size * 2)


# 7. 設置參數(shù)以使用共享內(nèi)存中的數(shù)據(jù)
    inputs = []
    inputs.append(grpcclient.InferInput('INPUT0', [1, 16], "INT32"))
    inputs[-1].set_shared_memory("input_data", input_byte_size)


    inputs.append(grpcclient.InferInput('INPUT1', [1, 16], "INT32"))
    inputs[-1].set_shared_memory("input_data",
                                 input_byte_size,
                                 offset=input_byte_size)


    outputs = []
    outputs.append(grpcclient.InferRequestedOutput('OUTPUT0'))
    outputs[-1].set_shared_memory("output_data", output_byte_size)


    outputs.append(grpcclient.InferRequestedOutput('OUTPUT1'))
    outputs[-1].set_shared_memory("output_data",
                                  output_byte_size,
                                  offset=output_byte_size)


    results = triton_client.infer(model_name=model_name,
                                  inputs=inputs,
                                  outputs=outputs)


# 8. 從共享內(nèi)存讀取結(jié)果
output0=results.get_output("OUTPUT0")

至于范例中有兩個 simple_xxxx_cudashm_client.py 這是針對 CUDA 顯存共享的返利代碼，主要邏輯與上面的代碼相似，主要將上面“shm.”開頭的函數(shù)改成“cudashm.”開頭的函數(shù)，當然處理流程也更加復雜一些，需要有足夠 CUDA 編程基礎(chǔ)才有能力駕馭，因此初學者只要大致了解流程就行。

以上就是 Triton 用戶端會用到的基本功能，不過缺乏足夠的說明文件，因此其他功能函數(shù)的內(nèi)容必須自行在開源文件內(nèi)尋找，像 C++ 版本的功能得在 src/c++/library 目錄下的 common.h、grpc_client.h 與 http_client.h 里找到細節(jié)，Python 版本的函數(shù)分別在 src/python/library/triton_client 下的 grpc、http、utils 下的 __init__.py 代碼內(nèi)，獲取功能與函數(shù)定義的細節(jié)。

推薦閱讀

NVIDIA Jetson Nano 2GB 系列文章（1）：開箱介紹

NVIDIA Jetson Nano 2GB 系列文章（2）：安裝系統(tǒng)

NVIDIA Jetson Nano 2GB 系列文章（3）：網(wǎng)絡設置及添加 SWAPFile 虛擬內(nèi)存

NVIDIA Jetson Nano 2GB 系列文章（4）：體驗并行計算性能

NVIDIA Jetson Nano 2GB 系列文章（5）：體驗視覺功能庫

NVIDIA Jetson Nano 2GB 系列文章（6）：安裝與調(diào)用攝像頭

NVIDIA Jetson Nano 2GB 系列文章（7）：通過 OpenCV 調(diào)用 CSI/USB 攝像頭

NVIDIA Jetson Nano 2GB 系列文章（8）：執(zhí)行常見機器視覺應用

NVIDIA Jetson Nano 2GB 系列文章（9）：調(diào)節(jié) CSI 圖像質(zhì)量

NVIDIA Jetson Nano 2GB 系列文章（10）：顏色空間動態(tài)調(diào)節(jié)技巧

NVIDIA Jetson Nano 2GB 系列文章（11）：你應該了解的 OpenCV

NVIDIA Jetson Nano 2GB 系列文章（12）：人臉定位

NVIDIA Jetson Nano 2GB 系列文章（13）：身份識別

NVIDIA Jetson Nano 2GB 系列文章（14）：Hello AI World

NVIDIA Jetson Nano 2GB 系列文章（15）：Hello AI World 環(huán)境安裝

NVIDIA Jetson Nano 2GB 系列文章（16）：10行代碼威力

NVIDIA Jetson Nano 2GB 系列文章（17）：更換模型得到不同效果

NVIDIA Jetson Nano 2GB 系列文章（18）：Utils 的 videoSource 工具

NVIDIA Jetson Nano 2GB 系列文章（19）：Utils 的 videoOutput 工具

NVIDIA Jetson Nano 2GB 系列文章（20）：“Hello AI World” 擴充參數(shù)解析功能

NVIDIA Jetson Nano 2GB 系列文章（21）：身份識別

NVIDIA Jetson Nano 2GB 系列文章（22）：“Hello AI World” 圖像分類代碼

NVIDIA Jetson Nano 2GB 系列文章（23）：“Hello AI World 的物件識別應用

NVIDIAJetson Nano 2GB 系列文章（24）: “Hello AI World” 的物件識別應用

NVIDIAJetson Nano 2GB 系列文章（25）: “Hello AI World” 圖像分類的模型訓練

NVIDIAJetson Nano 2GB 系列文章（26）: “Hello AI World” 物件檢測的模型訓練

NVIDIAJetson Nano 2GB 系列文章（27）: DeepStream 簡介與啟用

NVIDIAJetson Nano 2GB 系列文章（28）: DeepStream 初體驗

NVIDIAJetson Nano 2GB 系列文章（29）: DeepStream 目標追蹤功能

NVIDIAJetson Nano 2GB 系列文章（30）: DeepStream 攝像頭“實時性能”

NVIDIAJetson Nano 2GB 系列文章（31）: DeepStream 多模型組合檢測-1

NVIDIAJetson Nano 2GB 系列文章（32）: 架構(gòu)說明與deepstream-test范例

NVIDIAJetsonNano 2GB 系列文章（33）: DeepStream 車牌識別與私密信息遮蓋

NVIDIA Jetson Nano 2GB 系列文章（34）: DeepStream 安裝Python開發(fā)環(huán)境

NVIDIAJetson Nano 2GB 系列文章（35）: Python版test1實戰(zhàn)說明

NVIDIAJetson Nano 2GB 系列文章（36）: 加入USB輸入與RTSP輸出

NVIDIAJetson Nano 2GB 系列文章（37）: 多網(wǎng)路模型合成功能

NVIDIAJetson Nano 2GB 系列文章（38）: nvdsanalytics視頻分析插件

NVIDIAJetson Nano 2GB 系列文章（39）: 結(jié)合IoT信息傳輸

NVIDIAJetson Nano 2GB 系列文章（40）: Jetbot系統(tǒng)介紹

NVIDIAJetson Nano 2GB 系列文章（41）: 軟件環(huán)境安裝

NVIDIAJetson Nano 2GB 系列文章（42）: 無線WIFI的安裝與調(diào)試

NVIDIAJetson Nano 2GB 系列文章（43）: CSI攝像頭安裝與測試

NVIDIAJetson Nano 2GB 系列文章（44）: Jetson的40針引腳

NVIDIAJetson Nano 2GB 系列文章（45）: I2C總線與Pi OLED

NVIDIAJetson Nano 2GB 系列文章（46）: 機電控制設備的安裝

NVIDIAJetson Nano 2GB 系列文章（47）: 組裝過程的注意細節(jié)

NVIDIAJetson Nano 2GB 系列文章（48）: 用鍵盤與搖桿控制行動

NVIDIAJetson Nano 2GB 系列文章（49）: 智能避撞之現(xiàn)場演示

NVIDIAJetson Nano 2GB 系列文章（50）: 智能避障之模型訓練

NVIDIAJetson Nano 2GB 系列文章（51）: 圖像分類法實現(xiàn)找路功能

NVIDIAJetson Nano 2GB 系列文章（52）: 圖像分類法實現(xiàn)找路功能

NVIDIAJetson Nano 2GB 系列文章（53）: 簡化模型訓練流程的TAO工具套件

NVIDIA Jetson Nano 2GB 系列文章（54）：NGC的內(nèi)容簡介與注冊密鑰

NVIDIA Jetson Nano 2GB 系列文章（55）：安裝TAO模型訓練工具

NVIDIA Jetson Nano 2GB 系列文章（56）：啟動器CLI指令集與配置文件

NVIDIA Jetson Nano 2GB 系列文章（57）：視覺類腳本的環(huán)境配置與映射

NVIDIA Jetson Nano 2GB 系列文章（58）：視覺類的數(shù)據(jù)格式

NVIDIA Jetson Nano 2GB 系列文章（59）：視覺類的數(shù)據(jù)增強

NVIDIA Jetson Nano 2GB 系列文章（60）：圖像分類的模型訓練與修剪

NVIDIA Jetson Nano 2GB 系列文章（61）：物件檢測的模型訓練與優(yōu)化

NVIDIA Jetson Nano 2GB 系列文章（62）：物件檢測的模型訓練與優(yōu)化-2

NVIDIA Jetson Nano 2GB 系列文章（63）：物件檢測的模型訓練與優(yōu)化-3

NVIDIA Jetson Nano 2GB 系列文章（64）：將模型部署到Jetson設備

NVIDIA Jetson Nano 2GB 系列文章（65）：執(zhí)行部署的 TensorRT 加速引擎

NVIDIA Jetson 系列文章（1）：硬件開箱

NVIDIA Jetson 系列文章（2）：配置操作系統(tǒng)

NVIDIA Jetson 系列文章（3）：安裝開發(fā)環(huán)境

NVIDIA Jetson 系列文章（4）：安裝DeepStream

NVIDIA Jetson 系列文章（5）：使用Docker容器的入門技巧

NVIDIA Jetson 系列文章（6）：使用容器版DeepStream

NVIDIA Jetson 系列文章（7）：配置DS容器Python開發(fā)環(huán)境

NVIDIA Jetson 系列文章（8）：用DS容器執(zhí)行Python范例

NVIDIA Jetson 系列文章（9）：為容器接入USB攝像頭

NVIDIA Jetson 系列文章（10）：從頭創(chuàng)建Jetson的容器（1）

NVIDIA Jetson 系列文章（11）：從頭創(chuàng)建Jetson的容器（2）

NVIDIA Jetson 系列文章（12）：創(chuàng)建各種YOLO-l4t容器

NVIDIA Triton系列文章（1）：應用概論

NVIDIA Triton系列文章（2）：功能與架構(gòu)簡介

NVIDIA Triton系列文章（3）：開發(fā)資源說明

NVIDIA Triton系列文章（4）：創(chuàng)建模型倉

NVIDIA Triton 系列文章（5）：安裝服務器軟件

NVIDIA Triton 系列文章（6）：安裝用戶端軟件

NVIDIA Triton 系列文章（7）：image_client 用戶端參數(shù)

原文標題：NVIDIA Triton 系列文章（8）：用戶端其他特性

文章出處：【微信公眾號：NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

英偉達

英偉達

+關(guān)注

關(guān)注
22

文章
3637

瀏覽量
89855

原文標題：NVIDIA Triton 系列文章（8）：用戶端其他特性

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

智能電表用戶端口的折返限流應用說明

電子發(fā)燒友網(wǎng)站提供《智能電表用戶端口的折返限流應用說明.pdf》資料免費下載

發(fā)表于 09-13 09:43 ?0次下載

NVIDIA助力提供多樣、靈活的模型選擇

在本案例中，Dify 以模型中立以及開源生態(tài)的優(yōu)勢，為廣大 AI 創(chuàng)新者提供豐富的模型選擇。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和Triton 推理服務器產(chǎn)品，為

發(fā)表于 09-09 09:19 ?315次閱讀

變電所、配電室、機房、箱變等用戶端供配電配電室綜合監(jiān)測系統(tǒng)

、水泵）、門禁監(jiān)控子系統(tǒng)（讀卡器、開門按鈕、磁力鎖）、安防監(jiān)控子系統(tǒng)（雙鑒檢測器）。應用場所：適用于35kV及以下新建或改擴建的變電所、配電室、機房、箱變等用戶端供配電自動化系統(tǒng)工程設計、施工和運行維護。實時監(jiān)測能夠

發(fā)表于 03-28 13:15 ?478次閱讀

變電所、配電室、機房、箱變等<b class='flag-5'>用戶端</b>供配電配電室綜合監(jiān)測系統(tǒng)

牽手NVIDIA 元戎啟行端到端模型將搭載 DRIVE Thor芯片

NVIDIA的DRIVE Thor芯片適配公司的端到端智能駕駛模型。據(jù)悉，元戎啟行是業(yè)內(nèi)首批能用 DRIVE Thor芯片適配端到端模型的企

發(fā)表于 03-25 11:49 ?258次閱讀

牽手<b class='flag-5'>NVIDIA</b> 元戎啟行<b class='flag-5'>端</b>到<b class='flag-5'>端</b>模型將搭載 DRIVE Thor芯片

適用于35kV及以下新建或改擴建的用戶端Acrel-2000Z電力監(jiān)控

的組網(wǎng)方式。應用場所：適用于35kV及以下新建或改擴建的用戶端供配電自動化系統(tǒng)工程設計、施工和運行維護。云平臺結(jié)構(gòu) 云平臺功能實時監(jiān)測直觀顯示配電網(wǎng)的運行狀態(tài)，實時監(jiān)測各回路電參數(shù)信息，動態(tài)監(jiān)視各配電回路有關(guān)故障、告警等信號。

發(fā)表于 03-08 16:56 ?233次閱讀

適用于35kV及以下新建或改擴建的<b class='flag-5'>用戶端</b>Acrel-2000Z電力監(jiān)控

使用NVIDIA Triton推理服務器來加速AI預測

這家云計算巨頭的計算機視覺和數(shù)據(jù)科學服務使用 NVIDIA Triton 推理服務器來加速 AI 預測。

發(fā)表于 02-29 14:04 ?458次閱讀

在AMD GPU上如何安裝和配置triton？

最近在整理python-based的benchmark代碼，反過來在NV的GPU上又把Triton裝了一遍，發(fā)現(xiàn)Triton的github repo已經(jīng)給出了對應的llvm的commit id以及對應的編譯細節(jié)，然后跟著走了一遍，也順利的安裝成功，只需要按照如下方式即可完

發(fā)表于 02-22 17:04 ?1983次閱讀

在AMD GPU上如何安裝和配置<b class='flag-5'>triton</b>？

一文淺談電能管理系統(tǒng)

? 功能： 用戶端消耗著整個電網(wǎng)80%的電能，用戶端智能化用電管理對用戶可靠、安全、節(jié)約用電有十分重要的意義。構(gòu)建智能用電服務體系，全面推廣用戶端智能儀表、智能用電管理終端等設備用電管

發(fā)表于 01-31 15:45 ?240次閱讀

ACRELADL系列多功能電能表在迪拜大廈EMS中的應用

in Dubai Building’s EMS 摘要：用戶端消耗著整個電網(wǎng)80%的電能，用戶端智能化用電管理對用戶可靠、安全、節(jié)約用電有十分重要的意義。構(gòu)建智能用電服務體系，推廣用戶端

發(fā)表于 01-30 14:27 ?254次閱讀

RA8系列用戶手冊

電子發(fā)燒友網(wǎng)站提供《RA8系列用戶手冊.pdf》資料免費下載

發(fā)表于 01-29 14:06 ?0次下載

【BBuf的CUDA筆記】OpenAI Triton入門筆記一

這里來看官方的介紹：https://openai.com/research/triton ，從官方的介紹中我們可以看到OpenAI Triton的產(chǎn)生動機以及它的目標是什么，還可以看到一些經(jīng)典算法的實現(xiàn)例子展示。

發(fā)表于 01-23 10:00 ?2233次閱讀

利用NVIDIA產(chǎn)品技術(shù)組合提升用戶體驗

本案例通過利用NVIDIA TensorRT-LLM加速指令識別深度學習模型，并借助NVIDIA Triton推理服務器在NVIDIA V100 GPU上進行高效部署，幫助必優(yōu)科技的文

發(fā)表于 01-17 09:30 ?567次閱讀

什么是Triton-shared？Triton-shared的安裝和使用

經(jīng)過前面幾章關(guān)于triton在nv gpu上調(diào)優(yōu)的講解，我們這章開始來看看triton的一個third_party庫，該庫是為了讓triton去支持更多其他的backend。該項目的地

發(fā)表于 12-19 09:47 ?850次閱讀

Triton編譯器的原理和性能

Triton是一種用于編寫高效自定義深度學習原語的語言和編譯器。Triton的目的是提供一個開源環(huán)境，以比CUDA更高的生產(chǎn)力編寫快速代碼，但也比其他現(xiàn)有DSL具有更大的靈活性。Triton

發(fā)表于 12-16 11:22 ?2212次閱讀

周四研討會預告 | 注冊報名 NVIDIA AI Inference Day - 大模型推理線上研討會

，使用 NVIDIA Triton TM? 推理服務器進行端到端部署 LLM Serving，以及金融行業(yè)的 AI、NLP/LLM 應用場景、客戶案例。通過本次活動，您將了解基于上述

發(fā)表于 10-26 09:05 ?284次閱讀