在人工智能飛速發(fā)展的今天,大語言模型(LLM)為各個(gè)行業(yè)帶來了全新的場(chǎng)景和機(jī)遇。諸如客戶服務(wù)數(shù)字人,計(jì)算機(jī)輔助藥物研發(fā)的生成式虛擬篩選,基于檢索增強(qiáng)生成(RAG)的企業(yè)多模態(tài) PDF 數(shù)據(jù)提取,網(wǎng)絡(luò)安全流數(shù)據(jù)過濾、處理和分類優(yōu)化等工作流,正在無縫集成和運(yùn)行在定制化的企業(yè) AI 應(yīng)用,企業(yè)還能夠基于專有業(yè)務(wù)數(shù)據(jù)和用戶反饋數(shù)據(jù),不斷優(yōu)化 AI 應(yīng)用。
同時(shí),企業(yè)也面臨著如何高效、安全地部署 LLM 的挑戰(zhàn)。阿里云計(jì)算巢基于 NVIDIA 加速計(jì)算技術(shù),通過阿里云云市場(chǎng)為企業(yè)和開發(fā)者提供NVIDIA AI Enterprise軟件套件,其包含了NVIDIA NIM Agent Blueprint、NVIDIA NIM和NVIDIA NeMo等企業(yè)級(jí) AI 開發(fā)工作流和 AI 開發(fā)工具鏈。其中,NVIDIA NIM 提供可靠、高性能的 LLM 推理服務(wù),結(jié)合阿里云計(jì)算巢實(shí)現(xiàn)一站式云上部署,助力企業(yè)加速實(shí)現(xiàn) LLM 的 SaaS 化。
本文以 Llama3 為例,介紹該方案的整體架構(gòu)和部署方式。
NVIDIA NIM:
易于使用的預(yù)構(gòu)建容器工具
NVIDIA NIM 微服務(wù)是一套易于使用的預(yù)構(gòu)建容器工具,目的是幫助企業(yè)客戶在云、數(shù)據(jù)中心和工作站上安全、可靠地部署高性能 AI 模型。作為 NVIDIA AI Enterprise 的一部分,NIM 具備以下核心優(yōu)勢(shì):
安全、靈活的部署:NIM 在不同環(huán)境的 CUDA GPU 加速基礎(chǔ)設(shè)施和 Kubernetes 發(fā)行版中經(jīng)過嚴(yán)格驗(yàn)證和基準(zhǔn)測(cè)試,它支持企業(yè)在云、數(shù)據(jù)中心、工作站上安全可靠地部署高性能的 AI 推理,只需 5 分鐘即可完成部署。
加速產(chǎn)品上市:企業(yè)通過預(yù)構(gòu)建、持續(xù)維護(hù)的微服務(wù),能夠快速將產(chǎn)品推向市場(chǎng),縮短開發(fā)周期。
開發(fā)者友好:開發(fā)者使用標(biāo)準(zhǔn) API 和幾行代碼即可輕松將 NIM 集成到企業(yè)級(jí) AI 應(yīng)用程序中。
優(yōu)化的推理引擎:NIM 基于Triton 推理服務(wù)器、TensorRT、TensorRT-LLM和 PyTorch 等強(qiáng)大的推理引擎構(gòu)建, 提供行業(yè)領(lǐng)先的吞吐率、延遲和 token 生成速度,確保服務(wù)響應(yīng)更快。
企業(yè)級(jí)支持:NIM 采用企業(yè)級(jí)基礎(chǔ)容器構(gòu)建,提供嚴(yán)格的驗(yàn)證、定期安全更新,適合企業(yè)生產(chǎn)環(huán)境部署。
阿里云計(jì)算巢:專為服務(wù)商
及其客戶打造的云集成 PaaS 平臺(tái)
阿里云計(jì)算巢服務(wù)是一個(gè)開放給企業(yè)應(yīng)用服務(wù)商(包括:企業(yè)應(yīng)用服務(wù)商、IT 集成服務(wù)商、交付服務(wù)商和管理服務(wù)提供商等)及其用戶的服務(wù)管理 PaaS 平臺(tái),提供軟件上云的“一站式”解決方案。
阿里云計(jì)算巢能提供軟件的交付、部署、運(yùn)維流程標(biāo)準(zhǔn)化的服務(wù),支持軟件和資源的一體化交付,真正實(shí)現(xiàn)了軟件的開箱即用。
阿里云計(jì)算巢服務(wù)集成了阿里云一系列底層產(chǎn)品能力,通過通用的應(yīng)用管控框架、租戶管理框架,幫助服務(wù)商提升服務(wù)的交付效率、管理效率和服務(wù)能力,在提升用戶滿意度的同時(shí)降低運(yùn)營成本;并為用戶提供了統(tǒng)一管理多種應(yīng)用服務(wù)的平臺(tái),提升用戶使用服務(wù)的效率和安全性,降低用戶獲取服務(wù)和管理服務(wù)的成本。
方案介紹
下圖展示了通過阿里云計(jì)算巢快速部署 NVIDIA NIM 的整體架構(gòu)。以 Llama3 為例,我們通過計(jì)算巢來創(chuàng)建、管理 LLM 推理服務(wù):在阿里云容器服務(wù) ACK (容器服務(wù) Kubernetes 版)集群上,我們使用阿里云 ACK 的云原生 AI 套件,集成開源推理服務(wù)框架 KServe,來部署 NVIDIA NIM。
同時(shí),結(jié)合 ACK 的 Prometheus 和 Grafana 監(jiān)控服務(wù),快速搭建監(jiān)控大盤,實(shí)時(shí)觀測(cè)推理服務(wù)狀態(tài);利用 NVIDIA NIM 提供豐富的監(jiān)控指標(biāo),如 num_requests_waiting,配置推理服務(wù)彈性擴(kuò)縮容策略。
這里列出的云上資源,以及阿里云彈性計(jì)算服務(wù)(ECS)、專有網(wǎng)絡(luò)(VPC) 等基礎(chǔ)資源,都可以通過計(jì)算巢來輕松配置,一鍵拉起,最終實(shí)現(xiàn)一個(gè)云上高性能、可實(shí)時(shí)觀測(cè)、極致彈性的大語言模型推理服務(wù)。用戶只需要根據(jù)該服務(wù)創(chuàng)建實(shí)例,便可部署該服務(wù)。
圖 1. 通過阿里云計(jì)算巢快速部署
NVIDIA NIM 架構(gòu)圖
(圖片來源于阿里云,如您有任何疑問或需要使用本圖片,請(qǐng)聯(lián)系阿里云)
部署流程
1. 參考 NVIDIA NIM 文檔,生成NVIDIA NGC API Key,用于訪問需要部署的模型鏡像。以本文用到的 Llama-3-8B-Instruct 為例,可以通過NVIDIA NGC 目錄來獲取。
同時(shí),請(qǐng)閱讀并承諾遵守 Llama 模型的自定義可商用開源協(xié)議。
2. 在阿里云計(jì)算巢服務(wù)目錄中找到“基于 NVIDIA NIM 快速部署 LLM 模型推理服務(wù)”,并進(jìn)入實(shí)例部署頁面。
如下圖所示,主要配置服務(wù)的基本信息和云上資源,以及第一步中獲取的 NVIDIA NGC API Key,需要填寫在下圖相應(yīng)位置。
圖 2. 在阿里云計(jì)算巢創(chuàng)建服務(wù)實(shí)例
(圖片來源于阿里云,如您有任何疑問或需要使用本圖片,請(qǐng)聯(lián)系阿里云)
因?yàn)榉?wù)部署在阿里云 ACK 集群之上,這里也包含了 Kubernetes 配置:
圖 3. 阿里云 ACK 集群上 Kubernetes
選項(xiàng)頁面
(圖片來源于阿里云,如您有任何疑問或需要使用本圖片,請(qǐng)聯(lián)系阿里云)
3. 按照頁面提示完成所有配置之后,點(diǎn)擊下一步:確認(rèn)訂單,在這里確認(rèn)第 2 步配置的服務(wù)實(shí)例信息和價(jià)格預(yù)覽。
圖 4. 確認(rèn)服務(wù)實(shí)例信息和價(jià)格預(yù)覽
(圖片來源于阿里云,如您有任何疑問或需要使用本圖片,請(qǐng)聯(lián)系阿里云)
部署過程中,用戶需要?jiǎng)?chuàng)建和訪問阿里云資源,當(dāng)阿里云賬號(hào)屬于 RAM 賬號(hào)時(shí),需要開通以下權(quán)限,頁面上也有開通這些權(quán)限的入口。
4. 點(diǎn)擊立即創(chuàng)建,開始部署。過程中會(huì)涉及阿里云資源的創(chuàng)建、NIM 模型鏡像的拉取等。拉取過程的日志,可通過”點(diǎn)擊資源 tab-> 找到 ACK 集群->頁面左側(cè)的工作負(fù)載->無狀態(tài)”來查看。部署完成后,進(jìn)入服務(wù)實(shí)例詳情查看使用說明。通過 curl 發(fā)送 HTTP 請(qǐng)求訪問推理服務(wù),修改 content 字段,便可自定義和推理服務(wù)交互的內(nèi)容。
圖 5. 服務(wù)實(shí)例詳情頁面截圖
(圖片來源于阿里云,如您有任何疑問或需要使用本圖片,請(qǐng)聯(lián)系阿里云)
通過阿里云的云市場(chǎng)獲取
NVIDIA AI Enterprise 使用該方案
NVIDIA NIM 是 NVIDIA AI Enterprise 的一部分,正式使用時(shí)須獲得 NVIDIA AI Enterprise 的許可證授權(quán)?,F(xiàn)在,企業(yè)用戶可以通過阿里云云市場(chǎng)獲取 NVIDIA AI Enterprise 來使用該方案。阿里云市場(chǎng)提供了概念驗(yàn)證(PoC)測(cè)試服務(wù)和購買 NVIDIA AI Enterprise 許可證,共兩個(gè)下單頁面。
PoC 測(cè)試服務(wù)
提供 90 天 NVIDIA AI Enterprise PoC License,暨 90 天免費(fèi)試用,而使用時(shí)須支付阿里云計(jì)算資源的費(fèi)用。
通過阿里云的云市場(chǎng)購買 NVIDIA AI Enterprise 許可證
該頁面提供的信息僅供參考,用戶需要通過該頁面的“NVIDIA 服務(wù)咨詢”釘釘來溝通采購,最終通過云市場(chǎng)官網(wǎng)推送下單鏈接獲取 NVIDIA AI Enterprise 許可證。
總結(jié)
本文介紹了通過阿里云計(jì)算巢快速部署 NVIDIA NIM 的方案收益和部署方式,該方案充分利用了 NIM 的安全與高性能的無縫 AI 推理功能,以及計(jì)算巢的軟件一站式上云和交付能力,從而打造極致彈性、高性能、可實(shí)時(shí)觀測(cè)的云上 LLM 推理服務(wù)。
作者信息
毛亦姝
NVIDIA 解決方案架構(gòu)師,主要負(fù)責(zé)生成式 AI 模型的訓(xùn)練、推理在云上的落地,多年互聯(lián)網(wǎng)算法工作經(jīng)驗(yàn)。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4857瀏覽量
102722 -
AI
+關(guān)注
關(guān)注
87文章
29846瀏覽量
268146 -
人工智能
+關(guān)注
關(guān)注
1791文章
46686瀏覽量
237173 -
阿里云
+關(guān)注
關(guān)注
3文章
935瀏覽量
42935
原文標(biāo)題:通過阿里云計(jì)算巢部署 NVIDIA NIM,加速企業(yè)大語言模型 SaaS 化
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論