搭建一個(gè)企業(yè)內(nèi)部AI 問(wèn)答機(jī)器人、知識(shí)庫(kù)的場(chǎng)景,我們可以選擇大廠的云服務(wù),這相對(duì)于大多數(shù)用戶來(lái)說(shuō),是最省事的方案。但很多企業(yè)可能會(huì)有一些私有化的數(shù)據(jù),或者受限于企業(yè)內(nèi)部的安全性要求,只能走模型私有化部署的方式。
很多人想到模型私有化部署,會(huì)以為要數(shù)據(jù)中心的多臺(tái)服務(wù)器來(lái)做,其實(shí)不然。
辦公室里搭建 AI 工作站,已經(jīng)可以完美地支持企業(yè)內(nèi)部知識(shí)庫(kù)和一些POC場(chǎng)景的需求,比如進(jìn)行量化的 70B 模型的訓(xùn)練和推理工作。所以在辦公室環(huán)境下,同樣可以搭建一個(gè) AI 問(wèn)答機(jī)器人。
贊奇科技基于 NVIDIA ChatRTX 搭建的企業(yè)問(wèn)答機(jī)器人
但搭建一個(gè)AI 問(wèn)答機(jī)器人又是一個(gè)涉及硬件選擇、安裝、開(kāi)發(fā)環(huán)境部署的綜合過(guò)程。
最近贊奇的工程師團(tuán)隊(duì)測(cè)試了幾款主流大模型,就采用 AI 工作站搭建一個(gè)本地問(wèn)答機(jī)器人提供了一些建議參考,這里抓一些重點(diǎn)給大家:
第一步 確定需求與目標(biāo)
這一步至關(guān)重要,需要確定以下關(guān)鍵點(diǎn):
性能要求:了解所做任務(wù)的復(fù)雜度,如知識(shí)庫(kù)所需要采樣的數(shù)據(jù)庫(kù)的大小,未來(lái)的用戶并發(fā)量等,以此來(lái)預(yù)估所需的計(jì)算資源和存儲(chǔ)空間等,通常我們可以用現(xiàn)有機(jī)器跑任務(wù)測(cè)試的方式來(lái)評(píng)估。
預(yù)算范圍:明確愿意投入的資金等成本范圍。對(duì)預(yù)算沒(méi)有概念的小伙伴可以通過(guò)詢問(wèn),或者參考公開(kāi)市場(chǎng)價(jià)格等方式來(lái)加速了解。
第二步 選擇合適的硬件
根據(jù)需求我們來(lái)制定硬件配置,AI 工作站比較關(guān)鍵的配置有 GPU、CPU、內(nèi)存、機(jī)箱等。
GPU
GPU 是 AI 工作站中非常核心的算力,也是 AI 工作站中需要首先考慮的配件。目前適用于專業(yè) AI 工作站的顯卡主要有 NVIDIA RTX? 5880 Ada (48GB) 及 NVIDIA RTX? 5000 Ada (32GB) 等,這兩款顯卡屬于 NVIDIA 專業(yè)級(jí)顯卡,主動(dòng)散熱、功耗很低而且非常穩(wěn)定,靜音也適合辦公室使用。
我們可以看看兩款顯卡的參數(shù):
我們需要根據(jù)算力需求來(lái)配置工作站中的顯卡,包括顯卡型號(hào)和數(shù)量。AI 工作站可至多支持 4 張高性能專業(yè)顯卡,同時(shí)一個(gè)工作站中需要配置同一型號(hào)的顯卡,并且一般采用單卡、雙卡和四卡的配置。
這就需要我們同時(shí)要了解不同型號(hào)顯卡的性能,才能來(lái)匹配任務(wù)需求。這是個(gè)極大的挑戰(zhàn)。很多人對(duì)顯卡性能并不熟悉,而且在不同的任務(wù)情況下,顯卡的表現(xiàn)也會(huì)有所不同。我們可以參考與我們類(lèi)似的任務(wù)在顯卡上的測(cè)評(píng)數(shù)據(jù)來(lái)評(píng)估。有條件的話,在購(gòu)買(mǎi)時(shí)建議最好提前測(cè)試下。
顯卡實(shí)測(cè)數(shù)據(jù)
很多企業(yè)采用 AI 工作站來(lái)做知識(shí)庫(kù)、智能問(wèn)答等應(yīng)用,主要任務(wù)是本地的模型微調(diào)和推理,模型大小普遍選擇在 7B/8B,13B,32B 和 70B。
NVIDIA 解決方案合作伙伴贊奇科技,分別對(duì) AI 工作站中搭載 NVIDIA RTX 5880 Ada、NVIDIA RTX 5000 Ada 的單卡、雙卡、四卡配置進(jìn)行了模型訓(xùn)練和推理的測(cè)試,測(cè)試數(shù)據(jù)供大家在選型時(shí)參考。
AI 工作站搭載 NVIDIA RTX 5000 Ada 的實(shí)測(cè)
NVIDIA RTX 5000 Ada
(圖片源于 NVIDIA)
測(cè)試環(huán)境:
CPU: Intel(R) Xeon(R) w5-3433
GPU: NVIDIA RTX 5000 Ada * 4
操作系統(tǒng):ubuntu22.04
Driver Version: 550.107.02
CUDA: 12.1
推理框架:vllm
測(cè)試數(shù)據(jù)(以下數(shù)據(jù)均為多次測(cè)試數(shù)據(jù)的平均值):
AI 工作站搭載 NVIDIA RTX 5880 Ada 的實(shí)測(cè)
NVIDIA RTX 5880 Ada
(圖片源于 NVIDIA)
測(cè)試環(huán)境:
CPU: Intel(R) Xeon(R) w5-3433
內(nèi)存:64G DDR5 * 8
GPU: NVIDIA RTX 5880 Ada * 4
操作系統(tǒng):ubuntu 22.04
Driver Version: 550.107.02
CUDA: 12.1
推理框架:vllm
測(cè)試數(shù)據(jù)(以下數(shù)據(jù)均為多次測(cè)試數(shù)據(jù)的平均值):
噪音測(cè)試
無(wú)論是搭載 4 張 NVIDIA RTX 5880 Ada, 還是 4 張 NVIDIA RTX 5000 Ada 的品牌 AI 工作站,在壓測(cè)情況下機(jī)器出風(fēng)口測(cè)得的噪音水平控制在 50-60 分貝,基本上接近環(huán)境音的水平,辦公室噪音?那是沒(méi)有的!
以上測(cè)試數(shù)據(jù)均來(lái)源于贊奇科技 。
其他配置
CPU 要注意考慮和 GPU 的匹配問(wèn)題。實(shí)際使用中,具有較高核心數(shù)和主頻的CPU 運(yùn)行速度更快,更高的緩存也會(huì)提升運(yùn)行效率。4卡工作站環(huán)境中內(nèi)存建議 256GB 以上,存儲(chǔ)也要依據(jù)使用需求來(lái)確定。
機(jī)箱要考慮電源、噪音、兼容性、擴(kuò)展性等因素,電源的話要計(jì)算所有組件的最大功率消耗并留有余量,以應(yīng)對(duì)峰值和未來(lái)硬件升級(jí)的可能。噪音和散熱情況一定要提前了解,因?yàn)檫@會(huì)直接影響辦公環(huán)境(還有心情)。
當(dāng)然也可以更省事一點(diǎn)兒,參考我們本次測(cè)試所采用的工作站的配置環(huán)境!
第三步
安裝操作系統(tǒng)、配置開(kāi)發(fā)環(huán)境+
AI 工作站到位安裝好后,可以根據(jù)偏好和軟件兼容性,選擇合適的操作系統(tǒng)、驅(qū)動(dòng)程序、軟件等進(jìn)行安裝。同時(shí)配置開(kāi)發(fā)環(huán)境所需的工具、模型、數(shù)據(jù)集等。
當(dāng)然,您也可以聯(lián)系我們,一站式配置好軟硬件相關(guān)的環(huán)境,做到開(kāi)箱即用!
第四步
測(cè)試與優(yōu)化
通過(guò)運(yùn)行一些基本的小型 AI 項(xiàng)目,驗(yàn)證工作站在實(shí)際任務(wù)中的運(yùn)行速度、穩(wěn)定性、散熱情況、噪音等情況。同時(shí)還可以利用 NVIDIA System Management Interface 等工具監(jiān)控 GPU 使用情況,根據(jù)需要調(diào)整代碼或資源配置以提高顯卡效率。
實(shí)際過(guò)程中,大部分靠譜廠商出廠過(guò)程中會(huì)包含上述步驟。此時(shí)我們需要做的工作是在上述環(huán)境準(zhǔn)備完善的前提下,上傳自己的數(shù)據(jù),通過(guò) RAG 或者微調(diào)的方式對(duì)自己的數(shù)據(jù)做一次整理。接下來(lái),就迎接自己內(nèi)部的問(wèn)答機(jī)器人吧!
審核編輯 黃宇
-
機(jī)器人
+關(guān)注
關(guān)注
210文章
28124瀏覽量
205887 -
NVIDIA
+關(guān)注
關(guān)注
14文章
4862瀏覽量
102722 -
AI
+關(guān)注
關(guān)注
87文章
29850瀏覽量
268148
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論