基于Chiplet與片間互聯(lián)技術(shù),800Gb/s RNIC,1.8TB/sNVLink,英偉達(dá)正一步步構(gòu)建出大型AI超算集群。互聯(lián)效率定義LLM效率,互聯(lián)元年正式開啟。
AI春晚GTC開幕,皮衣老黃再次燃爆全場。
時(shí)隔兩年,英偉達(dá)官宣新一代Blackwell架構(gòu),定位直指“新工業(yè)革命的引擎” ,“把AI擴(kuò)展到萬億參數(shù)”。
作為架構(gòu)更新大年,本次大會亮點(diǎn)頗多:
Blackwell架構(gòu)新服務(wù)器,一個(gè)機(jī)柜頂一個(gè)超算
推出AI推理微服務(wù)NIM,要做世界AI的入口
新光刻技術(shù)cuLitho進(jìn)駐臺積電,改進(jìn)產(chǎn)能。
……
8年時(shí)間,AI算力已增長1000倍。
老黃斷言“加速計(jì)算到達(dá)了臨界點(diǎn),通用計(jì)算已經(jīng)過時(shí)了”。
我們需要另一種方式來進(jìn)行計(jì)算,這樣我們才能夠繼續(xù)擴(kuò)展,這樣我們才能夠繼續(xù)降低計(jì)算成本,這樣我們才能夠繼續(xù)進(jìn)行越來越多的計(jì)算。
老黃這次主題演講題目為《見證AI的變革時(shí)刻》,但不得不說,英偉達(dá)才是最大的變革本革。
GPU的形態(tài)已徹底改變
我們需要更大的GPU,如果不能更大,就把更多GPU組合在一起,變成更大的虛擬GPU。
Blackwell新架構(gòu)硬件產(chǎn)品線都圍繞這一句話展開。
通過芯片,與芯片間的連接技術(shù),一步步構(gòu)建出大型AI超算集群。
4nm制程達(dá)到瓶頸,就把兩個(gè)芯片合在一起,以10TB每秒的滿血帶寬互聯(lián),組成B200 GPU,總計(jì)包含2080億晶體管。
沒錯(cuò),B100型號被跳過了,直接發(fā)布的首個(gè)GPU就是B200。
兩個(gè)超級芯片裝到主板上,成為一個(gè)Blackwell計(jì)算節(jié)點(diǎn)。
18個(gè)這樣的計(jì)算節(jié)點(diǎn)共有36CPU+72GPU,組成更大的“虛擬GPU”。
它們之間由今天宣布的NVIDIA Quantum-X800 InfiniBand和Spectrum-X800以太網(wǎng)平臺連接,可提供速度高達(dá)800Gb/s的網(wǎng)絡(luò)。
在NVLink Switch支持下,最終成為“新一代計(jì)算單元”GB200 NVL72。
一個(gè)像這樣的“計(jì)算單元”機(jī)柜,F(xiàn)P8精度的訓(xùn)練算力就高達(dá)720PFlops,直逼H100時(shí)代一個(gè)DGX SuperPod超級計(jì)算機(jī)集群(1000 PFlops)。
與相同數(shù)量的72個(gè)H100相比,GB200 NVL72對于大模型推理性能提升高達(dá)30倍,成本和能耗降低高達(dá)25倍。
把GB200 NVL72當(dāng)做單個(gè)GPU使用,具有1.4EFlops的AI推理算力和30TB高速內(nèi)存。
再用Quantum InfiniBand交換機(jī)連接,配合散熱系統(tǒng)組成新一代DGX SuperPod集群。
DGX GB200 SuperPod采用新型高效液冷機(jī)架規(guī)模架構(gòu),標(biāo)準(zhǔn)配置可在FP4精度下提供11.5 Exaflops算力和240TB高速內(nèi)存。
此外還支持增加額外的機(jī)架擴(kuò)展性能。
最終成為包含32000 GPU的分布式超算集群。
老黃直言,“英偉達(dá)DGX AI超級計(jì)算機(jī),就是AI工業(yè)革命的工廠”。
將提供無與倫比的規(guī)模、可靠性,具有智能管理和全棧彈性,以確保不斷的使用。
在演講中,老黃還特別提到2016年贈送OpenAI的DGX-1,那也是史上第一次8塊GPU連在一起組成一個(gè)超級計(jì)算機(jī)。
從此之后便開啟了訓(xùn)練最大模型所需算力每6個(gè)月翻一倍的增長之路。
GPU新核彈GB200
過去,在90天內(nèi)訓(xùn)練一個(gè)1.8萬億參數(shù)的MoE架構(gòu)GPT模型,需要8000個(gè)Hopper架構(gòu)GPU,15兆瓦功率。
如今,同樣給90天時(shí)間,在Blackwell架構(gòu)下只需要2000個(gè)GPU,以及1/4的能源消耗。
在標(biāo)準(zhǔn)的1750億參數(shù)GPT-3基準(zhǔn)測試中,GB200的性能是H100的7倍,提供的訓(xùn)練算力是H100的4倍。
Blackwell架構(gòu)除了芯片本身外,還包含多項(xiàng)重大革新:
第二代Transformer引擎
動態(tài)為神經(jīng)網(wǎng)絡(luò)中的每個(gè)神經(jīng)元啟用FP6和FP4精度支持。
第五代NVLink高速互聯(lián)
為每個(gè)GPU 提供了1.8TB/s雙向吞吐量,確保多達(dá)576個(gè)GPU之間的無縫高速通信。
Ras Engine(可靠性、可用性和可維護(hù)性引擎)
基于AI的預(yù)防性維護(hù)來運(yùn)行診斷和預(yù)測可靠性問題。
Secure AI
先進(jìn)的加密計(jì)算功能,在不影響性能的情況下保護(hù)AI模型和客戶數(shù)據(jù),對于醫(yī)療保健和金融服務(wù)等隱私敏感行業(yè)至關(guān)重要。
專用解壓縮引擎
支持最新格式,加速數(shù)據(jù)庫查詢,以提供數(shù)據(jù)分析和數(shù)據(jù)科學(xué)的最高性能。
在這些技術(shù)支持下,一個(gè)GB200 NVL72就最高支持27萬億參數(shù)的模型。
而GPT-4根據(jù)泄露數(shù)據(jù),也不過只有1.7萬億參數(shù)。
英偉達(dá)要做世界AI的入口
老黃官宣ai.nvidia.com頁面,要做世界AI的入口。
任何人都可以通過易于使用的用戶界面體驗(yàn)各種AI模型和應(yīng)用。
同時(shí),企業(yè)使用這些服務(wù)在自己的平臺上創(chuàng)建和部署自定義應(yīng)用,同時(shí)保留對其知識產(chǎn)權(quán)的完全所有權(quán)和控制權(quán)。
這上面的應(yīng)用都由英偉達(dá)全新推出的AI推理微服務(wù)NIM支持,可對來自英偉達(dá)及合作伙伴的數(shù)十個(gè)AI模型進(jìn)行優(yōu)化推理。
此外,英偉達(dá)自己的開發(fā)套件、軟件庫和工具包都可以作為NVIDIA CUDA-X微服務(wù)訪問,用于檢索增強(qiáng)生成 (RAG)、護(hù)欄、數(shù)據(jù)處理、HPC 等。
比如通過這些微服務(wù),可以輕松構(gòu)建基于大模型和向量數(shù)據(jù)庫的ChatPDF產(chǎn)品,甚至智能體Agent應(yīng)用。
NIM微服務(wù)定價(jià)非常直觀,“一個(gè)GPU一小時(shí)一美元”,或年付打五折,一個(gè)GPU一年4500美元。
從此,英偉達(dá)NIM和CUDA做為中間樞紐,連接了百萬開發(fā)者與上億GPU芯片。
什么概念?
老黃曬出AI界“最強(qiáng)朋友圈”,包括亞馬遜、迪士尼、三星等大型企業(yè),都已成為英偉達(dá)合作伙伴。
最后總結(jié)一下,與往年相比英偉達(dá)2024年戰(zhàn)略更聚焦AI,而且產(chǎn)品更有針對性。
比如第五代NVLink還特意為MoE架構(gòu)大模型優(yōu)化通訊瓶頸。
新的芯片和軟件服務(wù),都在不斷的強(qiáng)調(diào)推理算力,要進(jìn)一步打開AI應(yīng)用部署市場。
當(dāng)然作為算力之王,AI并不是英偉達(dá)的全部。
這次大會上,還特別宣布了與蘋果在Vision Pro方面的合作,讓開發(fā)者在工業(yè)元宇宙里搞空間計(jì)算。
此前推出的新光刻技術(shù)cuLitho軟件庫也有了新進(jìn)展,被臺積電和新思科技采用,把觸手伸向更上游的芯片制造商。
當(dāng)然也少不了生物醫(yī)療、工業(yè)元宇宙、機(jī)器人汽車的新成果。
以及布局下一輪計(jì)算變革的前沿領(lǐng)域,英偉達(dá)推出云量子計(jì)算機(jī)模擬微服務(wù),讓全球科學(xué)家都能充分利用量子計(jì)算的力量,將自己的想法變成現(xiàn)。
去年GTC大會上,老黃與OpenAI首席科學(xué)家Ilya Sutskever的爐邊對談,仍為人津津樂道。
當(dāng)時(shí)世界還沒完全從ChatGPT的震撼中清醒過來,OpenAI是整個(gè)行業(yè)絕對的主角。
如今Ilya不知蹤影,OpenAI的市場統(tǒng)治力也開始松動。在這個(gè)節(jié)骨眼上,有資格與老黃對談的人換成了8位——
Transformer八子,開山論文《Attention is all you need》的八位作者。
他們已經(jīng)悉數(shù)離開谷歌,其中一位加入OpenAI,另外7位投身AI創(chuàng)業(yè),有模型層也有應(yīng)用層,有toB也有toC。
這八位傳奇人物既象征著大模型技術(shù)真正的起源,又代表著現(xiàn)在百花齊放的AI產(chǎn)業(yè)圖景。在這樣的格局中,OpenAI不過是其中一位玩家。
而就在兩天后,老黃將把他們聚齊,在自己的主場。
要論在整個(gè)AI界的影響力、號召力,在這一刻,無論是“鋼鐵俠”馬斯克還是“奧特曼”Sam Altman,恐怕都比不過眼前這位“皮衣客”黃仁勛。
審核編輯:劉清
-
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3720瀏覽量
90690 -
GPT
+關(guān)注
關(guān)注
0文章
351瀏覽量
15281 -
OpenAI
+關(guān)注
關(guān)注
9文章
1033瀏覽量
6378 -
chiplet
+關(guān)注
關(guān)注
6文章
416瀏覽量
12541 -
AI大模型
+關(guān)注
關(guān)注
0文章
307瀏覽量
276
原文標(biāo)題:英偉達(dá)新核彈B200發(fā)布,一臺服務(wù)器頂一個(gè)超算,萬億參數(shù)大模型30倍推理加速
文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論