中文精品无码亚洲2021,国产精品福利久久香蕉中文

M1芯片 | Uitra| AMD| A100

M2芯片|ARM| A800 | H100

關(guān)鍵詞：M2芯片；Ultra；M1芯片；UltraFusion；ULTRAMAN；RTX4090、A800;A100；H100；LLAMA、LM、AIGC、CHATGLM、LLVM、LLM、LLMs、GLM、NLP、ChatGPT、AGI、HPC、GPU、CPU、CPU+GPU、英偉達、Nvidia、英特爾、AMD、高性能計算、高性能服務(wù)器、藍海大腦、多元異構(gòu)算力、高性能計算、大模型訓(xùn)練、大型語言模型、通用人工智能、GPU服務(wù)器、GPU集群、大模型訓(xùn)練GPU集群、大語言模型

摘要：訓(xùn)練和微調(diào)大型語言模型對于硬件資源的要求非常高。目前，主流的大模型訓(xùn)練硬件通常采用英特爾的CPU和英偉達的GPU。然而，最近蘋果的M2 Ultra芯片和AMD的顯卡進展給我們帶來了一些新的希望。

蘋果的M2 Ultra芯片是一項重要的技術(shù)創(chuàng)新，它為蘋果設(shè)備提供了卓越的性能和能效。與此同時，基于AMD軟硬件系統(tǒng)的大模型訓(xùn)練體系也在不斷發(fā)展，為用戶提供了更多選擇。盡管英偉達沒有推出與蘋果相媲美的200G顯卡，但他們在顯卡領(lǐng)域的競爭仍然激烈。對比蘋果芯片與英偉達、英特爾、AMD的最新硬件和生態(tài)建設(shè)，我們可以看到不同廠商在性價比方面帶來了全新的選擇。

藍海大腦為生成式AI應(yīng)用提供了極具吸引力的算力平臺，與英特爾緊密協(xié)作，為客戶提供強大的大模型訓(xùn)練和推理能力，加速AIGC創(chuàng)新步伐、賦力生成式AI產(chǎn)業(yè)創(chuàng)新。

基于英特爾CPU+英偉達GPU大模型訓(xùn)練基礎(chǔ)架構(gòu)

一、深度學(xué)習架構(gòu)大模型的主要優(yōu)勢

當前主流大模型架構(gòu)都是基于深度學(xué)習transformer的架構(gòu)模型，使用GPU訓(xùn)練深度學(xué)習架構(gòu)的大模型主要有以下優(yōu)勢：

1、高性能計算

深度學(xué)習中的大部分計算都是浮點計算，包括矩陣乘法和激活函數(shù)的計算。GPU在浮點計算方面表現(xiàn)出色，具有高性能計算能力。

2、并行計算能力

GPU具有高度并行的計算架構(gòu)，能夠同時執(zhí)行多個計算任務(wù)。深度學(xué)習模型通常需要執(zhí)行大量的矩陣乘法和向量運算，這些操作可以高度并行的方式進行，從而提高深度學(xué)習模型訓(xùn)練效率。

3、高內(nèi)存帶寬

GPU提供高達幾百GB/s的內(nèi)存帶寬，滿足深度學(xué)習模型對數(shù)據(jù)大容量訪問需求。這種高內(nèi)存帶寬能夠加快數(shù)據(jù)傳輸速度，提高模型訓(xùn)練的效率。

二、當前大多數(shù)大模型采用英特爾的CPU加英偉達的GPU作為計算基礎(chǔ)設(shè)施的原因

盡管GPU在訓(xùn)練大模型時發(fā)揮著重要作用，但單靠GPU遠遠不夠。除GPU負責并行計算和深度學(xué)習模型訓(xùn)練外，CPU在訓(xùn)練過程中也扮演著重要角色，其主要負責數(shù)據(jù)的預(yù)處理、后處理以及管理整個訓(xùn)練過程的任務(wù)。通過GPU和CPU之間的協(xié)同工作，可以實現(xiàn)高效的大規(guī)模模型訓(xùn)練。

1、強大的性能

英特爾最新CPU采用Alder Lake架構(gòu)，具備出色的通用計算能力。而英偉達最新GPU H100擁有3.35TB/s的顯存帶寬、80GB的顯存大小和900GB/s的顯卡間通信速度，對大數(shù)據(jù)吞吐和并行計算提供友好的支持。

2、廣泛的支持和生態(tài)系統(tǒng)

基于英特爾CPU提供的AVX2指令集和基于英偉達GPU提供的CUDA并行計算平臺和編程模型，構(gòu)建優(yōu)秀的底層加速庫如PyTorch等上層應(yīng)用。

3、良好的兼容性和互操作性

在硬件和軟件設(shè)計上考慮彼此配合使用的需求，能夠有效地協(xié)同工作。這種兼容性和互操作性使得英特爾的CPU和英偉達的GPU成為流行的組合選擇，在大規(guī)模模型訓(xùn)練中得到廣泛應(yīng)用。

蘋果的M2 Ultra統(tǒng)一內(nèi)存架構(gòu)

在WWDC2023開發(fā)者大會上蘋果推出M2 Ultra芯片，以及搭載該芯片的新款Mac Studio和Mac Pro。這款芯片采用了第二代5nm制程工藝技術(shù)，是蘋果迄今為止最大且最強大的芯片。

去年3月，蘋果展示了一種將兩塊M1芯片“粘”在一起的設(shè)計，發(fā)布集成1140億顆晶體管、20核CPU、最高64核GPU、32核神經(jīng)網(wǎng)絡(luò)引擎、2.5TB/s數(shù)據(jù)傳輸速率、800GB/s內(nèi)存帶寬、128GB統(tǒng)一內(nèi)存的“至尊版”芯片M1 Ultra。延續(xù)M1 Ultra的設(shè)計思路，M2 Ultra芯片通過采用突破性的UltraFusion架構(gòu)，將兩塊M2 Max芯片拼接到一起，擁有1340億個晶體管，比上一代M1 Ultra多出200億個。

UltraFusion是蘋果在定制封裝技術(shù)方面的領(lǐng)先技術(shù)，其使用硅中介層（interposer）將芯片與超過10000個信號連接起來，從而提供超過2.5TB/s的低延遲處理器間帶寬?；谶@一技術(shù)，M2 Ultra芯片在內(nèi)存方面比M1 Ultra高出了50%，達到192GB的統(tǒng)一內(nèi)存，并且擁有比M2 Max芯片高兩倍的800GB/s內(nèi)存帶寬。以往由于內(nèi)存不足，即使是最強大的獨立GPU也無法處理大型模型。然而，蘋果通過將超大內(nèi)存帶寬集成到單個SoC中，實現(xiàn)單臺設(shè)備可以運行龐大的機器學(xué)習工作負載，如大型Transformer模型等。

AMD的大模型訓(xùn)練生態(tài)

除蘋果的M2 Ultra在大模型訓(xùn)練方面取得了顯著進展之外，AMD的生態(tài)系統(tǒng)也在加速追趕。

據(jù)7月3日消息，NVIDIA以其顯著的優(yōu)勢在顯卡領(lǐng)域獲得了公認的地位，無論是在游戲還是計算方面都有著顯著的優(yōu)勢，而在AI領(lǐng)域更是幾乎壟斷。然而，有好消息傳來，AMD已經(jīng)開始發(fā)力，其MI250顯卡性能已經(jīng)達到了NVIDIA A100顯卡的80%。 AMD在AI領(lǐng)域的落后主要是因為其軟件生態(tài)無法跟上硬件發(fā)展的步伐。盡管AMD的顯卡硬件規(guī)格很高，但其運算環(huán)境與NVIDIA的CUDA相比仍然存在巨大的差距。最近，AMD升級了MI250顯卡，使其更好地支持PyTorch框架。

MosaicML的研究結(jié)果顯示，MI250顯卡在優(yōu)化后的性能提升顯著，大語言模型訓(xùn)練速度已達到A100顯卡的80%。AMD指出，他們并未為MosaicML進行這項研究提供資助，但表示將繼續(xù)與初創(chuàng)公司合作，以優(yōu)化軟件支持。但需要注意的是，NVIDIA A100顯卡是在2020年3月發(fā)布的，已經(jīng)是上一代產(chǎn)品，而NVIDIA目前最新的AI加速卡是H100，其AI性能有數(shù)倍至數(shù)十倍的提升。AMD的MI250顯卡也不是最新產(chǎn)品，其在2021年底發(fā)布，采用CDNA2架構(gòu)，6nm工藝，擁有208個計算單元和13312個流處理器核心，各項性能指標比MI250X下降約5.5%，其他規(guī)格均未變動。

AMD體系的特點如下：

一、LLM訓(xùn)練非常穩(wěn)定

使用AMD MI250和NVIDIA A100在MPT-1B LLM模型上進行訓(xùn)練時，從相同的檢查點開始，損失曲線幾乎完全相同。

二、性能與現(xiàn)有的A100系統(tǒng)相媲美

MosaicML對MPT模型的1B到13B參數(shù)進行了性能分析發(fā)現(xiàn)MI250每個GPU的訓(xùn)練吞吐量在80%的范圍內(nèi)與A100-40GB相當，并且與A100-80GB相比在73%的范圍內(nèi)。隨著AMD軟件的改進，預(yù)計這一差距將會縮小。

三、基本無需代碼修改

得益于PyTorch對ROCm的良好支持，基本上不需要修改現(xiàn)有代碼。

英偉達顯卡與蘋果M2 Ultra 相比性能如何

一、英偉達顯卡與M2 Ultra相比性能如何

在傳統(tǒng)英特爾+英偉達獨立顯卡架構(gòu)下，CPU與GPU之間的通信通常通過PCIe進行。最強大的H100支持PCIe Gen5，傳輸速度為128GB/s，而A100和4090則支持PCIe 4，傳輸速度為64GB/s。

另一個重要的參數(shù)是GPU的顯存帶寬，即GPU芯片與顯存之間的讀寫速度。顯存帶寬是影響訓(xùn)練速度的關(guān)鍵因素。例如，英偉達4090顯卡的顯存帶寬為1.15TB/s，而A100和H100的顯存帶寬分別為1.99TB/s和3.35TB/s。

最后一個重要的參數(shù)是顯存大小，它指的是顯卡上的存儲容量。目前，4090是消費級顯卡的頂級選擇，顯存大小為24GB，而A100和H100單張顯卡的顯存大小均為80GB。這個參數(shù)對于存儲大規(guī)模模型和數(shù)據(jù)集時非常重要。

M2 Ultra的芯片參數(shù)和4090以及A100的對比（CPU采用英特爾最新的i9-13900KS）

從這些參數(shù)來看，蘋果的M2 Ultra相對于英偉達的4090來說性能稍低，與專業(yè)級顯卡相比則較為遜色。然而，M2 Ultra最重要的優(yōu)勢在于統(tǒng)一內(nèi)存，即CPU讀寫的內(nèi)存可以直接被顯卡用作顯存。因此，擁有192GB的顯存幾乎相當于8個4090或者2.5個A100/H100的顯存。這意味著單個M2 Ultra芯片可以容納非常大的模型。例如，當前開源的LLaMA 65B模型需要120GB的顯存才能進行推理。這意味著蘋果的M2 Ultra可以直接適用于LLaMA 65B，而目前沒有其他芯片能夠單獨承載如此龐大的模型，甚至包括最新的H100。

從上述參數(shù)對比來看，M2 Ultra在其他指標接近4090的情況下，顯存大小成為其最大的優(yōu)勢。盡管M2 Ultra并非專為大模型訓(xùn)練而設(shè)計，但其架構(gòu)非常適合進行大模型訓(xùn)練。

在上層生態(tài)方面，進展也非常良好。2022年5月18日，PyTorch宣布支持蘋果芯片，并開始適配M1 Ultra，利用蘋果提供的芯片加速庫MPS進行加速Ultra上使用PyTorch進行訓(xùn)練。以文本生成圖片為例，它能夠一次性生成更多且更高精度的圖片。

二、NVIDIA為什么不推出一款200GB顯存以上的GPU？

主要原因可以分為以下幾點：

1、大語言模型火起來還沒多久；

2、顯存容量和算力是要匹配的，空有192GB顯存，但是算力不足并無意義；

3、蘋果大內(nèi)存，適合在本地進行推理，有希望引爆在端側(cè)部署AI的下一輪熱潮。

從2022年11月ChatGPT火起來到現(xiàn)在，時間也不過才半年時間。從項目立項，到確定具體的規(guī)格，再到設(shè)計產(chǎn)品，并且進行各種測試，最終上市的全流程研發(fā)時間至少在一年以上?？陀^上講，大語言模型形成全球范圍的熱潮，一定會帶動對于顯存容量的需求。英偉達未來顯存容量的升級速度一定會提速。

過去之所以消費級顯卡的顯存容量升級較慢，根本原因是沒有應(yīng)用場景。8GB的消費級顯卡用來打游戲足矣，加速一些視頻剪輯也綽綽有余。更高的顯存容量，只能服務(wù)于少量科研人員，而且大多都去買了專業(yè)卡專門應(yīng)用?，F(xiàn)在有了大語言模型，可以在本地部署一個開源的模型。有了對于顯存的明確需求，未來一定會快速提升顯存容量的。

其次，蘋果有192GB的統(tǒng)一內(nèi)存可以用于大語言模型的“訓(xùn)練”。這個認知是完全錯誤的。AI模型可以分為訓(xùn)練（train）、微調(diào)（fine-tune）和推理(inference)。簡單來說，訓(xùn)練就是研發(fā)人員研發(fā)AI模型的過程，推理就是用戶部署在設(shè)備上來用。從算力消耗上來說，是訓(xùn)練>微調(diào)>推理，訓(xùn)練要比推理的算力消耗高至少3個數(shù)量級以上。

訓(xùn)練也不純粹看一個顯存容量大小，而是和芯片的算力高度相關(guān)的。因為實際訓(xùn)練的過程當中，將海量的數(shù)據(jù)切塊成不同的batch size，然后送入顯卡進行訓(xùn)練。顯存大，意味著一次可以送進更大的數(shù)據(jù)塊。但是芯片算力如果不足，單個數(shù)據(jù)塊就需要更長的等待時間。

顯存和算力，必須要相輔相成。在有限的產(chǎn)品成本內(nèi)，兩者應(yīng)當是恰好在一個平衡點上?，F(xiàn)階段英偉達的H100能夠廣泛用于各大廠商的真實模型訓(xùn)練，而不是只存在于幾個自媒體玩具級別的視頻里面，說明H100能夠滿足廠商的使用需要。

要按蘋果的顯存算法，一塊Grace Hopper就超過了啊。一塊Grace Hopper的統(tǒng)一內(nèi)存高達512GB，外加Hopper還有96GB的獨立顯存，早就超了。

使用NVIDIA H100訓(xùn)練ChatGPT大模型僅用11分鐘

AI技術(shù)的蓬勃發(fā)展使得NVIDIA的顯卡成為市場上備受矚目的熱門產(chǎn)品。尤其是高端的H100加速卡，其售價超過25萬元，然而市場供不應(yīng)求。該加速卡的性能也非常驚人，最新的AI測試結(jié)果顯示，基于GPT-3的大語言模型訓(xùn)練任務(wù)刷新了記錄，完成時間僅為11分鐘。

據(jù)了解，機器學(xué)習及人工智能領(lǐng)域的開放產(chǎn)業(yè)聯(lián)盟MLCommons發(fā)布了最新的MLPerf基準評測。包括8個負載測試，其中就包含基于GPT-3開源模型的LLM大語言模型測試，這對于評估平臺的AI性能提出了很高的要求。

參與測試的NVIDIA平臺由896個Intel至強8462Y+處理器和3584個H100加速卡組成，是所有參與平臺中唯一能夠完成所有測試的。并且，NVIDIA平臺刷新了記錄。在關(guān)鍵的基于GPT-3的大語言模型訓(xùn)練任務(wù)中，H100平臺僅用了10.94分鐘，與之相比，采用96個至強8380處理器和96個Habana Gaudi2 AI芯片構(gòu)建的Intel平臺完成同樣測試所需的時間為311.94分鐘。

H100平臺的性能幾乎是Intel平臺的30倍，當然，兩套平臺的規(guī)模存在很大差異。但即便只使用768個H100加速卡進行訓(xùn)練，所需時間仍然只有45.6分鐘，遠遠超過采用Intel平臺的AI芯片。

H100加速卡采用GH100 GPU核心，定制版臺積電4nm工藝制造，擁有800億個晶體管。它集成了18432個CUDA核心、576個張量核心和60MB的二級緩存，支持6144-bit HBM高帶寬內(nèi)存以及PCIe 5.0接口。

H100計算卡提供SXM和PCIe 5.0兩種樣式。SXM版本擁有15872個CUDA核心和528個Tensor核心，而PCIe 5.0版本則擁有14952個CUDA核心和456個Tensor核心。該卡的功耗最高可達700W。

就性能而言，H100加速卡在FP64/FP32計算方面能夠達到每秒60萬億次的計算能力，而在FP16計算方面達到每秒2000萬億次的計算能力。此外，它還支持TF32計算，每秒可達到1000萬億次，是A100的三倍。而在FP8計算方面，H100加速卡的性能可達每秒4000萬億次，是A100的六倍。

藍海大腦大模型訓(xùn)練平臺

藍海大腦大模型訓(xùn)練平臺提供強大的支持，包括基于開放加速模組高速互聯(lián)的AI加速器。配置高速內(nèi)存且支持全互聯(lián)拓撲，滿足大模型訓(xùn)練中張量并行的通信需求。支持高性能I/O擴展，同時可以擴展至萬卡AI集群，滿足大模型流水線和數(shù)據(jù)并行的通信需求。強大的液冷系統(tǒng)熱插拔及智能電源管理技術(shù)，當BMC收到PSU故障或錯誤警告（如斷電、電涌，過熱），自動強制系統(tǒng)的CPU進入ULFM（超低頻模式，以實現(xiàn)最低功耗）。致力于通過“低碳節(jié)能”為客戶提供環(huán)保綠色的高性能計算解決方案。主要應(yīng)用于深度學(xué)習、學(xué)術(shù)教育、生物醫(yī)藥、地球勘探、氣象海洋、超算中心、AI及大數(shù)據(jù)等領(lǐng)域。

一、為什么需要大模型？

1、模型效果更優(yōu)

大模型在各場景上的效果均優(yōu)于普通模型

2、創(chuàng)造能力更強

大模型能夠進行內(nèi)容生成（AIGC），助力內(nèi)容規(guī)?；a(chǎn)

3、靈活定制場景

通過舉例子的方式，定制大模型海量的應(yīng)用場景

4、標注數(shù)據(jù)更少

通過學(xué)習少量行業(yè)數(shù)據(jù)，大模型就能夠應(yīng)對特定業(yè)務(wù)場景的需求

二、平臺特點

1、異構(gòu)計算資源調(diào)度

一種基于通用服務(wù)器和專用硬件的綜合解決方案，用于調(diào)度和管理多種異構(gòu)計算資源，包括CPU、GPU等。通過強大的虛擬化管理功能，能夠輕松部署底層計算資源，并高效運行各種模型。同時充分發(fā)揮不同異構(gòu)資源的硬件加速能力，以加快模型的運行速度和生成速度。

2、穩(wěn)定可靠的數(shù)據(jù)存儲

支持多存儲類型協(xié)議，包括塊、文件和對象存儲服務(wù)。將存儲資源池化實現(xiàn)模型和生成數(shù)據(jù)的自由流通，提高數(shù)據(jù)的利用率。同時采用多副本、多級故障域和故障自恢復(fù)等數(shù)據(jù)保護機制，確保模型和數(shù)據(jù)的安全穩(wěn)定運行。

3、高性能分布式網(wǎng)絡(luò)

提供算力資源的網(wǎng)絡(luò)和存儲，并通過分布式網(wǎng)絡(luò)機制進行轉(zhuǎn)發(fā)，透傳物理網(wǎng)絡(luò)性能，顯著提高模型算力的效率和性能。

4、全方位安全保障

在模型托管方面，采用嚴格的權(quán)限管理機制，確保模型倉庫的安全性。在數(shù)據(jù)存儲方面，提供私有化部署和數(shù)據(jù)磁盤加密等措施，保證數(shù)據(jù)的安全可控性。同時，在模型分發(fā)和運行過程中，提供全面的賬號認證和日志審計功能，全方位保障模型和數(shù)據(jù)的安全性。

三、常用配置

目前大模型訓(xùn)練多常用H100、H800、A800、A100等GPU顯卡，其中H100 配備第四代 Tensor Core 和 Transformer 引擎（FP8 精度），與上一代產(chǎn)品相比，可為多專家 (MoE) 模型提供高 9 倍的訓(xùn)練速度。通過結(jié)合可提供 900 GB/s GPU 間互連的第四代 NVlink、可跨節(jié)點加速每個 GPU 通信的 NVLINK Switch 系統(tǒng)、PCIe 5.0 以及 NVIDIA Magnum IO? 軟件，為小型企業(yè)到大規(guī)模統(tǒng)一 GPU 集群提供高效的可擴展性。

搭載 H100 的加速服務(wù)器可以提供相應(yīng)的計算能力，并利用 NVLink 和 NVSwitch 每個 GPU 3 TB/s 的顯存帶寬和可擴展性，憑借高性能應(yīng)對數(shù)據(jù)分析以及通過擴展支持龐大的數(shù)據(jù)集。通過結(jié)合使用 NVIDIA Quantum-2 InfiniBand、Magnum IO 軟件、GPU 加速的 Spark 3.0 和NVIDIA RAPIDS?，NVIDIA 數(shù)據(jù)中心平臺能夠以出色的性能和效率加速這些大型工作負載。

1、H100工作站常用配置

CPU：英特爾至強Platinum 8468 48C 96T 3.80GHz 105MB 350W *2

內(nèi)存：動態(tài)隨機存取存儲器64GB DDR5 4800兆赫 *24

存儲：固態(tài)硬盤3.2TB U.2 PCIe第4代 *4

GPU ：Nvidia Vulcan PCIe H100 80GB *8

平臺：HD210 *1

散熱：CPU+GPU液冷一體散熱系統(tǒng) *1

網(wǎng)絡(luò) ：英偉達IB 400Gb/s單端口適配器 *8

電源：2000W(2+2)冗余高效電源 *1

2、A800工作站常用配置

CPU：Intel 8358P 2.6G 11.2UFI 48M 32C 240W *2

內(nèi)存：DDR4 3200 64G *32

數(shù)據(jù)盤：960G 2.5 SATA 6Gb R SSD *2

硬盤：3.84T 2.5-E4x4R SSD *2

網(wǎng)絡(luò)：雙口10G光纖網(wǎng)卡（含模塊）*1

雙口25G SFP28無模塊光纖網(wǎng)卡（MCX512A-ADAT ）*1

GPU：HV HGX A800 8-GPU 8OGB *1

電源：3500W電源模塊*4

其他：25G SFP28多模光模塊 *2

單端口200G HDR HCA卡(型號:MCX653105A-HDAT) *4

2GB SAS 12Gb 8口 RAID卡 *1

16A電源線纜國標1.8m *4

托軌 *1

主板預(yù)留PCIE4.0x16接口 *4

支持2個M.2 *1

原廠質(zhì)保3年 *1

3、A100工作站常用配置

CPU：Intel Xeon Platinum 8358P_2.60 GHz_32C 64T_230W *2

RAM：64GB DDR4 RDIMM服務(wù)器內(nèi)存 *16

SSD1：480GB 2.5英寸SATA固態(tài)硬盤 *1

SSD2：3.84TB 2.5英寸NVMe固態(tài)硬盤 *2

GPU：NVIDIA TESLA A100 80G SXM *8

網(wǎng)卡1：100G 雙口網(wǎng)卡IB 邁絡(luò)思 *2

網(wǎng)卡2：25G CX5雙口網(wǎng)卡 *1

4、H800工作站常用配置

CPU：Intel Xeon Platinum 8468 Processor,48C64T,105M Cache 2.1GHz,350W *2

內(nèi)存：64GB 3200MHz RECC DDR4 DIMM *32

系統(tǒng)硬盤： intel D7-P5620 3.2T NVMe PCle4.0x4 3DTLCU.2 15mm 3DWPD *4

GPU： NVIDIA Tesla H800 -80GB HBM2 *8

GPU網(wǎng)絡(luò)： NVIDIA 900-9x766-003-SQO PCle 1-Port IB 400 OSFP Gen5 *8

存儲網(wǎng)絡(luò) ：雙端口 200GbE IB *1

網(wǎng)卡：25G網(wǎng)絡(luò)接口卡雙端口 *1

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

英特爾

英特爾

+關(guān)注

關(guān)注
60

文章
9862

瀏覽量
171296
蘋果

蘋果

+關(guān)注

關(guān)注
61

文章
24337

瀏覽量
195578
AI

AI

+關(guān)注

關(guān)注
87

文章
29822

瀏覽量
268111
英偉達

英偉達

+關(guān)注

關(guān)注
22

文章
3721

瀏覽量
90693
算力

算力

+關(guān)注

關(guān)注
1

文章
907

瀏覽量
14698
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2279

瀏覽量
2360
H100

H100

+關(guān)注

關(guān)注
0

文章
31

瀏覽量
277

英偉達發(fā)布新一代H200，搭載HBM3e，推理速度是H100兩倍！

電子發(fā)燒友網(wǎng)報道（文/李彎彎）日前，英偉達正式宣布，在目前最強AI芯片H100的基礎(chǔ)上進行一次大升級，發(fā)布新一代H200芯片。H200擁有1

發(fā)表于 11-15 01:15 ?3390次閱讀

<b class='flag-5'>英偉</b><b class='flag-5'>達</b>發(fā)布新一代<b class='flag-5'>H</b>200，搭載HBM3e，推理速度是<b class='flag-5'>H100</b>兩倍！

英偉達H100芯片市場降溫

隨著英偉達新一代AI芯片GB200需求的不斷攀升，其上一代明星產(chǎn)品H100芯片卻遭遇了市場的冷落。據(jù)業(yè)內(nèi)人士透露，搭載H100的服務(wù)器通常以8卡的形式進行出售或出租，而在去年，這類服務(wù)

發(fā)表于 10-28 15:42 ?258次閱讀

蘋果AI模型訓(xùn)練新動向：攜手谷歌，未選英偉達

近日，蘋果公司發(fā)布的最新研究報告揭示了其在人工智能領(lǐng)域的又一重要戰(zhàn)略選擇——采用谷歌設(shè)計的芯片來訓(xùn)練其AI模型，而非行業(yè)巨頭英偉達的產(chǎn)品。這

發(fā)表于 08-01 18:11 ?885次閱讀

進一步解讀英偉達 Blackwell 架構(gòu)、NVlink及GB200 超級芯片

30 倍，能源效率提高了 25 倍。這些提升使得它能夠更快地處理大規(guī)模的人工智能任務(wù)，加速模型的訓(xùn)練和推理過程。 **2. **超級計算機英偉達

發(fā)表于 05-13 17:16

英偉達H200帶寬狂飆

英偉達H200帶寬的顯著提升主要得益于其強大的硬件配置和先進的技術(shù)創(chuàng)新。H200配備了高達141GB的HBM3e顯存，與前代產(chǎn)品H100相比

發(fā)表于 03-07 16:44 ?857次閱讀

英偉達H200顯卡價格

英偉達H200顯卡的具體價格尚未公布。根據(jù)上一代H100顯卡的價格范圍，預(yù)計H200的單片價格將超過40000美元。由于新芯片通常定價較高，

發(fā)表于 03-07 16:09 ?3748次閱讀

英偉達H200和H100的比較

英偉達H200和H100是兩款不同的AI芯片，它們各自具有獨特的特點和優(yōu)勢。以下是關(guān)于這兩款芯片

發(fā)表于 03-07 15:53 ?4042次閱讀

AI計算需求激增，英偉達H100功耗成挑戰(zhàn)

根據(jù)預(yù)測，若H100的年利用率保持在61%，那么單臺設(shè)備每年將耗電3740千瓦小時左右。如果英偉達在2023年售出150萬塊H100，2024年再增加至200萬塊，那么到2024年底，

發(fā)表于 12-28 09:29 ?2151次閱讀

英偉達H100，沒那么缺貨了 !RTX 4090 ，大漲

這樣，在云端使用 H100 GPU 的排隊時間可能會縮短。數(shù)據(jù)中心提供商和前比特幣挖礦公司正在開設(shè)具有 H100 集群的數(shù)據(jù)中心。這些公司承諾以大型云提供商成本的一小部分提供 H100 GPU 計算，而大型云提供商對

發(fā)表于 11-23 15:59 ?1655次閱讀

英偉達推出用于人工智能工作的頂級芯片HGX H200

近日，英偉達推出了一款用于人工智能工作的頂級芯片HGX H200。新的GPU升級了需求巨大的H100，內(nèi)存帶寬增加了1.4倍，內(nèi)存容量增加了

發(fā)表于 11-15 14:34 ?1430次閱讀

英偉達特供版芯片性能降80%！

報道中提到，英偉達的這三款AI芯片并非“改良版”，而是“縮水版”，其分別是HGX H20、L20 PCle和L2 PCle。用于AI

發(fā)表于 11-14 17:09 ?883次閱讀

英偉達推出新款A(yù)I芯片H200 性能飆升90%但是估計依然被出口管制

生成式AI火爆全球之后，英偉達的AI芯片一張難求，就在英偉達重量級選手H100 AI芯片目前依然是一貨難求的情況下，

發(fā)表于 11-14 16:45 ?1463次閱讀

英偉達特供版芯片將上市：性能最高不到H100的20%

本周四，一些媒體首次報道了英偉達特供芯片的消息。報道稱，這三款新產(chǎn)品是在 H100 GPU 的基礎(chǔ)版本基礎(chǔ)上進行修改的，采用的是最新架構(gòu)，但性能大幅度縮減。

發(fā)表于 11-13 16:44 ?916次閱讀

英偉達確認為中國推三款改良AI芯片性能暴降80%

據(jù)報道，nvidia的3種ai芯片不是“改良版”，而是“縮水版”，分別是hgx h20、l20 pcle和l2 pcle。用于ai模型訓(xùn)練的hgx

發(fā)表于 11-13 10:46 ?722次閱讀

傳英偉達新AI芯片H20綜合算力比H100降80%

但據(jù)悉，三種新型AI芯片不是“改良型”，而是“縮小型”。用于ai模型教育的hgx h20的帶寬和計算速度是有限的。整體計算能力理論上比nvidia的h100 gpu芯片低80%左右。h

發(fā)表于 11-13 09:41 ?1636次閱讀

搜索歷史

英偉達 H100 vs 蘋果M2 大模型訓(xùn)練，哪款性價比更高？

評論

英偉達發(fā)布新一代H200，搭載HBM3e，推理速度是H100兩倍！

英偉達H100芯片市場降溫

蘋果AI模型訓(xùn)練新動向：攜手谷歌，未選英偉達

進一步解讀英偉達 Blackwell 架構(gòu)、NVlink及GB200 超級芯片

英偉達H200帶寬狂飆

英偉達H200顯卡價格

英偉達H200和H100的比較

AI計算需求激增，英偉達H100功耗成挑戰(zhàn)

英偉達H100，沒那么缺貨了 !RTX 4090 ，大漲

英偉達推出用于人工智能工作的頂級芯片HGX H200

英偉達特供版芯片性能降80%！

英偉達推出新款A(yù)I芯片H200 性能飆升90%但是估計依然被出口管制

英偉達特供版芯片將上市：性能最高不到H100的20%

英偉達確認為中國推三款改良AI芯片性能暴降80%

傳英偉達新AI芯片H20綜合算力比H100降80%

搜索歷史

英偉達 H100 vs 蘋果M2 大模型訓(xùn)練，哪款性價比更高？

評論

英偉達 H100 vs 蘋果M2 大模型訓(xùn)練，哪款性價比更高？