国产野外无码理论片在线观看视频,欧美激情专区

前言：人工智能推理的重要性日益凸顯，高效運(yùn)行端側(cè)大模型及AI軟件背后的核心技術(shù)正是推理。不久的未來，全球芯片制造商的主要市場將全面轉(zhuǎn)向人工智能推理領(lǐng)域。

Groq LPU崛起，AI芯片主戰(zhàn)場轉(zhuǎn)向

與AI訓(xùn)練相比，AI推理與用戶終端場景需求更為緊密，訓(xùn)練后的大規(guī)模模型需通過AI推理實(shí)際應(yīng)用到場景中。

然而，目前基于英偉達(dá)GPU的AI推理方案成本較高，性能和時(shí)延問題影響了用戶體驗(yàn)。

在Groq LPU亮相之前，大型AI模型的訓(xùn)練和推理均依賴于英偉達(dá)GPU，并采用CUDA軟件技術(shù)棧。

然而，Groq LPU的迅速崛起使市場開始猜測AI芯片的主戰(zhàn)場或?qū)挠?xùn)練轉(zhuǎn)向推理。

Groq LPU推理卡從硬件層面解決了性能和成本問題，使AI推理大規(guī)模部署成為可能，推動更多AI推理類應(yīng)用落地。

與此同時(shí)，AI推理需求的增長將進(jìn)一步推動云端推理芯片的發(fā)展，尤其是更多可替代英偉達(dá)GPU的新一代專用推理芯片將應(yīng)用于數(shù)據(jù)中心。

在推理階段，AI模型需以極致速度運(yùn)行，旨在為終端用戶提供更多的Token，從而加快響應(yīng)用戶指令的速度。

需求帶動，重心從訓(xùn)練轉(zhuǎn)向推理

AI推理領(lǐng)域與大規(guī)模消費(fèi)電子等應(yīng)用終端需求緊密相關(guān)，因此，行業(yè)發(fā)展重心有望從[訓(xùn)練]全面轉(zhuǎn)向[推理]。

相較于AI訓(xùn)練，推理領(lǐng)域在[海量數(shù)據(jù)轟炸]應(yīng)用背景下的GPU并行化算力需求遠(yuǎn)低于訓(xùn)練領(lǐng)域。

推理進(jìn)程涉及已訓(xùn)練模型的決策或識別，擅長處理復(fù)雜邏輯任務(wù)和控制流任務(wù)的以CPU為核心的中央處理器足以高效應(yīng)對諸多推理場景。

當(dāng)前，AI市場主要集中在使用大數(shù)據(jù)訓(xùn)練大語言模型的[訓(xùn)練]階段，英偉達(dá)成為這一領(lǐng)域的主要受益者。

然而，隨著AI大模型變得更精簡、可在設(shè)備上運(yùn)行并專注于推理任務(wù)，芯片制造商的市場重心將轉(zhuǎn)向[推理]，即模型應(yīng)用。

展望產(chǎn)業(yè)發(fā)展趨勢，AI算力負(fù)載有望逐步從訓(xùn)練向推理端遷移，從而降低AI芯片門檻。

覆蓋可穿戴設(shè)備、電動汽車及物聯(lián)網(wǎng)等領(lǐng)域的芯片公司有望全面滲透至AI推理芯片領(lǐng)域。

預(yù)計(jì)數(shù)據(jù)中心也將對專門用于已訓(xùn)練模型推理任務(wù)的處理器產(chǎn)生興趣，共同推動推理市場規(guī)模超越訓(xùn)練市場。

預(yù)計(jì)在一到兩年內(nèi)，AI大模型在訓(xùn)練端和推理端都將產(chǎn)生巨量的算力/AI芯片需求。

如果未來大模型廣泛商用落地，推理端的算力/AI芯片的需求量將明顯高于訓(xùn)練端。

經(jīng)過兩到三年的AI訓(xùn)練用數(shù)據(jù)中心升級周期后，市場將看到更多來自推理芯片供應(yīng)商的銷量。

AI推理漸多，企業(yè)與資本也向推理轉(zhuǎn)移

AMD CEO蘇姿豐認(rèn)為：未來大模型推理市場的規(guī)模將遠(yuǎn)遠(yuǎn)大于模型訓(xùn)練市場。

英特爾CEO基辛格表示：當(dāng)推理發(fā)生時(shí)，就不存在CUDA依賴性了，并不是說英特爾不會在訓(xùn)練領(lǐng)域展開競爭，而是從根本上說，推理市場才是競爭的焦點(diǎn)。

扎克伯格認(rèn)為：很明顯，下一代服務(wù)需要構(gòu)建全面的通用智能、構(gòu)建最好的AI助手、為企業(yè)創(chuàng)造者以及更多要在AI各個(gè)領(lǐng)域取得進(jìn)步——從推理到規(guī)劃到編碼到記憶和其他認(rèn)知能力。

伴隨著企業(yè)AI應(yīng)用逐步成熟，企業(yè)將把更多算力從模型訓(xùn)練轉(zhuǎn)移到AI推理工作中。

在芯片需求方面，訓(xùn)練芯片注重通用性，而推理芯片則與已訓(xùn)練完成的大模型具有高度綁定性。

隨著大模型應(yīng)用的不斷深化，推理需求也逐漸從云端遷移至邊緣/終端，并呈現(xiàn)出定制化的發(fā)展趨勢。

在全球AI芯片市場，先推理后訓(xùn)練成為主流路徑，例如英特爾收購的AI芯片公司Habana以及我國諸多AI初創(chuàng)公司。

這一選擇背后，是下游市場的催化作用：隨著AI模型訓(xùn)練逐漸成熟，AI應(yīng)用逐步落地，云端推理市場已逐漸超過訓(xùn)練市場。

人工智能計(jì)算資源正由訓(xùn)練大規(guī)模AI模型逐步轉(zhuǎn)向推理，因此在客戶端、邊緣和云之間需要構(gòu)建更為均衡的基礎(chǔ)設(shè)施。

據(jù)估計(jì)，全球已有超過18家致力于AI大模型訓(xùn)練和推理的芯片設(shè)計(jì)初創(chuàng)公司，累計(jì)獲得超過60億美元融資，整體估值超過250億美元。

這些創(chuàng)業(yè)公司得到了諸如紅杉資本、OpenAI、五源資本、字節(jié)跳動等強(qiáng)大投資方的支持。

同時(shí)，微軟、英特爾、AMD等科技巨頭也在加大[造芯]力度，使得英偉達(dá)面臨前所未有的競爭壓力。

與英偉達(dá)競速，各企業(yè)從細(xì)分領(lǐng)域突破

為降低模型訓(xùn)練與推理成本，業(yè)界持續(xù)探索實(shí)現(xiàn)高能效和高性能芯片架構(gòu)的更多可能性。

觀察諸如Meta、亞馬遜、Alphabet等科技巨頭，它們均在研發(fā)自家的AI芯片。

這些芯片更具專業(yè)性和明確目標(biāo)，相較之下，英偉達(dá)的芯片則具備更高的通用性。

①AMD：最新發(fā)布的MI300包括兩大系列，MI300X系列是一款大型GPU，擁有領(lǐng)先的生成式AI所需的內(nèi)存帶寬和大語言模型所需的訓(xùn)練和推理性能；

MI300A系列集成CPU+GPU，基于最新的CDNA3架構(gòu)和Zen4 CPU，可以為HPC和AI工作負(fù)載提供突破性能。

去年12月，AMD在推出旗艦MI300X加速卡之外，還宣布Instinct MI300A APU已進(jìn)入量產(chǎn)階段，預(yù)估今年開始交付，上市后有望成為世界上最快的HPC解決方案。

去年7月，英特爾公司在北京發(fā)布了一款針對中國市場、采用7納米工藝的AI芯片Habana Gaudi2，該芯片可運(yùn)行大語言模型，加速AI訓(xùn)練及推理。

其運(yùn)行ResNet-50的每瓦性能約為英偉達(dá)A100的2倍，性價(jià)比相較于AWS云中基于英偉達(dá)的解決方案高出40%。

②英特爾：宣布與Arm公司合作，使其至強(qiáng)產(chǎn)品部署到Arm CPU上，并推出AI推理和部署運(yùn)行工具套件OpenVINO。

此外，開源模型如LIama2陸續(xù)發(fā)布，促使更多企業(yè)直接使用這些模型，僅需AI推理芯片即可應(yīng)用，從而減少了對算力訓(xùn)練芯片的需求。

英特爾去年年底推出了新的計(jì)算機(jī)芯片，其中包括用于生成人工智能軟件的人工智能芯片Gaudi3。

Gaudi3將于今年推出，將與英偉達(dá)和AMD等競爭對手的芯片競爭，為大型且耗電的人工智能模型提供動力。

③Meta：計(jì)劃在今年投產(chǎn)自研芯片，降低AI加速卡采購成本，減少對英偉達(dá)的依賴。

該芯片功耗僅25瓦，為英偉達(dá)相同產(chǎn)品功耗的0.05%，并采用RISC-V開源架構(gòu)。市場消息透露，該芯片由臺積電7納米工藝生產(chǎn)。

Meta近期宣布已構(gòu)建自有DLRM推理芯片，并已廣泛部署。

這款ASIC內(nèi)部被稱為[Artemis]，主要性能集中在推理領(lǐng)域，基于去年宣布的第二代內(nèi)部芯片產(chǎn)品線。

扎克伯格在視頻中透露了Meta人工智能計(jì)劃的更新路線圖：Meta將圍繞即將推出的Llama3構(gòu)建全新的Meta AI路線圖，目前正在推進(jìn)Llama3的AI訓(xùn)練。

Llama3將與Google最近發(fā)布的Gemini模型、OpenAI的GPT-4，以及即將推出的GPT-5模型競爭。

④英偉達(dá)：去年8月，英偉達(dá)宣布推出新一代GH200 Grace Hopper超級芯片，新芯片將于今年第二季投產(chǎn)。

GH200和GH200NVL將采用基于Arm的CPU和Hopper解決大型語言模型的訓(xùn)練和推理問題。

英偉達(dá)計(jì)劃基于x86架構(gòu)推出B100替代H200，并基于ARM架構(gòu)的推理芯片GB200替代GH200。

此外，英偉達(dá)還規(guī)劃了B40產(chǎn)品來替代L40S，以提供更好的面向企業(yè)客戶的AI推理解決方案。

根據(jù)英偉達(dá)計(jì)劃于今年發(fā)布Blackwell架構(gòu)，采用該架構(gòu)的B100 GPU芯片預(yù)計(jì)將大幅提高處理能力。

初步評估數(shù)據(jù)表明，與現(xiàn)有采用Hopper架構(gòu)的H200系列相比，性能提升超過100%。

⑤亞馬遜：去年初，AWS發(fā)布專為人工智能打造的Inferentia2（Inf2），計(jì)算性能提高三倍，加速器總內(nèi)存提高25%，支持分布式推理。

通過芯片之間的直接超高速連接，Inf2支持分布式推理，可以處理多達(dá)1750億個(gè)參數(shù)，使其成為當(dāng)今人工智能芯片市場上最強(qiáng)大的內(nèi)部制造商。

單點(diǎn)突破有收獲，國產(chǎn)有望追平

與此同時(shí)，我國華為、天數(shù)智芯等AI芯片制造商也在積極布局大模型訓(xùn)練推理及AI算力產(chǎn)品。

當(dāng)前，我國廠商如寒武紀(jì)、燧原、昆侖芯等的產(chǎn)品已具備與市場主流的Tesla T4正面競爭的實(shí)力：其能效比為1.71TOPS/W，與T4的1.86TOPS/W差距微小。

選擇GPGPU的登臨科技、天數(shù)智芯、燧原科技已實(shí)現(xiàn)訓(xùn)練與推理的全面覆蓋，而ASIC類芯片如平頭哥，則需專注于推理或訓(xùn)練場景。

①億鑄科技：基于CIM框架、RRAM存儲介質(zhì)的研發(fā)的[全數(shù)字存算一體]大算力芯片，通過降低數(shù)據(jù)搬運(yùn)提高運(yùn)算能效比，同時(shí)借助數(shù)字存算一體方法確保運(yùn)算精度，適用于云端AI推理和邊緣計(jì)算。

②寒武紀(jì)：思元370作為寒武紀(jì)第三代云端產(chǎn)品，運(yùn)用7納米制程工藝，成為我國首款采用Chiplet技術(shù)的AI芯片，其最大算力可達(dá)256TOPS（INT8）。

寒武紀(jì)主要采用ASIC架構(gòu)，雖通用性較差，但在特定應(yīng)用場景下，其算力可超越GPU。

有測試結(jié)果顯示，590性能接近A100的90%性能；590基本支持主流模型，綜合性能接近A100的80%水平。

此外，思元370也是寒武紀(jì)首款采用Chiplet技術(shù)的AI芯片，集成了390億個(gè)晶體管，最大算力高達(dá)256TOPS（INT8）。

③平頭哥：去年8月，平頭哥發(fā)布首個(gè)自研RISC-V AI平臺，支持運(yùn)行170余個(gè)主流AI模型，推動RISC-V進(jìn)入高性能AI應(yīng)用時(shí)代。

同時(shí)，平頭哥宣布玄鐵處理器C920全新升級，C920執(zhí)行GEMM計(jì)算較Vector方案可提速15倍。

④壁仞科技：其BR100系列基于自主原創(chuàng)的芯片架構(gòu)開發(fā)，采用成熟的7納米工藝制程，集成770億晶體管，16位浮點(diǎn)算力達(dá)到1000T以上、8位定點(diǎn)算力達(dá)到2000T以上，單芯片峰值算力達(dá)到PFLOPS級別。

同時(shí)，BR100結(jié)合了包括Chiplet等在內(nèi)的多項(xiàng)業(yè)內(nèi)前沿芯片設(shè)計(jì)、制造與封裝技術(shù)，具有高算力、高能效、高通用性等優(yōu)勢。

⑤燧原科技：成立5年多來，已建成云端訓(xùn)練和云端推理兩條產(chǎn)品線，并開發(fā)出云燧T10、云燧T20/T21訓(xùn)練產(chǎn)品以及云燧i10、云燧i20等推理產(chǎn)品。

據(jù)媒體報(bào)道，燧原科技第三代AI芯片產(chǎn)品將于今年初上市。

⑥華為：昇騰310是面向推理和邊緣計(jì)算場景的低功耗芯片，是國內(nèi)面向邊緣計(jì)算場景最強(qiáng)算力的AI SoC。

昇騰310芯片可以實(shí)現(xiàn)高達(dá)16Tops的現(xiàn)場算力，支持同時(shí)識別包括車、人、障礙物、交通標(biāo)志在內(nèi)的200個(gè)不同的物體；一秒鐘內(nèi)可處理上千張圖片。

華為昇騰系列AI芯片具備一項(xiàng)獨(dú)特優(yōu)勢，即采用了華為自主研發(fā)的統(tǒng)一且可擴(kuò)展的架構(gòu)。

這一架構(gòu)實(shí)現(xiàn)了從極低功耗到極高算力場景的全覆蓋，使得一次開發(fā)即可適用于所有場景的部署、遷移及協(xié)同，從而顯著提升了軟件開發(fā)效率。

結(jié)尾：

隨著大模型在各類場景中的應(yīng)用日益廣泛，推理環(huán)節(jié)的重要性日益凸顯。

因此，我們需要關(guān)注推理芯片的計(jì)算需求和系統(tǒng)配置，以降低成本、提升易用性，進(jìn)而促進(jìn)大模型在各個(gè)領(lǐng)域的迅速普及。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1787

文章
46060

瀏覽量
234955
中央處理器

中央處理器

+關(guān)注

關(guān)注
1

文章
123

瀏覽量
16442
AI芯片

AI芯片

+關(guān)注

關(guān)注
17

文章
1828

瀏覽量
34663
OpenAI

OpenAI

+關(guān)注

關(guān)注
9

文章
988

瀏覽量
6252
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2134

瀏覽量
1971

原文標(biāo)題：深度丨AI芯片主戰(zhàn)場：從訓(xùn)練轉(zhuǎn)向推理？

文章出處：【微信號：World_2078，微信公眾號：AI芯天下】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

刷屏的Groq芯片，速度遠(yuǎn)超英偉達(dá)GPU！成本卻遭質(zhì)疑

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）英偉達(dá)遇到勁敵了？近日，Groq芯片計(jì)算速度超過英偉達(dá)GPU的消息刷屏。Groq是一家成立于2016年的AI創(chuàng)企，該公司近日開放了自家產(chǎn)品的免費(fèi)試用，相比

發(fā)表于 02-22 09:06 ?3347次閱讀

沙特阿美攜手Groq打造全球最大推理數(shù)據(jù)中心

石油巨頭沙特阿美與AI芯片創(chuàng)新企業(yè)Groq宣布了一項(xiàng)重大合作，雙方將共同在沙特阿拉伯建設(shè)一座全球規(guī)模領(lǐng)先的推理數(shù)據(jù)中心。據(jù)Groq官網(wǎng)消息，

發(fā)表于 09-19 18:03 ?322次閱讀

AMD助力HyperAccel開發(fā)全新AI推理服務(wù)器

（ LLM ）的推理，此類模型通常具有數(shù)十億個(gè)參數(shù)，例如 OpenAI 的 ChatGPT 和 Meta 的 Llama 3 等 Llama LLM。其 AI 芯片名為時(shí)延處理單元（ LPU

發(fā)表于 09-18 09:37 ?160次閱讀

蘋果承認(rèn)使用谷歌芯片來訓(xùn)練AI

蘋果公司最近在一篇技術(shù)論文中披露，其先進(jìn)的人工智能系統(tǒng)Apple Intelligence背后的兩個(gè)關(guān)鍵AI模型，是在谷歌設(shè)計(jì)的云端芯片上完成預(yù)訓(xùn)練的。這一消息標(biāo)志著在尖端AI

發(fā)表于 07-30 17:03 ?597次閱讀

AI訓(xùn)練的基本步驟

AI（人工智能）訓(xùn)練是一個(gè)復(fù)雜且系統(tǒng)的過程，它涵蓋了從數(shù)據(jù)收集到模型部署的多個(gè)關(guān)鍵步驟。以下是對AI訓(xùn)練過程的詳細(xì)闡述，包括每個(gè)步驟的具體內(nèi)

發(fā)表于 07-17 16:57 ?837次閱讀

邊緣側(cè)AI芯片提供商超星未來完成數(shù)億元 Pre-B輪融資

在AI產(chǎn)業(yè)生態(tài)中，計(jì)算芯片被視為行業(yè)的“賣水人”。依據(jù)云端/邊緣端、訓(xùn)練/推理兩大分類標(biāo)準(zhǔn)，AI芯片

發(fā)表于 05-09 09:38 ?436次閱讀

AI推理，和訓(xùn)練有什么不同？

如果要用一句話概括AI的訓(xùn)練和推理的不同之處，我覺得用“臺上一分鐘，臺下十年功”最為貼切。話說小明已經(jīng)和心目中的女神交往數(shù)年，在邀約女神出門這件事上積累了大量的經(jīng)驗(yàn)數(shù)據(jù)，但卻依然捉摸不透其中的玄機(jī)

發(fā)表于 04-29 08:06 ?210次閱讀

開發(fā)者手機(jī) AI - 目標(biāo)識別 demo

。 NNRt host 實(shí)現(xiàn)了NNRt HDI接口功能，通過對接底層AI芯片接口為上層應(yīng)用提供NPU硬件推理的能力。功能實(shí)現(xiàn) JS從相機(jī)數(shù)據(jù)流獲取一張圖片，調(diào)用Native的接口

發(fā)表于 04-11 16:14

英偉達(dá)要小心了！爆火的Groq芯片能翻盤嗎？AI推理速度「吊打」英偉達(dá)？

隨著科技的飛速發(fā)展，人工智能公司Groq挑戰(zhàn)了英偉達(dá)的王者地位，其AI芯片不僅展現(xiàn)出卓越的實(shí)力，還擁有巨大的潛力。Groq設(shè)計(jì)了一種獨(dú)特的推理

發(fā)表于 03-08 09:44 ?699次閱讀

Groq收購Definitive intelligence，提升云平臺能力

　Groq去年1月發(fā)布新型人工智能芯片LPU（語言處理單元），近來引發(fā)市場熱烈反響——眾多公開測試以及客戶實(shí)測顯示，其低延遲與高吞吐量優(yōu)勢顯著，尤其是AI

發(fā)表于 03-04 09:49 ?386次閱讀

黑馬Groq單挑英偉達(dá)，AI芯片要變天？

從AI訓(xùn)練到AI推理

發(fā)表于 02-26 12:01 ?265次閱讀

Groq推出大模型推理芯片超越了傳統(tǒng)GPU和谷歌TPU

Groq推出了大模型推理芯片，以每秒500tokens的速度引起轟動，超越了傳統(tǒng)GPU和谷歌TPU。

發(fā)表于 02-26 10:24 ?820次閱讀

AI算法在RZ/V芯片中的移植推理流程

之前文章已介紹了一些AI算法Demo的應(yīng)用，我們提供從模型訓(xùn)練到RZ/V系列嵌入式端推理應(yīng)用的完整流程。整體流程如下圖所示。

發(fā)表于 12-20 12:21 ?914次閱讀

HarmonyOS：使用MindSpore Lite引擎進(jìn)行模型推理

場景介紹 MindSpore Lite 是一款 AI 引擎，它提供了面向不同硬件設(shè)備 AI 模型推理的功能，目前已經(jīng)在圖像分類、目標(biāo)識別、人臉識別、文字識別等應(yīng)用中廣泛使用。本文介紹

發(fā)表于 12-14 11:41

安筱鵬：制造業(yè)是AI大模型應(yīng)用的主戰(zhàn)場

這一輪AI所體現(xiàn)“革命性”特征，不是AI可以生成文字、可以生成圖片，而是AI可以生成代碼，構(gòu)建人機(jī)交互新模式，與產(chǎn)品研發(fā)、工藝設(shè)計(jì)、生產(chǎn)作業(yè)、產(chǎn)品運(yùn)營等制造環(huán)節(jié)、場景相結(jié)合，提升生產(chǎn)效率，形成新生產(chǎn)力，并引發(fā)產(chǎn)業(yè)競爭格局重構(gòu)。

發(fā)表于 11-30 16:09 ?611次閱讀