极品私人尤物在线精品视频,对白精彩刺激在线播放

大模型對(duì)算力的需求主要體現(xiàn)在訓(xùn)練端：在考慮互聯(lián)損失的情況下，Chatgpt需要一萬張A100作為算力基礎(chǔ)，算力的硬件投資規(guī)模達(dá)到10億人民幣。

國內(nèi)大模型與國外的主要差距是算力層面，沒有算力基礎(chǔ)，后面算法等發(fā)展都無法進(jìn)行大模型應(yīng)用場景會(huì)率先爆發(fā)于：工具鏈層面，如ChatGPT和Office產(chǎn)品結(jié)合，提高交互和工作效率；語音交互層面，如智能音箱、智能座艙和智能家居等。

國內(nèi)AI 芯片廠商格局：一梯隊(duì)，有成熟產(chǎn)品、批量出貨的企業(yè)，包括寒武紀(jì)、華為海思、百度昆侖芯、燧原科技等；二梯隊(duì)，以AI芯片起家的壁仞科技、天數(shù)智心、摩爾線程、沐曦等；三梯隊(duì)，如海光、景嘉微等

國內(nèi)AI芯片與A100的差距：已經(jīng)批量生產(chǎn)的產(chǎn)品，大多都是A100的上一代；各公司正在研發(fā)的相關(guān)產(chǎn)品，如昆侖芯三代、思遠(yuǎn)590、燧思3.0 等，都是對(duì)標(biāo)A100，但由于“實(shí)體清單”的限制以及研發(fā)水平的原因，都還沒有推到市場

寒武紀(jì)思元590與英偉達(dá)的差距：寒武紀(jì)主要還是ASIC架構(gòu)，劣勢是通用性會(huì)比較差，優(yōu)勢是某些特定應(yīng)用場景下，算力可以做到比GPU更高；百度內(nèi)部的測試結(jié)果，590性能接近A100 90%的性能；590基本支持主流的模型，綜合性能接近A100 80%的水平

英偉達(dá)A800和H800的出貨量預(yù)期：訓(xùn)練芯片，國內(nèi)將有近200億RMB的采購規(guī)模；推理芯片，預(yù)計(jì)采購金額達(dá)100億RMB；國內(nèi)對(duì)英偉達(dá)總的采購需求約為300億RMB。

Q：大模型在算力端帶來了哪些新的需求？

算力需求主要分為兩部分，包括訓(xùn)練算力和推理算力。

目前來說對(duì)訓(xùn)練算力需求非常高，ChatGPT的公開數(shù)據(jù)顯示它的整個(gè)訓(xùn)練算力消耗非常大，達(dá)到了3640PF-days(即假如每秒計(jì)算一千萬億次，需要計(jì)算3640天)，換算成英偉達(dá)A100芯片，它單卡算力相當(dāng)于0.6P的算力，理想情況下總共需要大概6000張，在考慮互聯(lián)損失的情況下，需要一萬張A100作為算力基礎(chǔ)。

在A100芯片10萬人民幣/張的情況下，算力的硬件投資規(guī) 模達(dá)到10億人民幣。而整個(gè)的數(shù)據(jù)中心還需要推理算力以及服務(wù)器等，規(guī)模應(yīng)該在100億人民幣以上。

Q：大模型對(duì)計(jì)算的需求和以往有什么差別？

具體包括在算力，互聯(lián)等方面以往大多都是數(shù)據(jù)中心，超算中心以及各大互聯(lián)網(wǎng)公司的云計(jì)算中心會(huì)有相關(guān)的算力基礎(chǔ)設(shè)施需求。

訓(xùn)練端：訓(xùn)練算力相關(guān)設(shè)備主要是英偉達(dá)的A100和H100，推理算力主要是英偉達(dá)T4卡。ChatGPT的發(fā)布使得算力需求增加了，以前算力的商業(yè) 應(yīng)用并沒有特別多，主要是推理端像圖像識(shí)別、語音識(shí)別等。大模型的爆發(fā)會(huì)導(dǎo)致訓(xùn)練的應(yīng)用場景越來越多，對(duì)訓(xùn)練算力的需求會(huì)大幅增長，增長幅度能達(dá)到10倍甚至100倍。

推理端：也會(huì)有相應(yīng)的增長，但幅度不會(huì)這么大。

Q：做好一個(gè)大模型的最低門檻就是1萬塊A100的芯片，這個(gè)說法準(zhǔn)確嗎？

如果對(duì)標(biāo)的模型是ChatGPT，那是需要這樣的硬件需求的。但百度文心一言沒有達(dá)到這個(gè)芯片規(guī)模，訓(xùn)練算力沒有達(dá)到ChatGPT的水平，尤其是在上下文互動(dòng)和邏輯上有較大缺陷。

主要問題是文心一言的訓(xùn)練精度不夠，這是因?yàn)樗懔Ρ旧淼南拗啤?/p>

國內(nèi)目前大模型主要是算力層面和國外差距比較大，這也是制約國內(nèi)大模型發(fā)展的客觀因素，沒有算力基礎(chǔ)，后面算法等發(fā)展都無法進(jìn)行。

Q：互聯(lián)網(wǎng)大廠囤芯片以防斷供的具體情況？

2022年美國限制英偉達(dá)和AMD向國內(nèi)出售高性能計(jì)算芯片，國內(nèi)互聯(lián)網(wǎng)大廠意識(shí)到風(fēng)險(xiǎn)，去找英偉達(dá)購買。但因?yàn)閺南聠蔚侥秘浀闹芷谳^長，國內(nèi)互聯(lián)網(wǎng)廠商的優(yōu)先級(jí)較低，國內(nèi)互聯(lián)網(wǎng)大廠買到的A100以及H100芯片數(shù)量是比較有限的。

Q：中國特供版A800和H800與A100和H100的具體差距？

主要差距是互聯(lián)帶寬的下降。A800的互聯(lián)帶寬從A100的600GB/S下降到400GB/S，H800的互聯(lián)帶寬從H100的900GB/S下降到450GB/S。本身單卡的算力不變，但是集群后，卡間互聯(lián)的帶寬會(huì)限制整個(gè)集群的算力規(guī)模。

Q：國內(nèi)目前GPU芯片能不能支撐大模型的需求？

國內(nèi)目前的相關(guān)產(chǎn)品都和A100有所差距。

一部分是已經(jīng)批量生產(chǎn)的產(chǎn)品，大多都是A100的上一代，比如寒武紀(jì)的思元290、百度的昆侖芯二代、燧原科技的燧思2.0的算力水平都落后于 A100一代。

還有各公司正在研發(fā)的相關(guān)產(chǎn)品，比如昆侖芯三代、思遠(yuǎn)590、燧思3.0等，這些產(chǎn)品都是對(duì)標(biāo)A100，但由于“實(shí)體清單”的限制以及研發(fā)水平的原因，這些產(chǎn)品都還沒有推到市場。華為的昇騰910芯片，也是受限于公司被制裁，沒有大規(guī)模的出貨以及銷售，可能在政府的計(jì)算中心有所使用，但對(duì)商用客戶端幫助有限。

Q：哪些芯片相關(guān)企業(yè)會(huì)受益于大模型的浪潮？

首先是算力芯片，包括英偉達(dá)的A100和H100，以及寒武紀(jì)、昆侖芯、燧原、華為海思、海光、沐曦以及摩爾線程。如果國內(nèi)的產(chǎn)品能去替代英偉達(dá)的產(chǎn)品，會(huì)是一個(gè)非常大的機(jī)會(huì)。

經(jīng)歷制裁后，國內(nèi)的大型互聯(lián)網(wǎng)企業(yè)在采購相關(guān)芯片時(shí)，目前還是會(huì)購買英偉達(dá)，但應(yīng)該也會(huì)有相關(guān)的國產(chǎn)化替代方案。從生產(chǎn)層面看，還需要高帶寬內(nèi)存顆粒，目前國內(nèi)的合肥長鑫和長江存儲(chǔ)都還做不了，主要是國外的三星、美光和海力士三家企業(yè)。產(chǎn)業(yè)鏈上，會(huì)帶動(dòng)先進(jìn)封裝相關(guān)公司，未來國內(nèi)芯片廠商會(huì)在國內(nèi)的封裝廠做先進(jìn)封裝。除了算力芯片，數(shù)據(jù)中心建設(shè)也需要CPU服務(wù)器，會(huì)帶動(dòng)國內(nèi)提供大型服務(wù)器的廠商，比如浪潮信息、中科曙光等，以及光模塊、調(diào)節(jié)芯片和散熱技術(shù)，都會(huì)有相關(guān)需求。

Q：計(jì)算芯片中除了GPU芯片，FPGA芯片、專用芯片ASIC發(fā)揮什么作用？

高性能計(jì)算芯片不止GPU這個(gè)處理架構(gòu)，比如像寒武紀(jì)的ASIC和GPU是同樣的應(yīng)用場景，只是技術(shù)架構(gòu)不一樣。比如百度的昆侖芯一代，是XPU-K（自研）的架構(gòu)。因此算力芯片，不光只有GPU，也包含ASIC、FPGA芯片。

Q：在美國制裁的背景下，國內(nèi)廠商怎么去替代英偉達(dá)的A100，通過什么途徑？

目前尤其是在制程工藝的限制，美國2022年10月份的政策限制是互聯(lián)帶寬超過600G，算力超過600T的產(chǎn)品不能使用臺(tái)積電的先進(jìn)代工工藝。國內(nèi)的產(chǎn)品不能超過A100的規(guī)格，否則不能使用7nm或者5nm的生產(chǎn)工藝。目前國內(nèi)有7nm產(chǎn)品的只有中芯國際，從成熟度和產(chǎn)品產(chǎn)能上都和臺(tái)積電有差距。但即使有差距，國內(nèi)的公司也會(huì)陸續(xù)通過中芯國際的生產(chǎn)工藝去生產(chǎn)相關(guān)的芯片。雖然目前工藝限制在7nm，但我們可以通過chiplet等先進(jìn)的封裝工藝將多個(gè)7nm芯片高速互聯(lián)，實(shí)現(xiàn)算力的提升。

Q：目前已經(jīng)在實(shí)體清單的芯片公司的情況？

目前華為、寒武紀(jì)、海光已在“實(shí)體清單”里面，這些公司如果要生產(chǎn)的話，要不就得找中芯國際；要不就得通過類似代理形式或其他渠道找臺(tái)積電生產(chǎn)。但后一種方法要面臨臺(tái)積電的審查，但臺(tái)積電目前整個(gè)產(chǎn)線的產(chǎn)能利用率很低，只有約50%，應(yīng)該不會(huì)像之前管的那么嚴(yán)，如果提交的合規(guī)報(bào)告或材料符合臺(tái)積電的要求，比如600+600的審核要求，終端應(yīng)用場景也不涉及如軍工等敏感領(lǐng)域的話，臺(tái)積電也是能夠通過代理方式給這些公司生產(chǎn)的。

我估計(jì)目前海光、寒武紀(jì)可能都是通過這種途徑去實(shí)現(xiàn)生產(chǎn)的；華為因?yàn)楸旧砟繕?biāo)太大，如果量不大的話應(yīng)該可以，量特別大的話容易被發(fā)現(xiàn)。

Q：目前英偉達(dá)訂單量是否有比較大的變化？

變化大概多大？ChatGPT發(fā)布后，首先微軟方面肯定是加買了A100和H100，尤其是微軟現(xiàn)在主要購買方向是向H100升級(jí)，主要買的是H100。

國內(nèi)公司受限于制裁，應(yīng)該是不能買A100的，A800推出后國內(nèi)公司應(yīng)該給了英偉達(dá)不少訂單。但A800因?yàn)檫€要做一些帶寬的限制和更改，所以目前還沒有批量出到國內(nèi)，仍需一定時(shí)間，但我預(yù)計(jì)應(yīng)該很快就會(huì)陸續(xù)供給國內(nèi)。

我認(rèn)為今年英偉達(dá)的數(shù)據(jù)中心業(yè)務(wù)應(yīng)該會(huì)有一個(gè)比較大的增長。因?yàn)檫@些企業(yè)都會(huì)有一些戰(zhàn)略性的備貨，如果按照正常節(jié)奏買的話，應(yīng)該不會(huì)買這么多。對(duì)于ChatGPT帶起的熱潮，國內(nèi)企業(yè)可能擔(dān)心以后會(huì)買不到，因此會(huì)按2-3倍的量去備貨。

Q：如何看待英偉達(dá)超級(jí)計(jì)算服務(wù)對(duì)AI產(chǎn)業(yè)的影響？

我們業(yè)內(nèi)覺得這個(gè)東西沒有什么特別的地方。

國內(nèi)真正能夠做大模型或者有實(shí)力去投資大模型的大型互聯(lián)網(wǎng)廠商，他們不會(huì)去租英偉達(dá)的超級(jí)計(jì)算服務(wù)，因?yàn)闆]有人愿意把自己的數(shù)據(jù)放在別人的數(shù)據(jù)中心里，從數(shù)據(jù)安全的角度講，是一個(gè)非常大的風(fēng)險(xiǎn)。尤其是像百度、阿里，他們掌握著國內(nèi)用戶一些比較比較敏感的數(shù)據(jù)，如搜索、購物習(xí)慣等。這個(gè)比較類似于滴滴，如果這些公司把這些數(shù)據(jù)弄到英偉達(dá)的服務(wù)器上去跑的話，這個(gè)風(fēng)險(xiǎn)我認(rèn)為他們應(yīng)該承擔(dān)不了，滴滴被罰已有先例。

所以我認(rèn)為從國內(nèi)來講，英偉達(dá)提供的計(jì)算服務(wù)，國內(nèi)客戶應(yīng)該沒有什么會(huì)去用的，可能一些本身不涉及敏感數(shù)據(jù)的客戶可能會(huì)去嘗試，但能做 ChatGPT或文心一言這種規(guī)模的企業(yè)很少會(huì)用英偉達(dá)的租賃服務(wù)或超級(jí)計(jì)算服務(wù)。

國外客戶可能會(huì)受益，因?yàn)橐恍┬∫?guī)模的客戶沒有能力建ChatGPT規(guī)模的算力中心，他們可以通過租賃方式使用英偉達(dá)的超算中心作為自己模型的基礎(chǔ)設(shè)施設(shè)施去實(shí)現(xiàn)自己模型的運(yùn)行。

Q：之前有說法說英偉達(dá)超級(jí)計(jì)算服務(wù)可通過阿里云、騰訊云做接口提供給國內(nèi)企業(yè)用戶，這是否意味著國內(nèi)承擔(dān)不起大算力成本的的中小企業(yè)會(huì)考慮租用英偉達(dá)的超級(jí)計(jì)算服務(wù)？

如果能把數(shù)據(jù)安全層面的問題解決，至少從數(shù)據(jù)安全的角度講，如果國家層面的審核通過，國內(nèi)也想做大模型的小型企業(yè)通過租云服務(wù)平臺(tái)去推動(dòng)自己的模型。

Q：英偉達(dá)的光刻計(jì)算技術(shù)未來會(huì)減少多少對(duì)于CPU服務(wù)器的需求？

英偉達(dá)的主要目的不是想替代，發(fā)布時(shí)提出的目標(biāo)是要把臺(tái)積電4萬臺(tái)做光刻用的CPU全換成英偉達(dá)的超級(jí)光刻計(jì)算機(jī)。我認(rèn)為GPU是取代不了CPU的，因?yàn)楸旧韮烧叩倪\(yùn)行是不一樣的，光刻領(lǐng)域很多是運(yùn)算的東西，可能GPU有自己的優(yōu)勢。但CPU本身也有控制、調(diào)度、流水線的進(jìn)程操作，能用這么多年有它自己的應(yīng)用場景和優(yōu)勢。

GPU其實(shí)擅長計(jì)算，并不擅長去做控制、調(diào)度的事情。英偉達(dá)在GPU里做類似于ARM的CPU去替代，但我認(rèn)為在應(yīng)用場景等各方面沒那么容易。

比如現(xiàn)在企業(yè)服務(wù)器市場，英特爾和AMD份額穩(wěn)定，英偉達(dá)想要踏足還是有很大的難度，也有一些技術(shù)障礙?？赡芘_(tái)積電這種特定場景可以替代，但未來想把CPU整個(gè)層面上用GPU替代沒有那么簡單。

Q：目前英偉達(dá)和國內(nèi)供應(yīng)商的關(guān)系如何？

比如做整機(jī)的供應(yīng)商，浪潮集團(tuán)也被加入限制名單他們不受限制。因?yàn)橹袊畬用鎸?duì)這些外企目前還沒有任何的限制政策，英偉達(dá)在國內(nèi)份額和產(chǎn)業(yè)情況應(yīng)該也帶動(dòng)了不少的先進(jìn)制造和就業(yè)。我認(rèn)為英偉達(dá)跟國內(nèi)做整機(jī)的和架構(gòu)的供應(yīng)商，目前都合作都正常，而且英偉達(dá)后續(xù)應(yīng)該還有更多訂單給到這些供應(yīng)商。只是做好的高性能計(jì)算芯片受限制，不賣給或者降規(guī)格賣給國內(nèi)企業(yè)。這些限制主要還是來自于美國政府層面，供應(yīng)層面應(yīng)該沒有問題。一旦上了實(shí)體清單就沒辦法。因?yàn)椴还苁怯ミ_(dá)還是任何的美國企業(yè)都不能跟你做生意。如果他跟你有貿(mào)易來往，美國政府就可以對(duì)他進(jìn)行制裁。這個(gè)限制范圍很大，任何使用美國技術(shù)的企業(yè)都不能跟你有貿(mào)易來往，比如現(xiàn)在不僅英偉達(dá)不能跟浪潮之間有貿(mào)易來往，甚至像韓國、臺(tái)灣的企業(yè)都受約束。

Q：國內(nèi)來看，您認(rèn)為哪些領(lǐng)域大模型會(huì)率先爆發(fā)應(yīng)用場景？對(duì)算力產(chǎn)業(yè)鏈有什么影響？

目前很多公司宣布接入文心一言，ChatGPT在國內(nèi)國外的應(yīng)用場景也都陸續(xù)在落地。

1）工具鏈層面：大模型可以做很多事情，比如ChatGPT和Office產(chǎn)品的結(jié)合，以前很多東西需要人去寫公式、計(jì)算，但是現(xiàn)在ChatGPT接入后 Office會(huì)變得非常靈活，通過office做交互、實(shí)現(xiàn)的話，工作效率會(huì)有一個(gè)非常大幅的提高。

2）語音交互層面：智能交互，如智能音箱、智能座艙，未來肯定會(huì)有一個(gè)大的提升，現(xiàn)在汽車?yán)镉玫男《鹊龋鋵?shí)語言理解能力是很差的，想要交互是很難的，而且體驗(yàn)也非常差；大模型接入后，語音交互層面會(huì)做得很好，比如我們在汽車智能座艙里發(fā)一個(gè)指令，他的理解、執(zhí)行他就會(huì)非常精確。包括我們用的智能音箱、智能家居等，理解、執(zhí)行也會(huì)比較到位。

Q：目前國內(nèi)AI芯片廠商的格局？

個(gè)人看法，以大算力或者高性能計(jì)算芯片為代表看的話：

第一梯隊(duì)：有成熟產(chǎn)品、批量出貨的企業(yè)，主要包括寒武紀(jì)、華為海思、百度昆侖芯、燧原科技，這四家有2-3代更多的產(chǎn)品，技術(shù)能力、軟件能力都有一定積累。

第二梯隊(duì)：包括壁仞科技，它去年發(fā)布的產(chǎn)品規(guī)格很高，但主要還是停留在紙面數(shù)據(jù)，實(shí)測數(shù)據(jù)、實(shí)際性能方面業(yè)界和第三方評(píng)測機(jī)構(gòu)評(píng)價(jià)沒有那么高，它本身的性能是不及A100的，而且軟件層面也還有很多工作要做，目前它只是做了一個(gè)軟件的雛形，從使用角度來講離成熟的生態(tài)軟件、規(guī)模化的出貨、客戶端的個(gè)適配還有很長的路要走，現(xiàn)在它也面臨著制裁問題、實(shí)體清單問題，對(duì)于這樣的初創(chuàng)企業(yè)是生存層面的問題。像天數(shù)智心、摩爾線程、沐曦也都陸續(xù)有產(chǎn)品推出，但技術(shù)能力不及壁仞，只是停留在推理層面，不像第一梯隊(duì)的企業(yè)有更成熟的產(chǎn)品經(jīng)驗(yàn)，但這幾集也都至少是以做AI芯片起家的，專注于該領(lǐng)域。

第三梯隊(duì)：包括海光、景嘉微，他們以前不是做GPU的，現(xiàn)在過來做GPU。景嘉微也是做GPU芯片的，但在商用端沒有多少使用，實(shí)際產(chǎn)品性能不是特別清楚。海光是做X86CPU起家的，GPU的技術(shù)能力還有待市場的認(rèn)可和檢驗(yàn)。

Q：訓(xùn)練芯片是1萬張A100的話，推理芯片需要多少？如果它跟日活訪問次數(shù)等有相關(guān)性的話，中長期來看推理芯片的情況？

雖然說大模型訓(xùn)練的算力需求量非常大，但是產(chǎn)能模型訓(xùn)練好了之后，實(shí)際投入到使用中或是在跟終端的互動(dòng)中，其實(shí)也是需要消耗很多的推理算力，尤其是在訪問量大的時(shí)候。所以其實(shí)不管是微軟的智能計(jì)算中心，還是百度的智能計(jì)算中心，我認(rèn)為都有相當(dāng)規(guī)模的推理算力。

通常數(shù)據(jù)中心或者超算中心里都會(huì)配備推理算力，一般算力的規(guī)模或者說數(shù)量的規(guī)模沒有特別少的，尤其是數(shù)量。比如我買1萬張A100的卡，可能還要配幾千張的T4推理卡，當(dāng)然英偉達(dá)現(xiàn)在最新出的L4推理卡也會(huì)配在數(shù)據(jù)中心里，但是目前來看它的規(guī)模應(yīng)該沒有訓(xùn)練的算力規(guī)模大，但隨著訪問量或交互量上升，我認(rèn)為推理算力需求量是不小的。當(dāng)然推理層面CPU本身也是可以分擔(dān)一些，尤其是數(shù)據(jù)中心里用的這種大型企業(yè)級(jí) CPU，本身是可以做一些推理的事情，但是畢竟不是專業(yè)做運(yùn)算的，所以我認(rèn)為肯定還是需要大量的推理卡支持。我認(rèn)為可能規(guī)模比較大或后期訪問量特別大的數(shù)據(jù)中心，推理卡的數(shù)量可能會(huì)非常接近訓(xùn)練卡的數(shù)量。當(dāng)然因?yàn)橥评砜ū旧淼膬r(jià)值、算力沒有訓(xùn)練卡大，所以從市值規(guī)?？?，應(yīng)該還是沒有訓(xùn)練卡的市場規(guī)模大。

Q：寒武紀(jì)的思元590跟英偉達(dá)相比有哪些差距？

從技術(shù)架構(gòu)或初級(jí)架構(gòu)角度看，寒武紀(jì)產(chǎn)品主要還是ASIC架構(gòu)，ASIC的劣勢在于通用性會(huì)比較差，優(yōu)勢在于如果某些特定應(yīng)用場景它把算法固化到硬件里邊去，算力是可以做到比GPU更高的。這個(gè)特點(diǎn)也決定了它的最終的性能特點(diǎn)，所以我們看到公開信息或一些百度內(nèi)部的測試結(jié)果，寒武紀(jì)590在做大模型的訓(xùn)練跑transformer、BERT等大語言模型時(shí)，性能非常接近A100，接近90%的性能。但如果跑20-30個(gè)主流的模型，我們會(huì)看到可能有些模型如果在算法層面沒有做特別的固化優(yōu)化的話，可能只能達(dá)到A100 50-60%的性能。綜合來看，基本上主流的模型590都是支持的，綜合性也接近A100 80%的水平。

Q：如果美國后續(xù)不給ARM的架構(gòu)授權(quán)的話，我們有什么解決方案？

目前不管是國內(nèi)芯片公司，還是英偉達(dá)的AI的云端、推理端架構(gòu)芯片，內(nèi)部都用了ARM的CPU去做控制，因?yàn)锳I芯片的內(nèi)部，除了ASIC或GPU芯片的內(nèi)核以外，一般都會(huì)配一個(gè)ARM的CPU去做AI芯片、處理器層面或是內(nèi)部的交互，或者做一些控制層面的事情。所以CPU其實(shí)對(duì)AI芯片來說也是一個(gè)非常重要的東西。

如果我們后面國內(nèi)AI芯片企業(yè)拿不到ARM的授權(quán)，一是已經(jīng)授權(quán)的東西還是可以繼續(xù)用，比如華為、百度、寒武紀(jì)已經(jīng)拿到了A78的授權(quán)，但是沒有了后續(xù)的支持，無法用最新的ARM的架構(gòu)；二是目前國內(nèi)同ARM競爭的RISC-V發(fā)展的也挺好，它是一個(gè)開源生態(tài)，如果后續(xù)真的國內(nèi)芯片企業(yè) 用不了ARM的話，對(duì)它是一個(gè)好機(jī)會(huì)，在性能層面它其實(shí)沒有比ARM差多少，主要問題在于生態(tài)沒有像ARM那么完善，如果有更多的開發(fā)者去起來的話，可能生態(tài)會(huì)慢慢完善起來。

Q：如何看待ARM打算改變授權(quán)費(fèi)模式，從原本的按照芯片價(jià)格1-3%收取費(fèi)用改為按照整機(jī)價(jià)格收取費(fèi)用？

按整機(jī)價(jià)格收取的話可以多要點(diǎn)錢，我們做芯片設(shè)計(jì)的跟這些IP公司打交道比較多，他們對(duì)我們，尤其是國內(nèi)芯片企業(yè)，不光收費(fèi)貴，而且審計(jì)等非常嚴(yán)格。很多時(shí)候一次性授權(quán)要收取，后面賣出的單顆芯片還要在收取一定比例的費(fèi)用，所以其實(shí)是非常貴的。

用這種商用IP，尤其是ARM，用這些國外的大型IP廠商其實(shí)代價(jià)都是非常大，對(duì)芯片公司尤其初創(chuàng)企業(yè)來說，花費(fèi)的成本非常高。但我們還沒有自研能力去做出來比較好的IP，很多比較簡單的接口IP如走字眼的高速接口，華為、寒武紀(jì)等都可以自己做，但ARM目前確實(shí)是比較難做。如果ARM還要再后面再漲價(jià)的話，會(huì)有更多的芯片設(shè)計(jì)公司轉(zhuǎn)向RISC-V，其生態(tài)會(huì)慢慢發(fā)展壯大，挑戰(zhàn)ARM生態(tài)。

其實(shí)ARM一家獨(dú)大已經(jīng)這么多年了，我覺得應(yīng)該有一個(gè)像RISC-V這樣的競爭對(duì)手，不然在國內(nèi)乃至全球大家都不得不用ARM。這種有點(diǎn)像壟斷，像高通之前因收取整個(gè)手機(jī)的專利授權(quán)費(fèi)用被中國政府罰款后就把收費(fèi)政策改了，如果ARM這么弄的話，可能我們也會(huì)有一些扶持或者制裁措施。所以ARM授權(quán)模式的改變不一定能成功，而且如果推行的話有可能刺激RISC-V生態(tài)壯大。對(duì)于芯片公司的研發(fā)者或設(shè)計(jì)者，轉(zhuǎn)去RISC-V生態(tài)也是一個(gè)好的解決方案，只是要花一些學(xué)習(xí)成本。

Q：RISC-V架構(gòu)的在國內(nèi)的使用情況？

目前國內(nèi)RISC-V占有率較低，但增長很快，因此未來會(huì)有許多企業(yè)去做RISC-V產(chǎn)品。比如，阿里提供基于RISC-V架構(gòu)的平臺(tái)及生態(tài)服務(wù)。寒武紀(jì)、華為已經(jīng)開始使用RISC-V架構(gòu)。

邊緣側(cè)AI芯片大多采用ARM架構(gòu)，因此在專利授權(quán)的模式改變和壟斷的情況的發(fā)生下，會(huì)有更多企業(yè)去嘗試使用RISC-V處理器架構(gòu)，從而促進(jìn)整個(gè)生態(tài)的增長。疊加國內(nèi)很多企業(yè)上了美國“實(shí)體清單”，ARM停止服務(wù)，促進(jìn)了RISC-V等開源架構(gòu)的應(yīng)用增長。

Q：海光Z100和英偉達(dá)A100的差距？和應(yīng)用領(lǐng)域？

海光訓(xùn)練產(chǎn)品的算力規(guī)模不足以支持做數(shù)據(jù)中心。海光DCU Z100訓(xùn)練算力較小，不到100TFLOPS，只適合一些推理場景，不足以支持大模型的訓(xùn)練，因此沒有能力去替代寒武紀(jì)、華為和英偉達(dá)的產(chǎn)品。

目前來看海光缺少大算力技術(shù)基礎(chǔ)。第一，海光的X86授權(quán)CPU技術(shù)積累，對(duì)做GPU沒有幫助。第二，海光的AMD授權(quán)軟件生態(tài)也不足以在大算力的超算領(lǐng)域和英偉達(dá)的擴(kuò)大生態(tài)競爭。因此，要做大算力產(chǎn)品還有很長的路要走。

從產(chǎn)品層面來講，海光離傳統(tǒng)做AI芯片的企業(yè)還是有較大的技術(shù)差距。

Q：國內(nèi)大廠（華為、百度、騰訊等）的大模型和OpenAI大模型的算力區(qū)別？

目前國內(nèi)，已經(jīng)發(fā)布的大模型產(chǎn)品只有百度文心一言，在國內(nèi)處于AI一哥的地位，占據(jù)了先機(jī)。但是從試用結(jié)果看，和ChatGPT、GPT4的相差還是很大。百度的算力、硬件、算法模型層面都沒有做到ChatGPT的水平。

具體從算力層面看：第一，算力基礎(chǔ)設(shè)施規(guī)模小于微軟的規(guī)模水平，因此訓(xùn)練精度水平較低。第二，盡管從國內(nèi)的角度看，百度對(duì)AI算法的投資最多，研發(fā)時(shí)間最長，技術(shù)能力最強(qiáng)，但做AI大模型的時(shí)間還是相對(duì)較短，因此還需要后續(xù)的優(yōu)化。

其他幾家大型互聯(lián)網(wǎng)企業(yè)在大模型領(lǐng)域應(yīng)該都有提前布局，但由于在OpenAI做出產(chǎn)品之前，這個(gè)領(lǐng)域一直沒有商機(jī)和盈利，因此大家都沒有落地該應(yīng)用，沒有百度重視這個(gè)領(lǐng)域。ChatGPT火了之后，很多互聯(lián)網(wǎng)企業(yè)才加速了推動(dòng)自己的產(chǎn)品。

阿里、頭條、360、騰訊等大廠可能陸續(xù)會(huì)推出產(chǎn)品，但做的也會(huì)比較倉促，積累時(shí)間不夠。

Q：文心一言算力使用的產(chǎn)品？

訓(xùn)練端：主要使用英偉達(dá)產(chǎn)品V100和A100。

推理端：除英偉達(dá)，還使用部分***，比如百度、寒武紀(jì)等。

Q：大算力模型發(fā)展對(duì)上游海光和寒武紀(jì)廠商有什么影響？

百度、騰訊、阿里等，肯定基礎(chǔ)算力的采購需求，疊加政策限制和國產(chǎn)替代，互聯(lián)網(wǎng)大廠會(huì)逐步考慮國產(chǎn)供應(yīng)商。

Q：目前百度昆侖芯、寒武紀(jì)的主力產(chǎn)品是哪些？下一步研發(fā)計(jì)劃？

昆侖芯：目前百度已有兩款產(chǎn)品，第一，2018年下半年發(fā)布昆侖芯一代產(chǎn)品，基于三星14nm，可以做訓(xùn)練和推理，因此主要用于推理。第二， 2021年發(fā)布昆侖芯二代產(chǎn)品，搭載GDDR6高性顯存，支持256TOPS(INT8)算力，和V100性能差不多，可以做訓(xùn)練和推理。兩個(gè)產(chǎn)品都在百度云服務(wù)器上部署。第三代昆侖芯產(chǎn)品，預(yù)計(jì)明年上半年發(fā)布，目標(biāo)達(dá)到A100性能。

寒武紀(jì)：相對(duì)來說是國內(nèi)做的比較早的廠商。2021年發(fā)布的思元370，是訓(xùn)練和推理一體的產(chǎn)品，推理算力為256TOPS(INT8)，訓(xùn)練算力為 128TFLOPS。出貨量在寒武紀(jì)云端產(chǎn)品和商用客戶端，屬于相對(duì)較大的。比如，在阿里云、浪潮、曙光等服務(wù)器廠商和科大訊飛等AI算法層面的公司都有批量出貨。訓(xùn)練端產(chǎn)品主要是2021年發(fā)布的思元290和還未發(fā)布的思元590。思元290采用7nm臺(tái)積電制程工藝，訓(xùn)練算力達(dá)256TFLOPS，比英偉達(dá)的V100和昆侖芯二代都要強(qiáng)一些，但還不足A100的水平。玄思1000加速器搭載4塊思元290芯片，整機(jī)算力達(dá)到1P。下一代產(chǎn)品思元590，規(guī)模能達(dá)到A100水平，性能將達(dá)到預(yù)期。再下一代產(chǎn)品，計(jì)劃對(duì)標(biāo)H100，但要先解決供應(yīng)的問題，因此項(xiàng)目節(jié)奏會(huì)推后。

Q：今年英偉達(dá)在國內(nèi)替代款A(yù)800和H800，出貨量預(yù)期？

國內(nèi)市場：國內(nèi)可以規(guī)?；IH800和A800的產(chǎn)品的公司最多十幾家，主要系大型互聯(lián)網(wǎng)企業(yè)的采購。浪潮、曙光等應(yīng)該是無法購買。估計(jì)一塊芯片價(jià)格10萬人民幣，疊加企業(yè)要做ChatGPT這種大模型需要芯片1萬張起步，能拿出10億規(guī)模的現(xiàn)金流，主要還是大型的互聯(lián)網(wǎng)企業(yè)。個(gè)人預(yù)期各企業(yè)將會(huì)有囤貨需求，按每家企業(yè)2萬張的平均需求來計(jì)算，在訓(xùn)練方面，國內(nèi)將會(huì)有接近200億人民幣的采購規(guī)模。在推理芯片方面，預(yù)計(jì)采購量將是100億。總的來看，整個(gè)國內(nèi)對(duì)英偉達(dá)的采購需求大概為300億人民幣。

海外市場：海外需求偏市場化，不太需要提前存貨。預(yù)計(jì)今年也有一個(gè)更大規(guī)模增長。微軟、谷歌和Bing等大企業(yè)對(duì)大模型的采購需求將增加英偉達(dá)芯片的出貨量，預(yù)期今年將增長30%-50%。

Q：INT8和FP16算力是什么意思？

目前AI芯片或AI加速卡在計(jì)算算力的時(shí)候，一般采用兩個(gè)數(shù)據(jù)格式：INT8（二進(jìn)制的8位的整型數(shù)據(jù)）和FP16（16位浮點(diǎn)數(shù)）。訓(xùn)練的產(chǎn)品主要處理是浮點(diǎn)數(shù)，推理算力主要處理整型數(shù)據(jù)。

推理端：一般標(biāo)記INT8的算力。分類檢索識(shí)別、語音識(shí)別、文本識(shí)別等推理場景主要處理的數(shù)據(jù)格式是8位整型數(shù)據(jù)。1TOPS的算力指1秒鐘做1萬億次INT8整型數(shù)據(jù)運(yùn)算。

訓(xùn)練端：業(yè)界主流標(biāo)記為FP16。因?yàn)橛?xùn)練對(duì)模型的要求越高，對(duì)數(shù)據(jù)運(yùn)算的要求也更高更精準(zhǔn)。FP16指1秒鐘做多少次16位浮點(diǎn)數(shù)的運(yùn)算， 1TFLOPS表示1秒鐘做一萬億次浮點(diǎn)數(shù)的操作運(yùn)算。

算力的換算關(guān)系：

（1）整型INT8的算力是128T，則換算成INT16時(shí)，算力會(huì)減半到64T。

（2）浮點(diǎn)數(shù)的關(guān)系不是減半，浮點(diǎn)數(shù)位數(shù)更大，算力下降的更快。例如，英偉達(dá)A100的16位的浮點(diǎn)數(shù)算力是624T，32位浮點(diǎn)數(shù)的算力只有40T。

傳統(tǒng)的數(shù)據(jù)中心的區(qū)別在于，在AI常見的Infini Band fat tree 結(jié)構(gòu)下，使用的交換機(jī)數(shù)量更多，且因?yàn)槊總€(gè)節(jié)點(diǎn)上行下行的端口數(shù)完全一致。

英偉達(dá)所采用的 AI 集群模型中，對(duì)應(yīng)的一個(gè)基本單元為 SuperPOD。一個(gè)標(biāo)準(zhǔn)的 SuperPOD 由 140 臺(tái) DGX A100 GPU 服務(wù)器、HDR InfiniBand 200G 網(wǎng)卡和 170 臺(tái) NVIDIA Quantum QM8790 交換機(jī)構(gòu)建而成，其中交換機(jī)速率為 200G，每個(gè)端口數(shù)為 40 個(gè)。

基于英偉達(dá)方案，一個(gè) SuperPOD 170個(gè)交換機(jī)，每個(gè)交換機(jī)有 40 個(gè)端口，最簡單方式上下各70 臺(tái)服務(wù)器，依次端口互聯(lián)（上下 1：1 連接）對(duì)應(yīng)的線纜需求為 40×170/2=3400 根，考慮實(shí)際部署情況上調(diào)至 4000 根線纜需求。

其中，銅纜：AOC：光模塊比例=4：4：2。

對(duì)應(yīng)光模塊需求數(shù)量=4000*0.2*2=1600 個(gè)，即對(duì)于一個(gè)SuperPod，服務(wù)器：

交換機(jī)：光模塊的用量比例=140：170：1600=1：1.2：11.4一個(gè)類似 GPT4.0 入門級(jí)別要求的需求大約需要3750 臺(tái) NVIDIA DGX A100服務(wù)器。

根據(jù) IDC 數(shù)據(jù)，2021 年全球 AI 服務(wù)器市場規(guī)模為 156 億美元，預(yù)計(jì)到 2026 年全球 AI 服務(wù)器市場將達(dá)到 355 億美元；2021 年中國 AI 服務(wù)器行業(yè)市場規(guī)模為 64 億美元。根據(jù) IDC 數(shù)據(jù)，數(shù)據(jù)中心場景中，200/400G 端口出貨量有望快速提升，22-26 年復(fù)合增速達(dá) 62%，預(yù)計(jì) 2026年全球交換機(jī)端口出貨量超 8.7 億個(gè)，市場規(guī)模超 440 億美元。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

光模塊

光模塊

+關(guān)注

關(guān)注
75

文章
1229

瀏覽量
58829
AI芯片

AI芯片

+關(guān)注

關(guān)注
17

文章
1850

瀏覽量
34848
算力

算力

+關(guān)注

關(guān)注
1

文章
906

瀏覽量
14697

原文標(biāo)題：國內(nèi)外AI芯片、算力綜合對(duì)比

文章出處：【微信號(hào)：AI_Architect，微信公眾號(hào)：智能計(jì)算芯世界】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

評(píng)論

相關(guān)推薦

AI算力芯片供電電源測試?yán)?費(fèi)思低壓大電流系列電子負(fù)載

AI算力芯片作為驅(qū)動(dòng)復(fù)雜計(jì)算任務(wù)的核心引擎，其性能與穩(wěn)定性成為了決定應(yīng)用成敗的關(guān)鍵因素。而在這背后，供電電源的穩(wěn)定性和高效性則是保障AI

發(fā)表于 10-25 11:26 ?187次閱讀

<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>芯片</b>供電電源測試?yán)?費(fèi)思低壓大電流系列電子負(fù)載

存算一體架構(gòu)創(chuàng)新助力國產(chǎn)大算力AI芯片騰飛

在灣芯展SEMiBAY2024《AI芯片與高性能計(jì)算（HPC）應(yīng)用論壇》上，億鑄科技高級(jí)副總裁徐芳發(fā)表了題為《存算一體架構(gòu)創(chuàng)新助力國產(chǎn)大算力

發(fā)表于 10-23 14:48 ?196次閱讀

【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--全書概覽

1章從TOP500和MLPerf看算力芯片格局 1.1科學(xué)算力最前沿TOP500 1.2 AI

發(fā)表于 10-15 22:08

名單公布！【書籍評(píng)測活動(dòng)NO.43】算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析

力，在全球范圍內(nèi)，對(duì)于推動(dòng)科技進(jìn)步、經(jīng)濟(jì)發(fā)展及社會(huì)整體的運(yùn)作具有至關(guān)重要的作用。隨著信息技術(shù)的高速發(fā)展，高性能計(jì)算（HPC）和人工智能（AI）等技術(shù)在多個(gè)領(lǐng)域的應(yīng)用變得日益廣泛，芯片算

發(fā)表于 09-02 10:09

大模型時(shí)代的算力需求

現(xiàn)在AI已進(jìn)入大模型時(shí)代，各企業(yè)都爭相部署大模型，但如何保證大模型的算力，以及相關(guān)的穩(wěn)定性和性能，是一個(gè)極為重要的問題，帶著這個(gè)極為重要的問題，我需要在此書中找到答案。

發(fā)表于 08-20 09:04

反制無人機(jī)的技術(shù)進(jìn)展：國內(nèi)外先進(jìn)系統(tǒng)與技術(shù)概覽

隨著無人機(jī)技術(shù)的快速發(fā)展和廣泛應(yīng)用，無人機(jī)帶來的潛在威脅也日益凸顯。為了應(yīng)對(duì)這些威脅，反制無人機(jī)技術(shù)成為了國內(nèi)外關(guān)注的焦點(diǎn)。本文特信無人機(jī)反制小編將概述當(dāng)前國內(nèi)外在反制無人機(jī)技術(shù)方面的先進(jìn)系統(tǒng)和技術(shù)。

發(fā)表于 06-27 09:07 ?598次閱讀

反制無人機(jī)的技術(shù)進(jìn)展：<b class='flag-5'>國內(nèi)外</b>先進(jìn)系統(tǒng)與技術(shù)概覽

摩爾線程張建中：以國產(chǎn)算力助力數(shù)智世界，滿足大模型算力需求

摩爾線程創(chuàng)始人兼CEO張建中在會(huì)上透露，為了滿足國內(nèi)對(duì)AI算力的迫切需求，他們正在積極尋求與國內(nèi)頂尖科研機(jī)構(gòu)的深度合作，共同推動(dòng)更大規(guī)模的

發(fā)表于 05-10 16:36 ?795次閱讀

STM32國內(nèi)外發(fā)展現(xiàn)狀

電子發(fā)燒友網(wǎng)站提供《STM32國內(nèi)外發(fā)展現(xiàn)狀.docx》資料免費(fèi)下載

發(fā)表于 04-08 15:56 ?28次下載

數(shù)據(jù)語料庫、算法框架和算力芯片在AI大模型中的作用和影響

數(shù)據(jù)語料庫、算法框架和算力芯片的確是影響AI大模型發(fā)展的三大重要因素。

發(fā)表于 03-01 09:42 ?920次閱讀

Sora算力需求引發(fā)業(yè)界對(duì)集結(jié)國內(nèi)AI企業(yè)算力的探討

據(jù)周鴻祎觀察，Sora視頻分析所需算力恐遠(yuǎn)超千億規(guī)模模型。因而，考慮到如今國內(nèi)芯片供應(yīng)受限，算力

發(fā)表于 02-25 10:03 ?523次閱讀

弘信電子與AI算力服務(wù)器合資，助力國產(chǎn)算力芯片落地

此外，弘信電子近期在AI算力業(yè)務(wù)上取得了突破性進(jìn)展，這并非源自本土化的積累，而是依賴于團(tuán)隊(duì)敏銳的戰(zhàn)略眼光和強(qiáng)烈的創(chuàng)新動(dòng)力。此次投資是弘信電子在AI算

發(fā)表于 12-25 09:30 ?786次閱讀

國內(nèi)外銅線鍵合拉力試驗(yàn)方法標(biāo)準(zhǔn)對(duì)比分析

歡迎了解張秋?閆美存中國電子技術(shù)標(biāo)準(zhǔn)化研究院摘要：為滿足銅線鍵合拉力試驗(yàn)需求，從拉力施加位置、失效模式分類、最小拉力值以及試驗(yàn)結(jié)果的應(yīng)用等4 個(gè)方面對(duì)國內(nèi)外銅線鍵合拉力試驗(yàn)方法標(biāo)準(zhǔn)的技術(shù)內(nèi)容

發(fā)表于 12-22 08:40 ?1147次閱讀

淺談為AI大算力而生的存算-體芯片

大模型爆火之后，存算一體獲得了更多的關(guān)注與機(jī)會(huì)，其原因之一是因?yàn)榇?b class='flag-5'>算一體芯片的裸算力相比傳統(tǒng)架構(gòu)的AI

發(fā)表于 12-06 15:00 ?354次閱讀

大算力芯片里的HBM，你了解多少？

最近，隨著人工智能行業(yè)的高速崛起，大算力芯片業(yè)成為半導(dǎo)體行業(yè)為數(shù)不多的熱門領(lǐng)域HBM(高寬帶內(nèi)存：High-bandwidthmemory)作為大算

發(fā)表于 12-05 16:14 ?1547次閱讀

國內(nèi)外五款熱門AI工具對(duì)比

簡單對(duì)比ChatGPT、百度文心一言、科大訊飛的星火、阿里的通義千問、趣問問AI等5個(gè)AI聊天機(jī)器人的優(yōu)缺點(diǎn)

發(fā)表于 11-27 16:21 ?1788次閱讀

搜索歷史

國內(nèi)外AI芯片、算力綜合對(duì)比