99精品视频九九精品视频,久久99热这里有精品6

由于模型越來越大，訓(xùn)練過程中硬件的優(yōu)化變得尤為重要。從2019年下半年開始，各家分別開發(fā)出大規(guī)模并行訓(xùn)練、模型擴(kuò)展技術(shù)，以期開發(fā)出更大的NLP模型。英偉達(dá)Megatron-LM、谷歌T5、微軟Turing-NLG相繼出現(xiàn)。

2020年6月OpenAI在發(fā)布了GPT-3，這是當(dāng)時(shí)訓(xùn)練的最大模型，具有1750億個(gè)參數(shù)。近段時(shí)間，浪潮、英偉達(dá)與微軟相繼發(fā)布2500億參數(shù)、5300億參數(shù)的巨量模型，超過GPT-3。

中國工程院院士王恩東認(rèn)為，人工智能的大模型時(shí)代已經(jīng)到來，利用先進(jìn)算法，整合大規(guī)模數(shù)據(jù)，匯聚大量算力，訓(xùn)練出巨量人工智能模型是未來的發(fā)展方向……

英偉達(dá)與微軟聯(lián)合發(fā)布了5300億參數(shù)的“威震天-圖靈”

上周，英偉達(dá)與微軟聯(lián)合發(fā)布了5300億參數(shù)的“威震天-圖靈”自然語言生成模型（Megatron-TuringNLG）。據(jù)介紹，這樣的量級不僅讓它成為全球規(guī)模最大，同時(shí)也是性能最強(qiáng)的NLP模型。

訓(xùn)練過程一共使用了4480塊英偉達(dá)A100 GPU，最終使該模型在一系列自然語言任務(wù)中——包括文本預(yù)測、閱讀理解、常識推理、自然語言推理、詞義消歧——都獲得了前所未有的準(zhǔn)確率。

此模型簡稱MT-NLG，是微軟Turing NLG和英偉達(dá)Megatron-LM兩者的“繼任者”。Turing NLG由微軟于2020年2月推出，參數(shù)為170億；Megatron-LM來自英偉達(dá)，2019年8月推出，參數(shù)83億。它倆在當(dāng)時(shí)分別是第一、二大規(guī)模的Transfomer架構(gòu)模型。

我們都知道大參數(shù)規(guī)模的語言模型效果會更好，但訓(xùn)練起來也很有挑戰(zhàn)性，比如：即使是最大容量的GPU，也存不下如此規(guī)模的參數(shù)；如果不特別注意優(yōu)化算法、軟件和硬件堆棧，那么所需的大量計(jì)算操作可能會導(dǎo)致訓(xùn)練時(shí)間過長。

那這個(gè)參數(shù)已是GPT-3三倍的MT-NLG又是如何解決的呢？答案就是汲取“兩家”所長，融合英偉達(dá)最先進(jìn)的GPU加速訓(xùn)練設(shè)備，以及微軟最先進(jìn)的分布式學(xué)習(xí)系統(tǒng)，來提高訓(xùn)練速度。并用上千億個(gè)token構(gòu)建語料庫，共同開發(fā)訓(xùn)練方法來優(yōu)化效率和穩(wěn)定性。

具體來說，通過借鑒英偉達(dá)Megatron-LM模型的GPU并行處理，以及微軟開源的分布式訓(xùn)練框架DeepSpeed，創(chuàng)建3D并行系統(tǒng)。對于本文中這個(gè)5300億個(gè)參數(shù)的模型，每個(gè)模型副本跨越280個(gè)NVIDIA A100 GPU，節(jié)點(diǎn)內(nèi)采用Megatron-LM的8路張量切片（tensor-slicing），節(jié)點(diǎn)間采用35路管道并行（pipeline parallelism）。

然后再使用DeepSpeed的數(shù)據(jù)并行性進(jìn)一步擴(kuò)展到數(shù)千個(gè)GPU。最終在基于NVIDIA DGX SuperPOD的Selene超級計(jì)算機(jī)上完成混合精度訓(xùn)練。（該超級計(jì)算機(jī)由560個(gè)DGX A100服務(wù)器提供支持，每個(gè)DGX A100有8個(gè) NVIDIA A100 80GB Tensor Core GPU，通過NVLink 和 NVSwitch相互完全連接）。

該模型使用了Transformer解碼器的架構(gòu)，層數(shù)、hidden dimension和attention head分別為 105、20480和128。訓(xùn)練所用數(shù)據(jù)集包括近20萬本書的純文本數(shù)據(jù)集Books3、問答網(wǎng)站Stack Exchange、維基百科、學(xué)術(shù)資源網(wǎng)站PubMed Abstracts、ArXiv、維基百科、GitHub等等，這些都是從他們先前搭建的Pile數(shù)據(jù)集中挑出的質(zhì)量較高的子集。最終一共提取了2700億個(gè)token。

浪潮發(fā)布2500億參數(shù)的中文AI巨量模型“源1.0”

9月28日，浪潮人工智能研究院發(fā)布浪潮發(fā)布了2500億參數(shù)的中文AI巨量模型“源1.0”。

“源1.0”不僅有高達(dá)5TB的全球最大中文高質(zhì)量數(shù)據(jù)集，在總計(jì)算量和訓(xùn)練效率優(yōu)化上都是空前的。源1.0幾乎把近5年整個(gè)中文互聯(lián)網(wǎng)的浩瀚內(nèi)容全部讀完，在收集并清洗數(shù)據(jù)后，最終獲得5TB高質(zhì)量數(shù)據(jù)，成為迄今業(yè)界最大的高質(zhì)量中文數(shù)據(jù)集。

在語言智能方面，源1.0獲得中文語言理解評測基準(zhǔn)CLUE榜單零樣本學(xué)習(xí)和小樣本學(xué)習(xí)兩類總榜冠軍，獲得小樣本學(xué)習(xí)的文獻(xiàn)分類、商品分類、文獻(xiàn)摘要識別、名詞代詞關(guān)系等4項(xiàng)任務(wù)冠軍。

“在數(shù)據(jù)量、參數(shù)規(guī)模與模型精度方面，源1.0均居全球之最?！崩顺比斯ぶ悄苎芯吭菏紫芯繂T吳韶華說。對標(biāo)OpenAI的GPT-3，源1.0參數(shù)規(guī)模為2457億，訓(xùn)練采用的中文數(shù)據(jù)集達(dá)5TB。相比GPT-3模型1750億參數(shù)量和570GB訓(xùn)練數(shù)據(jù)集，源1.0參數(shù)規(guī)模領(lǐng)先40%，訓(xùn)練數(shù)據(jù)集規(guī)模領(lǐng)先近10倍。

“得益于我們設(shè)計(jì)模型時(shí)，對精度和計(jì)算性能的協(xié)同?！眳巧厝A說，“在算法上，我們解決了巨量模型訓(xùn)練不穩(wěn)定的業(yè)界難題，提出穩(wěn)定訓(xùn)練巨量模型的算法，打造了巨量模型推理方法創(chuàng)新；在數(shù)據(jù)方面，我們生成了迄今業(yè)界最大的高質(zhì)量中文數(shù)據(jù)集；在算力上，我們通過算法與算力協(xié)同優(yōu)化，極大提升了計(jì)算效率，在實(shí)現(xiàn)業(yè)界訓(xùn)練性能第一的同時(shí)，還達(dá)到了業(yè)界領(lǐng)先的精度。”

巨量模型是未來的發(fā)展方向

“認(rèn)知智能是人工智能研究者追求的方向之一。”中國工程院院士王恩東告訴《中國科學(xué)報(bào)》，“除了加速深度學(xué)習(xí)技術(shù)，開發(fā)全新的算法范式研究方向外，大規(guī)模數(shù)據(jù)訓(xùn)練超大參數(shù)量的巨量模型也是未來發(fā)展方向，即利用先進(jìn)的算法，整合大規(guī)模的數(shù)據(jù)，匯聚大量算力，訓(xùn)練出巨量人工智能模型?！?br />
2020年6月，OpenAI發(fā)布了參數(shù)量高達(dá)1750億的大模型GPT-3，該模型一推出就引起人工智能學(xué)界和業(yè)界的轟動(dòng)?！罢Z言模型是全球AI界的‘必爭之地’?！币晃蝗斯ぶ悄苎芯款I(lǐng)域的專家說，“參數(shù)規(guī)模大到遠(yuǎn)超我們想象的時(shí)候，會發(fā)生一些難以解釋的現(xiàn)象。”

浪潮信息副總裁劉軍同樣認(rèn)為，生命從簡單進(jìn)化到復(fù)雜，這種智能水平本身就是一種模型。如果把模型比作元宇宙中的生命，大模型的這種綜合系統(tǒng)能力，可能會決定未來數(shù)字世界和智能世界里的智能水平。“人的神經(jīng)元突觸超過100萬億，而現(xiàn)有大模型的參數(shù)量還遠(yuǎn)遠(yuǎn)不夠，所以我們還有很遠(yuǎn)路要走”。

伴隨著人工智能應(yīng)用廣度與深度的不斷提升，眾多行業(yè)、諸多業(yè)務(wù)場景的智能化創(chuàng)新需求日益增多。然而當(dāng)前大多數(shù)AI模型只能用于某一特定領(lǐng)域，通用性不強(qiáng)，這對AI技術(shù)提出了挑戰(zhàn)，也限制了AI的產(chǎn)業(yè)化進(jìn)程。

大模型在今天初露崢嶸絕非偶然。技術(shù)、算力、資源、需求等多因素的“風(fēng)云際會”，讓被AI業(yè)界視為“核力量”的大模型嶄露頭角。

電子發(fā)燒友綜合報(bào)道，參考自量子位、浪潮服務(wù)器

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

微軟

微軟

+關(guān)注

關(guān)注
4

文章
6516

瀏覽量
103605
浪潮

浪潮

+關(guān)注

關(guān)注
1

文章
442

瀏覽量
23711
英偉達(dá)

英偉達(dá)

+關(guān)注

關(guān)注
22

文章
3637

瀏覽量
89851

英偉達(dá)預(yù)測機(jī)器人領(lǐng)域或迎“GPT-3時(shí)刻”

未來2-3年內(nèi)，機(jī)器人基礎(chǔ)模型的研究將迎來重大突破，這一時(shí)刻被形象地比喻為機(jī)器人領(lǐng)域的“GPT-3時(shí)刻”。

發(fā)表于 09-20 17:05 ?400次閱讀

Jim Fan展望:機(jī)器人領(lǐng)域即將迎來GPT-3式突破

英偉達(dá)科學(xué)家9月19日，科技媒體The Decoder發(fā)布了一則引人關(guān)注的報(bào)道，英偉達(dá)高級科學(xué)家Jim Fan在近期預(yù)測，機(jī)器人技術(shù)將在未來

發(fā)表于 09-19 15:13 ?258次閱讀

英偉達(dá)高管解讀Q2財(cái)報(bào) 但是英偉達(dá)市值暴跌1.4萬億元

的150億美元。英偉達(dá)算是交出了一份非常亮眼的成績單，但是英偉達(dá)公司發(fā)布的Q

發(fā)表于 08-30 13:03 ?564次閱讀

英偉達(dá)震撼發(fā)布:全新AI模型參數(shù)規(guī)模躍升至80億量級

8月23日，英偉達(dá)宣布，其全新AI模型面世，該模型參數(shù)規(guī)模高達(dá)80億，具有精度高、計(jì)算效益大等優(yōu)

發(fā)表于 08-23 16:08 ?547次閱讀

英偉達(dá)市值暴增7500億

美東時(shí)間周一，科技股市場呈現(xiàn)分化態(tài)勢，特斯拉股價(jià)小幅下滑，而蘋果與微軟則溫和上漲。然而，在這場科技盛宴中，AI芯片領(lǐng)域的領(lǐng)頭羊英偉達(dá)卻大放異彩，股價(jià)飆升超過4%，市值一夜之間暴增105

發(fā)表于 08-13 17:48 ?817次閱讀

AI芯片巨頭英偉達(dá)漲超4% 英偉達(dá)市值暴增7500億

誰是美股最靚的仔？在人工智能浪潮之下AI芯片巨頭英偉達(dá)肯定有一席之地，特別是現(xiàn)在全球資本市場動(dòng)蕩之際，業(yè)界分析師多認(rèn)為英偉達(dá)是最佳“反彈股”

發(fā)表于 08-13 15:33 ?947次閱讀

“全球新股王”誕生！英偉達(dá)市值超微軟、蘋果

被瘋狂爆炒超4000%。而后，英偉達(dá)市值一度突破3萬億美元短暫超過蘋果公司。數(shù)據(jù)顯示，英偉達(dá)市值

發(fā)表于 06-26 08:05 ?285次閱讀

“全球新股王”誕生！<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>市值超<b class='flag-5'>微軟</b>、蘋果

微軟發(fā)布視覺型AI新模型：Phi-3-vision

　據(jù)悉，Phi-3-vision 作為微軟 Phi-3 家族的首款多模態(tài)模型，繼承自 Phi-3-mini 的文本理解能力，兼具輕巧便攜特性

發(fā)表于 05-27 15:56 ?384次閱讀

進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級芯片

計(jì)算工作負(fù)載、釋放百億億次計(jì)算能力和萬億參數(shù)人工智能模型的全部潛力提供關(guān)鍵基礎(chǔ)。 NVLink釋放數(shù)萬億參數(shù)AI模型的加速性能，顯著提升大型

發(fā)表于 05-13 17:16

微軟自研5000億參數(shù)大模型曝光

微軟近日曝光了其內(nèi)部正在秘密研發(fā)的巨型AI模型——MAl-1，這款模型擁有驚人的5000億參數(shù)。據(jù)微軟

發(fā)表于 05-08 09:56 ?383次閱讀

微軟發(fā)布phi-3AI模型，性能超越GPT-3.5

微軟稱，帶有38億參數(shù)的phi-3-mini經(jīng)過3.3萬億token的強(qiáng)化學(xué)習(xí)，其基礎(chǔ)表現(xiàn)已經(jīng)超過Mixtral 8x7B及

發(fā)表于 04-23 14:32 ?433次閱讀

為什么GPU適用于AI？AI服務(wù)器產(chǎn)業(yè)鏈格局分析

GPT模型對比BERT模型、T5模型的參數(shù)量有明顯提升。GPT-3是目前最大的知名語言

發(fā)表于 04-09 10:38 ?688次閱讀

英偉達(dá)一天蒸發(fā)近萬億英偉達(dá)市值蒸發(fā)超9200億元

英偉達(dá)一天蒸發(fā)近萬億英偉達(dá)市值蒸發(fā)超9200億元美國時(shí)間3月8日

發(fā)表于 03-10 15:42 ?1826次閱讀

Rambus HBM3內(nèi)存控制器IP速率達(dá)到9.6 Gbps

在人工智能大模型浪潮的推動(dòng)下，AI訓(xùn)練數(shù)據(jù)集正極速擴(kuò)增。以ChatGPT為例，去年11月發(fā)布的GPT-3，使用1750億個(gè)

發(fā)表于 01-23 11:19 ?769次閱讀

【飛騰派4G版免費(fèi)試用】仙女姐姐的嵌入式實(shí)驗(yàn)室之五~LLaMA.cpp及3B“小模型”O(jiān)penBuddy-StableLM-3B

和1750億參數(shù)的GPT-3都是非常由有競爭力的 MetaAI研究人員認(rèn)為，當(dāng)前大模型的高成本阻礙了學(xué)術(shù)研究，因此，開發(fā)出這個(gè)更小更強(qiáng)的模型

發(fā)表于 12-22 10:18

搜索歷史

浪潮、英偉達(dá)微軟相繼發(fā)布2500億、5300億參數(shù)的巨量模型，超過GPT-3

評論

英偉達(dá)預(yù)測機(jī)器人領(lǐng)域或迎“GPT-3時(shí)刻”

Jim Fan展望:機(jī)器人領(lǐng)域即將迎來GPT-3式突破

英偉達(dá)高管解讀Q2財(cái)報(bào) 但是英偉達(dá)市值暴跌1.4萬億元

英偉達(dá)震撼發(fā)布:全新AI模型參數(shù)規(guī)模躍升至80億量級

英偉達(dá)市值暴增7500億

AI芯片巨頭英偉達(dá)漲超4% 英偉達(dá)市值暴增7500億

“全球新股王”誕生！英偉達(dá)市值超微軟、蘋果

微軟發(fā)布視覺型AI新模型：Phi-3-vision

進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級芯片

微軟自研5000億參數(shù)大模型曝光

微軟發(fā)布phi-3AI模型，性能超越GPT-3.5

為什么GPU適用于AI？AI服務(wù)器產(chǎn)業(yè)鏈格局分析

英偉達(dá)一天蒸發(fā)近萬億英偉達(dá)市值蒸發(fā)超9200億元

Rambus HBM3內(nèi)存控制器IP速率達(dá)到9.6 Gbps

【飛騰派4G版免費(fèi)試用】仙女姐姐的嵌入式實(shí)驗(yàn)室之五~LLaMA.cpp及3B“小模型”O(jiān)penBuddy-StableLM-3B

搜索歷史

浪潮、英偉達(dá)微軟相繼發(fā)布2500億、5300億參數(shù)的巨量模型，超過GPT-3

評論

浪潮、英偉達(dá)微軟相繼發(fā)布2500億、5300億參數(shù)的巨量模型，超過GPT-3