0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

浪潮信息劉軍:智算力系統(tǒng)創(chuàng)新 加速生成式AI產(chǎn)業(yè)發(fā)展

全球TMT ? 來源:全球TMT ? 作者:全球TMT ? 2023-12-06 14:08 ? 次閱讀

北京2023年12月6日/美通社/ --11月29日,在北京舉行的2023人工智能計(jì)算大會(huì)(AICC)上,浪潮信息高級(jí)副總裁劉軍在主題演講《智算力系統(tǒng)創(chuàng)新 加速生成式AI產(chǎn)業(yè)發(fā)展》中分享了浪潮信息對(duì)于智算力系統(tǒng)創(chuàng)新和AI產(chǎn)業(yè)發(fā)展的思考。

wKgZomVwD_WAbed4AADVM889aU0323.jpg


以下為演講實(shí)錄整理

當(dāng)前,生成式人工智能和大模型推動(dòng)算力需求高速增長(zhǎng),如何通過智算力系統(tǒng)來更好地支撐AI創(chuàng)新與應(yīng)用,已經(jīng)成為智算產(chǎn)業(yè)的關(guān)鍵。應(yīng)對(duì)生成式AI的發(fā)展和挑戰(zhàn),應(yīng)該從算力系統(tǒng)、AI軟件基礎(chǔ)設(shè)施(AI Infra)、算法模型和產(chǎn)業(yè)生態(tài)4個(gè)方面來進(jìn)行綜合考量,從而加速智能產(chǎn)業(yè)的落地。

智算系統(tǒng)創(chuàng)新,解決生成式AI的算力挑戰(zhàn)

在算力系統(tǒng)層面,生成式人工智能面臨的挑戰(zhàn)主要來自計(jì)算、數(shù)據(jù)和互聯(lián)三個(gè)方面:

在計(jì)算層面,算力多元化趨勢(shì)愈發(fā)明顯,導(dǎo)致AI算力系統(tǒng)開發(fā)適配周期長(zhǎng)、定制開發(fā)投入大、業(yè)務(wù)遷移時(shí)間久。此外,大模型訓(xùn)練對(duì)算力規(guī)模要求高,在單芯片算力有限的情況下,必須通過構(gòu)建更大規(guī)模的集群來獲得性能的擴(kuò)展。

在數(shù)據(jù)層面,大模型從文本、圖片等單模態(tài)向多模態(tài)、跨模態(tài)演進(jìn),訓(xùn)練的數(shù)據(jù)集達(dá)到TB級(jí)甚至PB級(jí),且不同作業(yè)階段對(duì)于數(shù)據(jù)存儲(chǔ)的要求呈現(xiàn)多元化趨勢(shì)。

在互聯(lián)層面,傳統(tǒng)RoCE網(wǎng)絡(luò)因ECMP哈希不均導(dǎo)致40%以上的網(wǎng)絡(luò)帶寬被浪費(fèi),且尾時(shí)延高導(dǎo)致網(wǎng)絡(luò)通信時(shí)間占比訓(xùn)練時(shí)間高達(dá)40%,極大降低了計(jì)算效率。同時(shí),網(wǎng)絡(luò)是集群共享資源,當(dāng)集群規(guī)模達(dá)到一定量級(jí)后,網(wǎng)絡(luò)性能波動(dòng)會(huì)影響到所有計(jì)算資源的利用率,網(wǎng)絡(luò)故障會(huì)影響數(shù)十個(gè)甚至更多加速卡的連通性。

面對(duì)三重挑戰(zhàn),浪潮信息總結(jié)了多年產(chǎn)品研發(fā)和用戶服務(wù)經(jīng)驗(yàn),提出三部分解決之道。

在計(jì)算方面,首先要針對(duì)多元算力,以統(tǒng)一的系統(tǒng)架構(gòu)和統(tǒng)一的接口規(guī)范來兼容各類AI加速卡,保障芯片算力的高效釋放。浪潮信息早在2018年就著力開放多元的AI算力平臺(tái)設(shè)計(jì),最新發(fā)布的G7多元算力平臺(tái)是業(yè)界唯一可以同時(shí)兼容SXM、OAI加速卡并實(shí)現(xiàn)8卡全互聯(lián)、16卡全互聯(lián)和混合立方互聯(lián)系統(tǒng)拓?fù)涞腁I算力平臺(tái)。為了保障更大規(guī)模的節(jié)點(diǎn)擴(kuò)展性能,浪潮信息研制的開放加速計(jì)算架構(gòu)支持PCIe、RocE和多種私有互聯(lián)協(xié)議,節(jié)點(diǎn)內(nèi)和跨節(jié)點(diǎn)卡間互聯(lián)最大達(dá)到896 GB/s,跨節(jié)點(diǎn)通過免網(wǎng)卡RDMA實(shí)現(xiàn)高效擴(kuò)展,集群性能加速比超過90%。

在數(shù)據(jù)存儲(chǔ)方面,針對(duì)大模型的數(shù)據(jù)存儲(chǔ)需求,浪潮信息在業(yè)界率先實(shí)現(xiàn)了一套集群系統(tǒng)同時(shí)支持文件、對(duì)象、大數(shù)據(jù)等多種非結(jié)構(gòu)化協(xié)議的無損互訪,同時(shí)支持閃存、磁盤、磁帶、光盤四類存儲(chǔ)介質(zhì),并支持?jǐn)?shù)據(jù)全生命周期熱、溫、冷、冰四級(jí)存儲(chǔ)管理,以一套存儲(chǔ)架構(gòu)支持一個(gè)數(shù)據(jù)中心,真正實(shí)現(xiàn)了數(shù)據(jù)融合、管理融合。

在網(wǎng)絡(luò)互聯(lián)方面,浪潮信息專為生成式AI計(jì)算場(chǎng)景發(fā)布旗艦51.2T高性能交換機(jī),為企業(yè)級(jí)智算網(wǎng)絡(luò)提供高吞吐、高可擴(kuò)展、高可靠的智算網(wǎng)絡(luò)產(chǎn)品及方案,解決了傳統(tǒng)RoCE方案普遍存在的有效帶寬低、尾時(shí)延高、故障收斂慢等問題,將大模型訓(xùn)練性能提升38%以上,性能接近InfiniBand,助力AI用戶高效釋放大模型生產(chǎn)力。

AI Infra全棧優(yōu)化:釋放多元算力、提升大模型算力效率

大模型算法開發(fā)的鏈條冗長(zhǎng),這意味著需要諸多的工程化工具支撐。因此,在算力系統(tǒng)外,AI軟件基礎(chǔ)設(shè)施(AI Infra)也亟需創(chuàng)新。

AIGC大模型開發(fā)是一項(xiàng)極其復(fù)雜的系統(tǒng)工程,即便解決了底層算力供給的問題,仍面臨建不了和用不好的問題。"建不好"是指構(gòu)建算力平臺(tái)不僅需要服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)等硬件集成,還需要考慮不同硬件和軟件之間的兼容性和版本選擇,確保驅(qū)動(dòng)和工具的適配性和穩(wěn)定性;"用不好"則體現(xiàn)在算力平臺(tái)效率低、穩(wěn)定性不足、故障頻發(fā)等現(xiàn)實(shí)困擾。

為加速模型生產(chǎn)和落地應(yīng)用,浪潮信息在AI Infra層面開發(fā)了大模型智算軟件棧OGAI (Open GenAI Infra)。在算力部署方面,OGAI開源了業(yè)界首個(gè)AI算力集群系統(tǒng)環(huán)境部署方案PODsys;在大規(guī)模訓(xùn)練的長(zhǎng)時(shí)保障方面,從算力調(diào)度平臺(tái)層實(shí)現(xiàn)了自動(dòng)化斷點(diǎn)續(xù)訓(xùn);在多元算力接入方面以標(biāo)準(zhǔn)化、模塊化接入方式穩(wěn)定接入超過40+芯片;在數(shù)據(jù)治理方面構(gòu)建了流程化、可自定義的數(shù)據(jù)清洗pipeline,有效縮短數(shù)據(jù)清洗時(shí)間、提升文本審核過濾準(zhǔn)確率;在計(jì)算效率優(yōu)化方面,通過對(duì)分布式并行算法的極致優(yōu)化,將千億參數(shù)模型的訓(xùn)練計(jì)算效率提升到54%;在多模型管理方面已經(jīng)支持了超過10個(gè)業(yè)界主流的開源大模型和元腦生態(tài)大模型,用實(shí)踐證明AI Infra全?;A(chǔ)軟件和工作流的創(chuàng)新是多元算力高效釋放、提升大模型算力效率的關(guān)鍵。

wKgaomVwD_WAefIEAACLCtTuxXI341.jpg


基礎(chǔ)大模型,生成式AI落地發(fā)展的核心支撐

當(dāng)前,大模型技術(shù)正在推動(dòng)生成式人工智能產(chǎn)業(yè)迅猛發(fā)展,而基礎(chǔ)大模型的關(guān)鍵能力則是大模型在行業(yè)和應(yīng)用落地時(shí)能力表現(xiàn)的核心支撐。但是,基礎(chǔ)大模型在持續(xù)進(jìn)化的過程中,依然面臨著數(shù)據(jù)、算法、算力等關(guān)鍵因素的挑戰(zhàn)與制約。

目前,受政策支持、算力水平提升、數(shù)據(jù)資源龐大以及科研實(shí)力增強(qiáng)等利好因素的推動(dòng),中國(guó)在基礎(chǔ)大模型方面取得一定成績(jī),但仍需加大在基礎(chǔ)性技術(shù)方面的原創(chuàng)性突破,夯實(shí)底層模型和算法能力。

浪潮信息從實(shí)踐入手,加大模型結(jié)構(gòu)創(chuàng)新、高質(zhì)量數(shù)據(jù)準(zhǔn)備、高效算力利用投入,并將這些技術(shù)運(yùn)用在了"源2.0"大模型上,在編程、推理、邏輯等方面展示了先進(jìn)的能力。

在算法方面,"源2.0"提出并采用了一種新型的注意力算法結(jié)構(gòu),有效提升了模型自然語言的表達(dá)能力與生成精度;在數(shù)據(jù)方面,"源2.0"在訓(xùn)練數(shù)據(jù)來源、數(shù)據(jù)增強(qiáng)和合成方法等方面進(jìn)行了全面創(chuàng)新,最終增強(qiáng)模型數(shù)理邏輯能力;在算力方面,"源2.0"采用非均勻流水并行+優(yōu)化器參數(shù)并行+數(shù)據(jù)并行+ Loss計(jì)算分塊的策略,顯著降低大模型對(duì)于芯片間互聯(lián)帶寬的要求,讓模型訓(xùn)練在"條件有限"的算力規(guī)模下實(shí)現(xiàn)高效率工作。

源2.0作為千億級(jí)基礎(chǔ)大模型,在業(yè)界公開的評(píng)測(cè)上進(jìn)行了代碼生成、數(shù)學(xué)問題求解、事實(shí)問答方面的能力測(cè)試,展示了較為先進(jìn)的能力表現(xiàn)。為了滿足不同行業(yè)、不同場(chǎng)景的能力要求,浪潮信息全面開源"源2.0"全系列大模型,以最便捷的方式支持用戶建設(shè)自己的智能化產(chǎn)品與能力,結(jié)合行業(yè)特點(diǎn)進(jìn)行框架、模型、數(shù)據(jù)的垂直整合,提升基礎(chǔ)大模型的準(zhǔn)確性和可用性。

生態(tài)聚進(jìn),聯(lián)合創(chuàng)新,加速AI應(yīng)用落地

有了強(qiáng)大的基礎(chǔ)大模型,還需要進(jìn)一步深入應(yīng)用場(chǎng)景。將大模型的能力賦能到產(chǎn)業(yè)環(huán)節(jié)之中,需要多廠商的深度配合。面對(duì)生態(tài)復(fù)雜離散、產(chǎn)業(yè)AI落地困難的挑戰(zhàn),浪潮信息提出元腦生態(tài),聚合優(yōu)質(zhì)伙伴協(xié)同創(chuàng)新,通過"技術(shù)支持、方案聯(lián)合、平臺(tái)共享"實(shí)現(xiàn)不同廠商之間的優(yōu)勢(shì)互補(bǔ)。

目前,元腦生態(tài)以浪潮信息的AI算力平臺(tái)、AI資源平臺(tái)和AI算法平臺(tái)為支撐,已經(jīng)對(duì)接40多家芯片廠商,400+算法廠商,4000+系統(tǒng)集成商,通過多元的算力供給、全棧的AI Infra軟件棧、豐富的大模型經(jīng)驗(yàn),實(shí)現(xiàn)"百模"與"千行"的對(duì)接,助力千行百業(yè)加速生成式AI 產(chǎn)業(yè)創(chuàng)新,高效釋放生產(chǎn)力。

wKgZomVwD_aAfwb3AAC6aEemKOQ326.jpg


智算力是創(chuàng)新力,AIGC與數(shù)字經(jīng)濟(jì)、實(shí)體經(jīng)濟(jì)的深度融合,將會(huì)創(chuàng)造出更多顛覆性的社會(huì)價(jià)值、經(jīng)濟(jì)價(jià)值,而浪潮信息將秉持開放、共享、共建的發(fā)展理念,抓住AIGC市場(chǎng)機(jī)遇,共同推進(jìn)人工智能落地。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28861

    瀏覽量

    266182
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46048

    瀏覽量

    234940
  • 數(shù)字經(jīng)濟(jì)

    關(guān)注

    2

    文章

    1032

    瀏覽量

    18169
  • 算力
    +關(guān)注

    關(guān)注

    1

    文章

    833

    瀏覽量

    14567
  • AIGC
    +關(guān)注

    關(guān)注

    1

    文章

    332

    瀏覽量

    1372
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    開啟全新AI時(shí)代 智能嵌入系統(tǒng)快速發(fā)展——“第六屆國(guó)產(chǎn)嵌入操作系統(tǒng)技術(shù)與產(chǎn)業(yè)發(fā)展論壇”圓滿結(jié)束

    嵌入系統(tǒng)是電子信息產(chǎn)業(yè)的基礎(chǔ),是智能系統(tǒng)的核心。大模型催生AI走入千家萬戶、喚醒端側(cè)AI的需求
    發(fā)表于 08-30 17:24

    浪潮信息趙帥:開放計(jì)算創(chuàng)新 應(yīng)對(duì)Scaling Law挑戰(zhàn)

    Scaling Law帶來的AI基礎(chǔ)設(shè)施Scale up和Scale out的挑戰(zhàn),數(shù)據(jù)中心需要以開放創(chuàng)新加速力系統(tǒng)、管理和基礎(chǔ)設(shè)施的全向Scale進(jìn)程,推動(dòng)
    的頭像 發(fā)表于 08-15 16:02 ?174次閱讀
    <b class='flag-5'>浪潮信息</b>趙帥:開放計(jì)算<b class='flag-5'>創(chuàng)新</b> 應(yīng)對(duì)Scaling Law挑戰(zhàn)

    浪潮信息攜手天府云數(shù)據(jù)科技推出了42kW智風(fēng)冷力倉

    在當(dāng)今數(shù)字化轉(zhuǎn)型的浪潮中,力作為推動(dòng)數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展的核心引擎,正以前所未有的速度進(jìn)化。近日,浪潮信息與四川省天府云數(shù)據(jù)科技有限責(zé)任公司攜手,在國(guó)內(nèi)率先推出了42kW智
    的頭像 發(fā)表于 07-15 16:18 ?477次閱讀

    浪潮信息推出AIGC存儲(chǔ)解決方案

    近日,在科技創(chuàng)新浪潮中,浪潮信息成功舉辦了“元腦中國(guó)行”全國(guó)巡展的杭州站活動(dòng),此次盛會(huì)不僅匯聚了業(yè)界的精英與目光,更見證了浪潮信息在AIGC(人工智能
    的頭像 發(fā)表于 07-03 11:16 ?529次閱讀

    浪潮信息發(fā)布AS13000G7-N系列分布全閃存儲(chǔ)

    浪潮信息近日推出了專為大型AI模型優(yōu)化的AS13000G7-N系列分布全閃存儲(chǔ)。該系列基于浪潮信息自研的分布文件
    的頭像 發(fā)表于 05-14 10:03 ?407次閱讀

    為大模型專門優(yōu)化 浪潮信息發(fā)布分布全閃存儲(chǔ)AS13000G7-N系列

    北京2024年5月10日?/美通社/ -- 近日,浪潮信息發(fā)布為大模型專門優(yōu)化的分布全閃存儲(chǔ)AS13000G7-N系列。該系列依托浪潮信息自研分布文件
    的頭像 發(fā)表于 05-10 16:37 ?336次閱讀
    為大模型專門優(yōu)化 <b class='flag-5'>浪潮信息</b>發(fā)布分布<b class='flag-5'>式</b>全閃存儲(chǔ)AS13000G7-N系列

    浪潮信息發(fā)布為大模型專門優(yōu)化的分布全閃存儲(chǔ)AS13000G7-N系列

    近日,浪潮信息發(fā)布為大模型專門優(yōu)化的分布全閃存儲(chǔ)AS13000G7-N系列。該系列依托浪潮信息自研分布文件系統(tǒng),搭載新一代數(shù)據(jù)
    的頭像 發(fā)表于 05-08 09:38 ?378次閱讀
    <b class='flag-5'>浪潮信息</b>發(fā)布為大模型專門優(yōu)化的分布<b class='flag-5'>式</b>全閃存儲(chǔ)AS13000G7-N系列

    浪潮信息發(fā)布企業(yè)大模型開發(fā)平臺(tái)&quot;元腦企智&quot;EPAI,加速AI創(chuàng)新落地

    of AI),為企業(yè)AI大模型落地應(yīng)用提供高效、易用、安全的端到端開發(fā)平臺(tái),提供數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、知識(shí)檢索、應(yīng)用框架等系列工具,支持調(diào)度多元力和多模算法,幫助企業(yè)高效開發(fā)部署生成
    的頭像 發(fā)表于 04-18 21:21 ?342次閱讀
    <b class='flag-5'>浪潮信息</b>發(fā)布企業(yè)大模型開發(fā)平臺(tái)&quot;元腦企智&quot;EPAI,<b class='flag-5'>加速</b><b class='flag-5'>AI</b><b class='flag-5'>創(chuàng)新</b>落地

    浪潮信息IPF24: 發(fā)展人工智能+,創(chuàng)新需要激發(fā)活力、拓展路徑、加速落地

    路徑、加速創(chuàng)新落地,推動(dòng)人工智能成為百行千業(yè)的生產(chǎn)力。 ? 發(fā)展人工智能+ 要圍繞活力、路徑、落地開展創(chuàng)新 移動(dòng)應(yīng)用發(fā)達(dá)、數(shù)據(jù)資源豐富、應(yīng)用場(chǎng)景多元、人工智能
    的頭像 發(fā)表于 04-18 21:19 ?244次閱讀
    <b class='flag-5'>浪潮信息</b>IPF24: <b class='flag-5'>發(fā)展</b>人工智能+,<b class='flag-5'>創(chuàng)新</b>需要激發(fā)活力、拓展路徑、<b class='flag-5'>加速</b>落地

    浪潮信息發(fā)布企業(yè)大模型開發(fā)平臺(tái)“元腦企智”EPAI

    4月17日,在2024浪潮信息生態(tài)伙伴大會(huì)(IPF2024)上,浪潮信息重磅發(fā)布企業(yè)大模型開發(fā)平臺(tái)“元腦企智”EPAI(Enterprise Platform of AI),為企業(yè)AI
    的頭像 發(fā)表于 04-18 10:12 ?282次閱讀
    <b class='flag-5'>浪潮信息</b>發(fā)布企業(yè)大模型開發(fā)平臺(tái)“元腦企智”EPAI

    浪潮信息生態(tài)伙伴大會(huì)IPF2024:發(fā)展人工智能+,加速創(chuàng)新落地

    4月17日,浪潮信息在北京舉辦的生態(tài)伙伴大會(huì)IPF2024上提出,發(fā)展人工智能+,要堅(jiān)持“以應(yīng)用為導(dǎo)向,以系統(tǒng)為核心”,著重激發(fā)創(chuàng)新活力、拓展創(chuàng)新
    的頭像 發(fā)表于 04-18 09:12 ?479次閱讀

    潞晨科技Colossal-AI浪潮信息AIStation完成兼容性互認(rèn)證

    近日,潞晨科技的Colossal-AI大模型開發(fā)工具和浪潮信息的AIStation智能業(yè)務(wù)創(chuàng)新生產(chǎn)平臺(tái)成功完成了兼容性互認(rèn)證。這一合作意味著用戶可以在AIStation平臺(tái)上便捷地部署與調(diào)度Colossal-
    的頭像 發(fā)表于 03-06 10:18 ?588次閱讀

    2024 信心滿滿!19家元腦生態(tài)伙伴與浪潮信息簽署億元分銷協(xié)議

    協(xié)議。 擁抱大模型AIGC風(fēng)口,分銷業(yè)務(wù)變中求進(jìn) 當(dāng)前,生成人工智能和大模型推動(dòng)力需求高速增長(zhǎng),如何通過智力系統(tǒng)
    的頭像 發(fā)表于 12-08 18:18 ?503次閱讀

    數(shù)聚AI ? 智慧未來 | 浪潮信息存儲(chǔ)助力企業(yè)基于大模型實(shí)現(xiàn)數(shù)字化創(chuàng)新

    ,更好地幫助企業(yè)實(shí)現(xiàn)數(shù)字化創(chuàng)新? 11月29日,由DOIT傳媒舉辦的“數(shù)智創(chuàng)新 · AI未來”—2023中國(guó)數(shù)據(jù)與存儲(chǔ)峰會(huì)在北京成功舉辦,浪潮信息存儲(chǔ)產(chǎn)品線副總經(jīng)理
    的頭像 發(fā)表于 11-30 16:25 ?352次閱讀
    數(shù)聚<b class='flag-5'>AI</b> ? 智慧未來 | <b class='flag-5'>浪潮信息</b>存儲(chǔ)助力企業(yè)基于大模型實(shí)現(xiàn)數(shù)字化<b class='flag-5'>創(chuàng)新</b>

    浪潮信息長(zhǎng)期賦能MAXIEYE實(shí)現(xiàn)云數(shù)據(jù)中心部署

    近日,AI驅(qū)動(dòng)的自動(dòng)駕駛?cè)珬?b class='flag-5'>創(chuàng)新服務(wù)商上海智駕汽車科技有限公司(下簡(jiǎn)稱“智駕科技MAXIEYE”)與全球領(lǐng)先的AI服務(wù)器廠商浪潮電子信息產(chǎn)業(yè)
    的頭像 發(fā)表于 10-19 16:34 ?765次閱讀