0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

螞蟻集團AI研發(fā)部門開源AI Infra技術(shù),助力大模型訓(xùn)練效率提升

CHANBAEK ? 來源:網(wǎng)絡(luò)整理 ? 2024-02-04 10:01 ? 次閱讀

螞蟻集團AI創(chuàng)新研發(fā)部門NextEvo近日宣布,他們將全面開源AI Infra技術(shù),以推動AI研發(fā)效率的提升。該技術(shù)框架名為DLRover,目標(biāo)在于實現(xiàn)大規(guī)模分布式訓(xùn)練的智能化。

DLRover技術(shù)能夠幫助大模型千卡訓(xùn)練實現(xiàn)高效運行,有效時間占比超過95%。這意味著在訓(xùn)練過程中,大部分時間都能夠得到充分利用,而不是浪費在無謂的操作上。通過實現(xiàn)訓(xùn)練時的“自動駕駛”,該技術(shù)能夠顯著提高AI研發(fā)的效率。

為了進一步提高大模型訓(xùn)練的效率和穩(wěn)定性,NextEvo團隊還對DLRover進行了持續(xù)的優(yōu)化和完善。最新集成進DLRover的是Flash Checkpoint(FCP)方案。在模型訓(xùn)練過程中,通常需要打Checkpoint以便在中斷時能夠恢復(fù)到最近的狀態(tài)。然而,常規(guī)的Checkpoint做法存在一些缺點,如耗時長、高頻打點易降低訓(xùn)練可用時間、低頻打點恢復(fù)時丟失過多等。

針對這些問題,F(xiàn)CP方案進行了優(yōu)化。通過應(yīng)用FCP方案,在千卡千億參數(shù)模型訓(xùn)練中,Checkpoint導(dǎo)致的訓(xùn)練浪費時間降低了約5倍。此外,持久化時間降低了約70倍,有效訓(xùn)練時間從90%提升至95%。這一改進顯著提高了模型訓(xùn)練的效率和穩(wěn)定性,進一步推動了AI技術(shù)的發(fā)展。

螞蟻集團開源DLRover技術(shù)的舉措將為AI研發(fā)領(lǐng)域帶來積極的影響。通過分享和交流,這一技術(shù)有望成為推動AI領(lǐng)域發(fā)展的重要力量。我們期待看到更多基于DLRover技術(shù)的創(chuàng)新應(yīng)用和突破性成果,為人工智能的發(fā)展做出更大的貢獻。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29806

    瀏覽量

    268106
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3215

    瀏覽量

    42329
  • 螞蟻集團
    +關(guān)注

    關(guān)注

    0

    文章

    91

    瀏覽量

    3560
收藏 人收藏

    評論

    相關(guān)推薦

    為什么ai模型訓(xùn)練要用gpu

    GPU憑借其強大的并行處理能力和高效的內(nèi)存系統(tǒng),已成為AI模型訓(xùn)練不可或缺的重要工具。
    的頭像 發(fā)表于 10-24 09:39 ?176次閱讀

    AI模型訓(xùn)練數(shù)據(jù)來源分析

    AI模型訓(xùn)練數(shù)據(jù)來源廣泛且多元化,這些數(shù)據(jù)源對于構(gòu)建和優(yōu)化AI模型至關(guān)重要。以下是對AI
    的頭像 發(fā)表于 10-23 15:32 ?313次閱讀

    如何訓(xùn)練自己的AI模型

    訓(xùn)練自己的AI模型是一個復(fù)雜且耗時的過程,涉及多個關(guān)鍵步驟。以下是一個詳細的訓(xùn)練流程: 一、明確需求和目標(biāo) 首先,需要明確自己的需求和目標(biāo)。不同的任務(wù)和應(yīng)用領(lǐng)域需要不同類型的
    的頭像 發(fā)表于 10-23 15:07 ?372次閱讀

    ai模型訓(xùn)練需要什么配置

    AI模型訓(xùn)練是一個復(fù)雜且資源密集的過程,它依賴于高性能的硬件配置來確保訓(xùn)練效率和效果。 一、處理器(CPU) CPU是計算機的核心部件,負
    的頭像 發(fā)表于 10-17 18:10 ?563次閱讀

    AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

    計算的結(jié)合 我深刻體會到高性能計算(HPC)在AI for Science中的重要性。傳統(tǒng)的科學(xué)計算往往面臨計算量大、計算時間長等問題,而AI技術(shù)的引入可以顯著提高計算效率。同時,HP
    發(fā)表于 10-14 09:16

    Mobileye關(guān)閉激光雷達研發(fā)部門

    Mobileye Global近期宣布了一項重大戰(zhàn)略調(diào)整,決定終止其內(nèi)部對下一代調(diào)頻連續(xù)波(FMCW)激光雷達的研發(fā)項目,該項目原旨在增強自動駕駛及高度自動駕駛系統(tǒng)的性能。隨著這一決定的實施,Mobileye的激光雷達研發(fā)部門將于2024年底正式關(guān)閉,此舉預(yù)計將影響約10
    的頭像 發(fā)表于 09-10 15:56 ?300次閱讀

    IBM關(guān)閉中國研發(fā)部門 稱根據(jù)需要調(diào)整運營

    強全部名單中排名第71位。 1995年,IBM在中國成立了中國研究院,是IBM全球八大研究中心之一。1999年,IBM在中國成立了中國軟件開發(fā)中心,現(xiàn)在IBM公司將徹底關(guān)閉中國研發(fā)部門,此次關(guān)閉
    的頭像 發(fā)表于 08-26 15:03 ?503次閱讀

    螞蟻集團成立數(shù)字螞力新公司

    螞蟻集團近期在北京宣布成立全新子公司“數(shù)字螞力”,標(biāo)志著其在人工智能賦能企業(yè)服務(wù)領(lǐng)域的又一重要布局。數(shù)字螞力作為螞蟻集團AI
    的頭像 發(fā)表于 08-14 16:57 ?602次閱讀

    ai模型ai框架的關(guān)系是什么

    的數(shù)據(jù)和計算資源來進行訓(xùn)練AI模型的主要特點包括: 1.1 參數(shù)數(shù)量大:AI模型的參數(shù)數(shù)量通常在數(shù)百萬到數(shù)十億之間,這使得它們能夠捕捉
    的頭像 發(fā)表于 07-16 10:07 ?3.7w次閱讀

    螞蟻集團去年研發(fā)投入達211.9億元

    螞蟻集團近日發(fā)布的《2023年可持續(xù)發(fā)展報告》揭示了其在人工智能領(lǐng)域的堅定投入與卓越成就。據(jù)報告,2023年螞蟻集團積極擁抱AI
    的頭像 發(fā)表于 06-13 14:27 ?423次閱讀

    AI+云服務(wù)引領(lǐng)行業(yè)發(fā)展,螞蟻集團模型自主研發(fā)取得新突破

    隨著數(shù)字轉(zhuǎn)型的推進,人工智能(AI)與云服務(wù)的融合正在改變各個行業(yè)。5月25日,在上海財經(jīng)大學(xué)滴水湖高級金融學(xué)院2024年度大會上,螞蟻集團研究院院長李振華發(fā)表演講
    的頭像 發(fā)表于 05-27 09:22 ?341次閱讀

    NanoEdge AI技術(shù)原理、應(yīng)用場景及優(yōu)勢

    NanoEdge AI 是一種基于邊緣計算的人工智能技術(shù),旨在將人工智能算法應(yīng)用于物聯(lián)網(wǎng)(IoT)設(shè)備和傳感器。這種技術(shù)的核心思想是將數(shù)據(jù)處理和分析從云端轉(zhuǎn)移到設(shè)備本身,從而減少數(shù)據(jù)傳輸延遲、降低
    發(fā)表于 03-12 08:09

    螞蟻集團推出20億參數(shù)多模態(tài)遙感基礎(chǔ)模型SkySense

    近日,螞蟻集團聯(lián)合武漢大學(xué)宣布成功研發(fā)出20億參數(shù)多模態(tài)遙感基礎(chǔ)模型SkySense。這一創(chuàng)新模型螞蟻
    的頭像 發(fā)表于 03-04 11:22 ?752次閱讀

    潞晨科技Colossal-AI + 浪潮信息AIStation,大模型開發(fā)效率提升10倍

    的潞晨科技Colossal-AI系統(tǒng),用戶可實現(xiàn)在本地算力平臺一鍵訓(xùn)練、微調(diào)、推理、部署大模型,將大模型開發(fā)效率
    的頭像 發(fā)表于 03-01 09:43 ?441次閱讀
    潞晨科技Colossal-<b class='flag-5'>AI</b> + 浪潮信息AIStation,大<b class='flag-5'>模型</b>開發(fā)<b class='flag-5'>效率</b><b class='flag-5'>提升</b>10倍

    螞蟻集團成立AI研發(fā)與應(yīng)用部門

    螞蟻集團近日宣布成立AI創(chuàng)新研發(fā)與應(yīng)用部門,名為“NextEvo”,由螞蟻
    的頭像 發(fā)表于 01-25 16:43 ?838次閱讀