0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

一文詳解多模態(tài)大模型發(fā)展及高頻因子計算加速GPU算力 | 英偉達顯卡被限,華為如何力挽狂瀾?

GPU視覺識別 ? 來源:GPU視覺識別 ? 作者:GPU視覺識別 ? 2023-10-26 12:28 ? 次閱讀

深度學習、機器學習、多模態(tài)大模型、深度神經(jīng)網(wǎng)絡、高頻因子計算、GPT-4、預訓練語言模型、Transformer、ChatGPT、GenAI、L40S、A100、H100、A800、H800、華為、GPU、CPU英偉達、NVIDIA、卷積神經(jīng)網(wǎng)絡、Stable Diffusion、Midjourney、Faster R-CNN、CNN

隨著人工智能技術的快速發(fā)展,多模態(tài)大模型在各個領域中的應用越來越廣泛。多模態(tài)大模型是指能夠處理多種不同類型的數(shù)據(jù),如文本、圖像、音頻視頻等大型神經(jīng)網(wǎng)絡模型。隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的普及,多模態(tài)大模型在許多領域中都得到了廣泛的應用。例如,在醫(yī)療領域中,可以通過分析醫(yī)學圖像和病歷等數(shù)據(jù),輔助醫(yī)生進行疾病診斷和治療方案制定;在智能交通領域中,可以通過分析交通圖像和交通流量等數(shù)據(jù),輔助交通管理部門進行交通規(guī)劃和調(diào)度。

在大規(guī)模計算中,高頻因子計算是一個非常耗時的過程。GPU作為一種專門用于大規(guī)模并行計算的芯片,具有高效的計算能力和高速的內(nèi)存帶寬,因此被廣泛應用于高頻因子計算中。通過將計算任務分配給多個GPU,可以顯著提高計算速度和效率。

近年來,全球范圍內(nèi)的芯片禁令不斷升級,給許多企業(yè)和科研機構(gòu)帶來了很大的困擾,需要在技術層面進行創(chuàng)新和突破。一方面,可以探索使用***和其他不受限制的芯片來替代被禁用的芯片;另一方面,可以通過優(yōu)化算法和架構(gòu)等方法來降低對特定芯片的依賴程度。

為了更好地推進多模態(tài)大模型的研究和應用,藍海大腦大模型訓練平臺基于自主研發(fā)的分布式計算框架和算法庫,可以高效地進行大規(guī)模訓練和推斷。同時,該平臺還提供了豐富的數(shù)據(jù)處理、模型調(diào)試和可視化工具,可以幫助用戶快速構(gòu)建、訓練和部署多模態(tài)大模型。

本文將介紹多模態(tài)大模型的綜述,并探討高頻因子計算的GPU加速方法,以及探討在當前芯片禁令升級的情況下,如何繼續(xù)推進大模型訓練平臺的發(fā)展。

多模態(tài)大模型綜述

一、多模態(tài)模型重塑 AI 技術范式

多模態(tài)模型融合了語言和圖像模態(tài),將文本理解和思維鏈能力投射到圖像模態(tài)上,賦予模型圖像理解和生成功能。通過預訓練和調(diào)參的方式,顛覆了傳統(tǒng)機器視覺小模型的定制化業(yè)務模式,大幅提高了模型的泛用性。多模態(tài)模型旨在模擬人類大腦處理信息的方式,從大語言模型到圖像-文本模型,再泛化到其他模態(tài)的細分場景模型。與大語言模型相比,多模態(tài)模型擴大了信息輸入規(guī)模,提高了信息流密度,突破了語言模態(tài)的限制;與傳統(tǒng)機器學習模型相比,多模態(tài)模型具有更高的可遷移性,并能進行內(nèi)容生成和邏輯推理。

1、多模態(tài)模型通過高技術供給重塑 AI 技術范式

多模態(tài)模型目前主要是文本-圖像模型。模態(tài)是指表達或感知事物的方式,每一種信息的來源或形式都可以稱為一種模態(tài)。例如,人類有觸覺、聽覺和視覺等感官,信息的媒介有語音、視頻、文字等,每一種都可以稱為一種模態(tài)。目前已經(jīng)推出幾十種基礎模型,如Clip、ViT和GPT-4等,并且已經(jīng)出現(xiàn)諸如Stable Diffusion和Midjourney這樣的應用。因此,多模態(tài)大模型領域目前以文本-圖像大模型為主,未來隨著AI技術的發(fā)展,包含更多模態(tài)的模型有望陸續(xù)推出。

多模態(tài)模型融合語言和圖像模態(tài),將文本理解和思維鏈能力應用于圖像模態(tài),為模型賦予圖像理解和生成功能。多模態(tài)技術通過預訓練和調(diào)參顛覆了傳統(tǒng)機器視覺小模型的定制化業(yè)務模式,大幅提高了模型的泛用性。從商業(yè)模式來看,產(chǎn)業(yè)話語權逐漸從應用端轉(zhuǎn)向研發(fā)端,改變了由客戶主導市場的項目制,轉(zhuǎn)向由技術定義市場。

wKgaomU56tOATUcTAAIUEYhAw1Q492.png

多模態(tài)模型有望顛覆 AI 視覺的商業(yè)模式

多模態(tài)模型的核心目標是以人類大腦處理信息的方式進行模擬。語言和圖像模態(tài)本質(zhì)上是信息的載體,可類比為接受不同傳感器的感知方式。人類通過整合來自不同感官的信息從而理解世界,同樣,多模態(tài)模型將各種感知模態(tài)結(jié)合,以更全面、綜合的方式理解和生成信息,并實現(xiàn)更豐富的任務和應用。

wKgZomU56tSAYrdnAAGrweJcJ3Q518.png

當前圖像-語言多模態(tài)模型的典型任務

多模態(tài)模型的技術路徑是從圖像-語言模態(tài)融合擴展到三種以上模態(tài)的融合。

語言模態(tài)訓練為模型提供邏輯思維能力與信息生成能力,這兩種能力是處理信息的基礎。視覺模態(tài)具有高信息流密度且更貼近現(xiàn)實世界,因此成為多模態(tài)技術的首選信息載體。具備視覺能力的模型具有更高的實用性,可廣泛應用于現(xiàn)實世界的各個方面。在此基礎上,模型可以繼續(xù)發(fā)展動作、聲音、觸覺等不同模態(tài),以應對更為復雜的場景。

wKgaomU56tSAaPbqAAD7M1WzuL0428.png

多模態(tài)模型技術發(fā)展路徑

2、與大語言模型對比:抬升模型能力天花板

多模態(tài)大模型通過預訓練+調(diào)參,大幅提升信息輸入規(guī)模和信息流密度,打破語言模態(tài)的限制。大模型能力的提升得益于對信息的壓縮與二次處理,多模態(tài)模型在處理圖片和文本數(shù)據(jù)時,能夠提高模型能力的上限。視覺模態(tài)是直接從現(xiàn)實世界獲取的初級模態(tài),數(shù)據(jù)源豐富且成本低廉,相比語言模態(tài)更直觀易于理解。多模態(tài)模型不僅提高信息流密度,還突破語言模態(tài)不同語種的限制。在數(shù)據(jù)資源方面,國外科技巨頭具有優(yōu)勢,如ChatGPT等大模型的數(shù)據(jù)訓練集以英文語料為主,英文文本在互聯(lián)網(wǎng)和自然科學論文索引中的數(shù)量具有優(yōu)勢。相比之下,圖像模態(tài)是可以直接獲取的一級模態(tài),因此多模態(tài)的數(shù)據(jù)突破了語言種類限制。

wKgZomU56tWADFdMAACH9UhFW5U613.png

圖像模態(tài)是初級模態(tài),可以直接從現(xiàn)實世界獲得

多模態(tài)模型提高信息交互效率,降低應用門檻。大語言模型需要輸入文本Prompt來觸發(fā)模型文本回答,但編寫準確的Prompt需要一定技能和思考。純文本交互方式有時受限于文本表達能力,難以傳達復雜概念或需求。相比之下,多模態(tài)模型圖像交互方式使用門檻更低,更加直觀。用戶可直接提供圖像或視覺信息,提高信息交互效率。多模態(tài)模型不同模態(tài)信息可以相互印證,從而提高模型推理過程的魯棒性。

wKgaomU56taACO4MAAU3uh5xxDk574.png

直接上傳圖片至 GPT-4 比文字描述簡單快捷

3、與傳統(tǒng)機器視覺模型對比:拓寬應用邊界,提升價值量

在預訓練大模型出現(xiàn)之前,機器視覺技術(CV)是深度學習領域的一個重要分支,深度學習算法以卷積神經(jīng)網(wǎng)絡(CNN)為主。CNN 在圖像上應用卷積操作,從局部區(qū)域提取特征。具體而言,CNN 算法會把一張圖像切割成若干個小方塊(如 3X3),將每一個小方塊轉(zhuǎn)化成單獨的向量,先對全圖像在 3X3 的 9 個方塊范圍計算卷積得到特征值(CNN 算法),這些特征映射捕捉不同的局部信息。然后對全圖像在 2X2 的 4 個小方塊范圍內(nèi)取最大值或平均值(池化算法)。最后經(jīng)過多輪特征值提取與池化后,會將矩陣投喂給神經(jīng)網(wǎng)絡,用于最終的物體識別、圖像分割等任務。

wKgZomU56taAMD3sAAITUe1N2VI767.png

CNN 算法提取圖像的特征值

傳統(tǒng)機器視覺模型只能處理圖像數(shù)據(jù),無法處理文本信息,也不具備邏輯推理能力。由于這些模型僅對圖像數(shù)據(jù)進行表征編碼,通過提取視覺特征如顏色、紋理和形狀等來識別圖像,沒有涉及語言模態(tài)。

多模態(tài)模型具有更高的可遷移性和更廣泛的應用范圍。盡管CNN在機器視覺領域被廣泛使用,但它們大多是針對特定任務設計的,因此在處理不同任務或數(shù)據(jù)集時,其可遷移性受到限制。多模態(tài)大模型通過聯(lián)合訓練各種感知模態(tài)如圖像、文本和聲音等,能夠?qū)W習到更通用和抽象的特征表示。這種預訓練使得多模態(tài)模型在各種應用中都具備強大的基礎性能,因此具有更高的泛化能力。

多模態(tài)模型還具有圖像生成和邏輯推理的能力,進一步提高了應用的價值。傳統(tǒng)的CNN模型只能對圖像內(nèi)容進行識別和分類,無法實現(xiàn)圖像層面的生成與邏輯推理。而多模態(tài)模型由于采用自編碼的訓練模式,可以通過給定文字生成圖片或根據(jù)圖片生成描述。文本模態(tài)賦予了模型邏輯推理能力,與圖像模態(tài)實現(xiàn)思維鏈的共振。

二、多模態(tài)模型技術綜述

圖像-語言多模態(tài)模型有六大任務:表征、對齊、推理、生成、遷移和量化。其中,對齊最為關鍵,也是當前多模態(tài)模型訓練的主要難點。

表征研究如何表示和總結(jié)多模態(tài)數(shù)據(jù),反映各模態(tài)元素之間的異質(zhì)性和相互聯(lián)系;對齊旨在識別所有元素之間的連接和交互;

推理從多模態(tài)證據(jù)中合成知識,通常涉及多個推理步驟;

生成涵蓋學習生成過程,以生成反映跨模態(tài)交互的結(jié)構(gòu);

遷移旨在將具有高泛化性的模型通過調(diào)參適應各種垂直領域;

量化則通過研究模型的結(jié)構(gòu)和工程化落地方式,更好地理解異質(zhì)性、模態(tài)互聯(lián)和多模態(tài)學習過程。

wKgaomU56teAD33bAAKv8mNrpSk722.png

多模態(tài)模型的 6 大任務

1、表征:當前已有成熟方案

表征的主要目標是把不同類型的數(shù)據(jù)轉(zhuǎn)化為模型能理解的形式。單模態(tài)的表征負責將信息表示為數(shù)值向量或更高級的特征向量,而多模態(tài)表征則是利用不同模態(tài)之間的互補性,去除冗余性,從而學習到更好的特征表示。目前,多模態(tài)模型的訓練大多采用融合表征法,整合多個模態(tài)的信息,以尋找不同模態(tài)的互補性。此外,還有協(xié)同表征和裂變表征兩種方法。協(xié)同表征將多模態(tài)中的每個模態(tài)映射到各自的表示空間,并保持映射后的向量之間具有相關性約束;裂變表征則創(chuàng)建一個新的不相交的表征集,輸出集通常比輸入集大,反映了同場景模態(tài)內(nèi)部結(jié)構(gòu)的知識,如數(shù)據(jù)聚類或因子分解。

wKgZomU56teAZFMxAADzI2qQAl8516.png

多模態(tài)表征可以分為三種類型

目前文本表征和圖像表征都有較為成熟的方案。文本表征的目的是將單詞轉(zhuǎn)化為向量 tokens,可以直接采用BERT等大語言模型成熟的方案。圖像表征則生成圖片候選區(qū)域并提取特征,將其轉(zhuǎn)化為矩陣,可沿用機器視覺的CNN、Faster R-CNN等模型方案。

2、對齊:多模態(tài)技術的最大瓶頸

對齊是多模態(tài)模型訓練最難且最重要的任務,對模型性能和顆粒度有直接決定作用。對齊的目的是識別多模態(tài)元素之間的跨模態(tài)連接和相互作用,例如將特定手勢與口語或話語對齊。模態(tài)之間的對齊具有技術挑戰(zhàn)性,因為不同模態(tài)之間可能存在長距離的依賴關系,涉及模糊的分割,并可能是一對一、多對多的關聯(lián)性。經(jīng)過對齊的模型圖像的時間、空間邏輯更加細膩,不同模態(tài)的信息匹配度更高,信息損耗更小。

wKgZomU6Al6APEAVAAOqc3VSM0I162.png

不同模態(tài)的對齊存在多對多的相互關系

數(shù)據(jù)對齊時會對文本和圖像表征進行融合處理,根據(jù)詞嵌入與信息融合方式的順序不同,可分為雙流(Cross-Stream)與單流(Single-Stream)。多模態(tài)大模型主要采用Encoder編碼方式實現(xiàn)文本信息與圖像信息的匹配融合。雙流模型首先使用兩個對立的單模態(tài)Encoder分別學習圖像和句子表示的高級抽象,然后通過Cross Transformer實現(xiàn)不同模態(tài)信息的融合,典型模型有ViLBERT、Visual Parsing等。雙流模型需要同時對兩種模態(tài)進行Encoder編碼,因此訓練時算力消耗更大,但其優(yōu)點在于模態(tài)之間的相關性更簡潔明了,可解釋性更具優(yōu)勢。

wKgZomU56tiAQQr-AAKKtmIHP04650.png

雙流方案,以 ViLBERT 模型為例

單流模型假設圖像和文本的底層語義簡單明了,因此將圖像區(qū)域特征和文本特征直接連接起來,將兩種模態(tài)一起輸入一個Encoder進行融合。采用單流形式的典型模型有VL-BERT、ViLT等。單流模型只需對混合的模態(tài)進行編碼,因此算力需求更低。但信息傳遞和融合可能會受到限制,某些信息可能會丟失。此外,過早混合兩種模態(tài)使得相關性和可解釋性較差。

wKgaomU56tmAOHUEAAgt6fXaVLE127.png

單流方案,以 VL-BERT 模型為例

3、推理與生成:沿用大語言模型方案

推理與生成是多模態(tài)模型結(jié)合知識并決策的過程。多模態(tài)中的視覺推理受到文本模態(tài)的影響,文本的時間序列為圖像推理提供更強的邏輯性。隨著訓練的推進和參數(shù)量增長,多模態(tài)模型展現(xiàn)出思維鏈能力,將復雜任務分解為多個簡單步驟。多模態(tài)模型的推理與生成算法搭建和大語言模型類似,可沿用其方案。模型推理與生成的速度主要由算力基礎設施決定。

多模態(tài)模型生成任務包括總結(jié)、翻譯和創(chuàng)建三個任務??偨Y(jié)是通過計算縮短一組數(shù)據(jù)以創(chuàng)建摘要,摘要包含原始內(nèi)容中最重要或最相關的信息,信息規(guī)模下降。翻譯涉及從一種模態(tài)到另一種模態(tài)的映射,信息規(guī)模保持不變。創(chuàng)建旨在從小的初始示例或潛在的條件變量中生成新的高維多模態(tài)數(shù)據(jù),信息規(guī)模上升。

wKgZomU56tmAWpEfAAGLYi1FZDI198.png

生成包含總結(jié)、翻譯與創(chuàng)建三個任務

4、遷移:難度與下游應用場景關聯(lián)度較大

多模態(tài)大模型的遷移是指將預訓練好的多模態(tài)模型經(jīng)過調(diào)參后,用于解決不同任務或領域的過程。經(jīng)過預訓練的大模型具備基本的多模態(tài)生成、圖像理解與邏輯推理能力,但由于缺少行業(yè)數(shù)據(jù)的訓練,在細分場景的適配性較低。經(jīng)過調(diào)參的多模態(tài)大模型會增強圖文檢索、圖像描述、視覺回答等功能,與醫(yī)療、教育、工業(yè)場景的匹配性更高。遷移任務的難度技術上不高,主要難點在于工程化調(diào)試,且難度與下游應用場景關聯(lián)度較大。

wKgaomU56tqAPg85AAReKPj8Rm0137.png

多模態(tài)模型調(diào)參的三種方法

多模態(tài)模型調(diào)參可分為三種類型:全參數(shù)調(diào)參、提示調(diào)參和對齊增強調(diào)參。全參數(shù)調(diào)參需要微調(diào)所有參數(shù)以適應下游任務;提示調(diào)參只需微調(diào)每個下游任務的少量參數(shù);對齊增強調(diào)參在多模態(tài)預訓練模型外添加了對齊感知圖像Encoder和對齊感知文本Encoder,并一起訓練所有參數(shù)以增強對齊。

5、量化:模型的迭代與改良

量化旨在通過深入研究多模態(tài)模型以提高實際應用中的魯棒性、可解釋性和可靠性。在量化過程中,開發(fā)者會總結(jié)模型構(gòu)建經(jīng)驗,量化不同模態(tài)之間的關聯(lián)交互方式,尋求更好的結(jié)合方法。因此,量化會引導開發(fā)者重新審視模型對齊與訓練過程,不斷迭代優(yōu)化模型,尋找最佳通用性與場景專用性的平衡點。量化是一個長期且模糊的過程,沒有標準答案,只能通過模型迭代嘗試尋找更優(yōu)解法。

wKgZomU56tuAZBbIAAPsht8ntNI172.png

量化會協(xié)助模型迭代到通用性與場景專用型的平衡點

三、多模態(tài)模型的應用落地與產(chǎn)業(yè)趨勢

1、產(chǎn)品陸續(xù)發(fā)布,應用落地加速

9月25日,OpenAI發(fā)布GPT-4多模態(tài)能力,包括圖像理解能力,基于GPT-4 Vision模型,可以理解和解釋圖像內(nèi)容,同時具備上下文回溯能力。GPT-4的多模態(tài)能力基于GPT-4V模型,經(jīng)過2022年訓練后,使用RLHF完成一系列微調(diào),從有害信息、倫理問題、隱私問題、網(wǎng)絡安全、防越獄能力五個角度完善模型,大幅度降低了模型安全風險。

在長期打磨后,OpenAI開放了GPT-4的多模態(tài)能力,意味著應用落地的門檻不是技術限制,而是在于模型打磨和場景挖掘。長期打磨的GPT-4多模態(tài)能力具備較高的魯棒性,安全性已達到商用標準,產(chǎn)品成熟度較高。因此,可以推斷GPT-4多模態(tài)模型的應用落地可能更加樂觀。同時,9月21日OpenAI發(fā)布DALL-E3文生圖模型,相比DALL-E2,DALL-E3理解圖像細微差別和細節(jié)的能力大幅度提高,生成的圖像包含更多細節(jié),更符合prompt描述。DALLE-3深度整合ChatGPT模型,用戶可以直接通過自然語言與DALL-E3交互。文生圖應用門檻大幅度降低。

wKgaomU56tuAU94YAAschNG3n4Q275.png

GPT-4 多模態(tài)模型有較強的邏輯思維能力

測評顯示,DALL-E3模型在相同prompt輸入下的性能已經(jīng)達到Midjourney V5水平。DALL-E3已于10月首先向ChatGPT Plus和企業(yè)客戶提供。

wKgZomU56tyAM73jAAkLnZ1iUZk205.png

DALL-E2(左)與 DALL-E3(右)生成圖像對比

DALL-E3 深度結(jié)合 ChatGPT,使用戶可以直接以自然語言與模型交互,降低文生圖應用的使用門檻。DALL-E3 具備上下文理解和記憶能力,可回溯上文信息,進一步簡化交互流程。相比 Midjourney,DALL-E3 用戶無需花費大量時間編寫和優(yōu)化 prompt,通過 ChatGPT 打磨好 prompt 后再輸入應用即可。

wKgaomU56t2AZBPrAAgsPpiE0o0054.png

DALL-E3 整合 ChatGPT

2、場景匹配度提升,核心賽道有望快速滲透

大語言模型只能用于文本相關的場景,而多模態(tài)模型可以覆蓋所有視覺場景,因此應用范圍得到極大的提升??梢灶惐扔嬎銠C發(fā)展早期從文本操作系統(tǒng)向圖形操作系統(tǒng)的躍升,圖像模態(tài)更貼近現(xiàn)實世界,信息密度更高,使用門檻更低,更適合人機交互。隨著GPT-4多模態(tài)能力的開放,多模態(tài)模型的應用有望快速實現(xiàn)。這將帶來新的技術發(fā)展和應用機會。

wKgZomU56t2AE8VVAAVmuaegW6U916.png

與文本操作系統(tǒng)(Terminal)相比,圖形操作系統(tǒng)(Windows 1.0x)更符合人機交流習慣

多模態(tài)模型在提高場景匹配度方面具有顯著優(yōu)勢。自2023年初以來,大模型應用在落地過程中取得廣泛的關注,但其在滲透速度上的進展相對緩慢。核心原因在于大語言模型在場景匹配度方面存在不足,難以徹底改變特定細分領域的應用場景。相比之下,多模態(tài)模型能夠顯著提高應用的場景匹配度,實用性較高,預計將在醫(yī)療、教育、辦公等場景中快速滲透。這種高實用性的特點可能催生大批爆款應用,建議密切關注核心場景中多模態(tài)應用的落地節(jié)奏。

wKgaomU56t6AGKlJAApkN0Ibzag486.png

GPT-4 Vision 在工業(yè)界的應用

多模態(tài)模型將引發(fā)新的算力競賽。由于圖像數(shù)據(jù)規(guī)模龐大,多模態(tài)模型對算力的需求更高。當前,算力仍是AI模型訓練和推理的主要瓶頸。隨著多模態(tài)模型的普及,AI公司將開啟新一輪的算力競賽。因此,建議關注英偉達、華為、藍海大腦等算力產(chǎn)業(yè)鏈上的廠商。

此外,多模態(tài)大模型有望實現(xiàn)人形機器人的“端到端”方案。傳統(tǒng)的機器人算法系統(tǒng)由感知、決策規(guī)劃和控制三個模塊組成,需要兩個接口進行信息傳遞。而多模態(tài)模型將感知和決策合并為一個模塊,只需一個接口,減少了信息傳遞的環(huán)節(jié),提高系統(tǒng)的性能和魯棒性。

wKgZomU56t-AZ0p1AACu22IeuH4105.png

多模態(tài)模型將感知與決策模塊合并

高頻因子計算的GPU加速

近年來,AI技術顯著提高因子挖掘和合成效率,但因子計算環(huán)節(jié)尚未充分受益于技術進步。傳統(tǒng)因子計算通常使用CPU,但高頻數(shù)據(jù)的普及,CPU性能面臨限制。隨著NVIDIA引領GPU軟硬件生態(tài)日益成熟,使得高頻因子計算的GPU加速成為可能。

RAPIDS是NVIDIA為數(shù)據(jù)科學與機器學習推出的GPU加速平臺。以CUDA-X AI為基礎,由一系列開源軟件庫和API組成,支持完全在GPU上執(zhí)行從數(shù)據(jù)加載和預處理到機器學習、圖形分析和可視化的端到端數(shù)據(jù)科學工作流程。據(jù)NVIDIA官網(wǎng),RAPIDS能夠?qū)?shù)據(jù)科學領域效率提升50倍。

在量化投資的因子計算場景下,RAPIDS使用CuPy、cuDF庫替代NumPy、Pandas庫,實現(xiàn)高頻因子計算的GPU加速。在NVIDIA GeForce RTX 3090和Intel Core i9-10980XE測試環(huán)境下,使用CuPy和cuDF替換庫函數(shù)的GPU提速效果約為6倍,如果同時將for循環(huán)替換為矩陣運算,最終提速超過100倍。

wKgaomU56t-AU6uTAAnU460GBV8477.png

RAPIDS:數(shù)據(jù)科學的 GPU 加速

一、NVIDIA RAPIDS 實踐

1、RAPIDS 安裝

RAPIDS 官網(wǎng)提供詳細的安裝方法,可參考:https://docs.rapids.ai/install。在安裝過程中可能會遇到一些問題,參考以下經(jīng)驗。

1)RAPIDS 安裝

推薦操作系統(tǒng)Ubuntu 20.04 和 CentOS 7。如果使用的是 Windows 系統(tǒng),需要通過 Windows 子系統(tǒng) Linux 2(WSL2)來安裝。具體的安裝方法可以在微軟官網(wǎng)找到:https://learn.microsoft.com/en-us/windows/wsl/install。

在安裝 WSL 時,可能會遇到一些問題。需要注意的是:

- 推薦使用 Windows 11 系統(tǒng)

- 在任務管理器中確認 CPU 虛擬化已啟用

- 在 Windows 功能中勾選“適用于 Linux 的 Windows 系統(tǒng)”和“虛擬機平臺”

- 以管理員身份運行 Power Shell,執(zhí)行 bcdedit /set hypervisorlaunchtype auto

- 設置網(wǎng)絡和 Internet 屬性中的 DNS 服務器分配為手動,并設置 IPv4 DNS 服務器為首選,DNS 設為 114.114.114.114,備用 DNS 設為 8.8.8.8。不執(zhí)行此步驟可能會導致安裝 WSL 時報錯

- 以管理員身份運行 CMD,執(zhí)行 wsl –update 來更新 WSL。不執(zhí)行此步驟可能會導致啟動 Ubuntu 時報錯

- 繼續(xù)執(zhí)行 wsl --install -d Ubuntu 來安裝 Ubuntu 子系統(tǒng)

- 啟動“適用于 Linux 的 Window 子系統(tǒng)”(WSL),設置賬戶和密碼,完成 WSL 安裝

wKgZomU56uCASmrzABIIyenkJjM959.png

WSL 安裝:啟動或關閉 Windows 功能

2)WSL Conda 和 RAPIDS 安裝

RAPIDS 官網(wǎng)提供在 WSL 中安裝 Conda 和 RAPIDS 的方法,參考文檔:https://docs.rapids.ai/install#wsl2。

以下是在 WSL 中安裝 Conda 和 RAPIDS 的要點:

- 啟動 WSL,登錄 Ubuntu 系統(tǒng)

- 運行指令下載并安裝 Miniconda:wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh

- 運行 export PATH=/home/username/miniconda3/bin:$PATH,設置環(huán)境變量

- 在 RAPIDS 官網(wǎng)(https://docs.rapids.ai/install)選擇需要安裝的版本、方式、CUDA版本、Python 版本、RAPIDS 庫種類、附加擴展庫,生成相應代碼,在 WSL 中運行

以僅安裝 cuDF 和 cuML 為例,運行代碼 conda create --solver=libmamba -n rapids-23.08 -c rapidsai -c conda-forge -c nvidia cudf=23.08 cuml=23.08 python=3.10 cuda-version=11.2。該指令將自動創(chuàng)建名為 rapids-23.08 的 conda 環(huán)境。

wKgaomU56uGAI8TFAAn3cEufKUo631.png

RAPIDS 安裝:選擇版本

- 激活名為 rapids-23.08 的 Conda 環(huán)境

- 進入 Python 環(huán)境,運行以下代碼以驗證安裝是否成功:import cudf print(cudf.Series([1, 2, 3]))

- Miniconda 環(huán)境僅提供了少數(shù)庫,可以通過 Conda install 命令來安裝 Pandas 等常用庫

- 在代碼中調(diào)用 Windows 系統(tǒng)文件時,請使用路徑“/mnt/盤符/路徑”,例如“/mnt/d/data”

wKgZomU56uGASQQ1AAh98L1Klho978.png

RAPIDS 安裝:在 WSL 中運行

2、高頻因子代碼優(yōu)化

測試環(huán)境:CPU - Intel Core i9-10980XE,GPU - NVIDIA GeForce RTX 3090。以2023年4月24日單日全A股分鐘線數(shù)據(jù)為例,測試時間開銷。在將CPU計算代碼改造為GPU版本時,有兩種優(yōu)化方式:使用CuPy和cuDF替換NumPy和Pandas函數(shù)(針對全部50個因子);使用矩陣運算替換for循環(huán)(針對50個因子中的22個因子)。

結(jié)果表明:

- 單獨使用第一種優(yōu)化方式反而增加時間開銷

- 同時使用兩種優(yōu)化方式,時間開銷總體縮短約117倍,其中第一種優(yōu)化方式貢獻約18.4倍,第二種優(yōu)化方式貢獻約6.4倍

- GPU性能表現(xiàn)主要取決于數(shù)據(jù)量,單次運算涉及的數(shù)據(jù)量越大,GPU加速效果越顯著。如果數(shù)據(jù)量過小,反而不如CPU計算效率

1)簡單替換庫函數(shù)

RAPIDS的CuPy和cuDF與原始CPU代碼的NumPy和Pandas具有相似的接口,因此可以通過簡單地替換庫名稱來簡化工作量。以計算下行收益率方差return_downward_var的代碼為例,只需將numpy.var替換為cupy.var即可。cuDF的具體指令集可參考官方文檔:https://docs.rapids.ai/api/cudf/stable/

wKgaomU56uKAeg9DAAg3yXY_rKM150.png

計算下行收益率方差 return_downward_var 代碼:for 循環(huán)+CPU

實證發(fā)現(xiàn),CPU版代碼的單日高頻因子計算時間開銷為12.34秒,但簡單替換為GPU版代碼后,時間開銷反而超過100秒。問題在于,代碼在因子計算中大量使用for循環(huán),而RAPIDS的接口只實現(xiàn)接口內(nèi)部的并行計算,并未對for循環(huán)進行優(yōu)化。此外,由于數(shù)據(jù)需要在CPU和GPU之間進行拷貝傳遞,這也帶來額外耗時。GPU更適合進行批量運算,如果只是簡單替換庫函數(shù),而for循環(huán)逐輪調(diào)用GPU處理小數(shù)據(jù)量,反而會拖累性能。因此,在進行GPU加速時,需要考慮代碼的整體結(jié)構(gòu)和優(yōu)化方法。

2)矩陣運算代替 for 循環(huán),同時替換庫函數(shù)

下面將重新調(diào)整for循環(huán)的邏輯,將其改為矩陣運算,并使用CuPy接口進行批量處理。以下是一個計算下行收益率方差return_downward_var的代碼示例。

wKgZomU56uOAfpWGAAgKs8KARto051.png

計算下行收益率方差 return_downward_var 代碼:矩陣運算+CPU

- 對于50個替換庫函數(shù)的因子,GPU相比CPU總時間開銷從0.91秒縮短至0.16秒,性能提升約5.9倍

- 對于22個使用矩陣運算代替for循環(huán)的因子,CPU總時間開銷從12.34秒縮短至0.67秒,性能提升約18倍。GPU相比CPU總時間開銷從0.67秒縮短至0.11秒,性能提升約6.4倍。兩項改進總時間開銷從12.34秒縮短至0.11秒,性能提升約117倍

總的來說,使用GPU(NVIDIA 3090)相比使用CPU(Intel i9-10980XE)計算因子帶來的性能提升在5.9~6.4倍之間。這個約6倍的加速效果并不是上限,實際加速效果受到顯卡性能和數(shù)據(jù)量等多種因素的影響。根據(jù)NVIDIA官網(wǎng)的數(shù)據(jù),RAPIDS的提速可達50倍。(https://www.nvidia.cn/deep-learning-ai/software/rapids/)

同時觀察到一些沒有GPU加速效果的因子,例如return_intraday、return_improved、return_last_30min等,這些因子僅使用日內(nèi)兩個時間點的數(shù)據(jù),因此數(shù)據(jù)量過少。另外,對于intraday_maxdrawdown這個因子,CuPy尚未實現(xiàn)numpy.minimum.accumulate接口,導致調(diào)用GPU反而耗時增加。

wKgaomU56uOAHnUhAALQlHJt0LA824.png

因子計算環(huán)節(jié) CPU、GPU 性能對比(匯總)

除了因子計算,還使用cudf庫替換pandas庫,對數(shù)據(jù)讀取和預處理環(huán)節(jié)進行優(yōu)化。然而,測試發(fā)現(xiàn)數(shù)據(jù)讀取和預處理部分性能不佳的主要原因是數(shù)據(jù)量不足。單日分鐘K線數(shù)據(jù)的維度約為5000×242×11(全A股分鐘字段)。嘗試構(gòu)建虛擬數(shù)據(jù)集,發(fā)現(xiàn)當數(shù)據(jù)量擴大4倍后,GPU性能超過CPU。此外,發(fā)現(xiàn)cudf庫僅有數(shù)據(jù)導出環(huán)節(jié)的to_csv函數(shù)性能更優(yōu)(約5倍加速)。

wKgZomU56uSAXTccAAL9h7IBoNo958.png

數(shù)據(jù)讀取、預處理及導出環(huán)節(jié) CPU、GPU 性能對比

芯片禁令升級后

我們該何去何從?

前幾天,美國正式發(fā)布“新規(guī)”,全面收緊尖端AI芯片對華出口,禁令將在30天內(nèi)生效。

一、新一輪禁令有哪些新變化?

只要滿足以下任一條件,GPU芯片就會受到出口限制:總算力低于300 TFLOPS,或每平方毫米的算力低于370 GFLOPS。此次新規(guī)的主要變化在于降低門檻,并取消“帶寬參數(shù)”,轉(zhuǎn)而采用“性能密度”作為衡量標準。此舉旨在堵住一個漏洞,即通過Chiplet技術將多個小芯片組裝成一個大芯片。

根據(jù)這一新規(guī),英偉達的A100、A800、H100、H800、L40和L40S等產(chǎn)品將無法向中國出售。甚至定位于發(fā)燒級游戲顯卡的RTX 4090也需要報批,因為在老美的邏輯中,RTX 4090也可以用于AI訓練,盡管其優(yōu)勢并不在此。

二、當前AI大模型一般用什么卡在訓練?

自年初以來,業(yè)界各家都在積極開發(fā)自家的大模型,這些模型通常都以GPT-4模型為標桿,GPT-4的參數(shù)量高達1.76萬億,已經(jīng)達到現(xiàn)有算力的極限。實際上,OpenAI需要使用約2.5萬個A100 GPU訓練GPT-4,耗時約100天。而對于下一代大模型GPT-5,根據(jù)馬斯克的說法,可能需要3-5萬塊H100 GPU進行訓練,但具體的訓練時間并未提及。

wKgaomU56uSAAwC-AAkzmZI5v6o801.png

目前,國內(nèi)第一批大模型廠商主要使用英偉達芯片,今年的主力芯片預計仍是A100、A800。而H800近期才逐漸在國內(nèi)交付。英偉達構(gòu)建完備的CUDA生態(tài),使得用戶在更換生態(tài)時面臨較高的學習成本、試錯成本和調(diào)試成本。一位客戶表示:“如果不是情非得已,絕大部分用戶不敢貿(mào)然更換生態(tài),因為那意味著學習、試錯和調(diào)試成本都會增加?!边@表明,采用國產(chǎn)GPU可能會導致用戶在某些方面落后于同行,盡管金錢成本可能不是主要考慮因素,但速度和效率卻是關鍵。

根據(jù)華為公布的數(shù)據(jù),昇騰910B基本上可以與英偉達的A800相媲美。然而,由于高端顯存方面的不足,其實際性能可能會打些折扣,約為A800的90%。如果采用大型服務集群,折扣可能會更大。當然,真正的難點并不在于技術參數(shù),而在于應用生態(tài)和AI模型底層算法的差距。CUDA的優(yōu)勢恰恰在于此,這也是最難以突破的地方。

三、面對新一輪禁令,該何去何從?

關于CUDA生態(tài)的解決方案,可以從鴻蒙操作系統(tǒng)得到啟示。雖然鴻蒙生態(tài)短期內(nèi)還無法與iOS和安卓系統(tǒng)抗衡,但其中包含兼容Google生態(tài)的代碼,使得能夠兼容基于安卓開發(fā)的APP。這是短期內(nèi)的解決方案,但長遠來看,建立自己的軟件生態(tài)是擺脫制約的關鍵。至于何時能夠?qū)崿F(xiàn)這一“脫鉤”,華為官方表示,下一個鴻蒙版本可能會是一個轉(zhuǎn)折點。

在GPU領域,也可以采取類似的策略。首先,可以為國產(chǎn)GPU增加一個虛擬化層,實現(xiàn)與基于CUDA開發(fā)的應用軟件的兼容。這可以作為過渡期的解決方案。然而,長遠來看,國產(chǎn)GPU必須構(gòu)建自己的軟件生態(tài)。例如,華為的CANN被視為對標CUDA的解決方案,兼容PyTorch、TensorFlow等主流AI框架。最近有消息稱,華為成為了PyTorch基金會的最高級別會員,這是中國首個加入該基金會的會員,也是全球第10個。這意味著CANN將能夠跟上PyTorch的發(fā)展。

在大模型時代,頭部客戶的需求逐漸收斂,使用的算子庫也相應減少。據(jù)報道,目前主流AI框架的兼容性已經(jīng)超過50%。同時,華為也在推廣自己的AI框架MindSpore(昇思),據(jù)稱在國內(nèi)已經(jīng)與百度的PaddlePaddle(飛槳)并列第三,市場份額達到11%。一些基于華為原生態(tài)體系孵化的大模型已經(jīng)在使用“昇騰GPU+CANN+MindSpore”整套國產(chǎn)體系,例如“訊飛星火認知”、盤古NLP、鵬城盤古、盤古CV等。而通過“昇騰GPU+CANN”適配的大模型則更多,包括GPT、ChatGLM、LLaMA、BLOOM等主流基礎大模型。

wKgZomU56uWAUV7TAAvgsFrPf9s523.png

藍海大腦大模型訓練平臺

藍海大腦大模型訓練平臺提供強大的算力支持,包括基于開放加速模組高速互聯(lián)的AI加速器。配置高速內(nèi)存且支持全互聯(lián)拓撲,滿足大模型訓練中張量并行的通信需求。支持高性能I/O擴展,同時可以擴展至萬卡AI集群,滿足大模型流水線和數(shù)據(jù)并行的通信需求。強大的液冷系統(tǒng)熱插拔及智能電源管理技術,當BMC收到PSU故障或錯誤警告(如斷電、電涌,過熱),自動強制系統(tǒng)的CPU進入ULFM(超低頻模式,以實現(xiàn)最低功耗)。致力于通過“低碳節(jié)能”為客戶提供環(huán)保綠色的高性能計算解決方案。主要應用于深度學習、學術教育、生物醫(yī)藥、地球勘探、氣象海洋、超算中心、AI及大數(shù)據(jù)等領域。

在最底層,構(gòu)建基于英偉達GPU的全場景AI基礎設施方案,適用于“端、邊、云”等各種應用環(huán)境。幫助開發(fā)者更快速、更高效地構(gòu)建和部署AI應用。

wKgaomU56uaAamLxAAAAjgjvZ2U015.png

wKgZomU56uaAAUPbAAgkq9adsHs141.png

一、為什么需要大模型?

1、模型效果更優(yōu)

大模型在各場景上的效果均優(yōu)于普通模型。

2、創(chuàng)造能力更強

大模型能夠進行內(nèi)容生成(AIGC),助力內(nèi)容規(guī)?;a(chǎn)。

3、靈活定制場景

通過舉例子的方式,定制大模型海量的應用場景。

4、標注數(shù)據(jù)更少

通過學習少量行業(yè)數(shù)據(jù),大模型就能夠應對特定業(yè)務場景的需求。

二、平臺特點

1、異構(gòu)計算資源調(diào)度

一種基于通用服務器和專用硬件的綜合解決方案,用于調(diào)度和管理多種異構(gòu)計算資源,包括CPU、GPU等。通過強大的虛擬化管理功能,能夠輕松部署底層計算資源,并高效運行各種模型。同時充分發(fā)揮不同異構(gòu)資源的硬件加速能力,以加快模型的運行速度和生成速度。

2、穩(wěn)定可靠的數(shù)據(jù)存儲

支持多存儲類型協(xié)議,包括塊、文件和對象存儲服務。將存儲資源池化實現(xiàn)模型和生成數(shù)據(jù)的自由流通,提高數(shù)據(jù)的利用率。同時采用多副本、多級故障域和故障自恢復等數(shù)據(jù)保護機制,確保模型和數(shù)據(jù)的安全穩(wěn)定運行。

3、高性能分布式網(wǎng)絡

提供算力資源的網(wǎng)絡和存儲,并通過分布式網(wǎng)絡機制進行轉(zhuǎn)發(fā),透傳物理網(wǎng)絡性能,顯著提高模型算力的效率和性能。

4、全方位安全保障

在模型托管方面,采用嚴格的權限管理機制,確保模型倉庫的安全性。在數(shù)據(jù)存儲方面,提供私有化部署和數(shù)據(jù)磁盤加密等措施,保證數(shù)據(jù)的安全可控性。同時,在模型分發(fā)和運行過程中,提供全面的賬號認證和日志審計功能,全方位保障模型和數(shù)據(jù)的安全性。

三、常用配置

1、CPU:

Intel Xeon Gold 8358P 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W

Intel Xeon Platinum 8350C 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W

Intel Xeon Platinum 8458P 28C/56T 2.7GHz 38.5MB,DDR4 2933,Turbo,HT 205W

Intel Xeon Platinum 8468 Processor 48C/64T 2.1GHz 105M Cache 350W

AMD EPYC? 7742 64C/128T,2.25GHz to 3.4GHz,256MB,DDR4 3200MT/s,225W

AMD EPYC? 9654 96C/192T,2.4GHz to 3.55GHz to 3.7GHz,384MB,DDR5 4800MT/s,360W

2、GPU:

NVIDIA L40S GPU 48GB

NVIDIA NVLink-A100-SXM640GB

NVIDIA HGX A800 80GB

NVIDIA Tesla H800 80GB HBM2

NVIDIA A800-80GB-400Wx8-NvlinkSW×8

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    27

    文章

    4591

    瀏覽量

    128144
  • AI
    AI
    +關注

    關注

    87

    文章

    28877

    瀏覽量

    266220
  • 算力
    +關注

    關注

    1

    文章

    836

    瀏覽量

    14572
  • 大模型
    +關注

    關注

    2

    文章

    2135

    瀏覽量

    1979
收藏 人收藏

    評論

    相關推薦

    步解讀英偉 Blackwell 架構(gòu)、NVlink及GB200 超級芯片

    計算工作負載、釋放百億億次計算能力和萬億參數(shù)人工智能模型的全部潛力提供關鍵基礎。 NVLink釋放數(shù)萬億參數(shù)AI模型加速性能,顯著提升大型
    發(fā)表于 05-13 17:16

    【書籍評測活動NO.43】 芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析

    前言 不知不覺中,我們來到計算機科學飛速發(fā)展的時代,手機和計算機中各類便捷的軟件已經(jīng)融入日常生活,在此背景下,硬件特別是
    發(fā)表于 09-02 10:09

    英偉發(fā)布新GPU 架構(gòu)圖靈和 GPU 系列 Quadro RTX

    在 8 月 14 日的 SIGGRAPH 2018 大會上,英偉 CEO 黃仁勛正式發(fā)布了新GPU 架構(gòu) Turing(圖靈),以及
    發(fā)表于 08-15 10:59

    英偉GPU慘遭專業(yè)礦機碾壓,黃仁勛宣布砍掉加密貨幣業(yè)務!

    的加密貨幣業(yè)務的下滑原因不能簡單歸結(jié)于加密貨幣市場的總體趨勢。 GPU挖礦效率不敵專用挖礦芯片,礦工紛紛流失英偉的加密貨幣業(yè)務部門的核心問題是對GPU挖礦的需求下降。由于用于制造
    發(fā)表于 08-24 10:11

    rx580,rx580顯卡,rx588,rx588顯卡 精選資料分享

    已下是rx580顯卡9-11 Mh 沒有開啟計算模式,挖幾分種重啟自動開啟,計算模式只支持WIN1022-28 Mh 原版BIOS,開啟
    發(fā)表于 07-23 06:59

    英偉DPU的過“芯”之處

    ,AI硬件正成為越來越多數(shù)據(jù)中心擴容建設的關鍵所在。當超強AI成為數(shù)據(jù)中心的剛需,英偉GPU憑借強大的并行
    發(fā)表于 03-29 14:42

    瑞芯微和英偉的邊緣計算盒子方案,你會選哪家的?

    機,miniPC整機,工控體機,零售機和快遞柜等需要邊緣計算的場景。 #3英偉NVIDIA Jetson Xavier NX 21T
    發(fā)表于 09-29 14:31

    英偉加速部署下GPU,7納米GPU性能有希望提升100%

      英偉7納米GPU什么時候來?印第安納大學場次時代平臺活動中暗示了英偉最近的動向,他們很
    的頭像 發(fā)表于 02-04 15:46 ?3811次閱讀

    英偉霸主之路 “卷王”英偉的真面目

    了臺積電4納米制程工藝,集成1800億個晶體管,浮點計算能力相比前代A100快了三倍,看作英偉的新
    的頭像 發(fā)表于 04-05 14:11 ?2555次閱讀

    火種初現(xiàn)的國產(chǎn)GPU,誰能突破封鎖?

    事實上,英偉與AI可謂是緣分不淺,截至目前,英偉GPU芯片正在為全球絕大多數(shù)的人工智能系統(tǒng)提供最基礎的
    的頭像 發(fā)表于 04-03 10:07 ?1809次閱讀

    模型訓練,英偉Turing、Ampere和Hopper分析

    GPU 架構(gòu)升級過程計算能力不斷強化,Hopper 架構(gòu)適用于高性能計算(HPC)和 AI 工作負載。英偉在架構(gòu)設計上,不斷加強
    的頭像 發(fā)表于 05-15 11:16 ?1648次閱讀
    大<b class='flag-5'>模型</b>訓練,<b class='flag-5'>英偉</b><b class='flag-5'>達</b>Turing、Ampere和Hopper<b class='flag-5'>算</b><b class='flag-5'>力</b>分析

    英偉a100顯卡介紹

    英偉a100顯卡介紹 英偉A100
    的頭像 發(fā)表于 08-07 17:59 ?7736次閱讀

    英偉A100的是多少?

    ,但 A100 的是前者的 20 倍。 A100是英偉推出的款強大的數(shù)據(jù)中心GPU,采用
    的頭像 發(fā)表于 08-08 15:28 ?3.3w次閱讀

    發(fā)展模型,是否解決算問題就夠了?

    隨著大模型概念火熱,成為各行各業(yè)關注的熱門話題。英偉顯卡
    的頭像 發(fā)表于 08-21 16:03 ?895次閱讀

    AI大模型不再依賴英偉GPU?蘋果揭秘自研大模型

    ? 電子發(fā)燒友網(wǎng)報道(/梁浩斌)過去幾年中爆發(fā)的AI需求,英偉GPU成為了最大的贏家,無
    的頭像 發(fā)表于 08-05 06:07 ?3694次閱讀
    AI大<b class='flag-5'>模型</b>不再依賴<b class='flag-5'>英偉</b><b class='flag-5'>達</b><b class='flag-5'>GPU</b>?蘋果揭秘自研大<b class='flag-5'>模型</b>