0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA GPU加速計算之路

454398 ? 來源:愛活網 ? 作者:penylo ? 2019-12-23 09:12 ? 次閱讀

NVIDIA從提出GPU以及CUDA核心開始,NVIDIA便開始逐步邁出游戲圈,不斷向全新的計算領域發(fā)起攻勢。時至今日,NVIDIA GPU計算從機器人自動駕駛,一路擴展到云計算、醫(yī)療甚至是NASA火星登錄計劃。

是的,正如GTC CHINA 2019上,NVIDIA創(chuàng)始人兼CEO黃仁勛所言,就算摩爾定律走向終結,GPU加速計算將有機會成為未來的發(fā)展方向,GPU正在變得無所不能,也將無處不在。

云游戲與光線追蹤全面開花以游戲發(fā)家的NVIDIA開場少不了游戲的戲份。開場黃仁勛便展示了《我的世界》RTX版本,這也是GTC主題演講上首次展示《我的世界》RTX視頻。

通過對光影的添加,這款沙盤化的游戲有了全新的演繹,不僅水面變得更為真實,隨著視角、天氣、時間變化,光影也呈現(xiàn)出不同的效果。

這套實時光纖追蹤技術可以讓開發(fā)者在添加光源之后,依靠GeForce RTX顯卡中的RT Core演算出光線路徑,從而獲得自然的光線效果,同時也減輕了游戲開發(fā)者手動考慮光影貼圖的繁瑣工作。

除了《我的世界》增加的光線追蹤特效,GTC上黃仁勛還宣布了六款游戲正引入光線追蹤,包括《邊境》(Boundary)、《鈴蘭計劃》(Convallaria)、《暗影火炬》(F.I.S.T.)、Project X(項目代號)、《無限法則》(Ring of Elysium)以及《軒轅劍柒》(Xuan-Yuan Sword VII)。

同時老黃還特意在臺上演示了《光明記憶:無限》的光線追蹤DEMO。重點在于負責《光明記憶》的飛燕群島個人工作室主力僅有一人,通過一人之力完成美術、程序以及最新的光線追蹤技術功能,也足以見得虛幻引擎對光線追蹤已經提供了相當優(yōu)秀的支持,可以更為輕松調用GeForce RTX的光線追蹤功能。

此外,目前宣布支持光線追蹤游戲陣營包括:《光明記憶:無限》(Bright Memory: Infinite)、《賽博朋克2077》(Cyberpunk 2077)、《消逝的光芒2》(Dying Light 2)、《我的世界》(Minecraft)、《逆水寒》(Justice)、《劍俠情緣叁網絡版》(JX3 Online)、《重生邊緣》(SYNCED: Off-Planet)、《仙劍奇?zhèn)b傳七》(Sword And Fairy 7)、《看門狗:軍團》《Watch Dogs: Legion》以及《吸血鬼:避世血族2》 (Vampire: The Masquerade – Bloodlines 2)。

在推進光線追蹤技術進駐預習的同時,NVIDIA與騰訊游戲合作的START云游戲服務也進入了測試階段。

類似NVIDIA在北美和歐洲推出的GeForce NOW云游戲服務,騰訊START可以讓玩家在在配置不足的設備上也能玩AAA游戲。騰訊游戲計劃將擴展其云游戲產品

NVIDIA與騰訊還將成立一個一個游戲聯(lián)合創(chuàng)新實驗室。雙方將共同探索AI在游戲、游戲引擎優(yōu)化和新光照技術(包括光線追蹤和光線烘焙)中的新應用。借著START服務東風,英偉達的云游戲技術也終于可以在國內付諸實踐。

RTX Studio加速內容創(chuàng)作顯卡性能也早已不局限在游戲中,英偉達針對RTX Studio的產品線覆蓋也已經從GeForce RTX 2060筆記本覆蓋到8路Quadro RTX 8000工作站。在加上NVIDIA OMNIVERSE所提供的3D制作流程的協(xié)作平臺,創(chuàng)作者可以通過不同的分工協(xié)同工作。

現(xiàn)在NVIDIA OMNIVERSE也已經正式進駐建筑行業(yè)AEC,可以做到無論本地還是云端,主流應用都能依靠NVIDIA RTX展開建模、著色、動畫、視覺效果等等。在演講臺上,老黃也豪氣的演示如何利用8 路 RTX 8000 的 RTX 服務器對深圳華潤大廈實時渲染。

在電影、視覺特效領域,瑞云云端渲染平臺也宣布配備NVIDIA RTX GPU。瑞云目前是全亞洲最大的云渲染平臺,2019年火爆的《戰(zhàn)狼2》、《哪吒》、《流浪地球》渲染均來自瑞云,超過85%的中國電影工作室都是瑞云的客戶。很快,首批5000片RTX GPU也將會在2020年上線。

在現(xiàn)場,黃仁勛也不忘搬出那句經典臺詞:“買的越多,省得越多。”針對渲染工作,RTX GPU能夠做到速度比CPU快12倍,價格低7倍。原本CPU上需要花費485個小時的渲染場景,交給RTX GPU現(xiàn)在可能只需要40個小時就能完成。

讓未來所見所得跳出大家耳熟能詳?shù)挠螒?、渲染領域,NVIDIA也已經將視野放向了外太空。NASA計劃在2030年將6位宇航員送向火星,著陸器將以12000千米/小時的速度進入火星大氣層,而且必須精確點火減速并在6分鐘內降落在火星表面。

為此NASA借助NVIDIA GPU通過FUN3D流體李璇軟件進行了數(shù)十萬次火星著陸場景模擬,將產生的150TB數(shù)據(jù)變成了可視化,現(xiàn)在,NVIDIA DGX-2上已經可以借助Magnum IO GPU Direct Storage技術,對數(shù)據(jù)進行可視化處理,這在以前是不敢想象的。

如果登陸火星還不夠,科研人員也正在借助GPU內的CUDA核心對全基因組進行測序。通過全基因組測序分析整個基因序列,可以檢測由遺傳性疾病引起的DNA變異。為此,NVIDIA推出了一套Parabricks 基因組分析工具包,借助CUDA基因測序可以加速到30-50倍完成。

而即將到來的5G與NVIDIA也同樣有關系。目前NVIDIA已經與愛立信展開合作,通過CUDA核心,能夠提升5G vRAN性能,特別是在復雜的空間內,CUDA能夠加速解決物理空間內的信號優(yōu)化的問題。

針對世界上最普及的ARM,NVIDIA也給出了一套能夠與ARM配套的解決方案。得益于PCIe標準,GPU也可以輕松與ARM完成連接?;贏RM,NVIDIA推出了NVIDIA HPC for ARM首個參考架構,可以使用Marvell、Ampere、富士通亦或者其他ARM的HPC處理器與Volta GPU連接。更厲害的是,每個ARM CPU最多可以連接4塊Volta GPU,擴展性能極其恐怖。

在現(xiàn)場,黃仁勛也毫不吝嗇的通過VMD ON ARM通過CUDA演示NAMD分子動力學模型的結果可視化處理,借助Marvell ThunderX2以及NVIDIA V100,并通過NVIDIA Optix光線追蹤器,并實現(xiàn)遠程流式傳輸。

與此同時,TensorFlow作為當今最重要的可言、云計算、工業(yè)、上也領域的HPC應用,也同樣被NVIDIA CUDA on ARM所支持。

而隨著深度學習不斷挖掘,NVIDIA在5年左右的時間內將訓練性能提高了300倍以上,借助Volta、Tensor Core GPU、Chip-on-wafer封裝、HBM 3D堆棧存儲器、NVLink、DGX系統(tǒng),AI加速變得更快。

事實上NVIDIA AI已經影響到了各行各業(yè),它出現(xiàn)在運輸、醫(yī)療、金融、零售中,NVIDIA也不斷為每種場景打造不同的平臺,例如用于深度學習訓練的DGX,用于超大規(guī)模云的HGX,用于邊緣計算的EGX,用于自治系統(tǒng)的AGX。

現(xiàn)在,NVIDIA AI也已經被運用到百度推薦系統(tǒng)中,100多個推薦模型在百度中付諸實踐,這些模型每周都會進行更新,自動學習用戶潛在興趣,新條目和特征被持續(xù)更新。目前百度龐大的用戶潛在興趣數(shù)據(jù)包含了千億維稀疏離散特征和10TB embedding詞表,只有通過GPU加速訓練,才能在如此大規(guī)模的訓練中加速且節(jié)省成本。

同樣,阿里巴巴也接祖了NVIDIA加速計算平臺大規(guī)模部署先進的AI技術,包括T4 GPU、cuBLAS、自定義混合精度和推理加速軟件等。確保雙十一期間2684億人民幣,每秒幾十億次推薦請求,確保全天銷售額順利推進,所以一切也都借助了NVIDIA AI的運算支持。在NVIDA AI加持下,阿里巴巴已經嫩鞏固支持比過去復雜6倍的模型,從而使點擊率提高10%。相比于CPU,T4將我們最大模型的吞吐量提高了100倍。

TensorRT 7的性能攀升在幫助各大廠商推進AI的同時,NVIDIA也發(fā)布了全新的NVIDIA TensorRT 7推理軟件,內置新型深度學習編譯器。

該編譯器能夠自動優(yōu)化和加速遞歸神經網絡與基于轉換器的神經網絡。這些日益復雜的神經網絡是AI語音應用所必需的。與在CPU上運行時相比,會話式AI組件速度提高了10倍以上,從而將延遲降低到實時交互所需的300毫秒閾值以下。

也就是說,在一套端到端的流程中,CPU推理延遲大概在3秒左右,但在T4 GPU上,整個過程只需要0.3秒。更重要的,原本TensorRT 5大概智能實現(xiàn)數(shù)十種不同的計算變化和優(yōu)化,但到了TensorRT 7,已經可以做到1000種以上。

黃仁勛表示,現(xiàn)在技術已經進入了一個機器可以實時理解人類語言的AI新時代。在原有的TensorRT 5的基礎上,各地開發(fā)人員能夠更快部署會話式AI服務,從而實現(xiàn)更自然的AI人機交互。在首批使用NVIDIA會話式AI加速能力的企業(yè)中,包括了阿里巴巴、百度、滴滴出行、美團、快手、平安、搜狗、騰訊和字節(jié)跳動等中國企業(yè)。

繼續(xù)為自動駕駛做足鋪墊針對自動駕駛領域,NVIDIA發(fā)布了Xavier繼任者NVIDIA DRIVE AGX Orin。

顧名思義,Orin是下一代機器人處理器SoC,它參數(shù)十分亮眼,包括170億個晶體管,8核64位CPU,200TOPS深度學習算例,重點是,它的計算性能相當于Xavier的7倍。這意味著這是一個從底層架構上更新的AGX處理器,它的設計最早來自超算,擁有全新的功能安全特性,可以使CPU、GPU鎖步運行而提升容錯性,并且配備了全新的安全引擎保護數(shù)據(jù)不受網絡攻擊,以及與上一代Xavier兼容。

通過不同的組合,NVIDIA DRIVE 能夠適配L2到L5級別的自動駕駛功能,其中Orin能做到與Xavier兼容,完全由軟件定義。

在Orin宣布的同時,NVIDIA也宣布為滴滴提供自動駕駛和云計算解決方案,通過NVIDIA DRIVE,以及數(shù)據(jù)中心的NVIDIA GPU訓練機器學習算法,滴滴已經能夠實現(xiàn)L4幾倍的自動駕駛推理能力。

作為滴滴自動駕駛AI處理的一部分,NVIDIA DRIVE借助多個深度神經網絡融合來自各類傳感器(攝像頭、激光雷達、雷達等)的數(shù)據(jù),從而實現(xiàn)對汽車周圍環(huán)境360度全方位的理解,并規(guī)劃出安全的行駛路徑。

用軟件定義機器人平臺整場演講的重頭戲,最終留給了Isaac SDK。Isaac SDK包括Isaac Robotics Engine(提供應用程序框架),Isaac GEM(預先構建的深度神經網絡模型、算法、庫、驅動程序和API),用于室內物流的參考應用程序以及Isaac Sim的第一個版本(提供導航功能)。

全新Isaac SDK可以大大加快研究人員、開發(fā)人員、初創(chuàng)企業(yè)和制造商開發(fā)和測試機器人的速度。它使機器人能夠通過仿真獲得由人工智能技術驅動的感知和訓練功能,從而可以在各種環(huán)境和情況下對機器人進行測試和驗證。

這個套件包含了Training-in-Sim工作流,使用隨機域生成6D姿態(tài)圖像,用于訓練目標檢測、像素分割、2D姿態(tài)、3D姿態(tài)等諸多內容。

最后現(xiàn)場,NVIDIA也給我們展示了一個會賣萌的Leonardo物體操縱機器人。通過模擬和真是世界的學習,Leonardo學會了如何遵守物理規(guī)則,在模擬的計算部分則運用到了GPU的PhysX 5.0物理引擎。

寫在最后可以看到長達2小時的GTC CHINA 2019演講中,新推出的芯片只有Orin一塊。NVIDIA更多的重心放在了軟件平臺和AI智能優(yōu)化上,通過硬件與軟件配合,發(fā)揮CUDA給GPU帶來的大規(guī)模并行處理優(yōu)勢,使得GPU走出游戲和渲染,找到了一個更廣闊的空間。

NVIDIA造GPU無疑是最擅長的,如何用好GPU,則需要無數(shù)工程師努力挖掘答案。無論是超算、AI、自動駕駛、邊緣計算,NVIDIA都已經牢牢占住了自己的位置,足以見得GPU對專業(yè)領域而言,同樣具備強烈的吸引力。

責任編輯:wv

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    4793

    瀏覽量

    102427
  • gpu
    gpu
    +關注

    關注

    27

    文章

    4591

    瀏覽量

    128141
收藏 人收藏

    評論

    相關推薦

    NVIDIA CorrDiff生成式AI模型能夠精準預測臺風

    NVIDIA GPU 上運行的一個擴散模型向天氣預報工作者展示了加速計算如何實現(xiàn)新的用途并提升能效。
    的頭像 發(fā)表于 09-13 17:13 ?414次閱讀

    利用NVIDIA RAPIDS加速DolphinDB Shark平臺提升計算性能

    DolphinDB 是一家高性能數(shù)據(jù)庫研發(fā)企業(yè),也是 NVIDIA 初創(chuàng)加速計劃成員,其開發(fā)的產品基于高性能分布式時序數(shù)據(jù)庫,是支持復雜計算和流數(shù)據(jù)分析的實時計算平臺,適用于金融、電力
    的頭像 發(fā)表于 09-09 09:57 ?266次閱讀
    利用<b class='flag-5'>NVIDIA</b> RAPIDS<b class='flag-5'>加速</b>DolphinDB Shark平臺提升<b class='flag-5'>計算</b>性能

    NVIDIA加速計算和生成式AI領域的創(chuàng)新

    在最新發(fā)布的公司 2024 財年可持續(xù)發(fā)展報告開篇的一封信中,NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛介紹了 NVIDIA加速計算和生成式 AI 領域的創(chuàng)新,以及 AI 技術在提高生
    的頭像 發(fā)表于 09-09 09:18 ?372次閱讀

    NVIDIA全面轉向開源GPU內核模塊

    借助 R515 驅動程序,NVIDIA 于 2022 年 5 月發(fā)布了一套開源的 Linux GPU 內核模塊,該模塊采用雙許可證,即 GPL 和 MIT 許可。初始版本主要面向數(shù)據(jù)中心計算
    的頭像 發(fā)表于 07-25 09:56 ?267次閱讀
    <b class='flag-5'>NVIDIA</b>全面轉向開源<b class='flag-5'>GPU</b>內核模塊

    NVIDIA 通過 CUDA-Q 平臺為全球各地的量子計算中心提供加速

    德國、日本和波蘭的超級計算機利用 Grace-Hopper 和量子-經典加速超算平臺推進量子計算研究 ? ? 德國漢堡 —— 國際超算大會(ISC)—— 2024 年 5 月 13 日
    發(fā)表于 05-13 15:21 ?154次閱讀
    <b class='flag-5'>NVIDIA</b> 通過 CUDA-Q 平臺為全球各地的量子<b class='flag-5'>計算</b>中心提供<b class='flag-5'>加速</b>

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫,用于優(yōu)化從 PC 到云端的 NVID
    的頭像 發(fā)表于 04-28 10:36 ?393次閱讀

    利用NVIDIA組件提升GPU推理的吞吐

    本實踐中,唯品會 AI 平臺與 NVIDIA 團隊合作,結合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)將推理的稠密網絡和熱 Embedding 全置于
    的頭像 發(fā)表于 04-20 09:39 ?503次閱讀

    NVIDIA cuPQC幫助開發(fā)適用于量子計算時代的加密技術

    NVIDIA cuPQC 可為相關開發(fā)者提供加速計算支持,幫助開發(fā)適用于量子計算時代的加密技術。cuPQC 庫可利用 GPU 并行性,為要求
    的頭像 發(fā)表于 03-22 09:53 ?309次閱讀

    如何選擇NVIDIA GPU和虛擬化軟件的組合方案呢?

    NVIDIA vGPU 解決方案能夠將 NVIDIA GPU 的強大功能帶入虛擬桌面、應用程序和工作站,加速圖形和計算,使在家辦公或在任何地
    的頭像 發(fā)表于 01-12 09:26 ?807次閱讀
    如何選擇<b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b>和虛擬化軟件的組合方案呢?

    NVIDIA 初創(chuàng)加速計劃 Omniverse 加速

    的重要力量?;?NVIDIA 全棧式 AI 計算平臺和 Omniverse TM 平臺上的生成式 AI 創(chuàng)作實踐,讓企業(yè)、開發(fā)者能夠了解可落地的生成式 AI 內容創(chuàng)作技術及其技術趨勢與當前邊界。 NVIDIA 初創(chuàng)
    的頭像 發(fā)表于 12-04 20:35 ?539次閱讀
    <b class='flag-5'>NVIDIA</b> 初創(chuàng)<b class='flag-5'>加速</b>計劃 Omniverse <b class='flag-5'>加速</b>營

    NVIDIA GPU的核心架構及架構演進

    在探討 NVIDIA GPU 架構之前,我們先來了解一些相關的基本知識。GPU 的概念,是由 NVIDIA 公司在 1999 年發(fā)布 Geforce256 圖形處理芯片時首先提出,從此
    發(fā)表于 11-21 09:40 ?1152次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b>的核心架構及架構演進

    創(chuàng)新企業(yè)云福利:騰訊云 × NVIDIA 初創(chuàng)加速計劃

    x NVIDIA 初創(chuàng)加速計劃 助您降低產品使用門檻 高性能計算集 群?HCC 以高性能云服務器為節(jié)點,通過 RDMA 互聯(lián),大幅提升網絡性能,提供高帶寬和極低延遲的網絡服務,能滿足大規(guī)模高性能
    的頭像 發(fā)表于 11-13 20:40 ?487次閱讀
    創(chuàng)新企業(yè)云福利:騰訊云 × <b class='flag-5'>NVIDIA</b> 初創(chuàng)<b class='flag-5'>加速</b>計劃

    177倍加速!NVIDIA最新開源 | GPU加速各種SDF建圖!

    但最近,NVIDIA和ETHZ就聯(lián)合提出了nvblox,是一個使用GPU加速SDF建圖的庫。計算速度非???,相較CPU計算TSDF甚至快了1
    的頭像 發(fā)表于 11-09 16:46 ?908次閱讀
    177倍<b class='flag-5'>加速</b>!<b class='flag-5'>NVIDIA</b>最新開源 | <b class='flag-5'>GPU</b><b class='flag-5'>加速</b>各種SDF建圖!

    NVIDIA與NTT DOCOMO聯(lián)手打造全球首個GPU加速5G網絡,歐盟要求蘋果開放生態(tài)

    大家好,歡迎收看河套IT WALK第113期。 NVIDIA與NTT DOCOMO合作推出了全球首個GPU加速的5G網絡,這一突破性技術將改變我們對5G網絡的認知和使用方式。歐盟對蘋果提出了一個靈魂
    的頭像 發(fā)表于 09-27 21:20 ?620次閱讀
    <b class='flag-5'>NVIDIA</b>與NTT DOCOMO聯(lián)手打造全球首個<b class='flag-5'>GPU</b><b class='flag-5'>加速</b>5G網絡,歐盟要求蘋果開放生態(tài)

    Oracle 云基礎設施提供新的 NVIDIA GPU 加速計算實例

    生成式 AI 和大語言模型(LLM)不斷推動突破性創(chuàng)新,訓練和推理對算力的需求也隨之急劇上升。 這些現(xiàn)代生成式 AI 應用需要全棧加速計算,首先要有能夠快速、準確處理大量工作負載的先進基礎設施
    的頭像 發(fā)表于 09-25 20:40 ?469次閱讀
    Oracle 云基礎設施提供新的 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b> <b class='flag-5'>加速</b><b class='flag-5'>計算</b>實例