0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

HPC黃金三角:可靠、可用、可服務

新思科技 ? 來源:未知 ? 2023-02-17 23:45 ? 次閱讀

98cab732-aed8-11ed-bfe3-dac502259ad0.gif

高性能計算(HPC)曾一度是大型數(shù)據(jù)中心和超級計算機的專屬,但如今依賴HPC的應用不勝枚舉,在與我們生活息息相關的各種應用領域都必不可少,如科學、醫(yī)療、安全、短視頻…...

為實現(xiàn)更好的HPC芯片設計,開發(fā)者們應該了解如何提升RAS,即可靠性 (Reliability)、可用性 (Availability)和可服務性 (Serviceability)。

RAS的含義并不難懂,但涉及到HPC的SoC時,它表示什么呢?數(shù)據(jù)中心運營商長期以來一直與客戶保持服務水平協(xié)議,以確保系統(tǒng)的正常運行時間。RAS是對此類協(xié)議的補充,現(xiàn)已能通過新技術獲得支持,最終生成切實可行的見解。本文將進一步介紹為什么芯片生命周期管理(SLM)、嵌入式監(jiān)控IP以及正確的設計和驗證工具能夠幫助HPC設計實現(xiàn)高水平的RAS。

高性能計算三大關鍵組成

家用安全門鈴或樓宇監(jiān)控系統(tǒng)所拍攝的視頻片段、金融和商業(yè)運作建模、科學和醫(yī)學研究、增強現(xiàn)實和虛擬現(xiàn)實……隨著設備和系統(tǒng)收集的數(shù)據(jù)激增,再結合人工智能(AI)以及大量可用的計算資源,開發(fā)者們可以快速獲得切實可行的見解,這使得HPC比1940年代第一臺超級計算機的應用更為廣泛。

如今,常規(guī)的HPC基礎設施包括計算、網(wǎng)絡和存儲三大部分,且均有性能、延遲、功耗、可擴展性、效率和安全性方面的要求。下面我們分別進行說明:
  • 計算部分包括CPUGPU、加速器、片上網(wǎng)絡(NoC)和計算服務器,用于處理高性能數(shù)據(jù)。該部分的關鍵在于復雜的多核甚至Multi-Die系統(tǒng)架構、快速訪問的大內存、高帶寬I/O接口、電源/冷卻管理和安全性。片內監(jiān)控和分析可支持RAS目標。
  • 網(wǎng)絡部分包括交換機和路由器、適配器、網(wǎng)橋、中繼器、網(wǎng)絡接口卡(如智能網(wǎng)卡)以及光電互連,可提供高性能連接,最好具有高吞吐量、低延遲、高能效、可配置性和可擴展性、實時監(jiān)控和報告以及安全性。調試能力、前向糾錯(FEC)和IP可以支持RAS要求。
  • 存儲部分包括固態(tài)驅動器(SSD)或硬盤驅動器(HDD)、存儲區(qū)域網(wǎng)絡(SAN)和網(wǎng)絡附接存儲(NAS)。理想情況下,該部分應可提供高帶寬存儲,減少數(shù)據(jù)傳輸能耗和延遲,具有靈活性、可擴展性、可靠性和安全性。內置自測(BIST)、糾錯碼(ECC)和冗余等功能可以實現(xiàn)高水平的RAS。
HPC系統(tǒng)主要分為單一計算系統(tǒng)和混合計算系統(tǒng)兩類。單一計算系統(tǒng)只有CPU,而混合計算系統(tǒng)同時擁有GPU和CPU,GPU運行任務,CPU監(jiān)督計算。

HPC集群可包含大量的服務器,而計算集群的總物理尺寸、能耗或熱量輸出可能會成為一大問題。此外,集群對服務器之間的專用通信也有要求。

在集群中服務器數(shù)量相當多時,微小的設計改進也可以創(chuàng)造巨大的價值,因此,為HPC優(yōu)化的服務器設計正在嶄露頭角。有時,此類設計針對搜索引公司等大型公共網(wǎng)絡運營商,也有益于HPC集群。但它們也可以提供只適合HPC用戶的功能。例如,如果系統(tǒng)被設計成以不同的方式提供集群互連,有望大幅減少布線。

通過片內監(jiān)控和分析

提供可行見解

HPC能夠處理PB級甚至ZB級的數(shù)據(jù),并且能夠實時(或接近實時)運行復雜的模型。而如果HPC系統(tǒng)出現(xiàn)故障,必然會導致資金損失和業(yè)務中斷。對于關鍵任務應用來說,后果會更加嚴重。在先進工藝節(jié)點上,有大型單片晶?;騇ulti-die等復雜架構,滿足RAS的要求則更具有挑戰(zhàn)性。

根據(jù)當前應用的重要性,系統(tǒng)可以建立備份,在發(fā)生故障時提供冗余備份。此外,還可以在系統(tǒng)和芯片層面以其它方式實現(xiàn)RAS目標。SLM也發(fā)揮著巨大的作用,它可以提供智能、自動化片內監(jiān)控IP和方法,在系統(tǒng)生命周期的每個階段生成可行見解。

將監(jiān)視器和傳感器嵌入到芯片中是開發(fā)者們幾十年來一直在做的事。然而,該技術已經可以提供準確度更高、顆粒度更細的數(shù)據(jù)。這提高了設備的實時環(huán)境、結構和功能狀況的可見性,可以實現(xiàn)監(jiān)控溫度熱點、工藝變化和電源電壓,準確測量時序裕量等功能。

得益于嵌入式、基于云的分析以及統(tǒng)一的SLM解決方案,設計團隊能夠在設計、研發(fā)和生產階段甚至現(xiàn)場操作時持續(xù)、實時掌握其設備的芯片健康狀況,從而更好地了解根本原因,并立即進行調試和維修,降低成本和潛在的危害。SLM可以解決晶體管老化、延遲故障等問題,能夠帶來諸多益處。

舉例而言,如果衛(wèi)星出現(xiàn)故障,常見的辦法是在實驗室維修電路板,再將其安裝在衛(wèi)星上,這會花費數(shù)周時間,其間衛(wèi)星需要停用,以進行故障診斷和維修。借助SLM技術在現(xiàn)場進行故障檢修和修復,團隊可以在更少的中斷次數(shù)和更短的中斷時間內,保持系統(tǒng)的正常運行。

數(shù)據(jù)中心也可以體現(xiàn)SLM是如何加快實現(xiàn)RAS要求的。

  • 在芯片層面,在現(xiàn)場進行遠程調試的能力是團隊成功打造超大規(guī)模數(shù)據(jù)中心的關鍵,SLM提供的遠程遙測和監(jiān)控功能使之成為可能。

  • 在系統(tǒng)層面,SLM精確的時鐘降頻對最大化數(shù)據(jù)吞吐量和CPU、GPU和AI引擎的利用率至關重要。

  • 在數(shù)據(jù)中心層面,SLM工具可以有效監(jiān)控服務器性能、網(wǎng)絡擁塞和磁盤利用率,從而檢測和預測數(shù)據(jù)中斷,增加正常運行時間。

  • 在超大規(guī)模層面,團隊可以利用SLM最大限度地減少片上熱量和供電壓力,以延長可靠性。

  • 對于Die-to-Die高速接口,SLM可監(jiān)控信號完整性,結合接口完整性的冗余,有助于確保小芯片設計的穩(wěn)健性。

總結

端到端的解決方案并非是各自獨立的點工具的集合,而能夠提供設計校準分析、片內監(jiān)控、系統(tǒng)性能優(yōu)化等多項功能,無縫實現(xiàn)RAS目標。新思科技可提供出色的端到端流程,我們的芯片生命周期管理系列還配有廣泛的低延遲、經驗證的IP組合以及面向HPC應用的設計和驗證技術。

該解決方案配備物理感知芯片監(jiān)控器、云分析以及嵌入式分析和優(yōu)化技術,還包括SoC傳感器IP和制程監(jiān)控器,用于設計、研發(fā)、生產階段和現(xiàn)場的優(yōu)化。在制造階段和現(xiàn)場,監(jiān)控器可以收集有關芯片的實時數(shù)據(jù),輔以全面的測試和調試解決方案,可確保高水平的RAS。

隨著HPC應用日益增多,SoC開發(fā)必須確保系統(tǒng)的高可靠性、可用性和可服務性。實現(xiàn)最佳水平的RAS,支持流媒體視頻、氣候變化建模等多項應用,萬物數(shù)智化的世界才能保持高速運行。

9c0806ca-aed8-11ed-bfe3-dac502259ad0.gif? ?


原文標題:HPC黃金三角:可靠、可用、可服務

文章出處:【微信公眾號:新思科技】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 新思科技
    +關注

    關注

    5

    文章

    775

    瀏覽量

    50191

原文標題:HPC黃金三角:可靠、可用、可服務

文章出處:【微信號:Synopsys_CN,微信公眾號:新思科技】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    TI Arm內核三角函數(shù)的優(yōu)化

    電子發(fā)燒友網(wǎng)站提供《TI Arm內核三角函數(shù)的優(yōu)化.pdf》資料免費下載
    發(fā)表于 09-11 09:19 ?0次下載
    TI Arm內核<b class='flag-5'>三角</b>函數(shù)的優(yōu)化

    三角波發(fā)生器的組成和應用

    三角波發(fā)生器是一種能夠產生連續(xù)三角形波形信號的電子設備或電路。其輸出信號具有特定的頻率和波形特征,廣泛應用于電子、通信、音頻、測試測量以及控制系統(tǒng)等多個領域。以下是對三角波發(fā)生器的詳細闡述,包括其工作原理、組成結構、應用領域、參
    的頭像 發(fā)表于 08-08 14:36 ?289次閱讀

    三角形連接和星形連接的基本概念和特點

    一、引言 在電力系統(tǒng)中,電機的連接方式對系統(tǒng)的運行性能和效率有著重要的影響。目前,常用的電機連接方式有三角形連接和星形連接。三角形連接和星形連接各有優(yōu)缺點,適用于不同的應用場景。 二、三角形連接
    的頭像 發(fā)表于 07-17 10:35 ?787次閱讀

    相負載與三角聯(lián)結的關系

    相負載與三角聯(lián)結的關系是一個電氣工程領域的重要課題。在這篇文章中,我們將探討相負載的概念、三角聯(lián)結的原理以及它們之間的關系。 相負載的
    的頭像 發(fā)表于 07-17 10:25 ?807次閱讀

    三角形和星形電機參數(shù)怎么確定?

    請教一下 三角形和星形電機怎么確定,通過測量 ------- 線電阻=2*相電阻 星形 線電阻=2/3*相電阻 三角形 這個說法對嗎
    發(fā)表于 03-07 06:57

    變壓器“三角形接線”和“星形接線”接法詳解

    變壓器“三角形接線”和“星形接線”接法詳解? 變壓器的三角形接線和星形接線是常見的兩種接法,它們在不同的應用場景中具有不同的優(yōu)勢和特點。 一、三角形接線 三角形接線也被稱為Delta接
    的頭像 發(fā)表于 02-18 18:17 ?9612次閱讀

    方波 正弦波 三角波信號是如何產生的?

    方波、正弦波和三角波信號的產生方式各有不同,下面分別進行詳細闡述
    的頭像 發(fā)表于 01-29 17:27 ?4822次閱讀

    闡述基于激光三角測距法的激光雷達原理

    激光三角測距法作為低成本的激光雷達設計方案,可獲得高精度、高性價比的應用效果,并成為室內服務機器人導航的首選方案,本文將對激光雷達核心組件進行介紹并重點闡述基于激光三角測距法的激光雷達原理。
    的頭像 發(fā)表于 12-27 18:20 ?1232次閱讀
    闡述基于激光<b class='flag-5'>三角</b>測距法的激光雷達原理

    基于激光三角測距法的激光雷達原理

    目前激光雷達的測量原理主要有脈沖法、相干法和三角法3種,脈沖法和相干光法對激光雷達的硬件要求高,但測量精度比激光三角法要高得多,故多用于軍事領域。而激光三角測距法因其成本低,精度滿足大部分商用及民用要求,故得到了廣泛關注。
    發(fā)表于 12-25 10:04 ?662次閱讀
    基于激光<b class='flag-5'>三角</b>測距法的激光雷達原理

    交流電三角形接法電流關系

    交流電三角形接法是一種常見的電機接線方式,廣泛應用于電動機、發(fā)電機等設備中。在這種接線方式下,相交流電通過個相互連接的線圈形成三角形,從而產生旋轉磁場。本文將詳細探討交流電
    的頭像 發(fā)表于 12-13 17:44 ?3176次閱讀

    RX系列三角函數(shù)單元(TFU)的使用介紹

    硬件加速器三角函數(shù)單元(Trigonometric Function Unit)能夠高速處理三角函數(shù)sin、cos、arctan和sqrt(x2+y2)函數(shù)的運算,顯著減少CPU負荷,在電機的矢量控制運算中非常有用。
    的頭像 發(fā)表于 12-04 12:25 ?1764次閱讀
    RX系列<b class='flag-5'>三角</b>函數(shù)單元(TFU)的使用介紹

    三角形繞組的兩種連線方式介紹

    三角形繞組中,有兩種常見的連線方式,分別是星型連接和三角形連接。
    的頭像 發(fā)表于 11-21 16:59 ?1408次閱讀
    <b class='flag-5'>三角</b>形繞組的兩種連線方式介紹

    三角轉換電路

    電子發(fā)燒友網(wǎng)站提供《星三角轉換電路.doc》資料免費下載
    發(fā)表于 11-18 09:17 ?0次下載
    星<b class='flag-5'>三角</b>轉換電路

    三角電路等效變換分析

    電子發(fā)燒友網(wǎng)站提供《星三角電路等效變換分析.doc》資料免費下載
    發(fā)表于 11-17 09:59 ?0次下載
    星<b class='flag-5'>三角</b>電路等效變換分析

    藍牙的三角定位是一個什么原理?

    這個藍牙三角定位是通過什么原理實現(xiàn)定位的
    發(fā)表于 10-09 06:58