0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

?如何提高HPC SoC的可靠性、可用性和可維護(hù)性級別

半導(dǎo)體產(chǎn)業(yè)縱橫 ? 來源:半導(dǎo)體產(chǎn)業(yè)縱橫 ? 2023-02-15 11:37 ? 次閱讀

通過芯片生命周期管理可以確保數(shù)據(jù)中心系統(tǒng)正常運(yùn)行時間。

在大型數(shù)據(jù)中心和超級計(jì)算機(jī)的領(lǐng)域,高性能計(jì)算 (HPC) 已經(jīng)變得相當(dāng)普遍,并且在某些情況下,在我們的日常生活中必不可少。正因?yàn)槿绱?,可靠性、可用性和可維護(hù)性(reliability, availability, and serviceability,或稱RAS),是更多 HPC SoC 設(shè)計(jì)人員應(yīng)該熟悉的概念。

RAS 聽起來像是一個不言自明的術(shù)語,但在涉及 HPC SoC 時它真正涉及什么?數(shù)據(jù)中心運(yùn)營商長期與客戶保持服務(wù)水平協(xié)議,以保證系統(tǒng)正常運(yùn)行時間。RAS 補(bǔ)充了這些協(xié)議,現(xiàn)在可以得到新技術(shù)的支持,最終產(chǎn)生可操作的見解。在這篇最初發(fā)表于“從芯片到軟件”博客上的文章中,您將了解為什么芯片生命周期管理 (SLM)、嵌入式監(jiān)控 IP 以及正確的設(shè)計(jì)和驗(yàn)證工具可以在您的HPC 設(shè)計(jì)中實(shí)現(xiàn)高水平 RAS。

3個關(guān)鍵的高性能計(jì)算組件

家庭安全門鈴或建筑物監(jiān)控系統(tǒng)捕獲的視頻片段、財(cái)務(wù)和業(yè)務(wù)運(yùn)營建模、科學(xué)和醫(yī)學(xué)研究、增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)等應(yīng)用都需要依賴 HPC。隨著我們的設(shè)備和系統(tǒng)收集的數(shù)據(jù)激增、AI 驅(qū)動的分析、大量計(jì)算資源的可用性以及云的融合,使快速獲得有用、可操作的見解成為可能,使 HPC 成為許多領(lǐng)域不可或缺的一部分。它與 1940 年代第一臺超級計(jì)算機(jī)出現(xiàn)時相比,應(yīng)用范圍更廣。

當(dāng)今典型的 HPC 基礎(chǔ)設(shè)施由三個關(guān)鍵要素組成:計(jì)算、網(wǎng)絡(luò)和存儲。每個都需要一定水平的性能、延遲、電源效率、可擴(kuò)展性、生產(chǎn)力和安全性。讓我們仔細(xì)看看每個元素:

計(jì)算由 CPUGPU、加速器、片上網(wǎng)絡(luò) (NoC) 和計(jì)算服務(wù)器組成。這是進(jìn)行高性能數(shù)據(jù)處理的地方。復(fù)雜的多核甚至多芯片系統(tǒng)架構(gòu)、具有快速訪問的大內(nèi)存、高帶寬 I/O 接口、電源/冷卻管理和安全性是其關(guān)鍵特性。片內(nèi)監(jiān)控和分析還可以支持 RAS 目標(biāo)。

網(wǎng)絡(luò)由交換機(jī)和路由器、適配器、網(wǎng)橋、中繼器、網(wǎng)絡(luò)接口卡(如 SmartNIC)以及光學(xué)電氣互連組成。該元素提供高性能連接,理想情況下具有高吞吐量、低延遲、能源效率、可配置性和可擴(kuò)展性、實(shí)時監(jiān)控和報告以及安全性。調(diào)試功能、前向糾錯 (FEC) 和 IP 可以支持 RAS 要求。

存儲包括固態(tài)驅(qū)動器 (SSD) 或硬盤驅(qū)動器 (HDD)、存儲區(qū)域網(wǎng)絡(luò) (SAN) 和網(wǎng)絡(luò)附加存儲 (NAS)。理想情況下,存儲元件應(yīng)提供高帶寬存儲、減少數(shù)據(jù)傳輸能量和延遲、靈活性、可擴(kuò)展性、可靠性和安全性。內(nèi)置自測試 (BIST)、糾錯碼 (ECC) 和冗余等功能可以促進(jìn)高水平的 RAS。

有兩種主要類型的 HPC 系統(tǒng):同類機(jī)器和混合機(jī)器。同類機(jī)器只有 CPU。相比之下,混合動力車同時擁有 GPU 和 CPU,其中 GPU 運(yùn)行任務(wù)而 CPU 監(jiān)督計(jì)算。

HPC 集群可以由大量服務(wù)器組成,其中計(jì)算集群的總物理尺寸、能源使用或熱輸出可能成為一個嚴(yán)重的問題。此外,還需要在服務(wù)器之間進(jìn)行專用通信,這對于集群來說有些獨(dú)特。

由于微小的設(shè)計(jì)差異乘以集群中的服務(wù)器數(shù)量會帶來巨大的收益,因此我們看到了針對 HPC 優(yōu)化的服務(wù)器設(shè)計(jì)的出現(xiàn)。有時,這些是針對大型公共 Web 運(yùn)營商(例如搜索引公司)的設(shè)計(jì),它們在 HPC 集群中提供類似的優(yōu)勢。但是,它們也可以提供僅適合 HPC 用戶的功能。例如,如果系統(tǒng)設(shè)計(jì)為以不同方式提供集群互連,則可能會顯著減少布線。

通過片內(nèi)監(jiān)控和分析獲得可操作的見解

HPC 的實(shí)用性在于它能夠處理海量數(shù)據(jù)(PB 甚至 zettabytes)并實(shí)時(或接近實(shí)時)運(yùn)行復(fù)雜模型。不用說,只要 HPC 系統(tǒng)出現(xiàn)故障,就會導(dǎo)致資金損失和業(yè)務(wù)中斷。任務(wù)關(guān)鍵型應(yīng)用程序的影響變得更加陡峭。在高級節(jié)點(diǎn),使用大型單片芯片或復(fù)雜架構(gòu)(如多芯片),可以滿足 RAS 要求并變得更具挑戰(zhàn)性。

根據(jù)手頭應(yīng)用程序的重要性,系統(tǒng)可以構(gòu)建備份,以在發(fā)生故障時提供冗余。除了冗余之外,您還可以在系統(tǒng)和芯片級別做更多的事情來滿足 RAS 目標(biāo)。這就是 SLM 發(fā)揮重要作用的地方,它提供智能、自動化的片內(nèi)監(jiān)控 IP 和方法,以在系統(tǒng)生命周期的每個階段生成可操作的見解。

幾十年來,設(shè)計(jì)人員一直在將監(jiān)視器和傳感器嵌入到他們的芯片中。但是,該技術(shù)已經(jīng)發(fā)展到現(xiàn)在可以提供更準(zhǔn)確的數(shù)據(jù)。這樣可以更好地了解設(shè)備的實(shí)時環(huán)境、結(jié)構(gòu)和功能狀況。示例包括工藝變化和電壓供應(yīng)的監(jiān)控,以及時序裕度的準(zhǔn)確測量等。

由于嵌入式和基于云的分析,以及統(tǒng)一 SLM 解決方案的可用性,設(shè)計(jì)團(tuán)隊(duì)將能夠建立一個連續(xù)的、實(shí)時的設(shè)備硅健康狀況圖,而不僅僅是在設(shè)計(jì)期間,在生產(chǎn)階段以及現(xiàn)場操作期間。他們可以更好地了解根本原因并立即進(jìn)行調(diào)試和修復(fù),從而降低成本和潛在危害。SLM 可以解決的問題包括晶體管老化和延遲故障。要了解這帶來的好處,請考慮一顆有缺陷的衛(wèi)星。通常情況下,從實(shí)驗(yàn)室取回修復(fù)后的電路板安裝到衛(wèi)星上可能需要數(shù)周的時間,將其長時間停用以進(jìn)行故障排除和維修。通過SLM技術(shù)在現(xiàn)場進(jìn)行故障檢測和故障修復(fù)。

看看數(shù)據(jù)中心,我們可以看到另一個突出 SLM 如何促進(jìn)滿足 RAS 要求的示例。

在芯片層面,現(xiàn)場遠(yuǎn)程調(diào)試的能力對于超大規(guī)模數(shù)據(jù)中心的團(tuán)隊(duì)來說至關(guān)重要。SLM 提供遠(yuǎn)程遙測和監(jiān)控使這成為可能。

在系統(tǒng)級別,精確的時鐘節(jié)流(SLM 的另一項(xiàng)功能)對于最大化數(shù)據(jù)吞吐量和 CPU、GPU 和 AI 引擎利用率至關(guān)重要。

在數(shù)據(jù)中心級別,使用 SLM 工具監(jiān)控服務(wù)器性能、網(wǎng)絡(luò)擁塞和磁盤利用率是檢測和預(yù)測數(shù)據(jù)中斷的關(guān)鍵,這可以增加正常運(yùn)行時間。

在超大規(guī)模級別,團(tuán)隊(duì)可以利用 SLM 來最大限度地減少片上熱和電源壓力,從而提高可靠性。

對于 die-to-die 高速接口,SLM 提供信號完整性監(jiān)控,連同接口完整性冗余,有助于確保小芯片設(shè)計(jì)的穩(wěn)健性。

概括

一個端到端的解決方案將設(shè)計(jì)校準(zhǔn)分析、片內(nèi)監(jiān)控和系統(tǒng)性能優(yōu)化等一切結(jié)合在一起,而不是一組互不關(guān)聯(lián)的單點(diǎn)工具,可以使解決 RAS 目標(biāo)的過程更加無縫。

鑒于現(xiàn)在依賴 HPC 的應(yīng)用程序范圍越來越廣,保持這些系統(tǒng)的高水平可靠性、可用性和可服務(wù)性是一個全面的關(guān)鍵考慮因素。實(shí)現(xiàn)最佳 RAS 水平以支持從流媒體視頻到氣候變化建模的一切是保持?jǐn)?shù)字化、智能化萬物世界高速運(yùn)行的另一個重要因素。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • soc
    soc
    +關(guān)注

    關(guān)注

    38

    文章

    4106

    瀏覽量

    217790
  • SSD
    SSD
    +關(guān)注

    關(guān)注

    20

    文章

    2840

    瀏覽量

    117137
  • HPC
    HPC
    +關(guān)注

    關(guān)注

    0

    文章

    309

    瀏覽量

    23654

原文標(biāo)題:?如何提高 HPC SoC 的可靠性、可用性和可維護(hù)性級別?

文章出處:【微信號:ICViews,微信公眾號:半導(dǎo)體產(chǎn)業(yè)縱橫】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    UPS電源的安全可靠性分析

    隨著信息技術(shù)的飛速發(fā)展,數(shù)據(jù)和信息已成為現(xiàn)代社會的重要資產(chǎn)。因此,確保數(shù)據(jù)的持續(xù)可用性和完整變得至關(guān)重要。不間斷電源(UPS)系統(tǒng)作為保護(hù)關(guān)鍵設(shè)備免受電力中斷影響的重要手段,其安全可靠性
    的頭像 發(fā)表于 10-28 10:49 ?187次閱讀

    PCB高可靠性化要求與發(fā)展——PCB高可靠性的影響因素(上)

    可靠性提出了更為嚴(yán)格的要求,特別是在焊接點(diǎn)的結(jié)合力、熱應(yīng)力管理以及焊接點(diǎn)數(shù)量的增加等方面。本文將探討影響PCB可靠性的關(guān)鍵因素,并分析當(dāng)前和未來提高PCB可靠性的制造技術(shù)發(fā)展趨勢。
    的頭像 發(fā)表于 10-11 11:20 ?233次閱讀
    PCB高<b class='flag-5'>可靠性</b>化要求與發(fā)展——PCB高<b class='flag-5'>可靠性</b>的影響因素(上)

    利用TPS2116提高電表應(yīng)用的系統(tǒng)可靠性

    電子發(fā)燒友網(wǎng)站提供《利用TPS2116提高電表應(yīng)用的系統(tǒng)可靠性.pdf》資料免費(fèi)下載
    發(fā)表于 09-24 09:21 ?1次下載
    利用TPS2116<b class='flag-5'>提高</b>電表應(yīng)用的系統(tǒng)<b class='flag-5'>可靠性</b>

    如何提高RS485通信的可靠性?

    通信可靠性下降。為了確保系統(tǒng)的穩(wěn)定運(yùn)行,提高RS485通信的可靠性至關(guān)重要。合理的布線與接地布線是影響RS485通信可靠性的重要因素之一。首先,應(yīng)選擇合適的線纜。R
    的頭像 發(fā)表于 09-20 08:07 ?240次閱讀
    如何<b class='flag-5'>提高</b>RS485通信的<b class='flag-5'>可靠性</b>?

    基于可靠性設(shè)計(jì)感知的EDA解決方案

    產(chǎn)品可靠性,包括制造和運(yùn)營方面,正在成為芯片-封裝-系統(tǒng)迭代設(shè)計(jì)周期中設(shè)計(jì)的關(guān)鍵方面,尤其是那些有望承受更長使用壽命和可能的惡劣操作環(huán)境的產(chǎn)品,例如汽車電子系統(tǒng)、高性能計(jì)算 (HPC)、電信
    的頭像 發(fā)表于 07-15 09:56 ?332次閱讀
    基于<b class='flag-5'>可靠性</b>設(shè)計(jì)感知的EDA解決方案

    汽車功能安全與可靠性的關(guān)系

    當(dāng)前,隨著汽車領(lǐng)域的飛速發(fā)展,汽車也被重新定義。在汽車電子電氣系統(tǒng)設(shè)計(jì)時,離不開對功能安全和可靠性設(shè)計(jì)的考慮。正確理解兩者之間的關(guān)系,有助于更好地分析問題和解決問題。什么是汽車可靠性汽車可靠性是指
    的頭像 發(fā)表于 07-13 08:28 ?3150次閱讀
    汽車功能安全與<b class='flag-5'>可靠性</b>的關(guān)系

    基于結(jié)構(gòu)相似可靠性監(jiān)測結(jié)果

    電子發(fā)燒友網(wǎng)站提供《基于結(jié)構(gòu)相似可靠性監(jiān)測結(jié)果.pdf》資料免費(fèi)下載
    發(fā)表于 02-05 09:10 ?0次下載
    基于結(jié)構(gòu)相似<b class='flag-5'>性</b><b class='flag-5'>可靠性</b>監(jiān)測結(jié)果

    如何提高分布式大屏控制系統(tǒng)的穩(wěn)定性和可靠性

    提高分布式大屏控制系統(tǒng)的穩(wěn)定性和可靠性可以從以下幾個方面入手: 架構(gòu)設(shè)計(jì):在系統(tǒng)架構(gòu)設(shè)計(jì)階段,應(yīng)采用高可用性、高可擴(kuò)展性的設(shè)計(jì)原則,確保系統(tǒng)具備容錯和負(fù)載均衡的能力。采用分布式架構(gòu),將系統(tǒng)劃分為多個
    的頭像 發(fā)表于 01-29 14:39 ?366次閱讀

    如何確保IGBT的產(chǎn)品可靠性

    在當(dāng)今的半導(dǎo)體市場,公司成功的兩個重要因素是產(chǎn)品質(zhì)量和可靠性。而這兩者是相互關(guān)聯(lián)的,可靠性體現(xiàn)為在產(chǎn)品預(yù)期壽命內(nèi)的長期質(zhì)量表現(xiàn)。任何制造商要想維續(xù)經(jīng)營,必須確保產(chǎn)品達(dá)到或超過基本的質(zhì)量標(biāo)準(zhǔn)和可靠性
    的頭像 發(fā)表于 01-25 10:21 ?1532次閱讀
    如何確保IGBT的產(chǎn)品<b class='flag-5'>可靠性</b>

    SD NAND?可靠性驗(yàn)證測試

    SDNAND可靠性驗(yàn)證測試的重要SDNAND可靠性驗(yàn)證測試至關(guān)重要。通過檢驗(yàn)數(shù)據(jù)完整、設(shè)備壽命、性能穩(wěn)定性,確保產(chǎn)品符合標(biāo)準(zhǔn),可提高產(chǎn)品
    的頭像 發(fā)表于 12-14 14:29 ?640次閱讀
    SD NAND?<b class='flag-5'>可靠性</b>驗(yàn)證測試

    環(huán)境試驗(yàn)與可靠性試驗(yàn)的區(qū)別

    環(huán)境試驗(yàn)與可靠性試驗(yàn)的區(qū)別
    的頭像 發(fā)表于 12-08 09:31 ?893次閱讀
    環(huán)境試驗(yàn)與<b class='flag-5'>可靠性</b>試驗(yàn)的區(qū)別

    高性能電機(jī)控制應(yīng)用的電流反饋系統(tǒng)中的相關(guān)可用性

    電子發(fā)燒友網(wǎng)站提供《高性能電機(jī)控制應(yīng)用的電流反饋系統(tǒng)中的相關(guān)可用性.pdf》資料免費(fèi)下載
    發(fā)表于 11-29 10:17 ?0次下載
    高性能電機(jī)控制應(yīng)用的電流反饋系統(tǒng)中的相關(guān)<b class='flag-5'>性</b>與<b class='flag-5'>可用性</b>

    提高PCB設(shè)備可靠性的技術(shù)措施

    提高PCB設(shè)備可靠性的技術(shù)措施:方案選擇、電路設(shè)計(jì)、電路板設(shè)計(jì)、結(jié)構(gòu)設(shè)計(jì)、元器件選用、制作工藝等多方面著手,具體措施如下: (1)簡化方案設(shè)計(jì)。 方案設(shè)計(jì)時,在確保設(shè)備滿足技術(shù)、性能指標(biāo)的前提下
    發(fā)表于 11-22 06:29

    MAC地址注冊管理最佳實(shí)踐:安全可用性和靈活性

    MAC地址注冊管理是在網(wǎng)絡(luò)環(huán)境中確保設(shè)備身份驗(yàn)證和訪問控制的重要步驟。本文將介紹MAC地址注冊管理的最佳實(shí)踐,旨在提高安全性可用性和靈活性,以滿足現(xiàn)代網(wǎng)絡(luò)的需求。隨著網(wǎng)絡(luò)規(guī)模和復(fù)雜的不斷增加
    的頭像 發(fā)表于 11-21 14:57 ?519次閱讀
    MAC地址注冊管理最佳實(shí)踐:安全<b class='flag-5'>性</b>、<b class='flag-5'>可用性</b>和靈活性

    如何提升基于DC-DC模塊的電源系統(tǒng)的可靠性?

    如何提升基于DC-DC模塊的電源系統(tǒng)的可靠性? 基于DC-DC模塊的電源系統(tǒng)可靠性是關(guān)乎設(shè)備穩(wěn)定運(yùn)行的重要因素。為了提高可靠性,我們可以從設(shè)計(jì)、選型、制造、測試和維護(hù)等方面進(jìn)行優(yōu)化和改
    的頭像 發(fā)表于 11-17 14:35 ?586次閱讀