0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI芯片的可靠性對(duì)終端應(yīng)用有何影響

lPCU_elecfans ? 來源:電子發(fā)燒友網(wǎng) ? 作者:電子發(fā)燒友網(wǎng) ? 2022-04-26 08:25 ? 次閱讀

電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))當(dāng)我們談及AI芯片,腦海中不免都會(huì)想起TOPS、L4/L5自動(dòng)駕駛、圖像識(shí)別和處理算法等詞。但在初創(chuàng)企業(yè)、芯片大廠紛紛追逐“AI熱“的情況下,芯片的可靠性成了一個(gè)大問題,甚至對(duì)終端應(yīng)用也有較大的影響。

自動(dòng)駕駛故障,不止OEM要擔(dān)責(zé)

經(jīng)常關(guān)注汽車新聞的讀者想必都很清楚,近年來因?yàn)樽詣?dòng)/輔助駕駛引發(fā)的事故越來越多,起因多種多樣,但很少會(huì)將其追溯到芯片上。有的車企為了追求快速上市,其AI芯片很可能只有AEC-Q100認(rèn)證,而沒有ISO 26262這樣的功能安全認(rèn)證,在他們看來這些標(biāo)準(zhǔn)太過“傳統(tǒng)”了,對(duì)于產(chǎn)品的創(chuàng)新流程來說有些多余了。

這在消費(fèi)者眼里也是如此,我們對(duì)功能的感知是最為直觀的,而對(duì)故障的感知只要在接受范圍來就好。這就使得此類車廠可以以一種“手機(jī)APP”開發(fā)式的模式運(yùn)作,實(shí)現(xiàn)快速迭代。然而,這并不代表功能安全可以被忽視,畢竟當(dāng)壞事落在自己頭上時(shí),總得要個(gè)說法吧。

在實(shí)現(xiàn)功能安全的過程中,從提出要求、架構(gòu)、設(shè)計(jì)、編程到測(cè)試階段,都有對(duì)應(yīng)的確認(rèn)與驗(yàn)證工作,然而通過驗(yàn)證是一回事,能否實(shí)現(xiàn)追溯就是另一回事了。比如設(shè)計(jì)上的改動(dòng)可能會(huì)違背芯片要求等等,最終導(dǎo)致實(shí)際性能不符等問題,所以在功能安全開發(fā)設(shè)計(jì)和認(rèn)證的過程中,必須要做到可追溯。

IP廠商Arteris提出了一個(gè)追溯方案名為Harmony Trace,幫助芯片廠商更好地實(shí)現(xiàn)功能安全。Harmony Trace在這些分散的流程系統(tǒng)之間創(chuàng)造了一層整合系統(tǒng),用于追蹤半導(dǎo)體產(chǎn)品壽命周期中的所有失誤。一旦違反芯片要求的錯(cuò)誤出現(xiàn),這套系統(tǒng)就會(huì)通知工程師這項(xiàng)改動(dòng)需要進(jìn)行檢查,從而自動(dòng)化車規(guī)認(rèn)證的審查流程。當(dāng)然了,芯片開發(fā)廠商所用的開發(fā)工具流都是不盡相同的,所以Harmony Trace也提供了對(duì)現(xiàn)有主流EDA工具、認(rèn)證流程的支持。

在自動(dòng)駕駛安全標(biāo)準(zhǔn)繼續(xù)演進(jìn),ISO 21448和UL4600等標(biāo)準(zhǔn)提出的額外要求下,在AI芯片設(shè)計(jì)中保證可追溯性或許是縮短產(chǎn)品開發(fā)認(rèn)證周期的一條捷徑。

可靠性第一

事實(shí)證明,不止自動(dòng)駕駛領(lǐng)域,云端同樣需要可靠的AI計(jì)算芯片。我們從現(xiàn)在的云端計(jì)算集群來看,多個(gè)節(jié)點(diǎn)為云服務(wù)提供了強(qiáng)大的計(jì)算能力,但正是因?yàn)檫@般復(fù)雜的架構(gòu),每一個(gè)節(jié)點(diǎn)都有可能成為整個(gè)系統(tǒng)的阿喀琉斯之踵。

這樣的案例我們也見多了,甚至開始影響到我們的生活,熱搜上時(shí)不時(shí)就會(huì)冒出“某某應(yīng)用崩了”的消息,互聯(lián)網(wǎng)公司經(jīng)受的服務(wù)器故障可謂數(shù)不勝數(shù),而且苦于定位故障來源,這其中,芯片也脫離不了干系。

造成這些后果的芯片可靠性問題主要有三種,早期失效(ELF)和正常設(shè)備運(yùn)行下的隨機(jī)失效,還有不可避免的設(shè)備老化。芯片都是有著工作壽命的,所以最后一項(xiàng)難以從設(shè)計(jì)上解決,最多盡可能延長(zhǎng)其壽命,而前面兩者才是當(dāng)下云端需要提防的問題。

常見的早期失效有閘極氧化層失效、老化效果不好和軟擊穿等,隨機(jī)失效很多與運(yùn)行環(huán)境有關(guān),比如溫度過高、輻射過高等等。

為了進(jìn)一步讓AI芯片免受這些可靠性問題的影響,初創(chuàng)公司Ceremophic公布了自己研發(fā)的QS1芯片。這是一款基于5nm工藝的分層學(xué)習(xí)芯片,集成了2GHz自定義機(jī)器學(xué)習(xí)處理器、2GHz的自定義FPU處理機(jī)器學(xué)習(xí)計(jì)算,還有一個(gè)基于ThreadArch的RISC-V處理器和ARM Cortex-M55應(yīng)用處理器,Ceremophic稱后者主要用于元宇宙相關(guān)應(yīng)用的視頻處理。在接口方面,該芯片支持到x16 PCIe 6.0/CXL 3.0。

那么這款芯片在可靠性上的亮點(diǎn)又有哪些呢?Ceremophic稱對(duì)于早期失效而言,他們選用了高效的ASIC實(shí)現(xiàn)方式來使用抗ELF的邏輯庫(kù),在正確的邏輯單元組合下以最小的設(shè)計(jì)開銷做到低ELF。

而在面對(duì)隨機(jī)失效上,Ceremophic用到了自己的多線程技術(shù),利用兩個(gè)多線程處理器運(yùn)行同一程序,一旦檢測(cè)到錯(cuò)誤,就會(huì)利用多個(gè)結(jié)果來做出表決,并進(jìn)行修正,接著程序執(zhí)行會(huì)直接從檢測(cè)到錯(cuò)誤發(fā)生的地方開始運(yùn)行,而不是一個(gè)未知的安全起始點(diǎn),消耗更多的功耗。

在傳統(tǒng)的高可靠性設(shè)計(jì)中,往往都得采用高成本的解決方案,比如冗余,就像是需要在兩個(gè)地方做同一件事,帶來計(jì)算資源和功耗的雙重增加。不僅如此,解決方式也需要消耗更多的運(yùn)行周期,這也是為何云端服務(wù)器出現(xiàn)故障后,不能快速恢復(fù)的原因。

原文標(biāo)題:AI芯片不只拼算力,還得看可不可靠

文章出處:【微信公眾號(hào):電子發(fā)燒友網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 可靠性
    +關(guān)注

    關(guān)注

    4

    文章

    261

    瀏覽量

    26680
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    781

    文章

    13449

    瀏覽量

    165257
  • AI芯片
    +關(guān)注

    關(guān)注

    17

    文章

    1828

    瀏覽量

    34664

原文標(biāo)題:AI芯片不只拼算力,還得看可不可靠

文章出處:【微信號(hào):elecfans,微信公眾號(hào):電子發(fā)燒友網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于可靠性設(shè)計(jì)感知的EDA解決方案

    產(chǎn)品可靠性,包括制造和運(yùn)營(yíng)方面,正在成為芯片-封裝-系統(tǒng)迭代設(shè)計(jì)周期中設(shè)計(jì)的關(guān)鍵方面,尤其是那些有望承受更長(zhǎng)使用壽命和可能的惡劣操作環(huán)境的產(chǎn)品,例如汽車電子系統(tǒng)、高性能計(jì)算 (HPC)、電信
    的頭像 發(fā)表于 07-15 09:56 ?201次閱讀
    基于<b class='flag-5'>可靠性</b>設(shè)計(jì)感知的EDA解決方案

    請(qǐng)問FATFS文件系統(tǒng)可靠性如何?

    ST官方固件庫(kù)中使用了FATFS文件系統(tǒng),想問下,這個(gè)文件系統(tǒng)可靠么? 我想了解一下,哪位朋友真正產(chǎn)品上使用FATFS文件系統(tǒng),可靠性什么問題沒有。
    發(fā)表于 05-16 06:35

    中芯國(guó)際獲CNAS認(rèn)可,車載芯片可靠性專項(xiàng)檢測(cè)中心獲認(rèn)證

    中芯國(guó)際車載芯片可靠性專項(xiàng)檢測(cè)中心涵蓋了公司自身工藝和IP、第三方IP或客戶產(chǎn)品的全面測(cè)試能力。根據(jù)AEC-Q100標(biāo)準(zhǔn),配備了需滿足產(chǎn)品可靠度的多項(xiàng)測(cè)試設(shè)施,能滿足車載芯片的全方位
    的頭像 發(fā)表于 03-20 14:32 ?621次閱讀

    如何確保IGBT的產(chǎn)品可靠性

    在當(dāng)今的半導(dǎo)體市場(chǎng),公司成功的兩個(gè)重要因素是產(chǎn)品質(zhì)量和可靠性。而這兩者是相互關(guān)聯(lián)的,可靠性體現(xiàn)為在產(chǎn)品預(yù)期壽命內(nèi)的長(zhǎng)期質(zhì)量表現(xiàn)。任何制造商要想維續(xù)經(jīng)營(yíng),必須確保產(chǎn)品達(dá)到或超過基本的質(zhì)量標(biāo)準(zhǔn)和可靠性
    的頭像 發(fā)表于 01-25 10:21 ?1403次閱讀
    如何確保IGBT的產(chǎn)品<b class='flag-5'>可靠性</b>

    什么是MPLS?特點(diǎn)?與SD-WAN區(qū)別?

    什么是MPLS?特點(diǎn)?與SD-WAN區(qū)別? MPLS是多協(xié)議標(biāo)簽交換的縮寫,是一種網(wǎng)絡(luò)傳輸協(xié)議。它被設(shè)計(jì)用于提高數(shù)據(jù)包轉(zhuǎn)發(fā)的速度和效率,同時(shí)提供彈性和
    的頭像 發(fā)表于 12-27 14:09 ?589次閱讀

    半導(dǎo)體可靠性測(cè)試項(xiàng)目哪些

    半導(dǎo)體可靠性測(cè)試主要是為了評(píng)估半導(dǎo)體器件在實(shí)際使用過程中的可靠性和穩(wěn)定性。這些測(cè)試項(xiàng)目包括多種測(cè)試方法和技術(shù),以確保產(chǎn)品的性能、質(zhì)量和可靠性滿足設(shè)計(jì)規(guī)格和用戶需求。下面是關(guān)于半導(dǎo)體可靠性
    的頭像 發(fā)表于 12-20 17:09 ?1829次閱讀

    SD NAND?可靠性驗(yàn)證測(cè)試

    SDNAND可靠性驗(yàn)證測(cè)試的重要SDNAND可靠性驗(yàn)證測(cè)試至關(guān)重要。通過檢驗(yàn)數(shù)據(jù)完整、設(shè)備壽命、性能穩(wěn)定性,確保產(chǎn)品符合標(biāo)準(zhǔn),可提高產(chǎn)品的可信度、提高品牌聲譽(yù),減少維修成本,確保
    的頭像 發(fā)表于 12-14 14:29 ?517次閱讀
    SD NAND?<b class='flag-5'>可靠性</b>驗(yàn)證測(cè)試

    環(huán)境試驗(yàn)與可靠性試驗(yàn)的區(qū)別

    環(huán)境試驗(yàn)與可靠性試驗(yàn)的區(qū)別
    的頭像 發(fā)表于 12-08 09:31 ?772次閱讀
    環(huán)境試驗(yàn)與<b class='flag-5'>可靠性</b>試驗(yàn)的區(qū)別

    淺談車規(guī)級(jí)芯片可靠性測(cè)試方法

    加速環(huán)境應(yīng)力可靠性測(cè)試:需要對(duì)芯片進(jìn)行加速環(huán)境應(yīng)力測(cè)試,模擬高溫、低溫、濕熱和溫度循環(huán)等極端環(huán)境條件。這些測(cè)試旨在評(píng)估芯片在極端溫度條件下的可靠性和穩(wěn)定性。
    的頭像 發(fā)表于 12-05 14:05 ?1602次閱讀

    器件可靠性與溫度的關(guān)系

    器件可靠性與溫度的關(guān)系
    的頭像 發(fā)表于 12-04 16:34 ?592次閱讀
    器件<b class='flag-5'>可靠性</b>與溫度的關(guān)系

    提高PCB設(shè)備可靠性的技術(shù)措施

    可靠、工藝成熟、先進(jìn)。 電路、結(jié)構(gòu)設(shè)計(jì)中,應(yīng)盡量減少接插件、金屬化孔的數(shù)量,電路器件和芯片盡量采用直接在印制板上焊接的方法,選用表面貼裝器件,采用表面貼裝技術(shù),以避免接觸不良,確保設(shè)備的可靠性
    發(fā)表于 11-22 06:29

    可靠性試驗(yàn)(HALT)及可靠性評(píng)估技術(shù)

    國(guó)家電網(wǎng):在就地化保護(hù)入網(wǎng)檢測(cè)中,首次引入可靠性試驗(yàn),驗(yàn)證產(chǎn)品可靠性設(shè)計(jì)水平和壽命指標(biāo)。在關(guān)于新型一、二次設(shè)備(例如:電子式互感器)的科研項(xiàng)目中,增加了可靠性驗(yàn)證和壽命評(píng)估等相關(guān)研究課題。
    的頭像 發(fā)表于 11-13 16:32 ?1137次閱讀
    <b class='flag-5'>可靠性</b>試驗(yàn)(HALT)及<b class='flag-5'>可靠性</b>評(píng)估技術(shù)

    芯片的老化試驗(yàn)及可靠性如何測(cè)試?

    芯片的老化試驗(yàn)及可靠性如何測(cè)試? 芯片的老化試驗(yàn)及可靠性測(cè)試是評(píng)估芯片性能和使用壽命的關(guān)鍵步驟。老化試驗(yàn)旨在模擬
    的頭像 發(fā)表于 11-09 09:12 ?2660次閱讀

    請(qǐng)問機(jī)械溫控開關(guān)的可靠性多少?

    機(jī)械溫控開關(guān)的可靠性多少?我看溫控開關(guān)的體積很小,價(jià)格便宜,可以用于一些溫度控制方面,不過可靠性多少呢?
    發(fā)表于 10-31 06:37

    MIMO是如何實(shí)現(xiàn)可靠性的提升

    MIMO采用多進(jìn)多出的天線,來實(shí)現(xiàn)可靠性和有效的提升。公網(wǎng)采用MIMO用來提升通信容量——有效,專網(wǎng)通信用MIMO來提升系統(tǒng)的可靠性。
    發(fā)表于 10-15 11:48 ?804次閱讀
    MIMO是如何實(shí)現(xiàn)<b class='flag-5'>可靠性</b>的提升