0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

降低時鐘樹功耗

電子工程師 ? 來源:網(wǎng)絡(luò)整理 ? 作者:佚名 ? 2018-06-05 15:30 ? 次閱讀

雖然對系統(tǒng)級芯片開發(fā)人員來說電源管理的重要性越來越高,但有個關(guān)鍵區(qū)域經(jīng)常被忽視,那就是互連。雖然大多數(shù)電源管理工作集中于SoC的運算部分,但采用更加模塊化互連的設(shè)計師可以減小裸片尺寸、減輕布線擁塞,這就可以將總的芯片功耗最多降低達0.7mw。如此顯著的功耗下降將成為下一代移動和功耗敏感性數(shù)據(jù)中心應(yīng)用系統(tǒng)中的游戲規(guī)則改變者。


模塊化概念有別于其它類型的互連,因為它由分布式架構(gòu)的開關(guān)、緩沖器、防 火 墻、管線結(jié)構(gòu)以及時鐘電源域交叉組成。通過在芯片上的所有獨立單元之間使用通用傳輸協(xié)議,模塊化方法可以幫助設(shè)計師實現(xiàn)單元級時鐘選通,從而消除沒有事務(wù)處理區(qū)域的時鐘樹開關(guān)功耗。

模塊化片上網(wǎng)絡(luò)級芯片(NoC)技術(shù)還能通過邏輯局部化、盡量縮短長的走線并保持低電容來降低功耗。想要進一步增強SoC設(shè)計的電源管理能力的設(shè)計師可以采取一定的措施減小芯片的面積和泄漏功耗,方法是使用NoC傳輸協(xié)議的簡易性實現(xiàn)數(shù)據(jù)路徑的串行化,進而最大程度地減少邏輯用量。

低功耗


目前常用的頂層互連結(jié)構(gòu)一般都要依賴于較長的走線,而這些走線會消耗與它們在芯片上占用的邏輯區(qū)域面積不成比例的功耗。時鐘樹通常是互連內(nèi)最大的功耗源,而時鐘選通提供了降低功耗的最大潛力。另外,漏電功耗是第二大功耗源,減小這種結(jié)構(gòu)所需的邏輯面積可以最大限度地減小漏電功耗。

采用模塊化NoC互連的設(shè)計師可以從本文中了解到時鐘樹管理的局部化、數(shù)據(jù)路徑的串行化和精確定位的管線結(jié)構(gòu)所帶來的功耗和面積方面的好處。

總線和交叉矩陣:互連歷史簡介


了解互連結(jié)構(gòu)的歷史就能知道模塊化NoC設(shè)計的由來了,它能解決可擴展性問題。

SoC是一種含CPU和外設(shè)的芯片,開發(fā)人員提出的接口協(xié)議標準可以將各單元鏈接在一起。借助新增總線主器件的推出,到外設(shè)的連接可以得到共享??刂茖偩€的訪問要求一個中央仲裁器,比如在板級協(xié)議中使用的仲裁器。

降低時鐘樹功耗


圖1:帶仲裁器的共享型總線展示了訪問控制為何要使用中央仲裁器。

隨著時間的推移,SoC設(shè)計增加了越來越多的IP內(nèi)核。由于這些設(shè)計變得越來越復(fù)雜,他們要求更多的總線接口。當對接口進行密集操作時,總線主器件可能會浪費很多時間等待對總線的訪問權(quán),即使在不同的主器件請求操作不同的從器件時,也是如此。

為了解決等待延時問題,交叉矩陣開關(guān)應(yīng)運而生,它們支持在片上互連內(nèi)不同的主和從器件之間開展并行訪問。下面這個邏輯框圖顯示了4個主器件同時對4個不同從器件進行事務(wù)操作。

降低時鐘樹功耗


圖2:SoC設(shè)計中的交叉矩陣開關(guān)邏輯視圖,展示了每個從器件端復(fù)用器的關(guān)系。

從物理上看,交叉矩陣開關(guān)是用每個從器件端的復(fù)用器(mux)實現(xiàn)的。每個復(fù)用器以分布式仲裁機制與仲裁器相耦合。


圖3:4個主器件、6個從器件的交叉矩陣實現(xiàn)表明,在SoC周圍采用完整數(shù)據(jù)路徑的尺寸路由是不切實際的。

這種方法最多只能擴展到幾個主和從器件接口。然而,除了特定數(shù)量外,在SoC周圍路由完整數(shù)據(jù)路徑的尺寸對布局布線來說也變得不切實際。

降低時鐘樹功耗


圖4:隨著功能清單的增長和IP模塊的增加,SoC底層規(guī)劃變得更加復(fù)雜。

對于具有很多個主/從接口的更加復(fù)雜的芯片來說,有必要在多個物理區(qū)域設(shè)計獨立的互連,具體取決于IP內(nèi)核分組的布局情況。不同區(qū)域之間的橋接提供了主器件和從器件之間必要的互連。

降低時鐘樹功耗


圖5:4個主器件與6個從器件的互連,用了一個橋承載邏輯延時開銷。

橋會為數(shù)據(jù)處理的增加延時周期,因為它們承載了邏輯延時部分。

交叉矩陣互連可以解決并行訪問帶來的系統(tǒng)架構(gòu)問題,但在有大量主和從IP模塊的情況下,又會造成芯片中的物理實現(xiàn)問題。

模塊化設(shè)計和NoC


為了減小延時,地址可以在主接口側(cè)解碼,并轉(zhuǎn)換為簡單的路由ID號。片上的仲裁器-復(fù)用器和路由器-解復(fù)用器網(wǎng)絡(luò)可以使用簡單的路由ID,并通過鏈路芯片周圍的簡單偽開關(guān)復(fù)用器擴展路由分布。這樣做還能實現(xiàn)更好的互連邏輯布局。對于芯片中越來越多的走線來說,布局越來越重要,因為它會使路由更加容易。

NoC互連可以同時解決這兩個問題,因此在手機應(yīng)用處理器、數(shù)字電視和機頂盒控制器等先進設(shè)計中得到了廣泛使用。

降低時鐘樹功耗


圖6:利用一個NoC實現(xiàn)的4個主器件與6個從器件的互連。

設(shè)計師一直被要求在SoC中集成更多的功能,因此對互連技術(shù)的需求與日俱增。為了跟上形勢,對以下功能的需求非常迫切:

●到不同事務(wù)處理協(xié)議的接口
●開關(guān)(解復(fù)用-路由器和仲裁器-復(fù)用器)
●QoS(優(yōu)先級)
●緩沖器
●數(shù)據(jù)路徑串行化
●統(tǒng)計性探測
●調(diào)試跟蹤
●防 火 墻
寄存器片(管線結(jié)構(gòu))
●時鐘域交叉
●電壓域
●電源域

這對互連設(shè)計提出了新的挑戰(zhàn)。設(shè)計師希望IP可以重復(fù)使用并且可以重復(fù)配置。而在交叉矩陣邏輯中支持不斷增加的功能要求將會提高復(fù)雜性,減慢關(guān)鍵路徑速度。另外,許多走線即使在少量數(shù)據(jù)操作時也會被觸發(fā),因此消耗了與之不成比例的功耗。然而,可復(fù)用的模塊化互連設(shè)計在簡便性、速度、面積和功效方面有很大的優(yōu)勢,可克服傳統(tǒng)總線和交叉矩陣技術(shù)的復(fù)雜性。

事務(wù)、傳輸和物理層


NoC技術(shù)采用了一種三層協(xié)議,其中事務(wù)層作為最高層。該技術(shù)使用AMBA、PIF、OCP或其它工業(yè)標準協(xié)議執(zhí)行所要求的讀寫操作,同時也是對于通過互連連接的IP模塊的設(shè)計師來說,也是可見的接口。

NoC中的傳輸層協(xié)議由網(wǎng)絡(luò)接口單元(NIU)進行管理。它為每個事務(wù)創(chuàng)建一個或多個數(shù)據(jù)包。所有數(shù)據(jù)包都一個包頭。讀數(shù)據(jù)包和寫數(shù)據(jù)包都在包頭后包含數(shù)據(jù)載荷。包頭將地址、事務(wù)參數(shù)和邊帶信號作為域進行解碼。NIU控制顯著的事務(wù)和帶標簽的序列。包頭格式是最小的,并針對每個NoC作了不同程度的優(yōu)化。包頭在互連內(nèi)的每個偽開關(guān)處將來自發(fā)起者的請求路由到目標,并將來自目標的響應(yīng)路由到發(fā)起者。請求和響應(yīng)路徑是獨立的,因此可以消除邏輯和架構(gòu)方面的依賴性,從而避免死鎖。


降低時鐘樹功耗


圖7:將地址/控制信號與事務(wù)接口和包傳輸接口間的數(shù)據(jù)復(fù)用起來可以簡化互連設(shè)計。

模塊化設(shè)計支持使用非常簡單的協(xié)議在物理層上傳輸傳送包。這種協(xié)議由以下信號組成:

●Data [N 位] (由發(fā)送者驅(qū)動)
●Valid [1 位] (由發(fā)送者驅(qū)動)
● Ready [1 位] (由接收者驅(qū)動)

“Valid”和“Ready”實現(xiàn)流程控制,支持后壓式反饋。這種簡單的握手協(xié)議存在于NoC的所有單元之間。簡單接口標準化后允許所有單元可交換地連接在一起,就像兒童的積木一樣。

時鐘樹選通


利用眾所周知的芯片設(shè)計方法,可以在不要求觸發(fā)的周期內(nèi)選通每個觸發(fā)器端的時鐘。這種方法適用于采用所有互連技術(shù)的觸發(fā)器,不過不能解決時鐘樹功耗問題。

時鐘樹是個單一信號,因此比數(shù)據(jù)路徑要窄得多。然而,為了到達所有物理上分布的觸發(fā)器,時鐘樹比每個數(shù)據(jù)路徑位有多得多的基本特征。根據(jù)定義,時鐘在每個時鐘周期內(nèi)會觸發(fā)兩次,因此時鐘樹的功耗一般要顯著大于數(shù)據(jù)路徑。

在交叉矩陣中,每個時鐘網(wǎng)絡(luò)即使在數(shù)據(jù)不流動時也會觸發(fā)。雖然理論上在交叉矩陣中的任何地方都沒有數(shù)據(jù)傳送時仍能在周期中實現(xiàn)到所有交叉矩陣邏輯的時鐘選通,但有些不切實際。它要求對多個遠端信號進行大的時鐘選通復(fù)用,以產(chǎn)生激活信號并回送至多個遠端觸發(fā)器。

因此,用組合邏輯的最簡模塊搭建互連可以實現(xiàn)單元級時鐘選通功能,并且其顆粒遠比單片交叉矩陣中的精細得多。

降低時鐘樹功耗


圖8:通過模塊化方法搭建互連就可以使用組合邏輯的單元級時鐘選通功能。

只有在有效的握手信號有效時單元內(nèi)和單元間的寄存器才會觸發(fā),用于指示數(shù)據(jù)業(yè)務(wù)的存在。選通邏輯對每個單元來說是局部的,因此路徑更短,并且最大限度地減少了產(chǎn)生激活信號所需的復(fù)用電路。時鐘選通是分布式的,模塊化互連的每個模塊在空閑時鐘周期時關(guān)閉,而不管系統(tǒng)余下部分的狀態(tài)。這樣可以實現(xiàn)接近理想的最小開關(guān)功耗。

模塊化的其它好處


除了時鐘選通外,其它好處包括改進了混合式閾值電壓(Vt)綜合的使用、減少了漏電功耗、改善了邏輯簡易性,并實現(xiàn)了局部化。

在小模塊之間的任何地方插入管線結(jié)構(gòu)以滿足最小延時時序要求提高了綜合工具收斂時序的能力。由于有更大的余量,綜合有效減少了從默認高Vt單元到更快的低Vt單元的路徑數(shù)量。這樣,模塊化設(shè)計單元之間的管線結(jié)構(gòu)就能減少漏電功耗。另外,更容易的時序收斂也能改善EDA工具的使用,有助于實現(xiàn)最小面積方面的最優(yōu)化(更小的裸片面積可減少漏電功耗)。

64位AXI事務(wù)接口協(xié)議要求至少272條走線。對于模塊化方法來說,一個64位數(shù)據(jù)包接口要求148條線(每個請求響應(yīng)網(wǎng)絡(luò)中有64位數(shù)據(jù)+8字節(jié)激活+ready+valid=74)。因此,將事務(wù)打包并在發(fā)起者和目標傳輸時可以將芯片底層規(guī)劃內(nèi)的走線數(shù)量減少1.8倍(272/148=1.8)。

因為這種方法針對單元之間的接口使用的是簡單物理層協(xié)議,所以很容易改變包數(shù)據(jù)的串行化處理。全部要求就是簡單的復(fù)用器和寄存器,以便減小數(shù)據(jù)路徑寬度。

改變數(shù)據(jù)路徑的串行化處理方式,使之不超過滿足芯片不同部分的帶寬要求所需的寬度,可以減少芯片所有部分的互連邏輯面積,而且這些芯片都要求小于最大帶寬。一般來說,大多數(shù)芯片中的絕大部分頂層互連不要求最大帶寬。

局部化


將接口之間的復(fù)用器等單元實現(xiàn)局部化處理后,單元之間的走線平均長度將變短。這意味著走線電容使得電流的消耗變得更小。這樣還能簡化后端版圖工藝,因為它能減少遠距離放置的邏輯之間對連接的依賴性。

機頂盒(STB)SoC上的結(jié)果


支持1080p120幀的中端機頂盒SoC就使用了模塊化NoC互連,它展示了模塊化方法的優(yōu)勢。這種模型使用了11個主器件和6個從NIU的互連,消耗的邏輯面積是183k個門。

我們分析了三種時鐘選通式開關(guān)活動場景。首先是最差的視頻處理場景,其中被設(shè)為120Hz顯示輸出的視頻解碼器和CPU是系統(tǒng)的主要負載,它們消耗了幾乎所有可用的DDR內(nèi)存帶寬。

第二種場景則呈現(xiàn)了普通案例視頻解碼器的復(fù)雜性。第三種場景沒有視頻解碼,只是用網(wǎng)絡(luò)瀏覽方式,可實現(xiàn)每秒30幀的中等顯示刷新率。

降低時鐘樹功耗



交叉矩陣在DDR活動期間的每個周期都必須要激活,因此在第一種情況下模塊化設(shè)計通過觸發(fā)DDR活動可以降低2.3倍的功耗,第二種情況是2.5倍,第三種情況是3.4倍。

在待機場景,模塊化NoC互連展示了比交叉矩陣更強的觸發(fā)節(jié)省效果。另外,更大的芯片有更多的主NIU邏輯要訪問同樣受限的共享資源。這些芯片需要用更大比例的時間選通更多數(shù)量的觸發(fā)器。因此對模塊化NoC設(shè)計來說觸發(fā)節(jié)省效果隨著芯片尺寸的增加而增強。

減少時鐘樹功耗


模塊化NoC可以極大地降低高集成度芯片中頂層互連結(jié)構(gòu)的功耗。通過局部化時鐘選通功能,時鐘樹只在數(shù)據(jù)傳送的路線上并且只在傳送周期內(nèi)有功耗。這樣可以顯著降低時鐘樹的功耗。另外,局部的串行化處理從最大程度地減少了支持每條鏈路的帶寬要求所需的數(shù)據(jù)路徑邏輯。這又進一步減小了漏電面積。另外,模塊化支持更加精細的管線顆粒,可以更好地收斂時序且不浪費余量。這又進一步允許綜合工具使用更小、更加高效的門。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • SoC設(shè)計
    +關(guān)注

    關(guān)注

    1

    文章

    147

    瀏覽量

    18718
  • NoC
    NoC
    +關(guān)注

    關(guān)注

    0

    文章

    38

    瀏覽量

    11700
收藏 人收藏

    評論

    相關(guān)推薦

    時鐘優(yōu)化與有用時鐘延遲

    時鐘優(yōu)化與有用時鐘延遲在 “后端時序修正基本思路” 提到了時序優(yōu)化的基本步驟。其中,最關(guān)鍵的階段就是時鐘建立。
    發(fā)表于 10-26 09:29 ?4305次閱讀
    <b class='flag-5'>時鐘</b><b class='flag-5'>樹</b>優(yōu)化與有用<b class='flag-5'>時鐘</b>延遲

    射頻識別芯片設(shè)計中時鐘功耗的優(yōu)化與實現(xiàn)

    在RFID芯片中的功耗主要有模擬射頻前端電路,存儲器,數(shù)字邏輯三部分,而在數(shù)字邏輯電路中時鐘樹上的功耗會占邏輯功耗不小的部分。本文著重從降低
    發(fā)表于 03-24 14:36 ?4153次閱讀

    一文讀懂時鐘

    構(gòu)成復(fù)雜的時鐘系統(tǒng),稱之時鐘。使外設(shè)功能的時鐘可自配置。因為STM32外設(shè)眾多,而不同的項目用到的外設(shè)參差不齊,所以可控的時鐘可以實現(xiàn)
    發(fā)表于 08-11 07:15

    前后端協(xié)同的時鐘設(shè)計方法

    提出一種新的高平衡、高可靠性的前端可控時鐘設(shè)計方法,解決時鐘需要在后端工具中多次反復(fù)以達到滿足性能和功耗要求的問題。闡述了從前端優(yōu)化和后
    發(fā)表于 04-21 09:06 ?26次下載

    時鐘網(wǎng)格與時鐘設(shè)計方法對比研究

    基于片上偏差對芯片性能的影響,分析對比了時鐘設(shè)計與時鐘網(wǎng)格設(shè)計,重點分析了時鐘網(wǎng)格抗OCV影響的優(yōu)點,并利用實際電路應(yīng)用兩種方法分別進行設(shè)計對比,通過結(jié)果分析,驗證
    發(fā)表于 05-07 14:13 ?36次下載
    <b class='flag-5'>時鐘</b>網(wǎng)格與<b class='flag-5'>時鐘</b><b class='flag-5'>樹</b>設(shè)計方法對比研究

    基于CCopt引擎的SMIC40nm低功耗工藝CortexA9的時鐘實現(xiàn)

    基于CCopt引擎的SMIC40nm低功耗工藝CortexA9的時鐘實現(xiàn),該文基于 SMIC 40nm 低功耗工藝的 ARM Cortex A9 物理設(shè)計的實際情況,詳細闡述了如何使
    發(fā)表于 09-28 09:08 ?7次下載
    基于CCopt引擎的SMIC40nm低<b class='flag-5'>功耗</b>工藝CortexA9的<b class='flag-5'>時鐘</b><b class='flag-5'>樹</b>實現(xiàn)

    射頻識別芯片設(shè)計的時鐘功耗實戰(zhàn)

    芯片設(shè)計是每個國家的發(fā)展重點之一,而壯大中國芯片設(shè)計行業(yè)將有利于降低我國對國外芯片的依賴程度。再往期文章中,小編曾對芯片設(shè)計的正反向流程、芯片設(shè)計前景等內(nèi)容進行過相關(guān)介紹。本文中,小編將為大家介紹帶來芯片設(shè)計實戰(zhàn)篇——射頻識別芯片設(shè)計中的時鐘
    的頭像 發(fā)表于 01-25 17:43 ?3235次閱讀
    射頻識別芯片設(shè)計的<b class='flag-5'>時鐘</b><b class='flag-5'>樹</b><b class='flag-5'>功耗</b>實戰(zhàn)

    什么是門控時鐘 門控時鐘降低功耗的原理

    clock) 是通過在時鐘路徑上增加邏輯門對時鐘進行控制,使電路的部分邏輯在不需要工作時停止時鐘的翻轉(zhuǎn),而并不影響原本的邏輯狀態(tài)。在ASIC和FPGA設(shè)計中都存在門控
    的頭像 發(fā)表于 09-23 16:44 ?1.3w次閱讀
    什么是門控<b class='flag-5'>時鐘</b> 門控<b class='flag-5'>時鐘</b><b class='flag-5'>降低功耗</b>的原理

    STM32F429--RCC時鐘

    RCC時鐘的簡單分析
    發(fā)表于 11-29 16:36 ?7次下載
    STM32F429--RCC<b class='flag-5'>時鐘</b><b class='flag-5'>樹</b>

    STM32F10X-時鐘詳細介紹

    RCC是reset clock control的簡稱(即復(fù)位和時鐘控制器),本文將詳細介紹時鐘的構(gòu)成,通過理解時鐘我們可以更加的理解ST
    發(fā)表于 12-01 14:36 ?9次下載
    STM32F10X-<b class='flag-5'>時鐘</b><b class='flag-5'>樹</b>詳細介紹

    STM32時鐘

    有些外設(shè)用不到那么高的頻率,這樣便會造成更高的功耗。在同一個電路,時鐘越高功耗越大,抗干擾能力也越低,因此STM32采用不同的時鐘來為不同的外設(shè)提供不同的
    發(fā)表于 12-06 09:51 ?16次下載
    STM32<b class='flag-5'>時鐘</b><b class='flag-5'>樹</b>

    評價時鐘質(zhì)量的方法

    時鐘綜合,通常我們也叫做CTS。時鐘綜合就是建立一個時鐘網(wǎng)絡(luò),使時鐘信號能夠傳遞到各個時序器
    的頭像 發(fā)表于 09-05 10:11 ?1778次閱讀

    時鐘設(shè)計師的 5 個問題

    時鐘設(shè)計師的 5 個問題
    的頭像 發(fā)表于 01-04 11:17 ?771次閱讀
    <b class='flag-5'>時鐘</b><b class='flag-5'>樹</b>設(shè)計師的 5 個問題

    時鐘綜合CTS階段如何去降低Latency和Skew

    對于時鐘綜合,各位后端工程師應(yīng)該都很熟悉,做好一個模塊/一個chip的時鐘,對整個項目 的功耗和Timing影響都是巨大的。
    的頭像 發(fā)表于 05-22 09:38 ?2872次閱讀
    <b class='flag-5'>時鐘</b><b class='flag-5'>樹</b>綜合CTS階段如何去<b class='flag-5'>降低</b>Latency和Skew

    時鐘是什么?介紹兩種時鐘樹結(jié)構(gòu)

    今天來聊一聊時鐘。首先我先講一下我所理解的時鐘是什么,然后介紹兩種時鐘樹結(jié)構(gòu)。
    的頭像 發(fā)表于 12-06 15:23 ?1338次閱讀