思科系統(tǒng)公司可能仍然是數(shù)據(jù)中心中開關(guān)和路由器的最大供應(yīng)商,但是從長期以來,它一直在被Broadcom所超越,因?yàn)?a href="http://ttokpm.com/tags/博通/" target="_blank">博通的芯片除了提供本身的開關(guān)功能外,還提供了一點(diǎn)點(diǎn)路由的功能。
盡管在商用以太網(wǎng)開關(guān)芯片市場上有很多競爭,當(dāng)中包括Nvidia(Mellanox),Innovium,Intel(Barefoot Networks),Marvell,以及少數(shù)其他新貴都在這個(gè)市場中,并且它們?cè)陂_關(guān)中的份額越來越大,尤其是那些決定網(wǎng)絡(luò)步伐的超級(jí)擴(kuò)展程序和云構(gòu)建者。
但是,上述芯片廠商需要擊敗的是開關(guān)芯片設(shè)計(jì)商博通,而不是思科。因?yàn)闊o論思科為其Silicon One路由器和現(xiàn)在針對(duì)高端產(chǎn)品的開關(guān)芯片制造怎樣的聲勢(shì),并高調(diào)宣布公司進(jìn)入商戶市場。但其實(shí)自2000年代末以來,思科本來可以選擇制造商用芯片來抵御來自Broadcom的攻擊,但直到去年,思科才這樣做。
隨著2020逐漸走向尾聲,Broadcom推出了主要針對(duì)超大規(guī)模產(chǎn)品和大型公共云制造商的“Tomahawk”系列以及旨在實(shí)現(xiàn)企業(yè)轉(zhuǎn)換的“Trident”系列芯片,針對(duì)思科在十月份公布的六款新的Silicon One芯片。
Broadcom所做的第一件事是擴(kuò)大了其Tomahawk 4產(chǎn)品線系列,該系列的最早的產(chǎn)品是于去年12月發(fā)布的,擁有25.6Tb/sec的速度,可以驅(qū)動(dòng)運(yùn)行速度為400 Gb/sec的64個(gè)端口,現(xiàn)已批量生產(chǎn)。
Broadcom的“Tomahawk”和“Trident”系列產(chǎn)品經(jīng)理Vecchio告訴The Next Platform。這是博通第二款7納米的開關(guān)ASIC(在臺(tái)積電公司生產(chǎn)),第一款是2019年6月推出的Trident 4芯片。Del Vecchio表示,這兩種芯片都是單片芯片,Broadcom除非絕對(duì)需要,否則不會(huì)切換到小芯片設(shè)計(jì),因?yàn)閷⒍鄠€(gè)芯片塊捆綁在一起會(huì)對(duì)性能產(chǎn)生影響。(其他公司,例如Barefoot Networks,已在不同的模塊中實(shí)現(xiàn)了SerDes電路和開關(guān)引擎,并使用芯片之間的高速鏈接將它們組裝成一個(gè)封裝。這增加了復(fù)雜性和封裝成本,但也提高了小芯片的良率,因此降低了成本封裝中的問題。)
正如我們之前所指出的,Broadcom試圖滿足各種各樣客戶的開關(guān)和路由選擇需求,并且該公司認(rèn)為,它無法將所有功能都塞入一個(gè)ASIC并由其完成。他們需要重復(fù)去理解這些不同的市場是什么,它們的需求是什么,以及Broadcom芯片能解決哪些問題。以下是他們按客戶設(shè)置的細(xì)分:
Del Vecchio認(rèn)為,企業(yè)通常不會(huì)像服務(wù)提供商和hyperscalers/云構(gòu)建商那樣推動(dòng)帶寬限制。但是他們?cè)诰W(wǎng)絡(luò)上擁有更多的設(shè)備和多種類型的設(shè)備。此外。由于用戶以服務(wù)器所沒有的方式來回移動(dòng),因此需要對(duì)訪問和安全性進(jìn)行更多基于策略的控制。
相比之下,服務(wù)提供商往往擁有大量的遠(yuǎn)程骨干網(wǎng),因此他們需要在其開關(guān)和路由器中進(jìn)行深度緩沖(deep buffering),以幫助掩蓋這些骨干網(wǎng)中的延遲。服務(wù)提供商也往往在其網(wǎng)絡(luò)中有更多的超額訂購,以減少開關(guān)的數(shù)量,這在一定程度上控制了網(wǎng)絡(luò)預(yù)算。這就是Del Vecchio所謂的“超級(jí)共享”(hyper shared)網(wǎng)絡(luò),其中的服務(wù)質(zhì)量(包括大型訪問控制列表,開關(guān)或路由表之類的硬件以及交付該服務(wù)的軟件)是關(guān)鍵。
借助hyperscalers和云構(gòu)建器,大多數(shù)流量都在數(shù)據(jù)中心內(nèi)的設(shè)備之間(所謂的東西方流量),并且它們帶寬要求非常高。這樣的話他們能在數(shù)據(jù)中心的100000個(gè)服務(wù)器的許多微服務(wù)鏈接在一起,已組成其所需的應(yīng)用。他們需要低延遲,但是在各種各樣的網(wǎng)絡(luò)條件下可預(yù)測的延遲才是最重要的,這也是為什么hyperscalers和云構(gòu)建者往往擁有非常超額配置網(wǎng)絡(luò)的原因。
以下是博通針對(duì)不同客戶群的ASIC映射:
這些不是硬性界限。例如,Broadcom收購Dune Networks獲得的“ Jericho” ASIC具有很深的緩沖區(qū),但每個(gè)ASIC的總帶寬卻總不如Trident或Tomahawk器件。然而 hyperscalers喜歡在其網(wǎng)絡(luò)的核心和骨干網(wǎng)中使用Jericho開關(guān),也許鏈接區(qū)域或在數(shù)據(jù)中心的區(qū)域內(nèi)科充分利用深層緩沖區(qū),但在可編程性更為重要的邊緣需要使用Trident ASIC,數(shù)據(jù)中心內(nèi)的主要結(jié)構(gòu)則是Tomahawk芯片最合適的地方。
重要的是,所有這些ASIC除了支持Broadcom的SDK和API堆棧以外,還支持由Microsoft創(chuàng)建并由開放源代碼社區(qū)采用的Switch Abstraction Interface(SAI),這樣的話就可以在不同制造商的Switch ASIC上提供API虛擬化層,為此其網(wǎng)絡(luò)操作系統(tǒng)可以不需要理會(huì)是誰的ASIC,也都可以運(yùn)行。(對(duì)于Microsoft Azure云中的許多用例來說,其SONiC網(wǎng)絡(luò)操作系統(tǒng)也是開源的,它在SAI上運(yùn)行;在其他情況下,Microsoft使用不同的是NOS。)
據(jù)我們所知,有十多種網(wǎng)絡(luò)操作系統(tǒng)可用于開關(guān)制造商或開源社區(qū),其中還有由 hyperscaler 或云構(gòu)建者在內(nèi)部開發(fā)并保持專有的系統(tǒng)。在過去的幾年中,這些NOS有了很大的發(fā)展,但是從長遠(yuǎn)來看,市場是否會(huì)接受如此多的選擇還有待觀察。反正在服務(wù)器市場是肯定不可能。在剛開始的時(shí)候,世界范圍內(nèi)的公司數(shù)據(jù)中心中可能有兩打服務(wù)器架構(gòu)和三到四打操作系統(tǒng),但現(xiàn)在,我們基本上可以在大多數(shù)情況下使用Linux或Windows Server。
我們認(rèn)為hyperscalers和云構(gòu)建者不會(huì)停止構(gòu)建自己的NOS,這比他們停止構(gòu)建自己的Linux發(fā)行版可能性更高,因?yàn)檫@兩者對(duì)于其龐大平臺(tái)的性能和安全性至關(guān)重要。但是我們確實(shí)認(rèn)為便攜式操作系統(tǒng)很重要,而Arrcus的ArcOS很有可能它將以跨平臺(tái)NOS的形式出現(xiàn)后。
我們還認(rèn)為Nvidia將竭盡全力擴(kuò)展Cumulus Networks通過其同名平臺(tái)所做的工作,并將其與Mellanox的多個(gè)平臺(tái)融合在一起。Arista將其EOS和來自Big Switch Networks的SDN堆棧相結(jié)合的方式還有待觀察。在許多具有IOS和NX-OS的數(shù)據(jù)中心中,Cicso是默認(rèn)的選擇。因?yàn)樗麄兊能浖畋銛y,能提供最高性能,并可以涵蓋最多場景。這就像Broadcom通過為特定用例提供精確的ASIC贏得了商用芯片市場一樣。
通過介紹上述背景,我們可以了解Broadcom現(xiàn)在發(fā)布的新品的邏輯。
正如我們上文所述,將近一年前宣布的“Tomahawk 4 ” ASIC于2020年初開始提供樣品,如今在宣布后不到一年的時(shí)間就開始批量供貨。對(duì)于開關(guān)ASIC來說,這非常快。Tomahawk 4 ASIC擁有更多的內(nèi)存,但擁有和Trident 3上的相同“ Blackhawk” SerDes,該SerDes在25.8 GHz上運(yùn)行,但是因?yàn)檫x擇了PAM-4調(diào)制(每個(gè)信號(hào)可以做兩位)的方式,其每個(gè)SerDes通道可以提供50 Gb /秒的有效的帶寬。最大的Tomahawk 4-50G芯片在其邊緣蝕刻了512枚Blackhawk SerDes,總開關(guān)帶寬為25.6 Tb / sec。此設(shè)備上支持的最密集的開關(guān)配置為以400 Gb /秒運(yùn)行的64個(gè)端口。
但是現(xiàn)在,Tomahawk 4系列正在擴(kuò)展有兩個(gè)新成員:
第一個(gè)是Tomahawk 4-100G,它擁有與Blackhawk 相同SerDes,但將時(shí)鐘頻率提高到51.6 GHz,并向其添加了相同的PAM-4調(diào)制,以使每條通道可以達(dá)到100 Gb/秒的速度。然而,由于考慮到散熱問題,這個(gè)芯片上只集成了256個(gè)SerDes。但是,由于熱量隨時(shí)鐘速度呈指數(shù)級(jí)增長,即使其SerDes為Tomahawk 4-50G的一半,Tomahawk 4-100G的運(yùn)行功率也略高于350瓦,約為400瓦。
Tomahawk 4系列中的第二個(gè)新芯片是“戰(zhàn)斧4-12.8T”,它用戶有128個(gè)SerDes,同樣也是采用PAM-4調(diào)制。
如您所料,這兩種新的Tomahawk4開關(guān)ASIC均使用臺(tái)積電7納米工藝制造。博通沒有給出這些芯片的具體晶體管數(shù)量和die尺寸。但他們表示。這些新的Tomahawk 4 ASIC將于明年批量供貨,這意味著又一個(gè)快速的增長。
因?yàn)檫@兩個(gè)新的Tomahawk 4芯片每通道的速度為100 Gb /秒,那么他們建立以給定速度運(yùn)行的端口,就僅僅需要一半的通道數(shù),這是很有價(jià)值的。因?yàn)檫@就意味著一切都取決于 hyperscaler 和云構(gòu)建者客戶想要部署的光學(xué)器件,而100 Gb / sec PAM-4光學(xué)器件具有更高的功率效率,因此功率效率的凈收益轉(zhuǎn)移到了速度更快的開關(guān)ASIC上。每個(gè)端口溫度更高,開關(guān)基數(shù)更低,因?yàn)楣夤β氏牡偷枚唷?/p>
由于思科是商用芯片市場的新生力量,也許是Broadcom在數(shù)據(jù)中心開關(guān)和路由中面臨的最大威脅,因此該公司似乎在其Tomahawk 4芯片的演示文稿中選擇了Silicon One作為對(duì)比對(duì)象。
我們認(rèn)為這種比較針對(duì)的是Silicon One,但從概念上講,這個(gè)對(duì)比適用于其他12.8 Tb / sec芯片,包括博通在2018年1月推出的Tomahawk 3芯片。即使新一代ASIC芯片的成本更高,但您也需要六倍的芯片才能使用Tomahawk 3創(chuàng)建25.6聚合帶寬。另一種說法是,Tomahawk 4它的價(jià)格是Tomahawk 3的六倍,并且仍然具有空間,散熱,彈性和巨大的延遲優(yōu)勢(shì),可以提供與端口相同的原始帶寬。
Broadcom還選擇了競爭性商戶芯片中的切片架構(gòu),這使我們?cè)俅蜗嘈潘趪ニ伎频腟ilicon Silicon One:
雖然Broadcom并不反對(duì)在其開關(guān)ASIC中增加可編程性,但該圖表似乎著眼于Tomahawk 4的流水線分組處理與網(wǎng)絡(luò)處理單元(NPU)之間的性能差異,后者是使用P4編程的Silicon One軟件包的一部分:
這些比較告訴您Broadcom在考慮什么,以及它在擔(dān)心誰。
如果我們用SmartNIC來減輕服務(wù)器的網(wǎng)絡(luò)處理負(fù)擔(dān),那么也許我們也需要SmartTOR,這會(huì)將其中一些功能從SmartNIC或服務(wù)器中分離出來并整合到它們所屬的位置:在開關(guān)上。Broadcom明確認(rèn)為這可能是網(wǎng)絡(luò)的未來,并且正在使用稱為Trident SmartTOR的Trident 4開關(guān)ASIC的變體來測試這一想法,后者的縮寫顯然是機(jī)架頂開關(guān)。
這個(gè)網(wǎng)絡(luò)負(fù)載的想法并不新鮮。多年以來,Mellanox(現(xiàn)在是Nvidia的一部分)一直將網(wǎng)絡(luò)工作從服務(wù)器轉(zhuǎn)移到ConnectX網(wǎng)絡(luò)接口卡上,在過去的幾代InfiniBand和以太網(wǎng)開關(guān)ASIC中,它一直在將某些功能整合到開關(guān)本身上,加速集體操作等自然屬于開關(guān)的工作。
Trident 4芯片的SmartTOR變體的總開關(guān)帶寬僅為8 Tb / sec,并且由于采用PAM-4調(diào)制,它具有160個(gè)SerDes,以25.6 GHz運(yùn)行,每通道傳輸50 Gb / sec。(與其他Trident 4芯片和原始的Tomahawk 4芯片相同的速度和調(diào)制。)
正如您所料,該Trident SmartTOR芯片還采用了臺(tái)積電7納米工藝。(Broadcom的下一代設(shè)備已經(jīng)達(dá)到5納米了,它在過去的一周中在概念上進(jìn)行了討論,而沒有談?wù)撍?jì)劃為數(shù)據(jù)中心,云和5G用例在5納米上創(chuàng)建的確切ASIC。) SmartTOR設(shè)備具有用于網(wǎng)絡(luò)上第2層到第7層服務(wù)的可編程管道,并提供了Del Vecchio所說的“大規(guī)?!保?00萬個(gè)流量,300萬個(gè)ACL條目,100萬個(gè)隧道,和一百萬個(gè)柜臺(tái)。該芯片還具有以線速運(yùn)行的數(shù)據(jù)的MACSec和IPSec加密。
比例尺如何映射到上一代Trident 3-X5芯片:
Trident SmartTOR的用例很有趣。Del Vecchio表示,企業(yè)客戶有興趣在裸機(jī)而不是虛擬化的云基礎(chǔ)架構(gòu)上部署其應(yīng)用程序,在這種情況下,很多由服務(wù)器虛擬化管理程序或SmartNIC(很少會(huì))完成的虛擬網(wǎng)絡(luò)需要:以某種方式集中完成。將其放入開關(guān)很有意義。
如果您希望在X86 Iron甚至FPGA上運(yùn)行這些網(wǎng)絡(luò)服務(wù),則尤其如此,這通常發(fā)生在分散在數(shù)據(jù)中心周圍的網(wǎng)絡(luò)設(shè)備中:
問題是這個(gè),我們還不能回答:將所有這些功能整合回開關(guān)成本上,而不是在X86服務(wù)器或FPGA設(shè)備上運(yùn)行它們。直到開關(guān)制造商使用Trident SmartTOR創(chuàng)建設(shè)備,我們才知道。
責(zé)任編輯:tzh
-
芯片
+關(guān)注
關(guān)注
452文章
50224瀏覽量
421012 -
以太網(wǎng)
+關(guān)注
關(guān)注
40文章
5343瀏覽量
170814 -
路由器
+關(guān)注
關(guān)注
22文章
3696瀏覽量
113433
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論