ChatGPT成為今年現(xiàn)象級的熱門應(yīng)用后,一個說法也在行業(yè)里悄然流傳開——1萬枚英偉達(dá)A100芯片,是做好大模型訓(xùn)練的入門級裝備。一時之間“洛陽紙貴”,AI芯片成為了大家眼中的“屠龍寶刀”。我們看到,大量抓住機遇的人,不僅投身大模型產(chǎn)品,還有一部分負(fù)責(zé)給“掘金人”賣鏟子。 ? “?
那么問題來了:
支持大語言模型的AIoT系統(tǒng),
設(shè)計難度在哪?
該怎么做設(shè)計驗證?
藏在“屠龍刀”里面的秘籍究竟是什么?
” ? 過去的AIoT,通常指的都是帶低算力的端側(cè)小芯片,但是隨著類似ChatGPT的大語言模型全面得到應(yīng)用,在端側(cè)AIoT芯片上部署需要幾十到幾百TOPS算力的LLM大模型也成為新的需求。但是新一代AIoT芯片要提高十倍到百倍算力,這不僅僅是堆砌算力那么簡單,需要從性能、互連、帶寬、接口進(jìn)行全面的系統(tǒng)級規(guī)劃和設(shè)計。 ? 新一代的AIoT芯片已經(jīng)不是一個獨立的芯片個體,目前市場上的AIoT芯片幾乎都結(jié)合了CPU、GPU、FPGA和DSP等核心零部件。這就必然需要支持系統(tǒng)級芯片開發(fā)的EDA流程。 ? 實際上,芯片設(shè)計廠商也意識到了這個問題。當(dāng)制程工藝逼近極限,但人們對電子產(chǎn)品性能的追求還在不斷攀升時,壓力很快就傳導(dǎo)到了上游的芯片廠商。借助面向系統(tǒng)級的創(chuàng)新,提升芯片的終極性能表現(xiàn),也成為大家的共識。 ?
所以沒有任何分歧,無論從哪個維度看,大規(guī)模的系統(tǒng)級芯片設(shè)計由于場景豐富、系統(tǒng)規(guī)模不斷擴張,這一需求正在快速形成市場主流的大浪,涌向EDA工具并推動其不斷革新。
如何做好大系統(tǒng)芯片設(shè)計?
? 2023年7月13日至14日,備受期待的第三屆中國集成電路設(shè)計創(chuàng)新大會(ICDIA 2023)在無錫召開。作為國內(nèi)領(lǐng)先的系統(tǒng)級驗證EDA解決方案提供商,芯華章受邀參加此次盛會,在“AIoT與ChatGPT”分論壇上針對大系統(tǒng)芯片設(shè)計挑戰(zhàn),分享了自己的解決方案。 ?
? 大系統(tǒng)芯片設(shè)計,首先要理解什么叫“系統(tǒng)”?對高性能AIoT、自動駕駛、高性能CPU和GPU等等復(fù)雜應(yīng)用來說,系統(tǒng)意味著多節(jié)點互聯(lián),每個節(jié)點都有自己的控制單元(如CPU)和計算單元(如AI、NPU),每個節(jié)點都有自己的操作系統(tǒng)和應(yīng)用軟件。毫無疑問,大系統(tǒng)是一個軟硬件一體化、多節(jié)點一體化的復(fù)雜平臺,但也只有把這整個平臺都在芯片流片前驗證通過,才能真正保證高性能復(fù)雜芯片設(shè)計的正確性。 ? ? 因此,大系統(tǒng)芯片驗證,最直接的挑戰(zhàn)來自于規(guī)模龐大的系統(tǒng)級仿真。但困難遠(yuǎn)不止于此,由“大”帶來的結(jié)構(gòu)性挑戰(zhàn),涵蓋了從驗證到調(diào)試的方方面面。而更大的設(shè)計本身往往意味著更長的時間、更高昂的成本、更慢的仿真性能,本質(zhì)上也就意味著更困難的驗證。 ? 在當(dāng)下的技術(shù)和市場環(huán)境下,大系統(tǒng)芯片設(shè)計的驗證面臨三大共性難題,這些難題正是傳統(tǒng)的EDA工具所難以解決的痛點: ?
設(shè)計大,很大,大到放不下
從多核、Chiplet封裝、多節(jié)點到完整系統(tǒng),復(fù)雜的驗證規(guī)??梢暂p易達(dá)到百億甚至千億門,對驗證工具的容量提出了更高的要求,試想如果驗證平臺根本無法仿真完整的應(yīng)用系統(tǒng),又怎么能證明設(shè)計是完整正確的?但供數(shù)十億至數(shù)百億規(guī)模容量的驗證平臺,其性能、規(guī)模、可調(diào)試性又往往成為難以平衡的選擇。
驗證慢,很慢,難以收斂的慢
系統(tǒng)級規(guī)模不斷增大,系統(tǒng)級仿真在整個驗證的仿真流程中比例不斷增大,導(dǎo)致驗證團隊特別依賴性能和數(shù)量有限的硬件仿真系統(tǒng),導(dǎo)致驗證慢的不僅僅是仿真速度,更是整個驗證工作的收斂速度和效率。
Debug難,很難,越往后越難
在如此復(fù)雜和大規(guī)模的系統(tǒng)級仿真上,調(diào)試就變成一個更加困難的問題。仿真平臺上觀察到的問題,到底來自軟件、芯片邏輯設(shè)計還是多節(jié)點互連?問題能否穩(wěn)定復(fù)現(xiàn)?如何在多種仿真平臺的數(shù)據(jù)之間進(jìn)行綜合分析?不解決這些問題,大系統(tǒng)的調(diào)試就會越往后期越難,最終影響整個項目周期。
我們似乎開始找到“屠龍刀里秘籍”的線索。作為最上游的輔助設(shè)計工具,EDA創(chuàng)新確實是提升系統(tǒng)級設(shè)計效率,降低創(chuàng)新成本的關(guān)鍵“鑰匙”。
芯華章資深產(chǎn)品與業(yè)務(wù)規(guī)劃總監(jiān)楊曄表示,“單個IP的驗證需求在降低,SoC或單個chiplet級的驗證需求在不斷上升,因為這部分是客戶系統(tǒng)級創(chuàng)新的核心。然而在新場景的應(yīng)用中,傳統(tǒng)的EDA工具在應(yīng)對大容量、深度調(diào)試、多種驗證場景混合使用的時候,遇到各種效率挑戰(zhàn)。芯華章致力提供從軟件、硬件到調(diào)試的整體解決方案,特別是在大規(guī)模設(shè)計的系統(tǒng)級驗證、硬件驗證、架構(gòu)驗證等方面,將為用戶提供全流程大系統(tǒng)芯片驗證解決方案。”
芯華章大系統(tǒng)芯片設(shè)計驗證解決方案的核心,是基于敏捷驗證理念,建立統(tǒng)一的EDA數(shù)據(jù)庫,打造從IP到子系統(tǒng)再到系統(tǒng)級的統(tǒng)一測試場景,提早開始系統(tǒng)級驗證,實現(xiàn)驗證與測試目標(biāo)的高速收斂,進(jìn)行高效率、高效益的快速迭代,從而助力芯片及系統(tǒng)公司提高驗證效率,降低研發(fā)成本。
芯華章針對大規(guī)模系統(tǒng)級芯片“量身打造”的敏捷驗證方案,已經(jīng)在多個領(lǐng)域獲得具體項目部署。
針對自動駕駛應(yīng)用芯片,芯華章高性能硬件仿真系統(tǒng)HuaEmu E1不僅有高性能仿真和深度調(diào)試,還提供了LPDDR5模型用于客戶內(nèi)存仿真,提供CSI和DSI模型用于仿真自動駕駛系統(tǒng)的輸入和輸出,這些都超出了單顆芯片的范疇,是針對軟硬件一體化的系統(tǒng)方案進(jìn)行仿真驗證。
為了解決原型系統(tǒng)和硬件仿真之間切換版本成本高,延長驗證周期的問題,芯華章發(fā)布的雙模硬件驗證系統(tǒng)HuaPro P2E則基于統(tǒng)一的軟件平臺和硬件平臺,可以在綜合、編譯、驗證方案構(gòu)建、用戶腳本、調(diào)試等階段,能最大程度的復(fù)用技術(shù)模塊和中間結(jié)果,并使用統(tǒng)一用戶界面,從而實現(xiàn)原型驗證和硬件仿真絲滑的無縫集成,在節(jié)約用戶成本的同時,還能大大提高驗證效率。
傳統(tǒng)的軟件仿真工具以調(diào)試功能強大著名,但卻受限于仿真速度,不擅長處理系統(tǒng)級的大規(guī)模仿真驗證。基于芯華章自主研發(fā)的邏輯仿真器GalaxSim,芯華章GalalxSim Turbo實現(xiàn)多核、多服務(wù)器并行運算,可以實現(xiàn)1K-10KHz的復(fù)雜系統(tǒng)軟件仿真,從而可以在RTL階段提前進(jìn)行系統(tǒng)級仿真。
拿到屠龍刀并不一定能號令天下,只有學(xué)會了刀里面的絕學(xué)才能真正成為“武林至尊”。
當(dāng)“大模型”的路上人越來越多時,產(chǎn)業(yè)同樣也需要向上游追溯,進(jìn)一步提升創(chuàng)新效率,在激烈的競爭中快人一步。作為芯片產(chǎn)品定義和創(chuàng)新的核心環(huán)節(jié),隨著以系統(tǒng)級場景為代表的產(chǎn)業(yè)數(shù)字化需求迸發(fā),EDA正從方法學(xué)、從底層架構(gòu)開始這場自我革新。
評論
查看更多