自動駕駛領(lǐng)域在近兩年被大家所熟悉,主要的市場誘導(dǎo)因素是Tesla在輔助智能駕駛和采用全視覺技術(shù)的影子模式為主的FAD(Full Auto Drive)的成功。我們認(rèn)為,自動駕駛領(lǐng)域?qū)⑹俏磥?a target="_blank">人工智能商業(yè)化落地非常重要的一個(gè)場景,并且能帶來百億級以上規(guī)模的企業(yè)的可能性非常之高。構(gòu)建下一代人工智能基礎(chǔ)設(shè)施的架構(gòu)與工業(yè)化成功成為一個(gè)新的熱點(diǎn)和行業(yè)內(nèi)的必爭高地。
作者簡介:
作者為黑芝麻智能技術(shù)專家,系CCF高性能專委會委員、AAAI終身會員、中國智能計(jì)算產(chǎn)業(yè)聯(lián)盟核心會員、上海市人工智能專家委員會委員、中國信通院大模型標(biāo)準(zhǔn)制定委員會委員、國內(nèi)DSA領(lǐng)域的早期推廣者與踐行者、中國最早將分布式深度學(xué)習(xí)系統(tǒng)進(jìn)行商業(yè)化落地并取得一定的社會效益。
文章速覽:
DSA成為下一代AI計(jì)算平臺的主流架構(gòu),加速異構(gòu)計(jì)算
DSA-oriented Unified AI stack作為統(tǒng)一的 AI 基礎(chǔ)軟件設(shè)施,解決碎片化問題
算法網(wǎng)絡(luò)的統(tǒng)一化與多樣化
黑芝麻智能華山系列芯片采用多核異構(gòu)架構(gòu)
建設(shè)易用的以CXE為基礎(chǔ)的人工智能軟件基礎(chǔ)設(shè)施是AI落地的關(guān)鍵
打造非歐數(shù)據(jù)形式的融合算法模型是自動駕駛技術(shù)穩(wěn)定產(chǎn)業(yè)化的基礎(chǔ)
從事自動駕駛解決方案和車載智能芯片的企業(yè)都看到了一個(gè)巨大的機(jī)會,那就是自動駕駛場景將產(chǎn)生海量的、復(fù)雜的、多樣的、高價(jià)值的數(shù)據(jù)。在當(dāng)今數(shù)據(jù)即財(cái)富的時(shí)代,這一點(diǎn)給所有人帶來了無限的想象空間。怎么把數(shù)據(jù)變現(xiàn)成價(jià)值、如何將數(shù)據(jù)變現(xiàn)并實(shí)現(xiàn)商業(yè)化,成為所有人的命題。而人工智能技術(shù)是普遍被學(xué)術(shù)界和產(chǎn)業(yè)界都認(rèn)可的用來解決這個(gè)問題的一個(gè)技術(shù)。所以,構(gòu)建下一代人工智能基礎(chǔ)設(shè)施的架構(gòu)與工業(yè)化成功成為一個(gè)新的熱點(diǎn),成為行業(yè)內(nèi)的必爭高地。
下一代人工智能基礎(chǔ)設(shè)施的特征
下一代人工智能基礎(chǔ)設(shè)施的重要特征,特別是面向自動駕駛或者機(jī)器智能領(lǐng)域,主要體現(xiàn)在:
1. Heterogeneous DSA(DSA: Domain Specific Architecture,下同)成為下一代AI計(jì)算平臺的主流架構(gòu),加速異構(gòu)計(jì)算
2. DSA-oriented Unified AI stack成為下一代AI的基礎(chǔ)軟件設(shè)施,解決碎片化問題
3. 更廣泛算法網(wǎng)絡(luò)的統(tǒng)一與支持
DSA成為AI計(jì)算的主流架構(gòu)
在過去的四十年的體系結(jié)構(gòu)發(fā)展中,架構(gòu)師們通過利用各種技術(shù)來提升單芯片算力、優(yōu)化架構(gòu),但最終的效果不盡如人意,特別是在更多復(fù)雜應(yīng)用場景的大數(shù)據(jù)時(shí)代和智能應(yīng)用環(huán)境下,通用計(jì)算架構(gòu)受到了前所未有的挑戰(zhàn):
1、技術(shù)上,登納德定律失效導(dǎo)致了功耗的優(yōu)化成為限制;摩爾定律失效使得芯片晶體管的提升受到限制;
隨著晶體管密度的增加,每個(gè)晶體管的能耗將降低,因此硅芯片上每平方毫米上的能耗幾乎保持恒定。由于每平方毫米硅芯片的計(jì)算能力隨著技術(shù)的迭代而不斷增強(qiáng),計(jì)算機(jī)將變得更加節(jié)能。然而,登納德縮放定律從2007年開始大幅放緩,2012年左右接近失效(如下圖):
2、芯片體系架構(gòu)上:指令集并行和單核性能優(yōu)化已經(jīng)成為瓶頸;阿姆達(dá)爾定律失效導(dǎo)致多核優(yōu)化達(dá)到瓶頸;當(dāng)前指令集和體系結(jié)構(gòu)不能處理芯片安全問題;
根據(jù)“Iron law”可知,處理器的算力性能直接相關(guān)的參數(shù)就是:
這個(gè)參數(shù)是指執(zhí)行一個(gè)程序所花費(fèi)的時(shí)間。該參數(shù)由以下的公式來決定:
在以上的公式中,右側(cè)式子的前兩項(xiàng)由指令集來影響,第三項(xiàng)由芯片制程和工藝來決定。在微架構(gòu)中增加指令的亂序執(zhí)行和指令級并行技術(shù)來提升算力的性能,也就是上述公式的前兩個(gè)因素。
3、應(yīng)用場景上,海量的算力需求從PC和服務(wù)器時(shí)代,進(jìn)化到物聯(lián)網(wǎng)、云計(jì)算和移動互聯(lián)網(wǎng)時(shí)代,海量的、多樣的計(jì)算形式被催生出來;當(dāng)前的算力基礎(chǔ)設(shè)施及技術(shù)發(fā)展已經(jīng)嚴(yán)重落后需求側(cè)的算力要求。
在這樣的環(huán)境下,數(shù)據(jù)流架構(gòu)思想和技術(shù)由于更適合海量連續(xù)數(shù)據(jù)的處理、緩解內(nèi)存墻問題的優(yōu)勢,在當(dāng)前的人工智能領(lǐng)域更加受到關(guān)注。融合了數(shù)據(jù)流架構(gòu)的深度學(xué)習(xí)處理器也不斷地被設(shè)計(jì)和研發(fā)出來,用來解決不同場景下海量數(shù)據(jù)的算力“不足”問題。這些變化都是由于軟硬件融合的設(shè)計(jì)與系統(tǒng)更適合于當(dāng)前應(yīng)用場景下對算力資源的需求。
人工智能在大數(shù)據(jù)的環(huán)境下得到了爆發(fā)式的增長,為高級編程語言python和tensorflow等特定領(lǐng)域語言通過增加軟件重用、提高抽象級別,顯著地提高了生產(chǎn)力。在此應(yīng)用環(huán)境下,編譯器與DSA體系結(jié)構(gòu)更要進(jìn)一步協(xié)同設(shè)計(jì),專門解決該領(lǐng)域下的特殊特征。
特定領(lǐng)域的體系結(jié)構(gòu)。一種以硬件為中心的設(shè)計(jì)思路是設(shè)計(jì)面向特定問題和領(lǐng)域的架構(gòu),并給予它們強(qiáng)大且高效的性能,因此它們是特定領(lǐng)域的體系結(jié)構(gòu)(DSA),這是一種特定領(lǐng)域的可編程處理器,通常是圖靈完備的,但針對特定類別的應(yīng)用進(jìn)行了定制。DSA通常被稱為加速器,因?yàn)榕c在通用CPU上執(zhí)行整個(gè)應(yīng)用程序相比,它們可以加速某些應(yīng)用程序。此外,DSA可以實(shí)現(xiàn)更好的性能,因?yàn)樗鼈兏N近應(yīng)用的實(shí)際需求,比如圖形加速單元(GPU),用于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)處理器(NPU),以及軟件定義網(wǎng)絡(luò)處理器(SDNs)。DSA效率更高、能耗更低是因?yàn)橐韵滤膫€(gè)原因:
首先,DSA為特定領(lǐng)域的計(jì)算使用了更加有效的并行形式。例如單指令多數(shù)據(jù)并行(SIMD),因?yàn)樗谝粋€(gè)時(shí)鐘步長內(nèi)只需處理一個(gè)指令流和處理單元。DSA也可以使用VLIW方法來實(shí)現(xiàn)ILP(指令級并行),而不是推測性的亂序機(jī)制,當(dāng)前AI處理器普遍采用in-order的流水線形勢。如前文所述,VLIW處理器與通用性代碼不匹配,但對于特定領(lǐng)域更加有效,因?yàn)樗目刂茩C(jī)制更加簡單。與之相對的是,VLIW在編譯時(shí)執(zhí)行必要的分析和調(diào)度,這對于顯式并行程序來說可以很好地工作。
其次,DSA可以更有效地利用內(nèi)存層次結(jié)構(gòu)。通用處理器的運(yùn)行代碼,其中的存儲器訪問通常表現(xiàn)出空間和時(shí)間局部性,但在編譯時(shí)不是非??深A(yù)測的。因此,CPU使用多級高速緩存來增加帶寬,并掩蓋相對較慢的芯片外DRAM延遲。在那些編譯時(shí)可以很好地定義和發(fā)現(xiàn)內(nèi)存訪問模式的應(yīng)用程序中(這對于典型的DSL來說是常見的),程序員和編譯器可以比動態(tài)分配的緩存更好地優(yōu)化內(nèi)存的使用。
再次,DSA可以使用較低的精度。適用于通用任務(wù)的CPU通常支持32和64位整型數(shù)和浮點(diǎn)數(shù)數(shù)據(jù)。對于很多機(jī)器學(xué)習(xí)和圖像應(yīng)用來說,并不需要如此高的精確度。例如在深度神經(jīng)網(wǎng)絡(luò)中(DNN),推理通常使用4、8或16位整型數(shù),從而提高數(shù)據(jù)和計(jì)算吞吐量。同樣,對于DNN訓(xùn)練程序,浮點(diǎn)數(shù)很有意義,但FP32位就夠了。當(dāng)前移動端的推理過程以INT8精度為主;數(shù)據(jù)中心應(yīng)用端的推理過程以更廣泛的精度來滿足要求。
最后,DSA受益于以特定領(lǐng)域語言(DSL)編寫的目標(biāo)程序,這些程序可以實(shí)現(xiàn)更高的并行性,更好的內(nèi)存訪問的結(jié)構(gòu)和表示,并使應(yīng)用程序更有效地映射到特定域的處理器,這也需要面向DSA的編譯器的支持。
因此,體系結(jié)構(gòu)領(lǐng)域的大佬(John Hennessy、David Patterson)、AI領(lǐng)域大佬(Jeff Dean、Cliff Young)在近幾年內(nèi)連續(xù)發(fā)文或分享說明,當(dāng)下是領(lǐng)域?qū)S眉軜?gòu)DSA的黃金時(shí)代(Golden Age)。
統(tǒng)一的 AI 基礎(chǔ)軟件設(shè)施
2019 年Chris Lattner(LLVM 發(fā)明者)提出來有關(guān)DSA架構(gòu)下的編譯器的黃金時(shí)代:
在肯定了John Hennessy和David Patterson有關(guān)當(dāng)下是DSA的黃金時(shí)代的判斷之后,Chris也隨之對適應(yīng)于DSA架構(gòu)的編譯器提出了新的方向:
隨著應(yīng)用的爆發(fā)式發(fā)展、專用領(lǐng)域架構(gòu)DSA的繁榮,比如AI和結(jié)構(gòu)化計(jì)算技術(shù)發(fā)展領(lǐng)域,出現(xiàn)了標(biāo)量加速和向量加速等多種層面的加速,當(dāng)然現(xiàn)在還有多核CPU。這樣一來就會出現(xiàn)多種硬件組合,這些硬件就必須相互通信。但軟件還是很難充分利用它們來提高性能,而且如果軟硬件協(xié)同不到位,性能就會受到巨大影響。
我們需要下一代編譯器和編程語言來幫助解決這種碎片化。首先,計(jì)算機(jī)行業(yè)需要更好的硬件抽象,硬件抽象是允許軟件創(chuàng)新的方式,不需要讓每種不同設(shè)備變得過于專用化。
其次,我們需要支持異構(gòu)計(jì)算,因?yàn)橐谝粋€(gè)混合計(jì)算矩陣?yán)镒鼍仃嚦朔ā⒔獯aJPEG、非結(jié)構(gòu)化計(jì)算等等。然后,還需要適用專門領(lǐng)域的語言,以及普通人也可以用的編程模型。
最后,我們也需要具備高質(zhì)量、高可靠性和高延展性的架構(gòu)。
在經(jīng)歷了科研范式的AI算法和場景落地之后,專業(yè)的工程化落地才是人工智能技術(shù)能力變現(xiàn)的唯一途徑。為了解決AI系統(tǒng)和工具的單一化和碎片化的問題,我們提出來建立統(tǒng)一開放的人工智能軟件基礎(chǔ)設(shè)施的目標(biāo):建設(shè)面向工程化的人工智能軟件基礎(chǔ)設(shè)施,包括編譯器、運(yùn)行時(shí),異構(gòu)計(jì)算、邊緣到數(shù)據(jù)中心并重,并專注于可用性,提升開發(fā)人員的效率。
算法網(wǎng)絡(luò)的統(tǒng)一化與多樣化
下圖從深度學(xué)習(xí)算法的發(fā)展歷程來看,總結(jié)了自人工智能伊始到現(xiàn)在的主要的算法與網(wǎng)絡(luò)結(jié)構(gòu):
自2012年以后,以深度學(xué)習(xí)為基礎(chǔ)的算法和網(wǎng)絡(luò)帶來了空前的繁榮。
從過去幾年的商業(yè)化落地情況來看,算法的碎片化、場景個(gè)性化等等嚴(yán)重的問題導(dǎo)致了人工智能解決方案在工程化落地和市場化推廣方面的局限性。但是,2017年以來,特別是2020年以后,以 Transformer為基礎(chǔ)的各類大模型“霸占”各主要AI榜單的榜首,成為了名副其實(shí)的基礎(chǔ)模型?;A(chǔ)大模型加上場景的小定制化越來越成為人工智能技術(shù)在商業(yè)化推廣中的使用范式。
當(dāng)然,也有很多人質(zhì)疑Transformer的可解釋性,也有人通過借鑒Transformer的思想反哺給CNN來進(jìn)一步加速和提升,我們認(rèn)為這都沒有問題,用戶更多地希望從準(zhǔn)確率和效果上能有質(zhì)的提升。CNN與Transformer在網(wǎng)絡(luò)架構(gòu)方面的競爭追根溯源是卷積操作與通用矩陣乘積操作這兩種操作之爭。處理CNN卷積操作時(shí),專用硬件架構(gòu)有發(fā)揮空間,這也就是之前大家所熟知的為算法和應(yīng)用而定制的AI加速器出現(xiàn)的原因;而隨著以GEMM為特征的Transformer網(wǎng)絡(luò)架構(gòu)的推廣和規(guī)?;瘧?yīng)用場景的挖掘,處理GEMM操作的較通用處理器可能更適合。當(dāng)然兩種方向會長期存在,但最終以能效和成本為目標(biāo)的客戶應(yīng)用來說,通用硬件架構(gòu)更有可能帶來降本增效的效果。
對于Transformer的出現(xiàn),我們認(rèn)為其意義重大的原因更多地在于,Transformer為算法工作者提供了一種新的思想和思路方式,在大數(shù)據(jù)訓(xùn)練的情況下采用分布式的架構(gòu)更適合當(dāng)下人工智能算法的發(fā)展。
黑芝麻智能華山系列芯片采用多核異構(gòu)架構(gòu)
我們從以下三個(gè)維度進(jìn)行闡述我們認(rèn)為的下一代人工智能基礎(chǔ)設(shè)施的發(fā)展方向:
Heterogeneous DSA是未來異構(gòu)計(jì)算的主流。
當(dāng)前的計(jì)算架構(gòu)正在由單一的體系架構(gòu)往異構(gòu)的架構(gòu)發(fā)展、由單一芯片模式往融合異構(gòu)多芯片模式發(fā)展。軟硬件融合、異構(gòu)是當(dāng)前體系結(jié)構(gòu)發(fā)展的關(guān)鍵技術(shù)。
軟硬件融合是必然帶來以DSA為基礎(chǔ)的異構(gòu)計(jì)算的繁榮。除了芯片和體系結(jié)構(gòu)之外,編譯器、運(yùn)行系統(tǒng)、編程語言等軟件系統(tǒng)也面臨著DSA帶來的技術(shù)迭代周期。
隨著應(yīng)用場景的復(fù)雜性和異構(gòu)計(jì)算技術(shù)的發(fā)展,我們需要解決以下四類問題:
1、 海量數(shù)據(jù)的高效處理:
2、 復(fù)雜數(shù)據(jù)的有效處理:
3、 海量計(jì)算的范式創(chuàng)新和提升:
4、 高價(jià)值數(shù)據(jù)的識別與價(jià)值變現(xiàn):
黑芝麻智能兩大核心自研IP——車規(guī)級圖像處理器NeuralIQ ISP以及DynamAI NN車規(guī)級低功耗神經(jīng)網(wǎng)絡(luò)加速引擎,賦能汽車看得更清、更遠(yuǎn)、更懂。其中,NeuralIQ ISP可支持多達(dá)12路高清相機(jī)接入。每秒處理36億3曝光像素,12億單曝光像素的高處理率管道,并且每個(gè)管道可并行在線處理兩路視頻,支持在線、離線和混合處理模式。支持HDR處理,符合高動態(tài)曝光、低光降噪、LED閃爍抑制等高質(zhì)量車規(guī)圖像處理要求,適用于智能駕駛環(huán)視感知、前視感知、駕駛監(jiān)控等應(yīng)用場景;DynamAI NN引擎具備大算力的架構(gòu),支持多形態(tài)、多精度運(yùn)算。通過可適配量化、結(jié)構(gòu)化剪裁壓縮、硬件可執(zhí)行軟件的子圖規(guī)劃實(shí)現(xiàn)軟硬件同步優(yōu)化。支持稀疏加速和配備自動化開發(fā)工具等優(yōu)勢。
黑芝麻智能自動駕駛計(jì)算芯片SoC集成了多個(gè)加速器,有ARM、ARM Neon、GPU、NPU、DSP、ISP、VPU 等多個(gè)IP。NPU是主要用來處理AI相關(guān)workload的加速器,衡量一個(gè)NPU芯片的設(shè)計(jì)是否優(yōu)化,業(yè)界有三個(gè)認(rèn)可的設(shè)計(jì)原則:
1) 存儲層次化
2) 數(shù)據(jù)復(fù)用
3) 片上互聯(lián)
黑芝麻智能A1000芯片在設(shè)計(jì)層面已經(jīng)充分地將以上三點(diǎn)融合并實(shí)現(xiàn)在SoC芯片內(nèi),包含多級緩存和數(shù)據(jù)存儲結(jié)構(gòu)、高效的數(shù)據(jù)復(fù)用邏輯、統(tǒng)一片上NoC互聯(lián)結(jié)構(gòu)將主要的IP進(jìn)行并聯(lián)等。
我們堅(jiān)定地認(rèn)為DSA架構(gòu)和軟件系統(tǒng)是更適合當(dāng)前應(yīng)用的思想和方法。充分融合DSA的思想、結(jié)合具體的領(lǐng)域場景,才可以構(gòu)建出面向該領(lǐng)域的通用計(jì)算架構(gòu)、高性能計(jì)算模型、高效的數(shù)據(jù)處理方式,才真正地讓用戶擺脫算力瓶頸、增強(qiáng)用戶體驗(yàn)。
建設(shè)易用的以CXE為基礎(chǔ)的人工智能軟件基礎(chǔ)設(shè)施是AI落地的關(guān)鍵
軟件系統(tǒng)和工具鏈體系是量產(chǎn)化芯片走向成功的兩個(gè)極為重要的因素。而AI工具集體系和人工智能平臺是AI芯片最重要的軟件系統(tǒng)。能否充分發(fā)揮AI芯片的性能和能效是判斷AI工具集體系優(yōu)劣的很重要的指標(biāo)。黑芝麻智能構(gòu)建了面向AI芯片的工具集系統(tǒng)和人工智能平臺:山海人工智能開發(fā)平臺,如下圖所示:
基于我們對行業(yè)knowhow的理解、對技術(shù)創(chuàng)新的信心,我們構(gòu)建了面向異構(gòu)加速計(jì)算平臺的軟件基礎(chǔ)設(shè)施:CXE(Compiler and eXecution Environment)。這解決了三個(gè)問題:
1. 數(shù)據(jù)處理需求與算力能力之間的不平衡
2. 數(shù)據(jù)處理格式與異構(gòu)計(jì)算體系架構(gòu)的不一致
3. 融合計(jì)算在模型正確性和數(shù)學(xué)一致性方面的統(tǒng)一,如人工智能計(jì)算、工程計(jì)算等
CXE 系統(tǒng)升級了AI工具鏈和優(yōu)化系統(tǒng)、人工智能訓(xùn)練系統(tǒng)等基礎(chǔ)軟件。
以自動駕駛應(yīng)用場景為例:
我們基于底層的硬件平臺,可能是CPU(如 ARM、X86、RISC-V等)、GPU、DSP、NPU、ISP等等處理器或異構(gòu)加速器,構(gòu)建了面向人工智能和技術(shù)領(lǐng)域的以MLIR為基礎(chǔ)的人工智能編譯器系統(tǒng)、分布式調(diào)度機(jī)制為基礎(chǔ)的實(shí)時(shí)推理系統(tǒng)和運(yùn)行時(shí)系統(tǒng)、融合了可解釋性為條件的分布式訓(xùn)練和構(gòu)建系統(tǒng)、可觀測可驗(yàn)證可調(diào)試的輔助工具集合,這構(gòu)成了以DSA為基礎(chǔ)的下一代人工智能基礎(chǔ)架構(gòu)和平臺。
打造非歐數(shù)據(jù)形式的融合算法模型是自動駕駛技術(shù)穩(wěn)定產(chǎn)業(yè)化的基礎(chǔ)
在過去幾十年的發(fā)展歷程中,人工智能技術(shù)主要解決的是以歐幾里得空間的數(shù)據(jù)形式的處理問題:
而物理世界和更廣泛的數(shù)據(jù)處理是非歐空間的數(shù)據(jù)處理問題:
為了更好地解決自動駕駛、機(jī)器智能的工程化問題和領(lǐng)域知識的智能化泛化問題,我們還需要解決計(jì)算密集型的工程數(shù)學(xué)和以強(qiáng)化學(xué)習(xí)為方向的Simulation的技術(shù)閉環(huán)問題。
由此可見,我們基于MLIR等框架構(gòu)建了我們自控的編譯器/優(yōu)化器和運(yùn)行時(shí)系統(tǒng),不僅支持AI workload相關(guān)的內(nèi)存密集型的計(jì)算場景,而且支持如OpenCV、Halide等面向工業(yè)場景的計(jì)算密集型場景,還在圖優(yōu)化領(lǐng)域支持靜態(tài)圖的編譯和高效轉(zhuǎn)換,正在對動態(tài)圖的處理進(jìn)一步優(yōu)化。未來在多復(fù)雜度數(shù)據(jù)處理場景、分布式計(jì)算場景、人工智能場景、邊緣計(jì)算領(lǐng)域等多個(gè)交叉和融合的領(lǐng)域內(nèi),將會產(chǎn)生更大的價(jià)值和現(xiàn)實(shí)意義。
“工欲善其事、必先利其器”。我們堅(jiān)信,好的工具是構(gòu)建基礎(chǔ)理論、驗(yàn)證現(xiàn)實(shí)問題的至關(guān)重要的手段。通過構(gòu)建先進(jìn)的人工智能基礎(chǔ)設(shè)施和軟件系統(tǒng),技術(shù)人員不僅可以高效完成人工智能場景化解決方案,而且還可以產(chǎn)生創(chuàng)新的靈感,創(chuàng)造性地完成新的場景、新的算法等,又可以解決有限時(shí)間下的工程交付需求。
開發(fā)工具鏈?zhǔn)欠裢晟剖求w現(xiàn)黑芝麻智能芯片易用性的重要指標(biāo)。配合華山系列自動駕駛計(jì)算芯片,黑芝麻智能發(fā)布的山海人工智能開發(fā)平臺。它擁有50多種AI參考模型庫轉(zhuǎn)換用例,降低客戶的算法開發(fā)門檻;能夠?qū)崿F(xiàn)QAT和訓(xùn)練后量化的綜合優(yōu)化,保障算法模型精度;支持動態(tài)異構(gòu)多核任務(wù)分配,同時(shí)還支持客戶自定義算子開發(fā),完善的工具鏈開發(fā)包及應(yīng)用支持,能夠助力客戶快速移植模型和部署落地的一體化流程。
審核編輯:湯梓紅
評論
查看更多