0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

國產純自研、100+行業(yè)實踐,探秘速石核心調度器Fsched

架構師技術聯(lián)盟 ? 來源:架構師技術聯(lián)盟 ? 2023-09-01 15:38 ? 次閱讀

這是一篇推薦我們速石自研調度器——Fsched的文章。

看起來在專門寫調度器,但又不完全在寫。 往下看,你就懂了。

介紹一下主角速石自研調度器Fsched

fastone Scheduler,簡稱Fsched,是速石科技所有產品的核心調度組件。Ta是面向HPC集群的操作系統(tǒng),是HPC集群的“大腦”,用于對HPC集群內的計算資源進行管理、監(jiān)控,對用戶提交的任務進行統(tǒng)一管理、分發(fā)和遠程執(zhí)行。

Fsched是速石科技基于開源的Slurm版本進化而來的全新產品。

01

我們的Fsched調度器到底厲害在哪?

先看一組我們在半導體領域用戶的真實驗證數(shù)據(jù):

5個月時間內:

CPU調度峰值達到5萬核;

提交了超過8000萬Jobs;

構建超過700臺機器組成的大規(guī)模集群;

使用量約3000萬核時。

0356202a-47c0-11ee-97a6-92fbcf53809c.jpg

Fsched性能指標

吞吐量:

1000 jobs/second

響應時間:

1 ms

集群規(guī)模:

單個Fsched集群能夠支持的最大節(jié)點數(shù):1000

單個Fsched集群能夠支持的最大CPU核數(shù):30000

總結一下,F(xiàn)sched調度器優(yōu)勢:

1. 完全由速石獨立開發(fā),性能卓越;

2. 我們能提供代碼級技術支持;

3. 支持市面上幾乎所有EDA工具

4. 服務了100+家不同類型的半導體行業(yè)用戶;

5. 兼容LSF/SGE等調度器,使用體驗不變。

關于調度器科普和不同流派近二十年的發(fā)展歷程,可以點擊回顧:億萬打工人的夢:16萬個CPU隨你用

02

代碼級技術支持有什么不一樣?

代碼級技術支持的特別之處主要體現(xiàn)在解決問題的路徑上。

一句話,我們能做很多人做不到的事情。

一般問題:我們站在產品視角來解決

特殊問題:我們以開發(fā)者身份來解決

比如一些特殊調度策略的改造與優(yōu)化,我們是開發(fā)者,所以能做。包括各種調度器日志的監(jiān)控分析,優(yōu)化調度器的提交方式和腳本等等。

DEBUG:深入代碼級的技術支持

舉一個典型例子:當研發(fā)提交任務出現(xiàn)異常狀態(tài),怎么辦?

我們首先需要定位與任務相關的日志。日志分為:基礎設施層日志、中間件層日志、應用層日志等。IT和研發(fā)工程師的關注點不一樣:IT工程師一般看基礎設施層日志,CAD和研發(fā)工程師看中間件層日志和應用層日志。不同角色各看各的,定位問題效率低。

036c2ab4-47c0-11ee-97a6-92fbcf53809c.jpg

我們通過Fsched調度器:1. 把調度任務的異常日志分類,找出是哪一層的問題;

2. 任務狀態(tài)跟蹤,通過異常應用找出相應進程和IO信息,方便判斷;

3. 通過數(shù)據(jù)分析抓取日志中的關鍵信息。

找到問題,over。

03

Slurm之上,我們還做了什么?

Slurm是厲害的:全球60%的TOP500超算中心和超大規(guī)模集群(包括我國的天河二號等)都采用Slurm作為調度系統(tǒng)。它擁有容錯率高、支持異構資源、高度可擴展等優(yōu)點,適用性相當強。

那么,基于Slurm之上,我們還做了些什么?

從0到1,幫助用戶更快,更簡單地用起來

1.產品級IT自動化管理,標準化地調用資源,保證環(huán)境一致性,降低用戶配置復雜度和出錯率,上手更容易;

2. 從業(yè)務出發(fā),F(xiàn)sched與底層資源的聯(lián)動性強,根據(jù)任務需求自動伸縮,更符合云上使用方式。

038ab826-47c0-11ee-97a6-92fbcf53809c.png

從1到10,讓用戶用得穩(wěn)定,用得放心1.對Slurm開源版進行修復與增強。修復Slurm開源版在復雜環(huán)境下任務異常崩潰等問題,增加了混合云智能調度能力; 2. 基于Wrapper組件,F(xiàn)sched對上層EDA應用進行了兼容與優(yōu)化,保證用戶使用體驗不變;

PS:同樣是Wrapper,水平也是有高下的。要達到多年戰(zhàn)斗在一線的專業(yè)高級口譯的經驗和水平,只能說:有難度。

3. 根據(jù)最佳實踐經驗總結的流程與規(guī)則,能優(yōu)化EDA Workflow,提高調度器使用效率;

4.代碼級支持能力讓用戶無后顧之憂。

只要有個調度器就夠了嗎?

答案自然是否定的。

為什么?

或許,我們可以換個角度來回答這個問題。

就像汽車出現(xiàn)之前,用戶的期望永遠是——1匹更快的馬一樣。

在當下芯片設計研發(fā)領域,我們如果把調度器類比馬,那么汽車是什么呢?

我們給大家簡單描繪一下:

一個站在整個芯片設計研發(fā)體系和架構視角來滿足EDA行業(yè)用戶性能、功能、體驗的產品。

1. Ta是完整的一體化產品,功能緊密耦合,且經過層層實戰(zhàn)考驗;

2. Ta解決的是完整生命周期的芯片設計業(yè)務問題,調度器只是其中一個模塊;

3. Ta具有對企業(yè)未來發(fā)展的彈性,能擴展至不同規(guī)模和更多業(yè)務路線,比如AI

03dc7daa-47c0-11ee-97a6-92fbcf53809c.jpg

而這,正是我們與其他很多產品最大的區(qū)別之一。

我們的產品在設計之初就是面向EDA應用,服務芯片設計研發(fā)業(yè)務場景的。這也決定了我們解決問題的出發(fā)點永遠是:是否滿足研發(fā)業(yè)務需求,然后從上至下地解決問題。

01

一整套上中下層聯(lián)動的芯片研發(fā)環(huán)境

我們提供的是一整套上中下層聯(lián)動的芯片設計研發(fā)環(huán)境:

1. 連接上層EDA應用,對應用本身的運行提供支持和優(yōu)化;

2. 連接底層資源,給用戶提供更靈活,更高效使用資源的能力;

3. 結合EDA應用和底層資源的聯(lián)動和適配,給出最佳實踐經驗。

02

功能面向實際業(yè)務場景設計和提供

我們的功能都是面向實際業(yè)務場景設計和提供的:

1.License調度優(yōu)化,可幫助企業(yè)用戶最大化提升License利用率,更好地規(guī)劃License購買策略,控制整體使用成本;

2. 我們能多維度監(jiān)控任務狀態(tài),提供基于EDA任務層的監(jiān)控、告警、數(shù)據(jù)統(tǒng)計分析功能與服務,讓團隊管理者監(jiān)控各個重要指標變化,從全局角度掌握項目的整體任務及資源情況,為未來項目合理規(guī)劃、集群生命周期管理、成本優(yōu)化提供支持;

04018802-47c0-11ee-97a6-92fbcf53809c.jpg

3.日常數(shù)據(jù)統(tǒng)計與運營分析管理,實現(xiàn)問題可追溯,可追蹤,降低成本,提升整體項目管理效率。

03

交互方式不改變EDA用戶使用習慣

我們的交互方式不改變EDA用戶的使用習慣。原來怎么用,現(xiàn)在還怎么用。

速石研發(fā)平臺

VS

LSF Suite

半導體行業(yè)用戶最熟悉的調度器是LSF,就不多介紹了。

不過,它背后的LSF Suite大家就不一定熟悉了。

來來,我們盤一下,我們速石研發(fā)平臺跟LSF Suite的區(qū)別是什么?

01

根本區(qū)別:設計理念不一樣

我們是站在整個芯片設計研發(fā)體系和架構視角來設計的一體化產品,解決的是完整生命周期的芯片設計業(yè)務問題,功能緊密耦合,且經過層層實戰(zhàn)考驗。

而Fsched調度器只是其中一個模塊,不單獨售賣,在我們的全線企業(yè)級產品均屬內置,且與產品其他功能深度綁定。

這正是我們上一節(jié)提到的面向EDA業(yè)務的產品定位決定的。 而LSF Suite里的核心調度器LSF與其他組件是不關聯(lián)的,屬于可選項。這也導致了用戶大多只接觸過LSF,而對它的其他組件沒有什么概念。

而且,因為各種功能組件之間獨立存在的,用戶使用的時候需要根據(jù)自己業(yè)務需要進行二次開發(fā)組裝,從零開始進行功能模塊需求評估、采購、對接、開發(fā)和測試驗證兼容性,才能搭建出一個完整的研發(fā)環(huán)境,時間周期也會比較長。 另外還有期間的運維、后續(xù)的更新升級和功能擴展等事項。

02

性價比:速石研發(fā)平臺TCO更低

下圖是我們研發(fā)平臺與LSF Suite的橫向對比圖,可以清楚地看到,兩者的收費模式差別很大。

04486916-47c0-11ee-97a6-92fbcf53809c.jpg

我們Fsched調度器是包含在平臺費用里的,相關組件也都是隨產品一起內置的,不單獨收費。

而LSF Suite除了核心調度器按使用核數(shù)收費以外,所有功能組件都需要額外收費。

從總擁有成本來看,對用戶來說,速石研發(fā)平臺付出的成本更低,獲得的東西更多。還有很多隱性成本沒有列在表格里,比如對接調試時間成本,人工成本,售后支持成本等等。

總結一下,我們跟LSF Suite的五大主要區(qū)別:

1.核心調度器Fsched完全國產自研,有代碼級支持能力; 2. 我們的產品設計初衷就是提供面向EDA業(yè)務的一整套研發(fā)環(huán)境,可擴展性強;3.各功能模塊緊密耦合,不單獨收費,整體性價比高;4.我們的CAD能力與經驗,能有效提高上中下層整體聯(lián)動效率; 5. 我們兼容LSF/SGE等調度器,使用體驗不變。

如果你想嘗試AI——

目前,AI在芯片設計領域的應用主要有兩條路線:

路線一:AI+EDA工具

Synopsys、Cadence與Siemens等公司紛紛在其最新工具中使用了AI技術,覆蓋先進數(shù)字與模擬芯片的設計、驗證、測試和制造環(huán)節(jié),讓開發(fā)者在芯片開發(fā)的每一個階段都可以采用借助AI的自主學習能力,提供芯片設計生產力。

當然,越來越多EDA工具也支持借助GPU進行運算加速。

路線二:AI算法模型訓練

Google研究人員使用10,000個芯片布局圖來訓練他們的深度學習模型——PRIME,人工智能生成的芯片的設計時間不到六個小時。

而NVIDIA設計了另一種用于芯片設計的深度學習方法——PrefixRL模型,NVIDIA使用其RL工具設計的電路比人類使用當今EDA工具設計的電路小25%,但性能相似。

路線一需要支持全流程EDA工具的一整套研發(fā)環(huán)境,以及構建異構資源(CPU+GPU、本地+云上)的調度及管理平臺的能力。

路線二需要的支持企業(yè)從ML/LLM模型構建、大規(guī)模訓練到最終部署需求的MLOps模塊。

我們都有。

另外,我們剛剛發(fā)布的一款行業(yè)知識庫聊天應用Megrez,面向企業(yè)客戶提供大語言模型的私有化部署能力,允許用戶自定義行業(yè)知識庫,實現(xiàn)領域知識的問答

045bd168-47c0-11ee-97a6-92fbcf53809c.png

Megrez基于芯片設計領域提供的支持

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 操作系統(tǒng)

    關注

    37

    文章

    6684

    瀏覽量

    123140
  • HPC
    HPC
    +關注

    關注

    0

    文章

    309

    瀏覽量

    23650
  • 調度器
    +關注

    關注

    0

    文章

    98

    瀏覽量

    5232

原文標題:國產純自研、100+行業(yè)實踐,探秘速石核心調度器Fsched

文章出處:【微信號:架構師技術聯(lián)盟,微信公眾號:架構師技術聯(lián)盟】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    脫離安卓,完全血鴻蒙HarmonyOS NEXT開始打造自主生態(tài)圈

    是華為在2024年的核心任務 。 ? ? 而這款 去掉了傳統(tǒng)的Linux內核以及AOSP等代碼 , 完全的操作系統(tǒng) ,也標志著華為徹底走出了與其他操作系統(tǒng)完全不同的道路。 ? HarmonyOS
    的頭像 發(fā)表于 06-22 00:05 ?4279次閱讀
    脫離安卓,完全<b class='flag-5'>自</b><b class='flag-5'>研</b>,<b class='flag-5'>純</b>血鴻蒙HarmonyOS NEXT開始打造自主生態(tài)圈

    創(chuàng)芯國產射頻模組新品發(fā)布

    近日,銳創(chuàng)芯濾波模組新品發(fā)布會在重慶兩江新區(qū)云頂大酒店舉行。銳創(chuàng)芯全國產射頻模組在渝首發(fā),兩江新區(qū)與銳創(chuàng)芯重大戰(zhàn)略項目簽約儀式圓滿完
    的頭像 發(fā)表于 11-08 14:32 ?238次閱讀

    比亞迪最快于11月實現(xiàn)算法量產,推進智駕芯片進程

    10月21日市場傳出消息,比亞迪正計劃整合其新技術院下的智能駕駛團隊,目標是在今年11月實現(xiàn)智能駕駛算法的量產,并持續(xù)推進智能駕駛芯片的
    的頭像 發(fā)表于 10-22 15:57 ?686次閱讀

    國產硅振蕩廣泛用于無線通信設備,替代SiTime產品

    國產硅振蕩廣泛用于無線通信設備,替代SiTime產品
    的頭像 發(fā)表于 10-16 09:59 ?160次閱讀
    <b class='flag-5'>國產</b><b class='flag-5'>純</b>硅振蕩<b class='flag-5'>器</b>廣泛用于無線通信設備,替代SiTime產品

    國產DSP,指令集內核C2000,F(xiàn)28335、F280049、F28377

    國產DSP,指令集內核架構,工具鏈,完美替代TI的 C2000系列產品,F(xiàn)280049、F28335、F28377 性能、主頻、外設
    發(fā)表于 09-26 13:56

    兼容7A100T和PG2L100H雙芯核心板,米爾FPGA平臺

    設計,支持同款底板可換國產和進口芯片,推出MYIR 7A100T和PG2L100H核心板,解決客戶對國內國際市場的不同需求。 國產開發(fā)維護與
    發(fā)表于 09-14 16:08

    青春探秘芯世界!思瑞浦產學研實踐活動

    聚焦高性能模擬芯片和嵌入式處理恰同學少年,風華正茂!近期,思瑞浦與國內多所高校聯(lián)合開展了“青春探秘芯世界”為主題的產學研實踐。活動通過企業(yè)開放日、測試中心體驗、專家技術講座、面對面交流互動的方式
    的頭像 發(fā)表于 08-30 13:19 ?199次閱讀
    青春<b class='flag-5'>探秘</b>芯世界!思瑞浦產學研<b class='flag-5'>實踐</b>活動

    國產車企智駕芯片加速落地,蔚來小鵬等領跑賽道

    在智能汽車產業(yè)加速變革的浪潮中,中國車企正以前所未有的決心和速度推進核心技術,特別是在智能駕駛芯片這一關鍵領域,蔚來、小鵬等頭部企業(yè)已邁出堅實步伐,
    的頭像 發(fā)表于 07-11 16:20 ?980次閱讀

    100%全國產化車載ACDC與DCDC電源

    在新能源汽車的核心零部件車載電源(包含車載ACDC充電機、車載DCDC變換,多合一車載集成電源等)領域,全國產化主要體現(xiàn)在元器件、材料、生產等方方面面的100%
    的頭像 發(fā)表于 05-21 09:03 ?807次閱讀
    <b class='flag-5'>100</b>%全<b class='flag-5'>國產</b>化車載ACDC與DCDC電源

    國產可編程硅振蕩在醫(yī)療超聲影像中的應用

    國產可編程硅振蕩在醫(yī)療超聲影像中的應用
    的頭像 發(fā)表于 05-14 10:00 ?466次閱讀
    <b class='flag-5'>國產</b>可編程<b class='flag-5'>純</b>硅振蕩<b class='flag-5'>器</b>在醫(yī)療超聲影像中的應用

    兼容SiTime,國產硅振蕩在工業(yè)機械臂中的應用

    國芯思辰| 兼容SiTime,國產硅振蕩在工業(yè)機械臂中的應用
    的頭像 發(fā)表于 05-09 09:41 ?329次閱讀
    兼容SiTime,<b class='flag-5'>國產</b><b class='flag-5'>純</b>硅振蕩<b class='flag-5'>器</b>在工業(yè)機械臂中的應用

    理想汽車大模型Mind GPT通過國家備案

    理想汽車近日宣布,其全的多模態(tài)認知大模型Mind GPT已正式通過國家《生成式人工智能服務管理暫行辦法》備案,成為汽車行業(yè)中首個成功通過該備案的
    的頭像 發(fā)表于 03-29 11:05 ?535次閱讀

    國產可編程硅振蕩可用于車載DVR,兼容SiTime

    國產可編程硅振蕩可用于車載DVR,兼容SiTime
    的頭像 發(fā)表于 03-26 10:12 ?421次閱讀
    <b class='flag-5'>國產</b>可編程<b class='flag-5'>純</b>硅振蕩<b class='flag-5'>器</b>可用于車載DVR,兼容SiTime

    曝光,繼華為之后,蘋果也要這個傳感!

    的是,Mark Gurman還披露了蘋果無創(chuàng)血糖監(jiān)測傳感系統(tǒng)、圖像傳感等重磅信息,而此前華為才剛被披露在
    的頭像 發(fā)表于 11-21 08:35 ?526次閱讀
    曝光,繼華為之后,蘋果也要<b class='flag-5'>自</b><b class='flag-5'>研</b>這個傳感<b class='flag-5'>器</b>!

    全志T113i全國產核心板上市

    超低價、超靈活、超全能!飛凌嵌入式FET113i-S全國產核心板正式發(fā)布!整板采用100%國產工業(yè)級元器件,含稅價最低僅需88元! FET113i-S
    發(fā)表于 11-20 16:32