從2001年龍芯項(xiàng)目組成立,到2008年龍芯公司誕生,20多年來,龍芯CPU從未像今年這樣揚(yáng)眉吐氣。最近剛發(fā)布的龍芯3A6000處理器總體性能與Intel公司2020年上市的第10代酷睿四核處理器相當(dāng),形象地詮釋了厚積薄發(fā)的含義。龍芯3A6000是4核8線程的規(guī)格,對(duì)標(biāo)的是酷睿i3-10100,至于第10代酷睿那些核心更多的型號(hào),龍芯也很快會(huì)推出后續(xù)產(chǎn)品去與它們對(duì)應(yīng)。
在酷睿14代已經(jīng)推出的當(dāng)下,第10代酷睿i3已經(jīng)不怎么起眼,不過我們不能只盯著差距而忽略龍芯的進(jìn)取。以往的龍芯看似前路茫茫,現(xiàn)在的它已能拽住市場主流CPU的尾巴,那么未來有朝一日,龍芯CPU是否能與Intel、AMD以及ARM的產(chǎn)品齊頭并進(jìn)呢?
龍芯CPU從零開始的追逐
從1971年到2001年,這30年間是集成電路和CPU技術(shù)高速發(fā)展的階段,CPU的集成度和運(yùn)算速度呈指數(shù)級(jí)增長,平均18個(gè)月翻一番,30年間CPU性能提高了百萬倍。不過因?yàn)镃PU性能越來越高,所以性能翻倍的時(shí)間間隔也越來越長。從2001年到2010年這10年,Intel CPU的單核性能上漲了十多倍,但從2011年至2020年這10年,同級(jí)別Intel CPU的單核性能只翻了一倍。
然而,Intel在這20年之所以能保持著單核性能近乎線性增長,說明它其實(shí)是游刃有余的。果然,在AMD給予Intel“驚嚇”之后,Intel第12代酷睿的性能突飛猛進(jìn)。雖然從第12代酷睿到酷睿14代,Intel又恢復(fù)了以往的節(jié)奏,但誰也不知道它是否留有余力。
2001年國內(nèi)的CPU設(shè)計(jì)技術(shù)已經(jīng)與世界脫節(jié)20~30年,龍芯CPU在這一年才開始孕育,準(zhǔn)備挑戰(zhàn)已經(jīng)成長了30年的x86 CPU產(chǎn)品。
由于科技水平的整體提升,龍芯不需要從Intel 4004的水平做起,但第一款龍芯CPU——龍芯一號(hào)的性能極低,只與Pentium(586)同級(jí)別,這些古老的CPU甚至運(yùn)行不了SPEC_CPU_2006。龍芯一號(hào)的性能不到同年Intel Pentium4的1/20,假如用SPEC_CPU_2006對(duì)它進(jìn)行測試,按比例算成績就只有0.2分左右。因此,縱然開始幾年龍芯CPU性能每年都翻倍,但增長的絕對(duì)性能卻不到Intel的零頭。測試成績從0.2翻倍到0.4,再翻倍到0.8……還要再翻兩次才能抵消Intel每年上漲的兩三分。如此推斷,在接下來的十來年里,龍芯與Intel的絕對(duì)性能差距會(huì)越來越遠(yuǎn),這令最有信心的人也逐漸迷茫。
2006年之后,因?yàn)槟承┰颍信c“芯”有關(guān)的項(xiàng)目都備受質(zhì)疑,在各種壓力下,龍芯項(xiàng)目組開始急于求成。單核性能不足那就做多核,提升通用處理性能太難那就去提升專用性能,于是接連誕生幾款看似強(qiáng)大的產(chǎn)品:4核的龍芯3A1000、浮點(diǎn)運(yùn)算速度達(dá)到192GFlops的8核龍芯3B1500。龍芯3B1500的浮點(diǎn)性能甚至超過了Inte酷睿i7-980E,可是絕大多數(shù)應(yīng)用軟件需要的是單核通用處理性能,再強(qiáng)大的浮點(diǎn)性能也無法讓各種軟件都流暢運(yùn)行。從2006年到2015年的10年間,龍芯CPU的單核通用處理性能提升緩慢,哪怕是特定行業(yè)的客戶也視如敝屣,龍芯的發(fā)展境況雪上加霜。
2011年龍芯重整旗鼓,確立了桌面CPU的研究重心——提高CPU單核通用性能,并決定在每GHz的性能達(dá)到主流水平之前,最多只做4核CPU,放棄當(dāng)時(shí)的眾核路線。因?yàn)橘Y金不足,龍芯開始“減員增效”,又分散了大量的精力設(shè)計(jì)能賺錢的嵌入式CPU,以維持桌面CPU的研發(fā),新核心的研發(fā)進(jìn)度被拖慢。龍芯3A2000仿真測試完成后還要等著籌集流片的錢,直到2015年才正式降生。在間斷等待期間,龍芯的研發(fā)者也沒有閑著,比如同步多線程、二進(jìn)制翻譯、動(dòng)態(tài)調(diào)壓調(diào)頻等都誕生于這個(gè)階段,只是要經(jīng)濟(jì)狀況好轉(zhuǎn)、技術(shù)條件成熟之后才能把科研成果變成商用產(chǎn)品。
龍芯3A2000改用國內(nèi)40nm工藝,主頻從龍芯3B1500的1.5GHz降回1.0GHz。但因?yàn)槊縂Hz的性能提高到了2.5倍,所以單核性能達(dá)到Intel Pentium 4的水平。4核的龍芯3A2000整體性能是Pentium 4的3倍以上,應(yīng)對(duì)普通的辦公已經(jīng)沒有問題。
龍芯3A2000幫助龍芯實(shí)現(xiàn)了扭虧為盈,2017年發(fā)布的龍芯3A3000則是更換工藝提高頻率的版本,龍芯已經(jīng)啟用了Tick-tock的策略:一代升級(jí)工藝,一代升級(jí)核心。2019年發(fā)布的龍芯3A4000使用了新設(shè)計(jì)的核心,每GHz的性能接近AMD的Zen核心。龍芯3A4000成為龍芯與Intel性能差距的轉(zhuǎn)折點(diǎn),它們的距離不再是越來越遠(yuǎn)。接下來,龍芯3A5000升級(jí)工藝,龍芯3A6000再次升級(jí)核心,通過提升單核心性能,低頻打高頻,一舉把與Intel的差距縮短到了3年。從龍芯CPU的進(jìn)步趨勢,我們看到了龍芯追趕Intel產(chǎn)品性能的希望。
龍芯敢與群雄逐鹿的底氣
如果只看CPU性能是否接近,前段時(shí)間有家公司找Intel做的OEM產(chǎn)品當(dāng)然更加接近Intel CPU的性能,但是它不可能用Intel的產(chǎn)品去戰(zhàn)勝Intel。同樣,依賴國外授權(quán)的架構(gòu)和IP核也不可能戰(zhàn)勝規(guī)則的制定者。
只要CPU中使用的標(biāo)準(zhǔn)、專利、關(guān)鍵技術(shù)等都由國外掌握,或者依附國外的軟硬件生態(tài),就隨時(shí)可能失去競爭的資格。如果不想前進(jìn)的路上突然出現(xiàn)深淵,就必須提升自主的層次。龍芯是極少數(shù)主動(dòng)提升自主層次的國產(chǎn)CPU企業(yè)之一,少有CPU企業(yè)像龍芯這樣不但自己設(shè)計(jì)指令集、建立自主軟硬件生態(tài),還力求所有IP核都自主設(shè)計(jì)。
龍芯二十多年時(shí)間累積了上百個(gè)IP核,覆蓋了CPU功能的方方面面。這里我們列出了龍芯自主設(shè)計(jì)的重要IP核,不含已經(jīng)淘汰的版本。其中用在龍芯3A6000中的全部IP核全都是自主設(shè)計(jì)。自主的LoongArch指令集和自主設(shè)計(jì)的IP核,使龍芯設(shè)計(jì)CPU時(shí)完全不必依賴外部授權(quán),有底氣面對(duì)一切封鎖和制裁。
很多人認(rèn)為,因?yàn)辇埿静荒馨惭bWindows,就注定會(huì)讓用戶望而卻步。這只是一種弱者思維,任何強(qiáng)大的生態(tài)都有弱小的時(shí)候,并且龍芯LoongArch指令集的軟件生態(tài)已經(jīng)越過了拐點(diǎn),正在從“能用”向“好用”轉(zhuǎn)變。對(duì)于Linux桌面和服務(wù)器用戶來說,使用龍芯電腦與其他電腦幾乎沒有區(qū)別,各種開發(fā)工具、開源軟件、國產(chǎn)常用軟件等都有龍芯版本,Linux軟件生態(tài)的成熟度已經(jīng)與x86和ARM是同等水平。
很多Linux用戶會(huì)用Wine運(yùn)行Windows軟件以彌補(bǔ)Linux的不足,在基于龍芯LoongArch架構(gòu)的電腦上也同樣可以這么做。盡管Wine和Windows軟件都只支持x86架構(gòu),但龍芯憑借自己的二進(jìn)制翻譯技術(shù)能把它們一并翻譯。龍芯的目標(biāo)是基于龍芯的基礎(chǔ)軟硬件發(fā)展自己的應(yīng)用,但作為過渡手段,還要通過二進(jìn)制翻譯技術(shù)兼容部分x86和ARM的應(yīng)用。龍芯還用二進(jìn)制翻譯徹底解決了困擾Linux幾十年的打印機(jī)兼容性問題,在龍芯電腦上可以直接使用Windows版的打印機(jī)驅(qū)動(dòng),即使x86版的Linux也沒有這樣的能力。龍芯這種一邊發(fā)展自主軟件生態(tài),一邊“收割”Windows應(yīng)用軟件的策略,使龍芯電腦可用的軟件迅速豐富,基本掃清了桌面和服務(wù)器的應(yīng)用障礙。
而在嵌入式行業(yè),龍芯的策略是把CPU架構(gòu)及核心授權(quán)出去。龍芯是國內(nèi)唯一向其他組織授權(quán)通用CPU指令集和IP核的公司。放眼當(dāng)世,這樣的企業(yè)不外乎Intel、AMD和ARM,現(xiàn)在還加上龍芯。而依賴Intel、AMD和ARM授權(quán)的CPU廠商,則不具有二次授權(quán)的資格,甚至不能對(duì)指令集和IP核自主升級(jí)。
LoongArch指令集授權(quán)正在籌劃,龍芯設(shè)計(jì)的CPU核心已經(jīng)向10家公司和組織開放授權(quán),其中雄立科技已經(jīng)完成了產(chǎn)品化,成為第二家設(shè)計(jì)和銷售LoongArch架構(gòu)CPU的企業(yè)。
優(yōu)秀的CPU一定有優(yōu)秀的核心
我們知道CPU是由很多功能模塊組成的,大到CPU核心,小到溫度傳感器,各種功能模塊都統(tǒng)稱為IP核。大多數(shù)CPU企業(yè)都是購買CPU核心、內(nèi)存控制器、PCIe控制器等各種IP核再集成為CPU。國內(nèi)只有龍芯因?yàn)榉e累了完備的IP庫,可以不依賴外來IP核。
CPU核心是CPU最重要的組成部分,龍芯二十多年來大約設(shè)計(jì)了14款CPU核心。龍芯的CPU分為三個(gè)大系列,命名為1、2、3系列或小、中、大系列。龍芯CPU核心的型號(hào)也極其直白,比如LA132的第一個(gè)數(shù)字“1”表示單發(fā)射,后來的“32”表示32位,LA664就是6發(fā)射64位。
1號(hào)系列CPU核心用于低功耗嵌入式設(shè)備,其中LA132的用途及每GHz的性能對(duì)標(biāo)ARM Cortex-M4。龍芯的合作企業(yè)有用它做SSD主控的、做智能門鎖的、做機(jī)器人玩具的,還有做跑步機(jī)的……
2號(hào)系列CPU核心面向的是中高端工控、網(wǎng)絡(luò)設(shè)備、輕薄筆記本等。其中LA264對(duì)標(biāo)的是ARM Cortex-A55,LA364對(duì)標(biāo)ARM Cortex-A75(實(shí)際上LA364每GHz的性能與Cortex-A76更接近)。Cortex-A76工藝下限是TSMC的16nm,推薦7nm,而LA364僅要求28nm工藝即可,使用12nm工藝時(shí)就能達(dá)到與使用7nm工藝的A76相近的頻率,更符合國內(nèi)實(shí)際情況,也更有性價(jià)比。
3號(hào)系列CPU核心用于桌面和服務(wù)器CPU,龍芯3A6000的核心就是LA664,上一代龍芯3A5000的核心是LA464。龍芯3號(hào)系列的核心經(jīng)過了4次大版本迭代,LA664架構(gòu)的龍芯3A6000的總體性能已經(jīng)演進(jìn)到了第10代酷睿的水平,在一些測試軟件下,單核心同頻性能甚至能達(dá)到挑戰(zhàn)14代酷睿的水平。
4個(gè)代次的CPU核心不只是規(guī)格的變化,更重要的是每一個(gè)大版本都進(jìn)行過多次改進(jìn),通過優(yōu)化微結(jié)構(gòu)實(shí)現(xiàn)性能提升。設(shè)計(jì)CPU微結(jié)構(gòu)的細(xì)節(jié)是CPU企業(yè)的秘密,除了微結(jié)構(gòu)本身,還有設(shè)計(jì)思路、優(yōu)缺點(diǎn)、多種方案的抉擇過程……只有高質(zhì)量的設(shè)計(jì)鍛煉,才能融會(huì)貫通。如果以為買到一套CPU核心源碼就能具有同等的能力,那就像學(xué)渣以為拿到學(xué)霸的試卷就能并列第一那樣滑稽。
因?yàn)長oongArch的設(shè)計(jì)比MIPS優(yōu)秀得多,所以在GS464V被LA464替換之后,每GHz的性能提高了10%左右,這是人們始料未及的。不過LA464畢竟不是專為LoongArch設(shè)計(jì),很多指令是通過微操作進(jìn)行兼容處理,因此基于LA664的龍芯3A6000這款CPU才是LoongArch更合適的載體。LA664的規(guī)格提高了很多,微結(jié)構(gòu)也有重大突破,每GHz的性能提高了60%以上。特別是增加了超線程支持后,多核性能提高一倍以上。
每GHz性能挑戰(zhàn)14代酷睿還不是LA664的極限,據(jù)說以LA664為基礎(chǔ)優(yōu)化出的后續(xù)版本預(yù)計(jì)每GHz的性能還能提高20%~30%。如果能實(shí)現(xiàn),這將是超過Intel處理器,挑戰(zhàn)蘋果處理器的水平。蘋果也是走的高IPC路線,擅長低頻打高頻,只不過龍芯受限于工藝,主頻比蘋果的CPU更低。在工藝落后,也沒有充足的資金多次流片改進(jìn)物理設(shè)計(jì)的現(xiàn)狀下,提高每GHz的性能是最具性價(jià)比的路線,也是難度最高的路線。
龍芯CPU未來的產(chǎn)品規(guī)劃
龍芯除了升級(jí)CPU核心,其他IP核也在持續(xù)改進(jìn)和增加。比如3A6000中的內(nèi)存控制器雖然和3A5000的規(guī)格一樣,都是DDR4 3200,但實(shí)際訪存性能提高了一倍,比第10代酷睿訪問相同規(guī)格內(nèi)存的速度還快,和第13代酷睿差不多,還突破了片間高速互聯(lián)技術(shù)。龍芯第二代自研圖形處理器核LG200支持圖形加速、科學(xué)計(jì)算加速、AI加速,并支持OpenGL 4.0和OpenCL 3.0的API。龍芯的這些年進(jìn)步所形成的技術(shù)儲(chǔ)備,使它能更加自由、快速地組合產(chǎn)品,比如最下面一張圖片中沒有實(shí)物照片的就是規(guī)劃中的新款CPU。
桌面CPU已經(jīng)有了3A6000,服務(wù)器CPU 3C6000就成了龍芯的當(dāng)務(wù)之急。3C6000集成16個(gè)LA664核心,因?yàn)閱魏诵阅芗岸嗪诵侍岣?,通用處理器性能將達(dá)到上一代3C5000的兩倍,訪存性能也是3C5000的兩倍。有了3C6000之后,就能使用龍鏈技術(shù)(Loongson Coherent Link)把多顆龍芯3C6000整合成核心更多的產(chǎn)品,如32核的3D6000、64核的3E6000。
同樣比較迫切的是2K3000,它集成了8個(gè)LA364核心以及GPGPU。2K3000的單核性能與上一代桌面CPU 3A5000相當(dāng),8核并行性能應(yīng)該非常接近4核8線程的3A6000。2K3000的低功耗、全集成設(shè)計(jì)使它比3A5000和3A6000更適合輕薄型筆記本電腦。
最后的7000系列是升級(jí)工藝、提高頻率的一代。龍芯7000系列能把頻率提到多少尚未可知,但以龍芯低頻戰(zhàn)高頻的能力,料想能與Intel酷睿14代以及同代的服務(wù)器CPU匹敵吧!
Intel、AMD和ARM都是技術(shù)強(qiáng)大、積累深厚的CPU企業(yè),又是各個(gè)領(lǐng)域的先行者,龍芯的市場競爭能力遠(yuǎn)不如它們。雖然龍芯無論在多么拮據(jù)的時(shí)候都在堅(jiān)持研發(fā)更好的產(chǎn)品,但市場對(duì)龍芯CPU的接受程度又有誰說得準(zhǔn)呢?不過市場歸市場,技術(shù)歸技術(shù),只要龍芯CPU性能可與Intel這些巨頭齊頭并進(jìn),就是自主CPU的大勝利。
審核編輯:劉清
-
處理器
+關(guān)注
關(guān)注
68文章
19103瀏覽量
228829 -
cpu
+關(guān)注
關(guān)注
68文章
10807瀏覽量
210854 -
龍芯
+關(guān)注
關(guān)注
3文章
331瀏覽量
31181
原文標(biāo)題:榮獲國產(chǎn)科技特別貢獻(xiàn)金獎(jiǎng):龍芯CPU的性能升級(jí)之路
文章出處:【微信號(hào):Microcomputer,微信公眾號(hào):Microcomputer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論