8月底,華為發(fā)布最新全球首款商用7nm AI芯片:麒麟980,在六個(gè)方面達(dá)到了世界第一。在9月20日的世界人工智能峰會(huì)上,華為麒麟AI首席科學(xué)家芮祥麟發(fā)表演講,詳細(xì)介紹了麒麟980的架構(gòu)設(shè)計(jì)和性能提升,指出對(duì)算子的支持和開(kāi)放是移動(dòng)AI架構(gòu)開(kāi)發(fā)的關(guān)鍵。華為的HiAI平臺(tái)可以將硬件復(fù)雜度對(duì)用戶屏蔽,讓不懂機(jī)器學(xué)習(xí)的人也實(shí)現(xiàn)自己的應(yīng)用。
華為于8月底重磅發(fā)布的AI芯片麒麟980在幾個(gè)方面做到了全球第一:全球首款商用7nm手機(jī)SoC芯片;全球首款Cortex-A76 Based CPU;全球首款雙核NPU;全球首款Mali-G76 GPU;全球首款1.4Gbps Cat.21 Modem;全球首款支持2133MHz LPDDR4X的手機(jī)SoC芯片。
9月20日,在北京國(guó)家會(huì)議中心舉辦的AI World 2018世界人工智能峰會(huì)上,華為麒麟AI首席科學(xué)家芮祥麟博士發(fā)表了題為《麒麟980:移動(dòng)AI的發(fā)動(dòng)機(jī)》的演講。
芮祥麟博士詳細(xì)介紹了麒麟980芯片的設(shè)計(jì)和性能提升,以及麒麟980的融合能力開(kāi)放架構(gòu)中非常重要的HiAI Foundation。HiAI Foundation能力向搭載麒麟970,麒麟980的華為手機(jī)全部開(kāi)放,具有強(qiáng)大的計(jì)算能力、多框架支持、更加豐富的算子和更加方便快捷的集成等優(yōu)勢(shì)。
在目前數(shù)據(jù)隱私保護(hù)情況下,很多事情實(shí)際上無(wú)法單獨(dú)由云上的計(jì)算力完成,必須要在端側(cè)完成。
這是非常復(fù)雜的多目標(biāo)的優(yōu)化問(wèn)題,存在能耗、內(nèi)存上的限制,而且在各種場(chǎng)景下有不同的需求。華為的一個(gè)主要目的就是能夠在端側(cè)開(kāi)發(fā)出很好的芯片,能夠?qū)⒈M量多的處理能力在端側(cè)完成,在最大程度上提升用戶體驗(yàn)。
以下是芮祥麟博士的演講內(nèi)容:
芮祥麟:大家好,我是華為麒麟AI的首席科學(xué)家芮祥麟,很榮幸參加AI World 2018大會(huì),跟大家一起分享一些成果。
從芯片的角度出發(fā),我選擇的題目是《Mobile AI發(fā)動(dòng)機(jī):麒麟980》。
在現(xiàn)在這個(gè)時(shí)刻講這個(gè)題目,挑戰(zhàn)很大。一年前,華為麒麟970 AI芯片是第一個(gè)開(kāi)發(fā)出來(lái),也是第一個(gè)產(chǎn)品化的。過(guò)去一段時(shí)間內(nèi),各大企業(yè)在AI芯片上的投入風(fēng)起云涌,但我們相信,新一代麒麟980芯片仍然是領(lǐng)先群雄的。
我想先回顧一下去年推出麒麟970之后整個(gè)市場(chǎng)的反應(yīng),確實(shí)有質(zhì)疑聲,但絕大部分都是相當(dāng)正面的評(píng)價(jià),也有一些客戶提出了比較好的建議。我們根據(jù)市場(chǎng)和合作伙伴的反饋,進(jìn)一步對(duì)芯片進(jìn)行改良和升級(jí),就是今天給大家介紹的麒麟980。
麒麟980:六項(xiàng)世界第一,不同CPU配置滿足動(dòng)態(tài)需求
前一段時(shí)間已經(jīng)有很多媒體報(bào)道,麒麟980在幾個(gè)方面做到了世界第一:全球首款7納米SoC芯片,全球首款基于Cortex A76 CPU定制開(kāi)發(fā),全球首款雙核NPU,全球首款商用Mali G76 GPU,全球率先支持LTE Cat.21,峰值下載速率達(dá)到1.4Gbps,全球首款可以支持LPDDR4X顆粒,最高主頻達(dá)到2133Mhz。
CPU是8核,不同大小的核適合各個(gè)不同的需求,NPU是雙核的。其他包括Modem、DDR,還有ISP,整個(gè)設(shè)計(jì)工程相當(dāng)復(fù)雜,這是大批一流專家共同努力的成果。
從麒麟920開(kāi)始,到950、970、980,這是一個(gè)不斷成長(zhǎng)的過(guò)程,麒麟980集成了69億晶體管,芯片面積持續(xù)縮小,晶體管密度持續(xù)提升。這樣做是為了能夠在非常有限的面積內(nèi)降低能耗,提高計(jì)算力。
在芯片方面,CPU是由兩個(gè)高性能的超大核,兩個(gè)高能效的大核,加上四個(gè)高能效的小核一起協(xié)作。在應(yīng)用方面,播放音樂(lè)只需打開(kāi)CPU的小核,在社交應(yīng)用場(chǎng)景用高能效的大核加上三個(gè)小核。進(jìn)入重負(fù)載的游戲場(chǎng)景,就需要八個(gè)核都要用上。
針對(duì)不同的場(chǎng)景,比如音樂(lè)、導(dǎo)航、通話或拍照,我們動(dòng)員了各個(gè)不同的核,這是一個(gè)基于能耗、響應(yīng)速度、內(nèi)存應(yīng)用的復(fù)雜考量,是我們的工程師優(yōu)化的結(jié)果。
可以看到,全球首款7納米SoC芯片上,在各方面都有了很大提升,相比麒麟920,晶體管密度提高了6.8倍,性能方面提高了2.5倍,能效方面提高了4倍。
以圖像識(shí)別速度為例,我們比友商1、友商2提高很多,基本上可以說(shuō)快了3倍。在AI性能方面,跟友商的芯片比起來(lái),用Resnet4或Inception V3測(cè)試參考,無(wú)論能效還是性能方面都有很大的提升。計(jì)算力方面,我們用三個(gè)場(chǎng)景來(lái)進(jìn)行比較,物體識(shí)別、實(shí)時(shí)圖像處理,實(shí)時(shí)分割。
麒麟970可以做輪廓、圖片以及一些粗略的分割,但是在麒麟980可以做得更細(xì)致,對(duì)整個(gè)姿態(tài)、形狀、細(xì)節(jié)能夠做到很好的視頻處理,在分割方面也更精準(zhǔn)。
圖中最底層是整個(gè)SoC布局,如何基于SoC布局提供更好的能力?在ISP方面,我們能夠提供低延遲的視頻處理流水線和高質(zhì)量圖象處理流水線,這些流水線可以執(zhí)行一些基本的AI任務(wù),在視頻方面,可以進(jìn)行人體關(guān)節(jié)檢測(cè)識(shí)別,還有姿態(tài)識(shí)別。
圖片方面的任務(wù)更多,文本識(shí)別、圖像超分、圖像降噪、RGB還原等。在視頻方面,可以執(zhí)行主體識(shí)別、區(qū)域分割、主體摳圖,這些提供了一些基礎(chǔ)的能力模塊,能夠高效支撐AR SLAM,做到視頻流姿態(tài)提取、地圖重建等。這些功能不只是我們自己用,也通過(guò)API開(kāi)放給第三方。可以支持第三方的AR APP、視頻APP和圖片APP。
開(kāi)放架構(gòu)支持自定義算子,提升芯片集成調(diào)動(dòng)能力
這張圖上,最底層是SoC結(jié)構(gòu),有很好的傳感器處理,DDK是我們的庫(kù),還有API,配合攝像頭,可以提供Camera DDK,做到前光、暗光、高動(dòng)態(tài)、高分辨率,在AR DDK方面提供 SLAM算子加速、人臉建模、跟蹤能力等1000多個(gè)能力。我們有33個(gè)API,147個(gè)算子支持。
算子支持非常關(guān)鍵,各個(gè)框架的算子都很多,我們支持147個(gè)算子,而且支持更開(kāi)放的能力,支持自定義算子,并將這些算子和硬件特性實(shí)現(xiàn)很好地適配。同樣都叫算子,比如LSTM,當(dāng)映射到芯片層面上時(shí),如何能夠最大化地發(fā)揮芯片的計(jì)算力,做到最大化地降低能耗、響應(yīng)迅速,這些都是要仔細(xì)思考的問(wèn)題。我們?cè)谒阕訉用娴拈_(kāi)放更快、更有彈性,適配性更強(qiáng)。
整個(gè)軟件棧的最底層是我們的SoC,上面是驅(qū)動(dòng)器,這里面有調(diào)度系統(tǒng),可以發(fā)揮集成調(diào)度能力,以及CPU、GPU、DSP、NPU的綜合能力。這有點(diǎn)像機(jī)器學(xué)習(xí)中所謂“集成學(xué)習(xí)”,也就是執(zhí)行各種架構(gòu)的芯片的集成調(diào)度能力。它支持谷歌的在線推理,也支持離線推理。
這兩個(gè)模型各有優(yōu)缺點(diǎn)。根據(jù)使用場(chǎng)景以及模型的復(fù)雜度的不同,我們做到二者都能夠支持。當(dāng)然,也會(huì)支持一些通用框架,比如Caffe、TensorFlow各個(gè)應(yīng)用,提供端到端的開(kāi)發(fā)工具鏈,即集成開(kāi)發(fā)環(huán)境,同時(shí)支持很方便的編譯器和顯示工具。
每個(gè)不同結(jié)構(gòu)的處理器都能夠發(fā)揮作用,NPU專門(mén)針對(duì)張量計(jì)算。我們的核可以快速處理特殊指令集、特殊結(jié)構(gòu),能夠很快地處理高維度的張量運(yùn)算。如果把一個(gè)算法拆開(kāi),事實(shí)上到了芯片層面,就只剩下張量運(yùn)算、矢量運(yùn)算、標(biāo)量運(yùn)算。矢量運(yùn)算多半用于圖象處理以及大規(guī)模的并行處理,標(biāo)量運(yùn)算通常是處理一些控制指令集,邏輯控制,和一些通用的運(yùn)算。
比如要估算模型的生命周期,實(shí)現(xiàn)從模型產(chǎn)生到模型格式的自動(dòng)轉(zhuǎn)換,就可以生成一個(gè)離線模型,它的執(zhí)行效率會(huì)更高,運(yùn)算速度更快,可以加載到NPU上面做各種運(yùn)算。
跟CPU相比,以NPU為驅(qū)動(dòng)的處理架構(gòu)的整個(gè)性能提升了25倍,整個(gè)能效提高了50倍,甚至在整個(gè)NPU和CPU混合調(diào)度情況下,也能有非常好的收益。在算子的支持方面,我們至少在AI芯片的級(jí)別上還保持領(lǐng)先,經(jīng)過(guò)一年的積累,整個(gè)算子的豐富度、復(fù)雜度,每顆算子的性能都提升了很多。
HiAI Foundation:讓不懂機(jī)器學(xué)習(xí)的用戶實(shí)現(xiàn)自己的應(yīng)用
我們的HiAI開(kāi)放架構(gòu)已經(jīng)走了一年,去年這個(gè)時(shí)候是麒麟970配合Mate10發(fā)布,經(jīng)過(guò)一年的努力,我們對(duì)于整個(gè)生態(tài),對(duì)于端側(cè)AI框架需求有了更深的體驗(yàn),我們會(huì)繼續(xù)走下去。
我們的目標(biāo)是:第一,希望能夠設(shè)計(jì)出更好的芯片,增加算力。第二,希望能夠?qū)τ脩羝帘卧O(shè)計(jì)方案的硬件復(fù)雜度,也就是說(shuō),使用很簡(jiǎn)單的接口,讓不太懂機(jī)器學(xué)習(xí)的客戶也能調(diào)用接口,實(shí)現(xiàn)他們自己的應(yīng)用。
如果客戶對(duì)機(jī)器學(xué)習(xí)有一定接觸,可以利用我們的接口很快搭建出一個(gè)模型及其訓(xùn)練優(yōu)化方案,這些都是我們希望能夠通過(guò)HiAI平臺(tái)實(shí)現(xiàn)的目標(biāo)。
整個(gè)計(jì)算在手機(jī)上面可以做到姿態(tài)識(shí)別、對(duì)象跟蹤,這些都不是在云上計(jì)算的,而是將整個(gè)模型搬到端側(cè)來(lái)實(shí)現(xiàn),模型大小適中,處理速度很快,我們?yōu)榇艘哺械椒浅r湴粒覀€(gè)人也參與過(guò)一些模型的構(gòu)建。
最后說(shuō)一說(shuō)我們?yōu)槭裁慈绱藢W㈤_(kāi)發(fā)AI芯片。在目前數(shù)據(jù)隱私保護(hù)形勢(shì)下,很多事情無(wú)法單獨(dú)由云上的計(jì)算力完成,必須要在端側(cè)去完成。這是非常復(fù)雜的多目標(biāo)的優(yōu)化問(wèn)題。
這往往要面對(duì)能耗和內(nèi)存的雙重限制,面對(duì)各種場(chǎng)景下的不同需求。比如在車(chē)載應(yīng)用中要求響應(yīng)速度很快,對(duì)各種圖片和視頻的處理精確度要求比較高,在聲音方面,降噪的要求就非常高,如何能夠利用GAN的方式去把聲紋和內(nèi)容分開(kāi),這中間往往牽扯到個(gè)人隱私。
我們的主要目的是要在端側(cè)方面開(kāi)發(fā)出高性能的芯片,將盡量多的處理過(guò)程在端側(cè)完成,爭(zhēng)取提供最好的用戶體驗(yàn)。
-
芯片
+關(guān)注
關(guān)注
452文章
50216瀏覽量
420958 -
麒麟980
+關(guān)注
關(guān)注
5文章
399瀏覽量
22233
原文標(biāo)題:華為芮祥麟:讓麒麟980成為未來(lái)移動(dòng)AI的發(fā)動(dòng)機(jī)
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論