來源:智東西公開課
智東西公開課推出的AI芯片系列課完結(jié)第五講,華登國際合伙人王林就主題《人工智能帶來半導(dǎo)體的又一波創(chuàng)新浪潮》進行了一場系統(tǒng)且深入的講解。在此番講解中,王林認為,“隨著技術(shù)推動力——摩爾定律,受到越來越大的挑戰(zhàn),而應(yīng)用的最大推動力——智能手機,也遇到了非常大的增長瓶頸”,全球半導(dǎo)體行業(yè)已經(jīng)進入后摩爾時代與后智能手機時代。他判斷,在后摩爾+后智能手機時代,神經(jīng)網(wǎng)絡(luò)/深度學(xué)習(xí)已經(jīng)成為半導(dǎo)體的新戰(zhàn)場。
在行業(yè)應(yīng)用層面,深度學(xué)習(xí)在快速變革傳統(tǒng)行業(yè)并帶來非常多新的應(yīng)用,比如無人駕駛、醫(yī)療影像分析、工業(yè)自動化,F(xiàn)inTech。尤其是汽車,已經(jīng)變成非常巨大的半導(dǎo)體應(yīng)用平臺。“全球所有頂尖的半導(dǎo)體公司都在圍繞汽車來做未來的產(chǎn)品規(guī)劃,希望其能夠成為智能手機之后,對全球半導(dǎo)體行業(yè)有巨大推動力的推手。”而在處理器或架構(gòu)層面,圍繞深度學(xué)習(xí)訓(xùn)練與推理二個維度的加速需求,尤其是云端訓(xùn)練與推理、以及終端推理,出現(xiàn)非常多的芯片層面實現(xiàn)加速的創(chuàng)新方法或技術(shù)。結(jié)合有代表性的AI加速芯片產(chǎn)品或案例,就其中存在的創(chuàng)業(yè)機會與投資機會,他進行了深入的介紹和分析。
主講實錄
王林:大家晚上好,我是華登國際的王林,很高興今天晚上有機會在智東西公開課的AI芯片社群跟大家做一些交流。其實今天晚上的演講壓力還是很大的,因為我看到群里有很多我的老朋友,都是芯片或者AI領(lǐng)域的高手。
平時演講我都是盡量在懂芯片的人面前講AI,在懂AI的人面前講芯片,但是今天就沒辦法這么做了,因為群里有很多芯片和AI領(lǐng)域的高手。我盡我所能,如果有說的不對或者不太好的地方,還請大家多多包涵,主要是能有這樣一個跟大家交流的機會確實非常難得。
今天來講AI加速芯片還是一個挺應(yīng)景的事情,因為昨天深鑒科技宣布被Xilinx全資收購。這也是我們能夠看到近期少有的中國高科技公司被美國半導(dǎo)體公司并購的案例,以前我們更熟悉的是聽到中國資本去海外并購一些科技公司或者半導(dǎo)體公司。深鑒科技在這方面做了一個很好的范例。從另一方面也說明我們中國的AI芯片在全球也處于比較領(lǐng)先的地位,當(dāng)然也證明了AI芯片方面的創(chuàng)業(yè)還是挺有前(錢)景的。
講到半導(dǎo)體,不得不從摩爾定律說起。我相信群里半導(dǎo)體從業(yè)人員對摩爾定律已經(jīng)非常熟悉了,從Intel創(chuàng)始人戈登·摩爾提出摩爾定律到現(xiàn)在已經(jīng)53年了。過去的53年中,半導(dǎo)體行業(yè)一直受著摩爾定律的指導(dǎo)。芯片越做越小,單位面積的晶體管越來越多,功耗越來越低,價格越來越便宜,也使得這個行業(yè)過去五十多年來一直保持不錯的增長趨勢。
我想給大家看下這張圖。其實過去在投資界有一個共識,大家都認為半導(dǎo)體投資是非常不劃算的事情,風(fēng)險高、投資大、回報相對來說又比較低。所以,風(fēng)險投資對半導(dǎo)體行業(yè)的投資在過去十來年一直不溫不火,甚至是持續(xù)下降的趨勢。當(dāng)然半導(dǎo)體行業(yè)的增長也基本上印證了這樣一個理念,也就是從前些年來看,全球半導(dǎo)體行業(yè)并沒有一個非常大的增長幅度。
從右邊這張表可以看到2016年全球半導(dǎo)體的增長率也就7%,很多時候半導(dǎo)體的增長率可能只有2%-3%。但是,很奇怪的是2017年全球半導(dǎo)體有了一個跳躍式增長,達到20%。這是過去十年來半導(dǎo)體行業(yè)從來沒有看到過的事情,大家都瞠目結(jié)舌。所以,大家是否也有這樣一個疑問:為什么2017年的增長這么大?
還有一個比較值得關(guān)注的點,歐美的半導(dǎo)體行業(yè)已經(jīng)持續(xù)呈衰退狀態(tài),但是2017年,其增長甚至比中國還要高,盡管中國一直維持著半導(dǎo)體高速增長的趨勢。從全球來看,中國市場仍然是增長最顯著的動力源,也是一個非常耀眼的明星。
其實半導(dǎo)體的增長和集成電路芯片的應(yīng)用息息相關(guān)。不得不說過去十年半導(dǎo)體的增長,一定依賴于智能手機行業(yè)的爆發(fā)式增長??梢哉f,到目前為止可能全球有一半的芯片是為了智能手機生產(chǎn)和使用的。所以說,智能手機一定是過去十年集成電路行業(yè)發(fā)展非常大的推動力。
但這里又不得不說,到現(xiàn)在為止我們已經(jīng)到了后智能手機時代。這里摘錄了一些新聞,通過標題大家就可以看到從2016年開始,整個智能手機的增長相比之前是非常緩慢的。相信大家日常生活中應(yīng)該也能明顯感受到,手機上的創(chuàng)新越來越少,換機的動力也越來越小,所以整個市場的增長持續(xù)一個很平靜的狀態(tài)。
同時,從技術(shù)角度來看,摩爾定律近期也受到了非常大的挑戰(zhàn)。雖然我仍然堅信摩爾定律至少在近些年會持續(xù)演進下去,但是不得不說,隨著工藝節(jié)點的越來越小,也會帶來成本的顯著性提高。我相信,未來7nm、5nm、3nm量產(chǎn)的日子一定會到來,但是也許到了那天可以用上或者說用得起那么先進工藝的芯片公司也寥寥可數(shù)。業(yè)界目前有這樣一個共識:28nm應(yīng)該會是一個長期存在的工藝節(jié)點,其性能、成本是一個比較合理的均衡狀態(tài)。
對于半導(dǎo)體行業(yè)從業(yè)人員來說,這是一個很悲催的事情。技術(shù)的推動力——摩爾定律,受到越來越大的挑戰(zhàn),而應(yīng)用的最大推動力——智能手機,也遇到了非常大的增長瓶頸。從技術(shù)推動力和應(yīng)用兩大層面來說,半導(dǎo)體行業(yè)都遇到了很大的問題。所以,這也進一步印證了為什么前幾年投資界對半導(dǎo)體行業(yè)這么悲觀,從某種程度上來說也是有一定道理的。
當(dāng)然,我們不能不承認,敢從事半導(dǎo)體方面的人員一定是非常值得尊敬的,都是敢啃硬骨頭的。從我發(fā)的這張圖可以看到,其實工業(yè)界已經(jīng)在嘗試用多種方法盡量去使摩爾定律能夠更長期的延續(xù)下去,或者能夠以更低的成本延續(xù)下去,包括大家所知道的FinFET、FD SOI,都是業(yè)界正在推動的一些主流技術(shù)路線。EUV光刻技術(shù),三維封裝等都是能夠使摩爾定律長期維持下去的一個非常有效的手段。
從我個人來看,如果半導(dǎo)體行業(yè)仍然要像過去智能手機時代一樣飛速成長,一定要找到下一個應(yīng)用推手,也就是說一定要找到后智能手機時代什么應(yīng)用才是對我們半導(dǎo)體行業(yè)有巨大推動力的應(yīng)用。我們來看下戈登·摩爾怎么說,他五十三年前提出摩爾定律的時候,同時做了一個預(yù)言。大家可以看下上圖右上角用紅色字體標注的這段話。
其實戈登·摩爾在五十三年前已經(jīng)說了“集成電路會帶來家用電腦或者至少是和中央電腦所連接的終端設(shè)備、自動駕駛、個人便攜通訊設(shè)備等”。看到這里,我們就應(yīng)該清楚戈登·摩爾在五十三年前所做的預(yù)言,到今天為止已經(jīng)基本上都實現(xiàn)了。也就是說,其實戈登·摩爾已經(jīng)看到了集成電路的發(fā)展會帶來非常多的新應(yīng)用,而這些新應(yīng)用反過來會成為集成電路發(fā)展的巨大推動力。
說到這里,讓我們來看,在后智能手機時代,什么才是集成電路行業(yè)的最大推動力呢?
人工智能的出現(xiàn)讓業(yè)界眼前一亮,或者是讓半導(dǎo)體行業(yè)找到了新的方向和推動力。當(dāng)然,很多人會說,深度學(xué)習(xí)也好、神經(jīng)網(wǎng)絡(luò)也好,只是一個技術(shù),為何能夠成為從應(yīng)用角度去推動集成電路發(fā)展的一個推手呢?
很明顯,到現(xiàn)在為止,大家耳熟能詳?shù)膹摹盎ヂ?lián)網(wǎng)+”到“AI+”可以看到深度學(xué)習(xí)的出現(xiàn),給非常多的傳統(tǒng)行業(yè)帶來翻天覆地的變革機會,甚至帶來一些新的應(yīng)用。我覺得,這是深度學(xué)習(xí)所帶給我們的廣闊天地。大家比較熟悉的AlphaGo下圍棋,包括戈登·摩爾所說的無人駕駛汽車,其背后不得不說是深度學(xué)習(xí)的出現(xiàn)才帶來了這樣巨大的、有前景的應(yīng)用。當(dāng)然,還有醫(yī)療影像分析,GE、飛利浦、西門子這三家巨頭在他們最新的醫(yī)療影像設(shè)備上,其實已經(jīng)集成了非常強大的人工智能算法來輔助醫(yī)療影像科的醫(yī)生去更快更好更準確的做診斷;工業(yè)自動化領(lǐng)域,半導(dǎo)體生產(chǎn)制造、封裝測試領(lǐng)域帶有機器視覺功能的機器已經(jīng)非常多了,當(dāng)然還有FinTech。深度學(xué)習(xí)給各行各業(yè)帶來的變革已經(jīng)非常明顯。
我們應(yīng)該感謝深度學(xué)習(xí)給集成電路行業(yè)的發(fā)展帶來這么多新的應(yīng)用機會。但是反過來,沒有集成電路行業(yè)的有力支持,深度學(xué)習(xí)也不可能達到今天這樣令全球矚目的地位。
上面這張圖展示的是四代AlphaGo所使用的硬件平臺。第一代AlphaGo Fan是跑在176個GPU上,打敗李世石的第二代AlphaGo Lee當(dāng)時是跑在48個第一代Google TPU上,打敗柯潔的第三代AlphaGo Master跑在4個Google第二代TPU上,包括前不久出現(xiàn)的使用對抗神經(jīng)網(wǎng)絡(luò)等算法的AlphaGoZero仍然是跑在4個TPU上。
大家還是否記得一開始我說的為什么去年歐美半導(dǎo)體的增長這么大?在這里想跟大家說一下,我覺得AI是一個非常大的推動力,帶來的更多是云端的一些需求,對數(shù)據(jù)和算力上的創(chuàng)新需要大量的存儲、更快的光通信等,同時對工業(yè)和汽車領(lǐng)域也帶來了非常多新的機會。
不得不說,歐美的半導(dǎo)體廠家在服務(wù)器、工業(yè)、汽車領(lǐng)域仍然擁有很強大的不可撼動的優(yōu)勢和地位。如果說這三大領(lǐng)域得到了非常快速的應(yīng)用增長和半導(dǎo)體芯片需求的增長,那么首先得益的肯定是歐美半導(dǎo)體公司。這也是為什么歐美的半導(dǎo)體公司在2017年能夠有這么耀眼的成績。
正如戈登·摩爾所說,集成電路的發(fā)展帶來了無人駕駛汽車,在這里也要感謝深度學(xué)習(xí)算法的出現(xiàn),毫無疑問汽車已經(jīng)變成了一個非常巨大的半導(dǎo)體應(yīng)用平臺??梢哉f全球所有頂尖的半導(dǎo)體公司都在圍繞著汽車來做未來的產(chǎn)品規(guī)劃,希望其能夠成為智能手機之后,對全球半導(dǎo)體行業(yè)有巨大推動力的推手。當(dāng)然這個行業(yè)也在經(jīng)歷著巨大的變化,就是要實現(xiàn)汽車行業(yè)的四個現(xiàn)代化:新能源化、智能化、共享化、互聯(lián)網(wǎng)化。
從智能化的角度來說,沒有深度學(xué)習(xí)的出現(xiàn),智能化的到來將是遙不可及的事情。但也正是因為智能化的出現(xiàn),給了汽車非常多的賣點,使得消費者愿意去選擇更智能、更具有吸引力的汽車,也使得汽車行業(yè)的增長帶來了集成電路行業(yè)這樣一個巨大的應(yīng)用平臺。
這張圖非常有意思,我經(jīng)常喜歡跟朋友們分享福特、通用和特斯拉這三家車廠最近的一些變化。通過這張圖大家可以看到汽車行業(yè)正在經(jīng)歷著巨大的變化,一方面是因為汽車的半導(dǎo)體化電子化,另一方面也是因為深度學(xué)習(xí)帶來的汽車智能化。大家可以看到擁有電子化和智能化的特斯拉的市值已經(jīng)和通用、福特到了一個相同的位置。但是從出貨量和成立時間來看,特斯拉跟這兩位老大哥的差距其實還很大。
前面講了一些應(yīng)用以及半導(dǎo)體行業(yè)的一些發(fā)展趨勢,我覺得現(xiàn)在有必要再和大家探討一下,深度學(xué)習(xí)到底給我們帶來了什么?帶給半導(dǎo)體行業(yè)的創(chuàng)新點到底是什么?因為我是學(xué)工科出身的,其實對于學(xué)工科的學(xué)生來說,一開始接觸到深度學(xué)習(xí)會帶來一個非常大的思維障礙。因為對于我們來說,以前學(xué)習(xí)的理論或者定理,總是要知道來龍去脈,不僅要知其然,還要知其所以然。但是對于深度學(xué)習(xí)來說,其實我們很難把他搞得這么清楚。
打一個不恰當(dāng)?shù)谋确?,深度學(xué)習(xí)更像中醫(yī),可能更多的是憑經(jīng)驗或者感覺,其實很多時候?qū)ξ覀儊碚f深度學(xué)習(xí)就像一個黑盒子或者灰盒子的狀態(tài),我們沒辦法也沒能力去把這么龐大的神經(jīng)網(wǎng)絡(luò)里面的運算規(guī)律搞清楚。
但是不管怎樣,深度學(xué)習(xí)帶給我們的結(jié)果大家是看得到的,深度學(xué)習(xí)我們使用的時候需要做訓(xùn)練,然后反過來需要推理,這樣的過程我們已經(jīng)做得非常熟了,所以在以后工程化應(yīng)用過程中,已經(jīng)沒有理論上的一些障礙了。
深度學(xué)習(xí)也確實給工業(yè)界帶來了巨大的效率提升,雖然我這里只是列了一些比較老的數(shù)據(jù),但其實96.4%的準確度已經(jīng)已經(jīng)超過了人類的水平。
那么深度學(xué)習(xí)要選擇處理平臺或者什么樣的架構(gòu)來做運算呢?其實很自然的一個想法就是,既然神經(jīng)網(wǎng)絡(luò)是從人腦來仿真和模擬出來的,那么我們是不是應(yīng)該有一個類腦運算平臺或者類腦芯片呢?其實業(yè)界也有非常多的公司在做這方面的探索。
在這里我就列了兩家做公司做的類腦芯片:IBM的Truenorth和高通的Zeroth,都是比較典型的類腦芯片。不知道大家是否有印象,大概一兩年前,國內(nèi)曾有報道稱浙江大學(xué)發(fā)布了應(yīng)該是國內(nèi)第一款基于SNN(脈沖神經(jīng)網(wǎng)絡(luò)) 的類腦芯片。
因為負責(zé)這款芯片開發(fā)的教授正好是我浙大的師兄,所以看到這個新聞之后,我也跟他做了一些溝通,就是基于SNN的類腦架構(gòu)在理論水平和芯片水平上到底是什么層次?可以看到趨勢還是很明顯的,至少在工程上已經(jīng)得到了實現(xiàn)的可能性驗證,他們在OCR的識別上應(yīng)該有達到70-80%的準確度。但是,很遺憾的是SNN一直沒有非常合適運算平臺,造成SNN從理論、算法的基礎(chǔ)研究上是嚴重滯后于深度學(xué)習(xí)的科研水平。
不管怎樣,我認為類腦芯片還是非常值得我們關(guān)注的一個未來趨勢。但是,短期來看還是基于深度學(xué)習(xí)算法和運算平臺更值得工業(yè)界去關(guān)注和探索。
這里我們不得不提到另外一個人——馮·諾依曼。他在1946年提出的馮諾依曼架構(gòu)一直指導(dǎo)著我們計算體系架構(gòu)的發(fā)展。絕大多數(shù)的體系架構(gòu)創(chuàng)新都是基于馮諾依曼架構(gòu)的,都沒有超出他的框架范圍。馮諾依曼提出所有的計算機的都由存儲、控制、邏輯運算、輸入和輸出五部分組成。
我大致做了一個歸類,不知道是否準確,只是說在我做投資和分析的時候給我一些指導(dǎo),可能對我個人有些幫助。我把馮諾依曼架構(gòu)的五大組成部分分為三類,輸入輸出歸類于交互,控制和邏輯歸類于計算,存儲單獨列為一類,也就是交互、計算和存儲三部分。我覺得深度學(xué)習(xí)對這三方面都提出了非常多的創(chuàng)新要求,也使我們看到了非常多創(chuàng)新的機會。
大家都在說深度學(xué)習(xí)三要素:算法、算力和數(shù)據(jù),從某種程度上跟我之前總結(jié)出來的交互、計算和存儲三大計算機體系組成是一一對應(yīng)、息息相關(guān)的。后面我也會從算力和存儲的方向,闡述下我個人認為創(chuàng)新的點和需要攻克的難點到底在哪里。
深度學(xué)習(xí)到目前為止可以說是兵家必爭之地,包括我們現(xiàn)在看到深鑒科技被Xilinx收購。其實國內(nèi)還有很多企業(yè)在做深度學(xué)習(xí)加速的研究。國際上,高通投資了商湯,Intel投資了地平線,華為海思的麒麟970里面集成的深度學(xué)習(xí)加速IP來自北京的寒武紀科技。其實可以看到,不管是創(chuàng)業(yè)公司還是國際上的大公司,深度學(xué)習(xí)都受到非常多的關(guān)注。
雖然都是深度學(xué)習(xí)的加速,但是在不同的應(yīng)用領(lǐng)域,我們還是要分別來對待。包括深度學(xué)習(xí)的訓(xùn)練和推理,芯片的應(yīng)用場景,比如云端和我們所謂的終端,我認為在不同的芯片里面,對于加速的要求還是不太一樣的。
對于終端的訓(xùn)練來說,我還沒有看到太多的機會或者應(yīng)用場景,包括從功耗的角度是否存在這樣的可能性,也值得大家去探討和思考。
但是在云端訓(xùn)練的角度來看,GPU是占有絕對優(yōu)勢的,當(dāng)然FPGA的加速卡、包括Google在做的TPU用來做訓(xùn)練的ASIC也都在顯示自己的威力;我覺得終端inference,會是一個更加廣闊的應(yīng)用場景。對于終端來說,從功耗、成本的角度來考慮,ASIC是更加值得大家去關(guān)注的一個趨勢。
接下來我來給大家分享一些比較主流的深度學(xué)習(xí)在芯片層面實現(xiàn)加速的方法。我相信有更多的專家在這方面會講出更值得大家去思考和探討的內(nèi)容。
脈動陣列并不是一個新鮮的詞匯,在計算機體系架構(gòu)里面已經(jīng)存在很長時間。大家可以回憶下馮諾依曼架構(gòu),很多時候數(shù)據(jù)一定是存儲在memory里面的,當(dāng)要運算的時候需要從memory里面?zhèn)鬏數(shù)紹uffer或者Cache里面去。當(dāng)我們使用computing的功能來運算的時候,往往computing消耗的時間并不是瓶頸,更多的瓶頸在于memory的存和取。所以脈動陣列的邏輯也很簡單,既然memory讀取一次需要消耗更多的時間,脈動陣列盡力在一次memory讀取的過程中可以運行更多的計算,來平衡存儲和計算之間的時間消耗。
上面這張圖非常直觀的從一維數(shù)據(jù)流展示了脈動陣列的簡單邏輯。當(dāng)然,對于CNN等神經(jīng)網(wǎng)絡(luò)來說,很多時候是二維的矩陣。所以,脈動陣列從一維到二維也能夠非常契合CNN的矩陣乘加的架構(gòu)。
我們還可以從體系架構(gòu)上對整個的Memory讀取來做進一步的優(yōu)化。這里摘取的是寒武紀展示的一些科研成果。其實比較主流的方式就是盡量做Data Reuse,減少片上Memory和片外Memory的信息讀取次數(shù),增加片上memory,因為片上數(shù)據(jù)讀取會更快一點,這種方式也能夠盡量降低Memory讀取所消耗的時間,從而達到運算的加速。
還有就是大家比較熟悉的剪枝技術(shù)。這也是深鑒科技當(dāng)時出來創(chuàng)業(yè)賴以成名的絕技。對于神經(jīng)網(wǎng)絡(luò)來說,其實很多的連接并不是一定要存在的,也就是說我去掉一些連接,可能壓縮后的網(wǎng)絡(luò)精度相比壓縮之前并沒有太大的變化?;谶@樣的理念,很多剪枝的方案也被提了出來,也確實從壓縮的角度帶來了很大效果提升。
需要特別提出的是,大家從圖中可以看到,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)包括卷積層和全連接層兩大塊,剪枝對全連接層的壓縮效率是最大的。下面柱狀圖的藍色部分就是壓縮之后的系數(shù)占比,從中可以看到剪枝對全連接層的壓縮是最大的,而對卷積層的壓縮效果相比全連接層則差了很多。
所以這也是為什么,在語音的加速上很容易用到剪枝的一些方案,但是在機器視覺等需要大量卷積層的應(yīng)用中剪枝效果并不理想。我相信這也是未來很好的創(chuàng)業(yè)和搞科研的方向。
對于整個DeepLearning網(wǎng)絡(luò)來說,每個權(quán)重系數(shù)是不是一定要浮點的,定點是否就能滿足?定點是不是一定要32位的?很多人提出8位甚至1位的定點系數(shù)也能達到很不錯的效果,這樣的話從系數(shù)壓縮來看就會有非常大的效果。從下面三張人臉識別的紅點和綠點的對比,就可以看到其實8位定點系數(shù)在很多情況下已經(jīng)非常適用了,和32位定點系數(shù)相比并沒有太大的變化。所以,從這個角度來說,權(quán)重系數(shù)的壓縮也會帶來網(wǎng)絡(luò)模型的壓縮,從而帶來計算的加速。
當(dāng)然,一個不能回避的問題是計算和存儲之間的存儲墻到現(xiàn)在為止依然存在,仍然有大量的時間消耗在和存儲相關(guān)的操作上。
一個很簡單直觀的技術(shù)解決方式,就是堆疊更多更快速更高效的存儲,HBM孕育而生,也即在運算芯片的周圍堆疊出大量的3D Memory,通過通孔來連接,不需要與片外的接口進行交互,從而大大降低存儲墻的限制。
更有甚者提出說,存儲一定要和計算分離嗎,存儲和運算是不是可以融合在一起,PIM(Processing in Memory)的概念應(yīng)運而生。我覺得,這也是一個非常值得大家去關(guān)注的領(lǐng)域。我知道,群里有些朋友也在PIM領(lǐng)域做一些創(chuàng)業(yè)的嘗試。
當(dāng)然,除了前面說到存儲內(nèi)置,以及存儲與運算的融合,有沒有一個更快的接口能夠加速和片外Memory的交互也是一個很好的方向。其實上面這個概念是NVIDIA提出來的interface(接口),叫做NVLink。下面的表展示的是NVLink和PCIe Gen3的對比。大家平時看到跟存儲相關(guān)的的PCIe卡可能是PCIe Gen3 by 4,只有4個lanes和Memory對接,但是NVLink與有16個PCIe的lanes的PCIe Gen3對比,速度也有很大的提升,可以看到NVLink在速度層面是一個非常好的interface。
前面講了一些在我看來比較經(jīng)典的加速方法。下面我會分享幾個已經(jīng)存在的AI加速芯片的例子,相信這樣會更加直觀。
第一個是Google的TPU。從右邊的芯片框圖可以看到,有一個64K的乘加MAC陣列對乘加運算進行加速。從論文中可以看到里面已經(jīng)用到了脈動陣列的架構(gòu)方法來對運算進行加速,另外也有我們前面提到的大量的片上Memory 這樣的路徑。上面藍色框圖中大家可以看到有一個24MiB的片上Memory,而且有兩個高速DDR3接口能夠與片外的DDR做交互。
上圖展示的第二代TPU。從圖中可以很直觀的看到,它用到了我們前面所說到的HBM Memory。從其論文披露的信息也可以看到,二代TPU在第一代的基礎(chǔ)上增加了我們前面說到的剪枝,權(quán)重壓縮等方面做了很多嘗試,也是一個非常經(jīng)典的云端AI加速芯片的例子。
這家公司叫SambaNova,不知道大家有沒有聽說過,是我們和Google Venture投資的一家做云端AI加速芯片的硅谷公司。他們更多是想要挑戰(zhàn)NVIDIA在云端訓(xùn)練的地位。前面提到的很多加速的方法他們都會去做嘗試,包括片上Memory、HBM等。其實更值得一提的是SambaNova非常強大的軟件實現(xiàn)的團隊力量。其實大家現(xiàn)在看到的一些加速芯片所支持的框架,可能更多是TensorFlow、Caffe這兩個比較流行的框架。但是,他們開始支持微軟和Facebook發(fā)布的框架Onnx。在他們看來,Onnx是通用性和兼容性更好的一個框架。
接下來跟大家分享幾個終端做Inference的例子。第一個是Rokid和杭州國芯共同打造的一顆針對智能音箱的SoC,AI加速只是里面的一個功能。通過右邊的框圖可以看到里面集成了Cadence的DSP,還有自己設(shè)計的語音加速硬件IP——NPU。這款芯片還集成了一些實現(xiàn)智能音箱必要的interface,最值得一提的是在SiP層面封裝了Embedded DRAM,可以更好的在系統(tǒng)層面實現(xiàn)數(shù)據(jù)的交互,實現(xiàn)存儲和運算的加速,也實現(xiàn)了AI加速的功能。
最后說一款華為海思最新的IP Camera芯片——3559A,也是我個人比較喜歡的一款芯片。從集成度以及整個設(shè)計的均衡性來說,都令人眼前一亮??梢钥聪掠疑辖菐讉€藍色的標準模塊,里面集成的是海思自主研發(fā)的做推理的IP——NNIE,同時還集成了Tensilica DSP,在靈活性和擴展度上做了一個非常好的補充。
今天不光講了創(chuàng)業(yè)的機會、投資的機會,我認為也正是因為中國有了現(xiàn)在非常好的產(chǎn)業(yè)政策,不管是人才還是市場,都是一個很好的創(chuàng)業(yè)土壤。我覺得AI加速方面創(chuàng)業(yè)和投資的機會依然存在,也希望和有志于在AI領(lǐng)域創(chuàng)業(yè)的朋友多多交流。謝謝大家,我的分享到這里就結(jié)束了。
-
芯片
+關(guān)注
關(guān)注
452文章
50179瀏覽量
420676 -
半導(dǎo)體
+關(guān)注
關(guān)注
334文章
26830瀏覽量
214048 -
晶體管
+關(guān)注
關(guān)注
77文章
9606瀏覽量
137631 -
AI
+關(guān)注
關(guān)注
87文章
29740瀏覽量
268041
原文標題:后摩爾時代,半導(dǎo)體的新戰(zhàn)場與新機會
文章出處:【微信號:iawbs2016,微信公眾號:寬禁帶半導(dǎo)體技術(shù)創(chuàng)新聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論