日韩精品第124页在线播放网站,漂亮人妻被黑人久久精品

2010年以來(lái)，由于大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展，數(shù)據(jù)量呈現(xiàn)爆炸性增長(zhǎng)態(tài)勢(shì)，而傳統(tǒng)的計(jì)算架構(gòu)又無(wú)法支撐深度學(xué)習(xí)的大規(guī)模并行計(jì)算需求，于是研究界對(duì)AI 芯片進(jìn)行了新一輪的技術(shù)研發(fā)與應(yīng)用研究。這一新興技術(shù)既為科技巨頭的業(yè)務(wù)升級(jí)和拓展帶來(lái)轉(zhuǎn)機(jī)，也給了新創(chuàng)企業(yè)顛覆現(xiàn)有格局的機(jī)會(huì)。

AI芯片是人工智能時(shí)代的技術(shù)核心之一，決定了平臺(tái)的基礎(chǔ)架構(gòu)和發(fā)展生態(tài)。作為人工智能產(chǎn)業(yè)的重中之重，AI芯片已經(jīng)成了最熱門(mén)的投資領(lǐng)域，各種AI芯片層出不窮。

從廣義上講，只要能夠運(yùn)行人工智能算法的芯片都叫作AI芯片。但是通常意義上的AI芯片指的是針對(duì)人工智能算法做了特殊加速設(shè)計(jì)的芯片，現(xiàn)階段，這些人工智能算法一般以深度學(xué)習(xí)算法為主，也可以包括其它機(jī)器學(xué)習(xí)算法。

一般來(lái)說(shuō)，所謂的AI芯片，是指針對(duì)AI算法的ASIC（專(zhuān)用芯片）。傳統(tǒng)的CPU、GPU都可以拿來(lái)執(zhí)行AI算法，但是速度慢，性能低，無(wú)法實(shí)際商用。

比如，自動(dòng)駕駛需要識(shí)別道路行人紅綠燈等狀況，但是如果是當(dāng)前的CPU去算，那么估計(jì)車(chē)翻到河里了還沒(méi)發(fā)現(xiàn)前方是河，這是速度慢，時(shí)間就是生命。如果用GPU，的確速度要快得多，但是，功耗大，汽車(chē)的電池估計(jì)無(wú)法長(zhǎng)時(shí)間支撐正常使用，而且， GPU巨貴，普通消費(fèi)者也用不起。另外，GPU因?yàn)椴皇菍?zhuān)門(mén)針對(duì)AI算法開(kāi)發(fā)的ASIC，所以，說(shuō)到底，速度還沒(méi)到極限，還有提升空間。而類(lèi)似智能駕駛這樣的領(lǐng)域，必須快！在手機(jī)終端，可以自行人臉識(shí)別、語(yǔ)音識(shí)別等AI應(yīng)用，這個(gè)又必須功耗低。

AI芯片到底是什么？

回答這個(gè)問(wèn)題之前，先來(lái)弄明白兩個(gè)概念，什么是CPU和GPU？

簡(jiǎn)單來(lái)說(shuō)，CPU就是手機(jī)的“大腦”，也是手機(jī)正常運(yùn)行的“總指揮官”。GPU被翻譯成圖形處理器，主要工作確實(shí)是圖像處理。

再來(lái)說(shuō)說(shuō)CPU和GPU之間的分工，CPU遵循的是馮諾依曼架構(gòu)，核心就是“存儲(chǔ)程序，順序執(zhí)行”，就像是做事一板一眼的管家，什么事情都要一步一步來(lái)。假如你讓CPU去種一棵樹(shù)，挖坑、澆水、植樹(shù)、封土等工作都要獨(dú)自一步一步進(jìn)行。

如果讓GPU去種一棵樹(shù)的話(huà)，會(huì)喊來(lái)小A、小B、小C等一同來(lái)完成，把挖坑、澆水、植樹(shù)、封土等工作分割成不同的子任務(wù)。這是因?yàn)镚PU執(zhí)行的是并行運(yùn)算，即把一個(gè)問(wèn)題分解成若干個(gè)部分，各部分由獨(dú)立的計(jì)算單元去完成。恰好圖像處理的每一個(gè)像素點(diǎn)都需要被計(jì)算，與GPU的工作原理不謀而合。

就如同比方：CPU像是老教授，積分、微分什么都會(huì)算，但有些工作是計(jì)算大量一百以?xún)?nèi)的加減乘除，最好的方法當(dāng)然不是讓老教授挨個(gè)算下去，而是雇上幾十個(gè)小學(xué)生把任務(wù)分配下去。這就是CPU和GPU的分工，CPU負(fù)責(zé)大型運(yùn)算，GPU為圖像處理而生，從電腦到智能手機(jī)都是如此。

但當(dāng)人工智能的需求出現(xiàn)后，CPU和GPU的分工就出現(xiàn)了問(wèn)題，人工智能終端的深度學(xué)習(xí)和傳統(tǒng)計(jì)算不同，借由后臺(tái)預(yù)先從大量訓(xùn)練數(shù)據(jù)中總結(jié)出規(guī)律，得到可以給人工智能終端判定的參數(shù)，比如訓(xùn)練樣本是人臉圖像數(shù)據(jù)，實(shí)現(xiàn)的功能在終端上就是人臉識(shí)別。

CPU往往需要數(shù)百甚至上千條指令才能完成一個(gè)神經(jīng)元的處理，無(wú)法支撐起大規(guī)模的并行運(yùn)算，而手機(jī)上的GPU又需要處理各種應(yīng)用的圖像處理需求。強(qiáng)行使用CPU和GPU進(jìn)行人工智能任務(wù)，結(jié)果普遍是效率低下、發(fā)熱嚴(yán)重。

諸如蘋(píng)果A12、麒麟980和Exynos 9820提供的AI芯片的一種。通俗來(lái)說(shuō)就是人工智能加速器，因?yàn)镚PU是基于塊數(shù)據(jù)處理的，但手機(jī)上的AI應(yīng)用是需要實(shí)時(shí)處理的，人工智能加速器剛好解決了這個(gè)痛點(diǎn)，把深度學(xué)習(xí)相關(guān)的工作接管過(guò)來(lái)，從而緩解CPU 和GPU 的壓力。

它們將CPU和GPU的計(jì)算量分開(kāi)，諸如面部識(shí)別、語(yǔ)音識(shí)別等AI相關(guān)的任務(wù)卸載到ASIC上處理，AI芯片核早已成為一種行業(yè)趨勢(shì)。

一方面AI芯片的價(jià)值在于與CPU、GPU進(jìn)行協(xié)同分工，CPU和GPU過(guò)多的任務(wù)堆疊只會(huì)虛耗電量、提高溫度。

另一方面在AI芯片的協(xié)同下，可以對(duì)用戶(hù)行為進(jìn)行學(xué)習(xí)，進(jìn)而對(duì)用戶(hù)的使用場(chǎng)景進(jìn)行預(yù)測(cè)，然后進(jìn)行合理的性能分配。好比說(shuō)當(dāng)你在游戲時(shí)讓CPU高效運(yùn)算，而當(dāng)你在看電子書(shū)時(shí)避免性能浪費(fèi)。

AI芯片發(fā)展歷程

從圖靈的論文《計(jì)算機(jī)器與智能》和圖靈測(cè)試，到最初級(jí)的神經(jīng)元模擬單元——感知機(jī)，再到現(xiàn)在多達(dá)上百層的深度神經(jīng)網(wǎng)絡(luò)，人類(lèi)對(duì)人工智能的探索從來(lái)就沒(méi)有停止過(guò)。上世紀(jì)八十年代，多層神經(jīng)網(wǎng)絡(luò)和反向傳播算法的出現(xiàn)給人工智能行業(yè)點(diǎn)燃了新的火花。反向傳播的主要?jiǎng)?chuàng)新在于能將信息輸出和目標(biāo)輸出之間的誤差通過(guò)多層網(wǎng)絡(luò)往前一級(jí)迭代反饋，將最終的輸出收斂到某一個(gè)目標(biāo)范圍之內(nèi)。1989年貝爾實(shí)驗(yàn)室成功利用反向傳播算法，在多層神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)了一個(gè)手寫(xiě)郵編識(shí)別器。1998年Yann LeCun和Yoshua Bengio發(fā)表了手寫(xiě)識(shí)別神經(jīng)網(wǎng)絡(luò)和反向傳播優(yōu)化相關(guān)的論文《Gradient-based learning applied to document recognition》，開(kāi)創(chuàng)了卷積神經(jīng)網(wǎng)絡(luò)的時(shí)代。

此后，人工智能陷入了長(zhǎng)時(shí)間的發(fā)展沉寂階段，直到1997年IBM的深藍(lán)戰(zhàn)勝?lài)?guó)際象棋大師和2011年IBM的沃森智能系統(tǒng)在Jeopardy節(jié)目中勝出，人工智能才又一次為人們所關(guān)注。2016年Alpha Go擊敗韓國(guó)圍棋九段職業(yè)選手，則標(biāo)志著人工智能的又一波高潮。從基礎(chǔ)算法、底層硬件、工具框架到實(shí)際應(yīng)用場(chǎng)景，現(xiàn)階段的人工智能領(lǐng)域已經(jīng)全面開(kāi)花。

作為人工智能核心的底層硬件AI芯片，也同樣經(jīng)歷了多次的起伏和波折，總體看來(lái)，AI芯片的發(fā)展前后經(jīng)歷了四次大的變化，其發(fā)展歷程如圖所示。

1、2007年以前，AI芯片產(chǎn)業(yè)一直沒(méi)有發(fā)展成為成熟的產(chǎn)業(yè);同時(shí)由于當(dāng)時(shí)算法、數(shù)據(jù)量等因素，這個(gè)階段AI芯片并沒(méi)有特別強(qiáng)烈的市場(chǎng)需求，通用的CPU芯片即可滿(mǎn)足應(yīng)用需要。

2、隨著高清視頻、VR、AR游戲等行業(yè)的發(fā)展，GPU產(chǎn)品取得快速的突破;同時(shí)人們發(fā)現(xiàn)GPU的并行計(jì)算特性恰好適應(yīng)人工智能算法及大數(shù)據(jù)并行計(jì)算的需求，如GPU比之前傳統(tǒng)的CPU在深度學(xué)習(xí)算法的運(yùn)算上可以提高幾十倍的效率，因此開(kāi)始嘗試使用GPU進(jìn)行人工智能計(jì)算。

3、進(jìn)入2010年后，云計(jì)算廣泛推廣，人工智能的研究人員可以通過(guò)云計(jì)算借助大量CPU和GPU進(jìn)行混合運(yùn)算，進(jìn)一步推進(jìn)了AI芯片的深入應(yīng)用，從而催生了各類(lèi)AI芯片的研發(fā)與應(yīng)用。

4、人工智能對(duì)于計(jì)算能力的要求不斷快速地提升，進(jìn)入2015年后，GPU性能功耗比不高的特點(diǎn)使其在工作適用場(chǎng)合受到多種限制，業(yè)界開(kāi)始研發(fā)針對(duì)人工智能的專(zhuān)用芯片，以期通過(guò)更好的硬件和芯片架構(gòu)，在計(jì)算效率、能耗比等性能上得到進(jìn)一步提升。

AI芯片與普通芯片的區(qū)別在哪里？

AI算法，在圖像識(shí)別等領(lǐng)域，常用的是CNN卷積網(wǎng)絡(luò)，語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域，主要是RNN，這是兩類(lèi)有區(qū)別的算法。但是，他們本質(zhì)上，都是矩陣或vector的乘法、加法，然后配合一些除法、指數(shù)等算法。

一個(gè)成熟的AI算法，比如YOLO-V3，就是大量的卷積、殘差網(wǎng)絡(luò)、全連接等類(lèi)型的計(jì)算，本質(zhì)是乘法和加法。對(duì)于YOLO-V3來(lái)說(shuō)，如果確定了具體的輸入圖形尺寸，那么總的乘法加法計(jì)算次數(shù)是確定的。比如一萬(wàn)億次。（真實(shí)的情況比這個(gè)大得多的多）那么要快速執(zhí)行一次YOLO-V3，就必須執(zhí)行完一萬(wàn)億次的加法乘法次數(shù)。

這個(gè)時(shí)候就來(lái)看了，比如IBM的POWER8，最先進(jìn)的服務(wù)器用超標(biāo)量CPU之一，4GHz，SIMD，128bit，假設(shè)是處理16bit的數(shù)據(jù)，那就是8個(gè)數(shù)，那么一個(gè)周期，最多執(zhí)行8個(gè)乘加計(jì)算。一次最多執(zhí)行16個(gè)操作。這還是理論上，其實(shí)是不大可能的。那么CPU一秒鐘的巔峰計(jì)算次數(shù)=16X4Gops=64Gops。這樣，可以算算CPU計(jì)算一次的時(shí)間了。同樣的，換成GPU算算，也能知道執(zhí)行時(shí)間。

再來(lái)說(shuō)說(shuō)AI芯片。比如大名鼎鼎的谷歌的TPU1。

TPU1，大約700M Hz，有256X256尺寸的脈動(dòng)陣列，如下圖所示。一共256X256=64K個(gè)乘加單元，每個(gè)單元一次可執(zhí)行一個(gè)乘法和一個(gè)加法。那就是128K個(gè)操作。（乘法算一個(gè)，加法再算一個(gè)）

另外，除了脈動(dòng)陣列，還有其他模塊，比如激活等，這些里面也有乘法、加法等。所以，看看TPU1一秒鐘的巔峰計(jì)算次數(shù)至少是=128K X 700MHz=89600Gops=大約90Tops。對(duì)比一下CPU與TPU1，會(huì)發(fā)現(xiàn)計(jì)算能力有幾個(gè)數(shù)量級(jí)的差距，這就是為啥說(shuō)CPU慢。

當(dāng)然，以上的數(shù)據(jù)都是完全最理想的理論值，實(shí)際情況，能夠達(dá)到5%吧。因?yàn)?，芯片上的存?chǔ)不夠大，所以數(shù)據(jù)會(huì)存儲(chǔ)在DRAM中，從DRAM取數(shù)據(jù)很慢的，所以，乘法邏輯往往要等待。另外，AI算法有許多層網(wǎng)絡(luò)組成，必須一層一層的算，所以，在切換層的時(shí)候，乘法邏輯又是休息的，所以，諸多因素造成了實(shí)際的芯片并不能達(dá)到利潤(rùn)的計(jì)算峰值，而且差距還極大。

目前來(lái)看，神經(jīng)網(wǎng)絡(luò)的尺寸是越來(lái)越大，參數(shù)越來(lái)越多，遇到大型NN模型，訓(xùn)練需要花幾周甚至一兩個(gè)月的時(shí)候。突然斷電，還得一切重來(lái)。修改了模型，需要幾個(gè)星期才能知道對(duì)錯(cuò)，確定等得起？突然有了TPU，然后你發(fā)現(xiàn)，吃個(gè)午飯回來(lái)就好了，參數(shù)優(yōu)化一下，繼續(xù)跑，多么爽！

總的來(lái)說(shuō)，CPU與GPU并不是AI專(zhuān)用芯片，為了實(shí)現(xiàn)其他功能，內(nèi)部有大量其他邏輯，而這些邏輯對(duì)于目前的AI算法來(lái)說(shuō)是完全用不上的，所以，自然造成CPU與GPU并不能達(dá)到最優(yōu)的性?xún)r(jià)比。

目前在圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域，精度最高的算法就是基于深度學(xué)習(xí)的，傳統(tǒng)的機(jī)器學(xué)習(xí)的計(jì)算精度已經(jīng)被超越，目前應(yīng)用最廣的算法，估計(jì)非深度學(xué)習(xí)莫屬，而且，傳統(tǒng)機(jī)器學(xué)習(xí)的計(jì)算量與深度學(xué)習(xí)比起來(lái)少很多，所以，討論AI芯片時(shí)就針對(duì)計(jì)算量特別大的深度學(xué)習(xí)而言。畢竟，計(jì)算量小的算法，說(shuō)實(shí)話(huà)，CPU已經(jīng)很快了。而且，CPU適合執(zhí)行調(diào)度復(fù)雜的算法，這一點(diǎn)是GPU與AI芯片都做不到的，所以他們?nèi)咧皇轻槍?duì)不同的應(yīng)用場(chǎng)景而已，都有各自的主場(chǎng)。

AI芯片的分類(lèi)及技術(shù)

人工智能芯片目前有兩種發(fā)展路徑：一種是延續(xù)傳統(tǒng)計(jì)算架構(gòu)，加速硬件計(jì)算能力，主要以3種類(lèi)型的芯片為代表，即GPU、FPGA、ASIC，但CPU依舊發(fā)揮著不可替代的作用;另一種是顛覆經(jīng)典的馮·諾依曼計(jì)算架構(gòu)，采用類(lèi)腦神經(jīng)結(jié)構(gòu)來(lái)提升計(jì)算能力，以IBM TrueNorth芯片為代表。

傳統(tǒng)的CPU

計(jì)算機(jī)工業(yè)從1960年代早期開(kāi)始使用CPU這個(gè)術(shù)語(yǔ)。迄今為止，CPU從形態(tài)、設(shè)計(jì)到實(shí)現(xiàn)都已發(fā)生了巨大的變化，但是其基本工作原理卻一直沒(méi)有大的改變。通常CPU由控制器和運(yùn)算器這兩個(gè)主要部件組成。傳統(tǒng)的CPU內(nèi)部結(jié)構(gòu)圖如圖3所示，從圖中我們可以看到：實(shí)質(zhì)上僅單獨(dú)的ALU模塊（邏輯運(yùn)算單元）是用來(lái)完成數(shù)據(jù)計(jì)算的，其他各個(gè)模塊的存在都是為了保證指令能夠一條接一條的有序執(zhí)行。這種通用性結(jié)構(gòu)對(duì)于傳統(tǒng)的編程計(jì)算模式非常適合，同時(shí)可以通過(guò)提升CPU主頻（提升單位時(shí)間內(nèi)執(zhí)行指令的條數(shù)）來(lái)提升計(jì)算速度。但對(duì)于深度學(xué)習(xí)中的并不需要太多的程序指令、卻需要海量數(shù)據(jù)運(yùn)算的計(jì)算需求，這種結(jié)構(gòu)就顯得有些力不從心。尤其是在功耗限制下，無(wú)法通過(guò)無(wú)限制的提升CPU和內(nèi)存的工作頻率來(lái)加快指令執(zhí)行速度，這種情況導(dǎo)致CPU系統(tǒng)的發(fā)展遇到不可逾越的瓶頸。

并行加速計(jì)算的GPU

GPU作為最早從事并行加速計(jì)算的處理器，相比CPU速度快，同時(shí)比其他加速器芯片編程靈活簡(jiǎn)單。

傳統(tǒng)的CPU之所以不適合人工智能算法的執(zhí)行，主要原因在于其計(jì)算指令遵循串行執(zhí)行的方式，沒(méi)能發(fā)揮出芯片的全部潛力。與之不同的是，GPU具有高并行結(jié)構(gòu)，在處理圖形數(shù)據(jù)和復(fù)雜算法方面擁有比CPU更高的效率。對(duì)比GPU和CPU在結(jié)構(gòu)上的差異，CPU大部分面積為控制器和寄存器，而GPU擁有更ALU（ARITHMETIC LOGIC UNIT，邏輯運(yùn)算單元）用于數(shù)據(jù)處理，這樣的結(jié)構(gòu)適合對(duì)密集型數(shù)據(jù)進(jìn)行并行處理，CPU與GPU的結(jié)構(gòu)對(duì)比如圖所示。程序在GPU系統(tǒng)上的運(yùn)行速度相較于單核CPU往往提升幾十倍乃至上千倍。隨著英偉達(dá)、AMD等公司不斷推進(jìn)其對(duì)GPU大規(guī)模并行架構(gòu)的支持，面向通用計(jì)算的GPU（即GPGPU，GENERAL PURPOSE GPU，通用計(jì)算圖形處理器）已成為加速可并行應(yīng)用程序的重要手段。

GPU的發(fā)展歷程如圖所示：

目前，GPU已經(jīng)發(fā)展到較為成熟的階段。谷歌、FACEBOOK、微軟、TWITTER和百度等公司都在使用GPU分析圖片、視頻和音頻文件，以改進(jìn)搜索和圖像標(biāo)簽等應(yīng)用功能。此外，很多汽車(chē)生產(chǎn)商也在使用GPU芯片發(fā)展無(wú)人駕駛。不僅如此，GPU也被應(yīng)用于VR/AR相關(guān)的產(chǎn)業(yè)。但是GPU也有一定的局限性。深度學(xué)習(xí)算法分為訓(xùn)練和推斷兩部分，GPU平臺(tái)在算法訓(xùn)練上非常高效。但在推斷中對(duì)于單項(xiàng)輸入進(jìn)行處理的時(shí)候，并行計(jì)算的優(yōu)勢(shì)不能完全發(fā)揮出來(lái)。

半定制化的FPGA

FPGA是在PAL、GAL、CPLD等可編程器件基礎(chǔ)上進(jìn)一步發(fā)展的產(chǎn)物。用戶(hù)可以通過(guò)燒入FPGA配置文件來(lái)定義這些門(mén)電路以及存儲(chǔ)器之間的連線(xiàn)。這種燒入不是一次性的，比如用戶(hù)可以把FPGA配置成一個(gè)微控制器 MCU，使用完畢后可以編輯配置文件把同一個(gè)FPGA配置成一個(gè)音頻編解碼器。因此，它既解決了定制電路靈活性的不足，又克服了原有可編程器件門(mén)電路數(shù)有限的缺點(diǎn)。

FPGA可同時(shí)進(jìn)行數(shù)據(jù)并行和任務(wù)并行計(jì)算，在處理特定應(yīng)用時(shí)有更加明顯的效率提升。對(duì)于某個(gè)特定運(yùn)算，通用CPU可能需要多個(gè)時(shí)鐘周期;而FPGA可以通過(guò)編程重組電路，直接生成專(zhuān)用電路，僅消耗少量甚至一次時(shí)鐘周期就可完成運(yùn)算。

此外，由于FPGA的靈活性，很多使用通用處理器或ASIC難以實(shí)現(xiàn)的底層硬件控制操作技術(shù)，利用FPGA可以很方便的實(shí)現(xiàn)。這個(gè)特性為算法的功能實(shí)現(xiàn)和優(yōu)化留出了更大空間。同時(shí)FPGA一次性成本（光刻掩模制作成本）遠(yuǎn)低于ASIC，在芯片需求還未成規(guī)模、深度學(xué)習(xí)算法暫未穩(wěn)定，需要不斷迭代改進(jìn)的情況下，利用FPGA芯片具備可重構(gòu)的特性來(lái)實(shí)現(xiàn)半定制的人工智能芯片是最佳選擇之一。

功耗方面，從體系結(jié)構(gòu)而言，F(xiàn)PGA也具有天生的優(yōu)勢(shì)。傳統(tǒng)的馮氏結(jié)構(gòu)中，執(zhí)行單元（如CPU核）執(zhí)行任意指令，都需要有指令存儲(chǔ)器、譯碼器、各種指令的運(yùn)算器及分支跳轉(zhuǎn)處理邏輯參與運(yùn)行，而FPGA每個(gè)邏輯單元的功能在重編程（即燒入）時(shí)就已經(jīng)確定，不需要指令，無(wú)需共享內(nèi)存，從而可以極大的降低單位執(zhí)行的功耗，提高整體的能耗比。

由于FPGA具備靈活快速的特點(diǎn)，因此在眾多領(lǐng)域都有替代ASIC的趨勢(shì)。FPGA在人工智能領(lǐng)域的應(yīng)用如圖所示。

全定制化的ASIC

目前以深度學(xué)習(xí)為代表的人工智能計(jì)算需求，主要采用GPU、FPGA等已有的適合并行計(jì)算的通用芯片來(lái)實(shí)現(xiàn)加速。在產(chǎn)業(yè)應(yīng)用沒(méi)有大規(guī)模興起之時(shí)，使用這類(lèi)已有的通用芯片可以避免專(zhuān)門(mén)研發(fā)定制芯片（ASIC）的高投入和高風(fēng)險(xiǎn)。但是，由于這類(lèi)通用芯片設(shè)計(jì)初衷并非專(zhuān)門(mén)針對(duì)深度學(xué)習(xí)，因而天然存在性能、功耗等方面的局限性。隨著人工智能應(yīng)用規(guī)模的擴(kuò)大，這類(lèi)問(wèn)題日益突顯。

GPU作為圖像處理器，設(shè)計(jì)初衷是為了應(yīng)對(duì)圖像處理中的大規(guī)模并行計(jì)算。因此，在應(yīng)用于深度學(xué)習(xí)算法時(shí)，有三個(gè)方面的局限性：第一，應(yīng)用過(guò)程中無(wú)法充分發(fā)揮并行計(jì)算優(yōu)勢(shì)。深度學(xué)習(xí)包含訓(xùn)練和推斷兩個(gè)計(jì)算環(huán)節(jié)，GPU在深度學(xué)習(xí)算法訓(xùn)練上非常高效，但對(duì)于單一輸入進(jìn)行推斷的場(chǎng)合，并行度的優(yōu)勢(shì)不能完全發(fā)揮。第二，無(wú)法靈活配置硬件結(jié)構(gòu)。GPU采用SIMT計(jì)算模式，硬件結(jié)構(gòu)相對(duì)固定。目前深度學(xué)習(xí)算法還未完全穩(wěn)定，若深度學(xué)習(xí)算法發(fā)生大的變化，GPU無(wú)法像FPGA一樣可以靈活的配制硬件結(jié)構(gòu)。第三，運(yùn)行深度學(xué)習(xí)算法能效低于FPGA。

盡管FPGA倍受看好，甚至新一代百度大腦也是基于FPGA平臺(tái)研發(fā)，但其畢竟不是專(zhuān)門(mén)為了適用深度學(xué)習(xí)算法而研發(fā)，實(shí)際應(yīng)用中也存在諸多局限：第一，基本單元的計(jì)算能力有限。為了實(shí)現(xiàn)可重構(gòu)特性，F(xiàn)PGA內(nèi)部有大量極細(xì)粒度的基本單元，但是每個(gè)單元的計(jì)算能力（主要依靠LUT查找表）都遠(yuǎn)遠(yuǎn)低于CPU和GPU中的ALU模塊;第二、計(jì)算資源占比相對(duì)較低。為實(shí)現(xiàn)可重構(gòu)特性，F(xiàn)PGA內(nèi)部大量資源被用于可配置的片上路由與連線(xiàn);第三，速度和功耗相對(duì)專(zhuān)用定制芯片（ASIC）仍然存在不小差距;第四，F(xiàn)PGA價(jià)格較為昂貴，在規(guī)模放量的情況下單塊FPGA的成本要遠(yuǎn)高于專(zhuān)用定制芯片。

深度學(xué)習(xí)算法穩(wěn)定后，AI芯片可采用ASIC設(shè)計(jì)方法進(jìn)行全定制，使性能、功耗和面積等指標(biāo)面向深度學(xué)習(xí)算法做到最優(yōu)。

類(lèi)腦芯片

類(lèi)腦芯片不采用經(jīng)典的馮·諾依曼架構(gòu)，而是基于神經(jīng)形態(tài)架構(gòu)設(shè)計(jì)，以IBM Truenorth為代表。IBM研究人員將存儲(chǔ)單元作為突觸、計(jì)算單元作為神經(jīng)元、傳輸單元作為軸突搭建了神經(jīng)芯片的原型。目前，Truenorth用三星28nm功耗工藝技術(shù)，由54億個(gè)晶體管組成的芯片構(gòu)成的片上網(wǎng)絡(luò)有4096個(gè)神經(jīng)突觸核心，實(shí)時(shí)作業(yè)功耗僅為70mW。由于神經(jīng)突觸要求權(quán)重可變且要有記憶功能，IBM采用與CMOS工藝兼容的相變非揮發(fā)存儲(chǔ)器（PCM）的技術(shù)實(shí)驗(yàn)性的實(shí)現(xiàn)了新型突觸，加快了商業(yè)化進(jìn)程。

AI芯片應(yīng)用領(lǐng)域

隨著人工智能芯片的持續(xù)發(fā)展，應(yīng)用領(lǐng)域會(huì)隨時(shí)間推移而不斷向多維方向發(fā)展。

智能手機(jī)

2017年9月，華為在德國(guó)柏林消費(fèi)電子展發(fā)布了麒麟970芯片，該芯片搭載了寒武紀(jì)的NPU，成為“全球首款智能手機(jī)移動(dòng)端AI芯片”;2017年10月中旬Mate10系列新品（該系列手機(jī)的處理器為麒麟970）上市。搭載了NPU的華為Mate10系列智能手機(jī)具備了較強(qiáng)的深度學(xué)習(xí)、本地端推斷能力，讓各類(lèi)基于深度神經(jīng)網(wǎng)絡(luò)的攝影、圖像處理應(yīng)用能夠?yàn)橛脩?hù)提供更加完美的體驗(yàn)。

而蘋(píng)果發(fā)布以iPhone X為代表的手機(jī)及它們內(nèi)置的A11 Bionic芯片。A11 Bionic中自主研發(fā)的雙核架構(gòu)Neural Engine（神經(jīng)網(wǎng)絡(luò)處理引擎），它每秒處理相應(yīng)神經(jīng)網(wǎng)絡(luò)計(jì)算需求的次數(shù)可達(dá)6000億次。這個(gè)Neural Engine的出現(xiàn)，讓A11 Bionic成為一塊真正的AI芯片。A11 Bionic大大提升了iPhone X在拍照方面的使用體驗(yàn)，并提供了一些富有創(chuàng)意的新用法。

ADAS（高級(jí)輔助駕駛系統(tǒng)）

ADAS是最吸引大眾眼球的人工智能應(yīng)用之一，它需要處理海量的由激光雷達(dá)、毫米波雷達(dá)、攝像頭等傳感器采集的實(shí)時(shí)數(shù)據(jù)。相對(duì)于傳統(tǒng)的車(chē)輛控制方法，智能控制方法主要體現(xiàn)在對(duì)控制對(duì)象模型的運(yùn)用和綜合信息學(xué)習(xí)運(yùn)用上，包括神經(jīng)網(wǎng)絡(luò)控制和深度學(xué)習(xí)方法等。

CV（計(jì)算機(jī)視覺(jué)（Computer Vision）設(shè)備

需要使用計(jì)算機(jī)視覺(jué)技術(shù)的設(shè)備，如智能攝像頭、無(wú)人機(jī)、行車(chē)記錄儀、人臉識(shí)別迎賓機(jī)器人以及智能手寫(xiě)板等設(shè)備，往往都具有本地端推斷的需要，如果僅能在聯(lián)網(wǎng)下工作，無(wú)疑將帶來(lái)糟糕的體驗(yàn)。而計(jì)算機(jī)視覺(jué)技術(shù)目前看來(lái)將會(huì)成為人工智能應(yīng)用的沃土之一，計(jì)算機(jī)視覺(jué)芯片將擁有廣闊的市場(chǎng)前景。

VR設(shè)備

VR設(shè)備芯片的代表為HPU芯片，是微軟為自身VR設(shè)備Hololens研發(fā)定制的。這顆由臺(tái)積電代工的芯片能同時(shí)處理來(lái)自5個(gè)攝像頭、1個(gè)深度傳感器以及運(yùn)動(dòng)傳感器的數(shù)據(jù)，并具備計(jì)算機(jī)視覺(jué)的矩陣運(yùn)算和CNN運(yùn)算的加速功能。這使得VR設(shè)備可重建高質(zhì)量的人像3D影像，并實(shí)時(shí)傳送到任何地方。

語(yǔ)音交互設(shè)備

語(yǔ)音交互設(shè)備芯片方面，國(guó)內(nèi)有啟英泰倫以及云知聲兩家公司，其提供的芯片方案均內(nèi)置了為語(yǔ)音識(shí)別而優(yōu)化的深度神經(jīng)網(wǎng)絡(luò)加速方案，實(shí)現(xiàn)設(shè)備的語(yǔ)音離線(xiàn)識(shí)別。穩(wěn)定的識(shí)別能力為語(yǔ)音技術(shù)的落地提供了可能;與此同時(shí)，語(yǔ)音交互的核心環(huán)節(jié)也取得重大突破。語(yǔ)音識(shí)別環(huán)節(jié)突破了單點(diǎn)能力，從遠(yuǎn)場(chǎng)識(shí)別，到語(yǔ)音分析和語(yǔ)義理解有了重大突破，呈現(xiàn)出一種整體的交互方案。

機(jī)器人

無(wú)論是家居機(jī)器人還是商用服務(wù)機(jī)器人均需要專(zhuān)用軟件+芯片的人工智能解決方案，這方面典型公司有由前百度深度學(xué)習(xí)實(shí)驗(yàn)室負(fù)責(zé)人余凱創(chuàng)辦的地平線(xiàn)機(jī)器人，當(dāng)然地平線(xiàn)機(jī)器人除此之外，還提供ADAS、智能家居等其他嵌入式人工智能解決方案。
編輯：lyn

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
210

文章
28103

瀏覽量
205853
人工智能

人工智能

+關(guān)注

關(guān)注
1789

文章
46656

瀏覽量
237091
CV

CV

+關(guān)注

關(guān)注
0

文章
52

瀏覽量
16840
vr

vr

+關(guān)注

關(guān)注
34

文章
9630

瀏覽量
149966
AI芯片

AI芯片

+關(guān)注

關(guān)注
17

文章
1850

瀏覽量
34849

原文標(biāo)題：當(dāng)芯片有了AI思維

文章出處：【微信號(hào)：WW_CGQJS，微信公眾號(hào)：傳感器技術(shù)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

Orin芯片應(yīng)用領(lǐng)域

僅在自動(dòng)駕駛領(lǐng)域有著廣泛的應(yīng)用，還在機(jī)器人、無(wú)人機(jī)等多個(gè)領(lǐng)域展現(xiàn)出巨大的潛力。 1. 自動(dòng)駕駛汽車(chē) 自動(dòng)駕駛汽車(chē)是Orin芯片的主要應(yīng)用領(lǐng)域之一。Orin

發(fā)表于 10-27 15:38 ?206次閱讀

RISC-V在AI領(lǐng)域的發(fā)展前景怎么樣？

隨著人工智能的不斷發(fā)展，現(xiàn)在的視覺(jué)機(jī)器人，無(wú)人駕駛等智能產(chǎn)品的不斷更新迭代，發(fā)現(xiàn)ARM占用很大的市場(chǎng)份額，推出的ARM Cortex M85性能也是杠杠的，不知道RISC-V在AI領(lǐng)域有哪些參考方案？

發(fā)表于 10-25 19:13

直徑測(cè)量工具的發(fā)展歷程

關(guān)鍵字：直徑測(cè)量，工業(yè)直徑測(cè)量設(shè)備，線(xiàn)性尺量器，光電測(cè)徑儀，直徑測(cè)量工具的發(fā)展歷程是一個(gè)悠久且不斷創(chuàng)新的過(guò)程，它隨著科學(xué)技術(shù)的進(jìn)步而不斷演變。以下是直徑測(cè)量工具發(fā)展歷程的詳細(xì)概述：

發(fā)表于 10-10 16:55

光耦的應(yīng)用領(lǐng)域

光耦的應(yīng)用領(lǐng)域 光耦是一種特殊的電子組件，具有很多特性。它可以用來(lái)取代傳統(tǒng)的電阻器，如電池、電感器和電容器等。在半導(dǎo)體工業(yè)中，使用光耦能夠減少工藝步驟，提高生產(chǎn)效率。一.光耦的特性 1.隔離性好

發(fā)表于 08-26 16:59

NAND閃存的發(fā)展歷程

NAND閃存的發(fā)展歷程是一段充滿(mǎn)創(chuàng)新與突破的歷程，它自誕生以來(lái)就不斷推動(dòng)著存儲(chǔ)技術(shù)的進(jìn)步。以下是對(duì)NAND閃存發(fā)展歷程的詳細(xì)梳理，將全面且深

發(fā)表于 08-10 16:32 ?1024次閱讀

GPT的定義和演進(jìn)歷程

GPT，全稱(chēng)Generative Pretrained Transformer，是OpenAI公司在自然語(yǔ)言處理（NLP）領(lǐng)域的一項(xiàng)重大創(chuàng)新。這一模型不僅推動(dòng)了AI技術(shù)的邊界，還深刻影響了我們與機(jī)器交互的方式。本文將從GPT的定義、來(lái)源、演進(jìn)

發(fā)表于 07-10 10:41 ?855次閱讀

生成式AI的基本原理和應(yīng)用領(lǐng)域

復(fù)雜性和創(chuàng)新性的內(nèi)容的技術(shù)。這種技術(shù)不僅限于文本生成，還廣泛應(yīng)用于圖像、音頻、視頻等多個(gè)領(lǐng)域。本文將詳細(xì)探討生成式AI的原理、關(guān)鍵技術(shù)、應(yīng)用領(lǐng)域以及面臨的挑戰(zhàn)。

發(fā)表于 07-04 11:50 ?1036次閱讀

AI大模型的發(fā)展歷程和應(yīng)用前景

隨著人工智能技術(shù)的飛速發(fā)展，AI大模型逐漸成為研究與應(yīng)用領(lǐng)域的熱點(diǎn)。AI大模型，顧名思義，是指具有巨大參數(shù)量的深度學(xué)習(xí)模型，這些模型通過(guò)學(xué)習(xí)海量的數(shù)據(jù)，能夠在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、

發(fā)表于 07-03 18:20 ?1060次閱讀

LCR測(cè)試儀的基本概念和工作原理 LCR測(cè)試儀的功能特點(diǎn)和應(yīng)用領(lǐng)域

在電子工程、通信和電力等領(lǐng)域，對(duì)電感、電容和電阻（簡(jiǎn)稱(chēng)LCR）的測(cè)量和評(píng)估是至關(guān)重要的。LCR測(cè)試儀是一種能夠準(zhǔn)確、快速地測(cè)量這些參數(shù)的電子測(cè)試儀器，其重要性不言而喻。本文將詳細(xì)闡述LCR測(cè)試儀的基本概念、工作原理、功能特點(diǎn)、應(yīng)用領(lǐng)域

發(fā)表于 05-11 15:48 ?3091次閱讀

片上系統(tǒng)soc芯片的類(lèi)型與應(yīng)用領(lǐng)域

片上系統(tǒng)（SoC）芯片是一種高度集成的半導(dǎo)體產(chǎn)品，它將傳統(tǒng)的微處理器、內(nèi)存、輸入/輸出端口以及其他必要的電子系統(tǒng)組件集成在單一芯片上。SoC芯片的類(lèi)型和

發(fā)表于 03-28 15:26 ?1030次閱讀

光子集成芯片的應(yīng)用領(lǐng)域

光子集成芯片的應(yīng)用領(lǐng)域相當(dāng)廣泛，其基于光子學(xué)的特性使得它在多個(gè)領(lǐng)域都能發(fā)揮重要作用。

發(fā)表于 03-20 16:24 ?1043次閱讀

射極輸出器的7個(gè)特點(diǎn)及其7大應(yīng)用領(lǐng)域

射極輸出器的7個(gè)特點(diǎn)及其7大應(yīng)用領(lǐng)域? 射極輸出器，也被稱(chēng)為開(kāi)關(guān)電源或開(kāi)關(guān)電壓調(diào)節(jié)器，是一種廣泛應(yīng)用于電子設(shè)備中的電源轉(zhuǎn)換裝置。它具有以下七個(gè)特點(diǎn)及其七大應(yīng)用領(lǐng)域：特點(diǎn)一：高效率射

發(fā)表于 02-03 09:25 ?5074次閱讀

dsp芯片和arm芯片區(qū)別 dsp的應(yīng)用領(lǐng)域

DSP芯片和ARM芯片都是常見(jiàn)的處理器芯片，但它們?cè)?b class='flag-5'>應(yīng)用領(lǐng)域和架構(gòu)設(shè)計(jì)上有著明顯的差別。下面將詳細(xì)介紹DSP芯片和ARM

發(fā)表于 02-01 10:17 ?5645次閱讀

直流電源的作用及其應(yīng)用領(lǐng)域

直流電源的作用及其應(yīng)用領(lǐng)域 直流電源是一種電能轉(zhuǎn)換設(shè)備，將交流電轉(zhuǎn)換成直流電，具有穩(wěn)定輸出電流和電壓的特點(diǎn)。它在現(xiàn)代工業(yè)、農(nóng)業(yè)和生活中得到廣泛應(yīng)用。以下是直流電源的作用及其應(yīng)用領(lǐng)域的詳

發(fā)表于 12-11 15:31 ?3750次閱讀