視頻大數(shù)據(jù)作為攝像頭等硬件的普及與人工智能算法飛速發(fā)展相結(jié)合的產(chǎn)物,近年來的發(fā)展得到了人們的廣泛關(guān)注。計(jì)算機(jī)視覺作為視頻大數(shù)據(jù)分析的一個(gè)重要環(huán)節(jié),特別是人工智能和深度學(xué)習(xí)的算法在計(jì)算機(jī)視覺更廣泛的應(yīng)用,使計(jì)算機(jī)視覺這幾年熱度一直不減。
本文我們從計(jì)算機(jī)視覺的智能化前端去思考,這里的智能化前端指智能硬件、移動設(shè)備等輕量級的硬件,以區(qū)別于云端服務(wù)器級別的設(shè)備。我們一直認(rèn)為,市場和實(shí)際的應(yīng)用是決定一個(gè)產(chǎn)業(yè)能否發(fā)展的先決條件,再從工程技術(shù)的角度去分析是否滿足實(shí)際應(yīng)用場景;同時(shí)工程技術(shù)的成熟,又會促進(jìn)市場和實(shí)際應(yīng)用、商業(yè)模式的發(fā)展。因此,本文主要從市場/應(yīng)用、算法和硬件三個(gè)維度去探討。當(dāng)然由于本人知識儲備尚且有不足,希望能拋磚引玉,借此與各算法、硬件的產(chǎn)業(yè)界專家,以及行業(yè)研究者做更深入的探討。
一、行業(yè)與應(yīng)用
如上次文章的闡述,我們一直從全產(chǎn)業(yè)鏈、競爭格局、技術(shù)發(fā)展趨勢、應(yīng)用導(dǎo)向和市場空間5個(gè)維度,來分析行業(yè)發(fā)展的機(jī)會。
計(jì)算機(jī)視覺作為一種人工智能的基礎(chǔ)技術(shù)應(yīng)用,使用場景多樣,市場潛力巨大。其中,人臉識別和視頻監(jiān)控作為計(jì)算機(jī)視覺的重要應(yīng)用領(lǐng)域,2015年市場容量已達(dá)十億和百億級別。隨著計(jì)算機(jī)視覺與傳統(tǒng)行業(yè)、商業(yè)聯(lián)系越來越緊密,未來更具有市場空間。
從計(jì)算機(jī)視覺的產(chǎn)業(yè)鏈來看,包括了基礎(chǔ)支撐層、技術(shù)提供層、以及場景應(yīng)用層。從產(chǎn)業(yè)鏈的廠商來看,包括了側(cè)重于算法的Google、Microsoft、facebook、BAT等互聯(lián)網(wǎng)公司,Intel、Nvidia等半導(dǎo)體公司,???、大華等傳統(tǒng)公司,也包括曠視、商湯、依圖等創(chuàng)業(yè)公司。從競爭的格局來看,由于Google、微軟等互聯(lián)網(wǎng)巨頭對算法等經(jīng)常做開源算法,初創(chuàng)企業(yè)在通用層面很難以算法來保持競爭優(yōu)勢,而是必須結(jié)合特定的應(yīng)用場景,采用軟硬件結(jié)合的方式,深耕細(xì)分垂直市場,更容易保持持續(xù)性的優(yōu)勢。
從技術(shù)發(fā)展趨勢來看,由于基于人工智能的深度學(xué)習(xí)的廣泛應(yīng)用,計(jì)算機(jī)視覺的準(zhǔn)確度和識別率已經(jīng)超過人眼,當(dāng)然這是在服務(wù)器端硬件處理能力、并行計(jì)算能力,深度學(xué)習(xí)算法、以及海量視頻圖像數(shù)據(jù)等因素的驅(qū)動下。但是隨著智能前端芯片的處理能力越來越強(qiáng),我們希望看到越來越多的計(jì)算機(jī)視覺處理部分能放到前端來處理,無疑這意味著失去了以Hadoop大數(shù)據(jù)并行計(jì)算的優(yōu)勢,同時(shí)由于硬件處理能力減弱,我們必須對整個(gè)視覺模型進(jìn)行裁減,如把20多層的深度神經(jīng)網(wǎng)絡(luò)減少到7層,可能要先在服務(wù)器上進(jìn)行模型訓(xùn)練,再以先驗(yàn)的閾值對前端進(jìn)行巧妙的設(shè)置,同時(shí)要充分考慮到精確度、能耗、吞吐量/延遲性以及成本,這無疑對硬件與算法提出了挑戰(zhàn)。
DSP的全稱為Digital Signal Process,即數(shù)字信號處理技術(shù),目前全球最大的DSP芯片廠商是TI,最大的DSP IP廠商是CEVA。DSP芯片被廣泛用于自動控制、圖像處理、通信技術(shù)、網(wǎng)絡(luò)設(shè)備、儀器儀表和家電等領(lǐng)域。DSP芯片的內(nèi)部采用程序和數(shù)據(jù)分開的哈佛結(jié)構(gòu),具有專門的硬件乘法器,廣泛采用流水線操作,提供特殊的DSP指令,可以用來快速地實(shí)現(xiàn)各種數(shù)字信號處理算法,如數(shù)字濾波、自適應(yīng)濾波、快速傅里葉變換、相關(guān)運(yùn)算、頻譜分析、卷積等。
DSP天然擁有處理計(jì)算機(jī)視覺算法的優(yōu)勢。近期Inuitive已經(jīng)取得CEVA-XM4智慧視覺DSP的授權(quán)許可,并且也已經(jīng)部署在其下一代的AR/VR 和電腦視覺SoC元件NU4000之中。Inuitive將利用CEVA-XM4來運(yùn)行復(fù)雜的即時(shí)深度感測、特征跟蹤、目標(biāo)識別、深度學(xué)習(xí)和其它以各種行動設(shè)備為目標(biāo)的視覺相關(guān)之演算法,這些行動設(shè)備包括擴(kuò)增實(shí)境和虛擬實(shí)境頭戴耳機(jī)、無人機(jī)、消費(fèi)機(jī)器人、360度相機(jī)和深度感測器等。NU3000以第三代的CEVA-MM3101圖像和視覺DSP來提供立體視覺功能,現(xiàn)在是Google Project Tango生態(tài)系統(tǒng)中的一部分,開發(fā)人員能夠利用它來開發(fā)需要即時(shí)深度產(chǎn)生、映射、定位、導(dǎo)航和其它復(fù)雜信號處理演算法的應(yīng)用。
CEVA ADK包括一個(gè)可簡化軟體發(fā)展和整合工作的安卓多媒體框架(AMF)、一套先進(jìn)的軟體發(fā)展工具和一系列專為這些DSP而優(yōu)化的軟體產(chǎn)品及程式庫。針對以深度學(xué)習(xí)為目標(biāo)的嵌入式系統(tǒng),CEVA深層類神經(jīng)網(wǎng)路(Deep Neural Network,CDNN)即時(shí)類神經(jīng)網(wǎng)路軟體框架簡化機(jī)器學(xué)習(xí)部署,功耗遠(yuǎn)遠(yuǎn)低于基于先進(jìn)GPU的系統(tǒng)。
我認(rèn)為在機(jī)器視覺的智能化前端,DSP會有更廣泛的應(yīng)用,甚至不亞于GPU。
最近有報(bào)道,亞馬遜(AWS)宣布將通過云交付模式提供高端 Xilinx FPGA,首先提供開發(fā)者預(yù)覽模式,然后使用更高級的工具進(jìn)行分支,以幫助新用戶啟用和調(diào)試 FPGA 加速?;贔PGA的深度學(xué)習(xí)算法越來越受重視。不僅在云端,目前基于FPGA的計(jì)算機(jī)視覺的智能化前端應(yīng)用也很廣,包括基于FPGA的視覺ADAS的應(yīng)用,圖形圖像視頻識別等方面。由于FPGA是采用硬件描述語言如Verilog、VHDL等,與我們通常理解的軟件不一樣,硬件具有時(shí)序概念,很適合同步運(yùn)算。拿高端的來說,3000多個(gè)固定乘法器,拿數(shù)字邏輯還能搭3000個(gè),最快能到接近300mhz, 也就是1800g這個(gè)量級。在實(shí)時(shí)性、流處理方面都有優(yōu)勢,從渠道的反饋情況,在功耗性能比上,優(yōu)于GPU。
最近在看一本書,《FPGA前沿:可重構(gòu)計(jì)算的新應(yīng)用》,里面有關(guān)于FPGA在新的應(yīng)用領(lǐng)域的探討,推薦大家看一下。誠如書中所言,目前FPGA方面要解決好易開發(fā)的問題,如采用OpenCL建立通用的API層,便于客戶的二次開發(fā)。在這一塊,我們會一直跟蹤Xilinx及其合作伙伴,在創(chuàng)建基于FPGA的各種深度學(xué)習(xí)包括機(jī)器視覺開發(fā)庫上的進(jìn)展。
二、智能前端算法
計(jì)算機(jī)視覺是指用計(jì)算機(jī)來模擬人的視覺系統(tǒng),實(shí)現(xiàn)人的視覺功能,以適應(yīng)、理解外界環(huán)境和控制自身的運(yùn)動。概括的說,視覺系統(tǒng)主要解決的是物體識別、物體形狀和方位確認(rèn)以及物體運(yùn)動判斷這三個(gè)問題。從技術(shù)上來說,主要分為目標(biāo)檢測、目標(biāo)識別、行為識別。
關(guān)于計(jì)算機(jī)視覺上的算法進(jìn)展,在2010年,ImageNet 創(chuàng)建,提供了一個(gè)真正大規(guī)模有標(biāo)注的圖像數(shù)據(jù)集,在千萬圖像量級,有上千圖像類別。這使圖像分析技術(shù)開始有明顯提高。2012年,深度神經(jīng)網(wǎng)絡(luò)被成功用于ImageNet圖像分類年度競賽,將其性能大幅度提升,展示了深度神經(jīng)網(wǎng)絡(luò)對視覺研究的極大潛能,也激起了視覺研究的新高潮,讓人們看到了計(jì)算機(jī)視覺實(shí)用化的希望。短短幾年后的今天,深度神經(jīng)網(wǎng)絡(luò)技術(shù)發(fā)展迅速,在ImageNet圖像分類上的性能已超過人類,人們研究的重點(diǎn)也從圖像分類轉(zhuǎn)移到圖像物體語義分割等更細(xì)更復(fù)雜的任務(wù)。在深度神經(jīng)網(wǎng)絡(luò)中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡稱CNN)是參考人的視覺形成規(guī)律所構(gòu)建的,因此常常用于圖像識別。
在人工智能、機(jī)器學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)、監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)等等概念方面,下面的圖很好的解釋了彼此之間的關(guān)系,推薦給大家。
上面是目前較常用的開源算法。對本文來說,我們關(guān)注的是計(jì)算機(jī)視覺的智能前端化的算法,所以我們關(guān)注最近谷歌開源深度學(xué)習(xí)框架 TensorFlow 發(fā)布了完整的1.0版本,使得在普通智能手機(jī)上運(yùn)行機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí)程序成為可能。 我們更關(guān)注這些算法,包括深度學(xué)習(xí)的算法,在智能化前端設(shè)備上的運(yùn)行,它可能需要對算法進(jìn)行裁減,那會不會影響算法模型的收斂性、精確度、延遲等問題,是否因?yàn)槟P偷男薷囊匦掠?xùn)練。最先進(jìn)的 DNNs 所耗費(fèi)的能量比其他形式的嵌入處理(比如視頻壓縮)要高出幾個(gè)數(shù)量級,如果運(yùn)用在嵌入式的前端,對功耗有多大程度的影響。針對特定場景的應(yīng)用,結(jié)合哪些硬件處理芯片和算法模型,就能很好的應(yīng)用,這些問題,我們沒有第一手資料,所以如果大家能做分享,我們非常感興趣。
我們在對待這個(gè)領(lǐng)域的態(tài)度,一直秉持應(yīng)用為王的理念,無論是以前做工程師,現(xiàn)在看創(chuàng)業(yè)類的項(xiàng)目,初心不改。
同時(shí),安創(chuàng)加速器一直依托Arm生態(tài)圈,理解產(chǎn)業(yè)和技術(shù)的發(fā)展趨勢;同時(shí),依托創(chuàng)業(yè)投資圈,理解投融資動態(tài);并通過自身的行業(yè)研究,加深行業(yè)的理解。
作者:馮棕煦
審核編輯 黃昊宇
-
智能化
+關(guān)注
關(guān)注
15文章
4784瀏覽量
55187 -
人工智能
+關(guān)注
關(guān)注
1789文章
46666瀏覽量
237102 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1694瀏覽量
45901
發(fā)布評論請先 登錄
相關(guān)推薦
評論