0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于計(jì)算機(jī)視覺的智能化前端化思考

電子設(shè)計(jì) ? 來源:電子設(shè)計(jì) ? 作者:電子設(shè)計(jì) ? 2020-12-10 19:07 ? 次閱讀

視頻大數(shù)據(jù)作為攝像頭等硬件的普及與人工智能算法飛速發(fā)展相結(jié)合的產(chǎn)物,近年來的發(fā)展得到了人們的廣泛關(guān)注。計(jì)算機(jī)視覺作為視頻大數(shù)據(jù)分析的一個(gè)重要環(huán)節(jié),特別是人工智能和深度學(xué)習(xí)的算法在計(jì)算機(jī)視覺更廣泛的應(yīng)用,使計(jì)算機(jī)視覺這幾年熱度一直不減。

本文我們從計(jì)算機(jī)視覺的智能化前端去思考,這里的智能化前端指智能硬件、移動設(shè)備等輕量級的硬件,以區(qū)別于云端服務(wù)器級別的設(shè)備。我們一直認(rèn)為,市場和實(shí)際的應(yīng)用是決定一個(gè)產(chǎn)業(yè)能否發(fā)展的先決條件,再從工程技術(shù)的角度去分析是否滿足實(shí)際應(yīng)用場景;同時(shí)工程技術(shù)的成熟,又會促進(jìn)市場和實(shí)際應(yīng)用、商業(yè)模式的發(fā)展。因此,本文主要從市場/應(yīng)用、算法和硬件三個(gè)維度去探討。當(dāng)然由于本人知識儲備尚且有不足,希望能拋磚引玉,借此與各算法、硬件的產(chǎn)業(yè)界專家,以及行業(yè)研究者做更深入的探討。

一、行業(yè)與應(yīng)用

如上次文章的闡述,我們一直從全產(chǎn)業(yè)鏈、競爭格局、技術(shù)發(fā)展趨勢、應(yīng)用導(dǎo)向和市場空間5個(gè)維度,來分析行業(yè)發(fā)展的機(jī)會。

計(jì)算機(jī)視覺作為一種人工智能的基礎(chǔ)技術(shù)應(yīng)用,使用場景多樣,市場潛力巨大。其中,人臉識別和視頻監(jiān)控作為計(jì)算機(jī)視覺的重要應(yīng)用領(lǐng)域,2015年市場容量已達(dá)十億和百億級別。隨著計(jì)算機(jī)視覺與傳統(tǒng)行業(yè)、商業(yè)聯(lián)系越來越緊密,未來更具有市場空間。

從計(jì)算機(jī)視覺的產(chǎn)業(yè)鏈來看,包括了基礎(chǔ)支撐層、技術(shù)提供層、以及場景應(yīng)用層。從產(chǎn)業(yè)鏈的廠商來看,包括了側(cè)重于算法的Google、Microsoft、facebook、BAT等互聯(lián)網(wǎng)公司,Intel、Nvidia等半導(dǎo)體公司,???、大華等傳統(tǒng)公司,也包括曠視、商湯、依圖等創(chuàng)業(yè)公司。從競爭的格局來看,由于Google、微軟等互聯(lián)網(wǎng)巨頭對算法等經(jīng)常做開源算法,初創(chuàng)企業(yè)在通用層面很難以算法來保持競爭優(yōu)勢,而是必須結(jié)合特定的應(yīng)用場景,采用軟硬件結(jié)合的方式,深耕細(xì)分垂直市場,更容易保持持續(xù)性的優(yōu)勢。

從技術(shù)發(fā)展趨勢來看,由于基于人工智能的深度學(xué)習(xí)的廣泛應(yīng)用,計(jì)算機(jī)視覺的準(zhǔn)確度和識別率已經(jīng)超過人眼,當(dāng)然這是在服務(wù)器端硬件處理能力、并行計(jì)算能力,深度學(xué)習(xí)算法、以及海量視頻圖像數(shù)據(jù)等因素的驅(qū)動下。但是隨著智能前端芯片的處理能力越來越強(qiáng),我們希望看到越來越多的計(jì)算機(jī)視覺處理部分能放到前端來處理,無疑這意味著失去了以Hadoop大數(shù)據(jù)并行計(jì)算的優(yōu)勢,同時(shí)由于硬件處理能力減弱,我們必須對整個(gè)視覺模型進(jìn)行裁減,如把20多層的深度神經(jīng)網(wǎng)絡(luò)減少到7層,可能要先在服務(wù)器上進(jìn)行模型訓(xùn)練,再以先驗(yàn)的閾值對前端進(jìn)行巧妙的設(shè)置,同時(shí)要充分考慮到精確度、能耗、吞吐量/延遲性以及成本,這無疑對硬件與算法提出了挑戰(zhàn)。

DSP的全稱為Digital Signal Process,即數(shù)字信號處理技術(shù),目前全球最大的DSP芯片廠商是TI,最大的DSP IP廠商是CEVA。DSP芯片被廣泛用于自動控制、圖像處理、通信技術(shù)、網(wǎng)絡(luò)設(shè)備、儀器儀表和家電等領(lǐng)域。DSP芯片的內(nèi)部采用程序和數(shù)據(jù)分開的哈佛結(jié)構(gòu),具有專門的硬件乘法器,廣泛采用流水線操作,提供特殊的DSP指令,可以用來快速地實(shí)現(xiàn)各種數(shù)字信號處理算法,如數(shù)字濾波、自適應(yīng)濾波、快速傅里葉變換、相關(guān)運(yùn)算、頻譜分析、卷積等。

DSP天然擁有處理計(jì)算機(jī)視覺算法的優(yōu)勢。近期Inuitive已經(jīng)取得CEVA-XM4智慧視覺DSP的授權(quán)許可,并且也已經(jīng)部署在其下一代的AR/VR電腦視覺SoC元件NU4000之中。Inuitive將利用CEVA-XM4來運(yùn)行復(fù)雜的即時(shí)深度感測、特征跟蹤、目標(biāo)識別、深度學(xué)習(xí)和其它以各種行動設(shè)備為目標(biāo)的視覺相關(guān)之演算法,這些行動設(shè)備包括擴(kuò)增實(shí)境和虛擬實(shí)境頭戴耳機(jī)、無人機(jī)、消費(fèi)機(jī)器人、360度相機(jī)和深度感測器等。NU3000以第三代的CEVA-MM3101圖像和視覺DSP來提供立體視覺功能,現(xiàn)在是Google Project Tango生態(tài)系統(tǒng)中的一部分,開發(fā)人員能夠利用它來開發(fā)需要即時(shí)深度產(chǎn)生、映射、定位、導(dǎo)航和其它復(fù)雜信號處理演算法的應(yīng)用。

CEVA ADK包括一個(gè)可簡化軟體發(fā)展和整合工作的安卓多媒體框架(AMF)、一套先進(jìn)的軟體發(fā)展工具和一系列專為這些DSP而優(yōu)化的軟體產(chǎn)品及程式庫。針對以深度學(xué)習(xí)為目標(biāo)的嵌入式系統(tǒng),CEVA深層類神經(jīng)網(wǎng)路(Deep Neural Network,CDNN)即時(shí)類神經(jīng)網(wǎng)路軟體框架簡化機(jī)器學(xué)習(xí)部署,功耗遠(yuǎn)遠(yuǎn)低于基于先進(jìn)GPU的系統(tǒng)。

我認(rèn)為在機(jī)器視覺的智能化前端,DSP會有更廣泛的應(yīng)用,甚至不亞于GPU。

最近有報(bào)道,亞馬遜(AWS)宣布將通過云交付模式提供高端 Xilinx FPGA,首先提供開發(fā)者預(yù)覽模式,然后使用更高級的工具進(jìn)行分支,以幫助新用戶啟用和調(diào)試 FPGA 加速?;贔PGA的深度學(xué)習(xí)算法越來越受重視。不僅在云端,目前基于FPGA的計(jì)算機(jī)視覺的智能化前端應(yīng)用也很廣,包括基于FPGA的視覺ADAS的應(yīng)用,圖形圖像視頻識別等方面。由于FPGA是采用硬件描述語言如Verilog、VHDL等,與我們通常理解的軟件不一樣,硬件具有時(shí)序概念,很適合同步運(yùn)算。拿高端的來說,3000多個(gè)固定乘法器,拿數(shù)字邏輯還能搭3000個(gè),最快能到接近300mhz, 也就是1800g這個(gè)量級。在實(shí)時(shí)性、流處理方面都有優(yōu)勢,從渠道的反饋情況,在功耗性能比上,優(yōu)于GPU。

最近在看一本書,《FPGA前沿:可重構(gòu)計(jì)算的新應(yīng)用》,里面有關(guān)于FPGA在新的應(yīng)用領(lǐng)域的探討,推薦大家看一下。誠如書中所言,目前FPGA方面要解決好易開發(fā)的問題,如采用OpenCL建立通用的API層,便于客戶的二次開發(fā)。在這一塊,我們會一直跟蹤Xilinx及其合作伙伴,在創(chuàng)建基于FPGA的各種深度學(xué)習(xí)包括機(jī)器視覺開發(fā)庫上的進(jìn)展。

二、智能前端算法

計(jì)算機(jī)視覺是指用計(jì)算機(jī)來模擬人的視覺系統(tǒng),實(shí)現(xiàn)人的視覺功能,以適應(yīng)、理解外界環(huán)境和控制自身的運(yùn)動。概括的說,視覺系統(tǒng)主要解決的是物體識別、物體形狀和方位確認(rèn)以及物體運(yùn)動判斷這三個(gè)問題。從技術(shù)上來說,主要分為目標(biāo)檢測、目標(biāo)識別、行為識別。

關(guān)于計(jì)算機(jī)視覺上的算法進(jìn)展,在2010年,ImageNet 創(chuàng)建,提供了一個(gè)真正大規(guī)模有標(biāo)注的圖像數(shù)據(jù)集,在千萬圖像量級,有上千圖像類別。這使圖像分析技術(shù)開始有明顯提高。2012年,深度神經(jīng)網(wǎng)絡(luò)被成功用于ImageNet圖像分類年度競賽,將其性能大幅度提升,展示了深度神經(jīng)網(wǎng)絡(luò)對視覺研究的極大潛能,也激起了視覺研究的新高潮,讓人們看到了計(jì)算機(jī)視覺實(shí)用化的希望。短短幾年后的今天,深度神經(jīng)網(wǎng)絡(luò)技術(shù)發(fā)展迅速,在ImageNet圖像分類上的性能已超過人類,人們研究的重點(diǎn)也從圖像分類轉(zhuǎn)移到圖像物體語義分割等更細(xì)更復(fù)雜的任務(wù)。在深度神經(jīng)網(wǎng)絡(luò)中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡稱CNN)是參考人的視覺形成規(guī)律所構(gòu)建的,因此常常用于圖像識別。

在人工智能、機(jī)器學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)、監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)等等概念方面,下面的圖很好的解釋了彼此之間的關(guān)系,推薦給大家。

上面是目前較常用的開源算法。對本文來說,我們關(guān)注的是計(jì)算機(jī)視覺的智能前端化的算法,所以我們關(guān)注最近谷歌開源深度學(xué)習(xí)框架 TensorFlow 發(fā)布了完整的1.0版本,使得在普通智能手機(jī)上運(yùn)行機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí)程序成為可能。 我們更關(guān)注這些算法,包括深度學(xué)習(xí)的算法,在智能化前端設(shè)備上的運(yùn)行,它可能需要對算法進(jìn)行裁減,那會不會影響算法模型的收斂性、精確度、延遲等問題,是否因?yàn)槟P偷男薷囊匦掠?xùn)練。最先進(jìn)的 DNNs 所耗費(fèi)的能量比其他形式的嵌入處理(比如視頻壓縮)要高出幾個(gè)數(shù)量級,如果運(yùn)用在嵌入式的前端,對功耗有多大程度的影響。針對特定場景的應(yīng)用,結(jié)合哪些硬件處理芯片和算法模型,就能很好的應(yīng)用,這些問題,我們沒有第一手資料,所以如果大家能做分享,我們非常感興趣。

我們在對待這個(gè)領(lǐng)域的態(tài)度,一直秉持應(yīng)用為王的理念,無論是以前做工程師,現(xiàn)在看創(chuàng)業(yè)類的項(xiàng)目,初心不改。

同時(shí),安創(chuàng)加速器一直依托Arm生態(tài)圈,理解產(chǎn)業(yè)和技術(shù)的發(fā)展趨勢;同時(shí),依托創(chuàng)業(yè)投資圈,理解投融資動態(tài);并通過自身的行業(yè)研究,加深行業(yè)的理解。

作者:馮棕煦

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 智能化
    +關(guān)注

    關(guān)注

    15

    文章

    4784

    瀏覽量

    55187
  • 人工智能
    +關(guān)注

    關(guān)注

    1789

    文章

    46666

    瀏覽量

    237102
  • 計(jì)算機(jī)視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1694

    瀏覽量

    45901
收藏 人收藏

    評論

    相關(guān)推薦

    【?嵌入式機(jī)電一體系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)?閱讀體驗(yàn)】+《智能化技術(shù)在船舶維護(hù)中的應(yīng)用探索》

    航行阻力,導(dǎo)致燃料消耗劇增,還可能影響船舶的安全性和航行效率,因此,開發(fā)有效的污損監(jiān)測系統(tǒng)顯得尤為重要。 文中提到的研究工作,通過結(jié)合計(jì)算機(jī)視覺技術(shù)和機(jī)器學(xué)習(xí)算法,設(shè)計(jì)出一種便攜、經(jīng)濟(jì)且易于操作的污損
    發(fā)表于 08-26 22:22

    計(jì)算機(jī)視覺有哪些優(yōu)缺點(diǎn)

    計(jì)算機(jī)視覺作為人工智能領(lǐng)域的一個(gè)重要分支,旨在使計(jì)算機(jī)能夠像人類一樣理解和解釋圖像和視頻中的信息。這一技術(shù)的發(fā)展不僅推動了多個(gè)行業(yè)的變革,也帶來了諸多優(yōu)勢,但同時(shí)也伴隨著一些挑戰(zhàn)和局限
    的頭像 發(fā)表于 08-14 09:49 ?654次閱讀

    機(jī)器視覺計(jì)算機(jī)視覺有什么區(qū)別

    機(jī)器視覺計(jì)算機(jī)視覺是兩個(gè)密切相關(guān)但又有所區(qū)別的概念。 一、定義 機(jī)器視覺 機(jī)器視覺,又稱為計(jì)算機(jī)
    的頭像 發(fā)表于 07-16 10:23 ?442次閱讀

    計(jì)算機(jī)視覺的五大技術(shù)

    計(jì)算機(jī)視覺作為深度學(xué)習(xí)領(lǐng)域最熱門的研究方向之一,其技術(shù)涵蓋了多個(gè)方面,為人工智能的發(fā)展開拓了廣闊的道路。以下是對計(jì)算機(jī)視覺五大技術(shù)的詳細(xì)解析
    的頭像 發(fā)表于 07-10 18:26 ?1137次閱讀

    計(jì)算機(jī)視覺與人工智能的關(guān)系是什么

    引言 計(jì)算機(jī)視覺是一門研究如何使計(jì)算機(jī)能夠理解和解釋視覺信息的學(xué)科。它涉及到圖像處理、模式識別、機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域的知識。人工智能則是研究如
    的頭像 發(fā)表于 07-09 09:25 ?484次閱讀

    計(jì)算機(jī)視覺智能感知是干嘛的

    引言 計(jì)算機(jī)視覺(Computer Vision)是一門研究如何使計(jì)算機(jī)能夠理解和解釋視覺信息的學(xué)科。它涉及到圖像處理、模式識別、機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域,是人工
    的頭像 發(fā)表于 07-09 09:23 ?657次閱讀

    計(jì)算機(jī)視覺和機(jī)器視覺區(qū)別在哪

    ,旨在實(shí)現(xiàn)對圖像和視頻的自動分析和理解。 機(jī)器視覺 機(jī)器視覺計(jì)算機(jī)視覺的一個(gè)分支,主要應(yīng)用于工業(yè)自動領(lǐng)域。它利用
    的頭像 發(fā)表于 07-09 09:22 ?384次閱讀

    計(jì)算機(jī)視覺屬于人工智能

    屬于,計(jì)算機(jī)視覺是人工智能領(lǐng)域的一個(gè)重要分支。 引言 計(jì)算機(jī)視覺是一門研究如何使計(jì)算機(jī)具有
    的頭像 發(fā)表于 07-09 09:11 ?1029次閱讀

    深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其中的核心技術(shù)之一,已經(jīng)在計(jì)算機(jī)視覺領(lǐng)域取得了顯著的成果。計(jì)算機(jī)視覺,作為
    的頭像 發(fā)表于 07-01 11:38 ?635次閱讀

    機(jī)器視覺計(jì)算機(jī)視覺的區(qū)別

    在人工智能和自動技術(shù)的快速發(fā)展中,機(jī)器視覺(Machine Vision, MV)和計(jì)算機(jī)視覺(Computer Vision, CV)作
    的頭像 發(fā)表于 06-06 17:24 ?1177次閱讀

    計(jì)算機(jī)視覺的主要研究方向

    計(jì)算機(jī)視覺(Computer Vision, CV)作為人工智能領(lǐng)域的一個(gè)重要分支,致力于使計(jì)算機(jī)能夠像人眼一樣理解和解釋圖像和視頻中的信息。隨著深度學(xué)習(xí)、大數(shù)據(jù)等技術(shù)的快速發(fā)展,
    的頭像 發(fā)表于 06-06 17:17 ?774次閱讀

    計(jì)算機(jī)視覺的十大算法

    隨著科技的不斷發(fā)展,計(jì)算機(jī)視覺領(lǐng)域也取得了長足的進(jìn)步。本文將介紹計(jì)算機(jī)視覺領(lǐng)域的十大算法,包括它們的基本原理、應(yīng)用場景和優(yōu)缺點(diǎn)。這些算法在圖像處理、目標(biāo)檢測、人臉識別等領(lǐng)域有著廣泛的應(yīng)
    的頭像 發(fā)表于 02-19 13:26 ?1177次閱讀
    <b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b>的十大算法

    AI算法的本質(zhì)是模擬人類智能,讓機(jī)器實(shí)現(xiàn)智能化

    視覺等領(lǐng)域。 ? AI 算法的核心是實(shí)現(xiàn)智能化的決策和行為 ? AI算法的本質(zhì)在于模擬人類智能的能力,讓計(jì)算機(jī)能夠?qū)ΜF(xiàn)實(shí)世界進(jìn)行模擬和模仿,從而達(dá)到
    的頭像 發(fā)表于 02-07 00:07 ?5538次閱讀

    智能化計(jì)算機(jī)體系結(jié)構(gòu)設(shè)計(jì)方案

    未來計(jì)算機(jī)體系結(jié)構(gòu)將趨向于智能化和自適應(yīng)性。智能化計(jì)算機(jī)體系結(jié)構(gòu)可以根據(jù)不同的任務(wù)和場景進(jìn)行智能調(diào)整,提高
    發(fā)表于 01-22 11:05 ?406次閱讀
    <b class='flag-5'>智能化</b>的<b class='flag-5'>計(jì)算機(jī)</b>體系結(jié)構(gòu)設(shè)計(jì)方案

    什么是計(jì)算機(jī)視覺?計(jì)算機(jī)視覺的三種方法

    計(jì)算機(jī)視覺是指通過為計(jì)算機(jī)賦予人類視覺這一技術(shù)目標(biāo),從而賦能裝配線檢查到駕駛輔助和機(jī)器人等應(yīng)用。計(jì)算機(jī)缺乏像人類一樣憑直覺產(chǎn)生
    的頭像 發(fā)表于 11-16 16:38 ?4410次閱讀
    什么是<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b>?<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b>的三種方法