0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

讓小機器具備視覺和聽覺功能,面臨哪些挑戰(zhàn)?

jf_pJlTbmA9 ? 來源:jf_pJlTbmA9 ? 作者:jf_pJlTbmA9 ? 2023-07-13 15:46 ? 次閱讀

飛行汽車、機器人管家……在一些未來暢想中,今天的人們已經(jīng)擁有了各式“智慧”產(chǎn)品。如果運氣不好的話,高智能機器人大行其道,開始起來反抗人類,再現(xiàn)《機械公敵》劇情。雖然這些想象并未成真,但在當下,人工智能(AI)技術(shù)已經(jīng)走進了人們的世界。比如,每當給Alexa智能音箱指令時,機器學(xué)習技術(shù)都會努力弄清話語內(nèi)容,并試圖做出最佳判斷。每次Netflix或亞馬遜推薦了“下一部電影”或“下一次購貨商品”時,均是基于復(fù)雜機器學(xué)習算法而定向推薦,讓這些推薦遠比之前的促銷看上去誘人。盡管自動駕駛汽車尚未普及,但人們紛紛意識到自主導(dǎo)航的潛力和趨勢。

人工智能技術(shù)大有前途——它讓機器可以根據(jù)周圍的世界做出決策,像人一樣處理信息,甚至處理方式還會優(yōu)于人類。但是,如果細想上述事例,便會發(fā)現(xiàn)目前的很多人工智能,只能通過“大型機器”來實現(xiàn)——這些機器發(fā)熱量高、擁有線路功耗、體積巨大,而且昂貴。像Alexa和Netflix依靠云端的大型、高耗電服務(wù)器來分析用戶的意圖。而自動駕駛汽車則要依賴電池供電,考慮到電池必須能夠驅(qū)動車輪和轉(zhuǎn)向,因此需要提供很高的容量,與非常昂貴的人工智能決策相比,同樣也要消耗大量能源。

目前,人工智能技術(shù)穩(wěn)步發(fā)展,但是人工智能的“小型化,邊緣化”卻明顯滯后。那些由小型電池供電或存在成本和尺寸限制的設(shè)備無法實現(xiàn)機器的視覺和聽覺分析功能。目前,這些小型機器只能利用簡單的人工智能技術(shù):也許只是聽一個關(guān)鍵詞,或者分析低維信號,比如用光容積描記術(shù)(PPG)來測量心率。

如果小型機器有視覺和聽覺功能會怎么樣?

事實上,小型設(shè)備一旦能夠看到和聽到,是否有實用價值呢?思考一下,像門鈴攝像頭這樣的小產(chǎn)品需要使用自動駕駛或自然語言處理等高階人工智能技術(shù)嗎?似乎也沒有必要。因此可以考慮采用不太復(fù)雜、處理強度不大的小型化的、邊緣的人工智能計算,比如詞匯識別、語音識別和圖像分析。

普通的門鈴攝像頭和消費類安保攝像頭經(jīng)常會被一些無關(guān)緊要的事件觸發(fā),比如刮風引起的植物擺動、云彩引起的劇烈光線變化、甚至是狗或貓在攝像頭前跑動。這些事件可能會導(dǎo)致誤觸發(fā),從而需要房主去操作忽視并清除此類觸發(fā)事件。尤其糟糕的是,如果房主正好在世界其它地方旅行,而家里的攝像頭卻對日出、云彩、日落造成的光線變化發(fā)出了誤警報會影響他們睡眠和旅行。但一個智能攝像頭卻能夠基于更具體的事件進行觸發(fā),例如在所監(jiān)控的畫面中出現(xiàn)了一個人。

門鎖或其它出入口可使用面部識別,甚至是語音識別來授予人員訪問權(quán)限,在某些情況下不需要鑰匙或胸卡。

很多攝像頭都希望在發(fā)生某些特定事件時才觸發(fā):例如,跟蹤攝像頭可能希望在畫面中出現(xiàn)鹿時被觸發(fā),安保攝像頭可能希望在畫面中有人或出現(xiàn)開門或腳步聲等噪音時被觸發(fā),而個人攝像頭可能希望通過語音命令來觸發(fā)。

雖然有很多“Hey Alexa”這樣的簡單解決方案,但多詞匯量命令在很多應(yīng)用中都非常有用。如果具備識別20個或更多單詞的詞匯表,就可以在工業(yè)設(shè)備、家居自動化、烹飪設(shè)備和大量其它設(shè)備中應(yīng)用,以簡化人機交互。

盡管這些例子只觸及表層:讓小型機器看到、聽到和解決過去需要人為干預(yù)的問題,但實際上這是一種顛覆性思路,因為人們每天都不斷發(fā)現(xiàn)可智能化創(chuàng)造的新場景。

讓小機器具備視覺和聽覺功能,面臨哪些挑戰(zhàn)?

既然人工智能對小型機器具有如此實用價值,為何沒有被大量開發(fā)呢?答案是受限于算力。人工智能推理是神經(jīng)網(wǎng)絡(luò)模型計算的結(jié)果??梢园焉窠?jīng)網(wǎng)絡(luò)模型看作是大腦處理圖像或聲音的粗略近似形態(tài),將其分解為非常小的片段,然后在這些小碎片組合在一起時識別出模型?,F(xiàn)代化視覺問題的主要模型是卷積神經(jīng)網(wǎng)絡(luò)(CNN)。這類模型在圖像分析方面非常出色,在音頻分析方面也非常有用。問題在于,這些模型需要數(shù)百萬或數(shù)十億次的數(shù)學(xué)計算。對于傳統(tǒng)硬件設(shè)計,這些應(yīng)用在實施時卻會面臨一些困難抉擇:

使用低成本、低功耗的微控制器解決方案。雖然平均功耗可能很低,但卷積神經(jīng)網(wǎng)絡(luò)可能需要幾秒鐘時間來計算,這意味著人工智能推理不是實時的,并會消耗大量的電池電量。

購置一個昂貴的高性能處理器,能在規(guī)定延遲內(nèi)完成這些數(shù)學(xué)運算。不過,這些處理器通常很大,需要很多外部組件,包括散熱器或類似的冷卻組件。好處是,它們執(zhí)行人工智能推理的速度非???。

低功耗微控制器解決方案的速度太慢,無法發(fā)揮作用,而高性能處理器方法會超出成本、尺寸和電源預(yù)算,可以說上述兩種方案都不夠理想,難以實施。

由此可見,人們需要的是一種全新的嵌入式人工智能解決方案,盡可能減少卷積神經(jīng)網(wǎng)絡(luò)計算所需的能耗。人工智能推理需要以比傳統(tǒng)微控制器或處理器解決方案更少的能量來執(zhí)行,并且無需借助能耗高、尺寸大、成本大的外部組件(如存儲器)。如果人工智能推理解決方案實際上能夠消除機器視覺的能量損失,那么即便是最小的設(shè)備也能看到并識別周圍世界發(fā)生的事情。

幸運的是,人們現(xiàn)在已經(jīng)處于這場“小型機器”革命的開端。目前,ADI已經(jīng)在市場上推出了相關(guān)產(chǎn)品,能夠消除人工智能推理的能源成本,并實現(xiàn)電池供電的機器視覺功能。了解更多有關(guān)構(gòu)建能夠執(zhí)行人工智能推理但能耗卻只有微焦耳的微控制器的信息。

責任編輯:彭菁

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    46698

    瀏覽量

    237200
  • 機器學(xué)習
    +關(guān)注

    關(guān)注

    66

    文章

    8357

    瀏覽量

    132330
  • 邊緣計算
    +關(guān)注

    關(guān)注

    22

    文章

    3049

    瀏覽量

    48505
收藏 人收藏

    評論

    相關(guān)推薦

    機器視覺面臨挑戰(zhàn)及其解決方法

    機器視覺是指使用計算機和圖像處理技術(shù)從圖像中提取信息,并將其轉(zhuǎn)換為機器可理解的格式。這種方法已經(jīng)被廣泛應(yīng)用于自動化生產(chǎn)、質(zhì)量控制、測量和檢測等領(lǐng)域。然而,機器
    的頭像 發(fā)表于 11-11 01:03 ?51次閱讀

    《DNK210使用指南 -CanMV版 V1.0》第二章 Kendryte K210簡介

    包含的用于加速計算卷積人工神經(jīng)網(wǎng)絡(luò)的KPU和用于處理麥克風陣列輸入的APU是其機器視覺機器聽覺這兩大核心功能的基礎(chǔ)。同時KendryteK
    發(fā)表于 08-30 17:34

    什么是機器視覺opencv?它有哪些優(yōu)勢?

    機器視覺(Machine Vision)是一種利用計算機和圖像處理技術(shù)來模擬人類視覺系統(tǒng)的功能,實現(xiàn)對圖像的識別、分析和理解的技術(shù)。OpenCV(Open Source Compute
    的頭像 發(fā)表于 07-16 10:33 ?629次閱讀

    機器視覺和計算機視覺有什么區(qū)別

    。機器視覺的研究目標是機器具有類似人類的視覺能力,能夠自動、準確地完成各種視覺任務(wù)。 計算機
    的頭像 發(fā)表于 07-16 10:23 ?448次閱讀

    機器視覺的應(yīng)用實例解析

    ,隨著計算機技術(shù)、圖像處理技術(shù)和人工智能技術(shù)的不斷進步,機器視覺技術(shù)得到了迅速的發(fā)展和廣泛的應(yīng)用。機器視覺技術(shù)的核心是圖像處理和分析,通過模擬人類
    的頭像 發(fā)表于 07-16 10:19 ?342次閱讀

    機器視覺的應(yīng)用流程是如何實現(xiàn)的

    設(shè)計,明確應(yīng)用目標、功能需求和性能指標。系統(tǒng)設(shè)計包括以下幾個方面: 1.1 應(yīng)用場景分析:分析機器視覺系統(tǒng)需要解決的問題,確定應(yīng)用場景和環(huán)境條件。 1.2 功能需求分析:根據(jù)應(yīng)用場景,
    的頭像 發(fā)表于 07-04 10:47 ?364次閱讀

    機器視覺控制軸運動原理是什么

    機器視覺控制軸運動原理是一個復(fù)雜而深入的主題。下面將從以下幾個方面進行介紹: 機器視覺概述 機器視覺
    的頭像 發(fā)表于 07-04 10:42 ?468次閱讀

    機器視覺的典型結(jié)構(gòu)和基本功能

    對圖像進行采集、處理和分析,從而實現(xiàn)對目標進行識別、檢測、測量和控制的功能。本文將詳細介紹機器視覺的定義、典型結(jié)構(gòu)以及基本功能,并結(jié)合相關(guān)數(shù)據(jù)和信息進行闡述。
    的頭像 發(fā)表于 06-17 10:36 ?465次閱讀

    機器視覺行業(yè)就率將迎來一輪“洗牌賽”

    盡管當前機器視覺領(lǐng)域的相關(guān)企業(yè)普遍面臨挑戰(zhàn),但長遠來看,隨著技術(shù)的進步和市場需求的增長,機器視覺
    發(fā)表于 03-26 11:10 ?750次閱讀

    解鎖機器視覺工業(yè)檢測難題

    機器視覺工業(yè)檢測技術(shù)在不斷發(fā)展的過程中,面臨一些挑戰(zhàn)和難題,在復(fù)雜的工業(yè)環(huán)境中,如光線變化、振動、灰塵等干擾因素會影響圖像質(zhì)量和系統(tǒng)穩(wěn)定性,導(dǎo)致檢測準確性下降。 工業(yè)生產(chǎn)中需要處理大量
    的頭像 發(fā)表于 03-14 17:33 ?379次閱讀

    分析 丨AI算法愈加復(fù)雜,但是機器視覺的開發(fā)門檻在降低

    準確判斷。此外,AI大模型近兩年受到關(guān)注,也可能被引入機器視覺領(lǐng)域,在跨模態(tài)理解和推理等方面展現(xiàn)出更強能力。 AI算法的復(fù)雜程度越來越高,機器視覺系統(tǒng)設(shè)計
    的頭像 發(fā)表于 02-19 16:49 ?611次閱讀
    分析 丨AI算法愈加復(fù)雜,但是<b class='flag-5'>機器</b><b class='flag-5'>視覺</b>的開發(fā)門檻在降低

    機器視覺軟件有哪些 機器視覺軟件的優(yōu)點

    機器視覺軟件是一種利用計算機視覺技術(shù)來模擬和彌補人眼視覺功能的軟件系統(tǒng)。它可以通過對圖像和視頻進行分析,識別和理解目標物體,以實現(xiàn)自動化和智
    的頭像 發(fā)表于 02-02 10:53 ?1430次閱讀

    機器視覺的四大核心功能

    機器視覺的四大核心功能? 機器視覺是一種通過電子系統(tǒng)和計算機軟件實現(xiàn)人類視覺
    的頭像 發(fā)表于 12-25 11:15 ?920次閱讀

    人形機器人能做什么 人形機器人產(chǎn)業(yè)化面臨挑戰(zhàn)

    人形機器人在構(gòu)型方面接近于人類的軀體,包括手臂、雙足、軀干和脖子。除此之外,還要具備一些視覺類的感知能力,以及用于控制運動的算力能力。
    發(fā)表于 11-27 11:18 ?551次閱讀

    視覺定位系統(tǒng)組成、關(guān)鍵因素及面臨挑戰(zhàn)

    機器視覺在生產(chǎn)制造中主要用在視覺引導(dǎo),尺寸測量,產(chǎn)品檢測,物體識別等幾個領(lǐng)域。 在這幾個領(lǐng)域中,一個最基本的算法就是產(chǎn)品識別和定位,比如視覺引導(dǎo)機器
    的頭像 發(fā)表于 11-21 16:57 ?985次閱讀