0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

了解計(jì)算機(jī)視覺發(fā)展未來的核心技術(shù)

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:Richmond Alake ? 2022-05-30 09:57 ? 次閱讀

Computer vision 是一個(gè)快速發(fā)展的研究和應(yīng)用領(lǐng)域。計(jì)算機(jī)視覺研究的進(jìn)展現(xiàn)在更直接、更直接地適用于商業(yè)世界。

人工智能開發(fā)人員正在實(shí)施計(jì)算機(jī)視覺解決方案,以識別和分類對象,甚至對其作出實(shí)時(shí)反應(yīng)。圖像分類、人臉檢測、姿態(tài)估計(jì)和光流是一些典型的任務(wù)。計(jì)算機(jī)視覺工程師是 deep learning ( DL )或 machine learning ( ML )工程師的子集,他們編寫計(jì)算機(jī)視覺算法來完成這些任務(wù)。

DL 算法的結(jié)構(gòu)非常適合解決計(jì)算機(jī)視覺問題。 卷積神經(jīng)網(wǎng)絡(luò) ( CNN )的體系結(jié)構(gòu)特征能夠檢測和提取視覺數(shù)據(jù)中存在的空間模式和特征。

計(jì)算機(jī)視覺領(lǐng)域正在迅速改變汽車、醫(yī)療保健和機(jī)器人等行業(yè),很難跟上最新發(fā)現(xiàn)、趨勢和進(jìn)展。這篇文章重點(diǎn)介紹了正在影響并將繼續(xù)影響 2022 年及以后計(jì)算機(jī)視覺發(fā)展未來的核心技術(shù):

幫助擴(kuò)展 DL 解決方案的云計(jì)算服務(wù)。

自動(dòng)化 ML ( AutoML )解決方案,可減少標(biāo)準(zhǔn) ML 管道中所需的重復(fù)工作。

transformer 研究人員開發(fā)的優(yōu)化計(jì)算機(jī)視覺任務(wù)的體系結(jié)構(gòu)。

結(jié)合計(jì)算機(jī)視覺技術(shù)的移動(dòng)設(shè)備。

云計(jì)算

云計(jì)算通過互聯(lián)網(wǎng)為個(gè)人或企業(yè)提供數(shù)據(jù)存儲(chǔ)、應(yīng)用服務(wù)器、網(wǎng)絡(luò)和其他計(jì)算機(jī)系統(tǒng)基礎(chǔ)設(shè)施。云計(jì)算解決方案提供快速、經(jīng)濟(jì)高效、可擴(kuò)展的按需資源。

大多數(shù) ML 解決方案都需要存儲(chǔ)和高處理能力。數(shù)據(jù)集管理的早期開發(fā)(聚合、清理和爭論)通常需要云計(jì)算資源來存儲(chǔ)或訪問 BigQuery 、 Hadoop 或 BigTable 等解決方案應(yīng)用程序。

最近,具有計(jì)算機(jī)視覺功能的設(shè)備和系統(tǒng)顯著增加,例如用于步態(tài)分析的姿勢估計(jì)、智能手機(jī)的人臉識別和自動(dòng)車輛的車道檢測。

云存儲(chǔ)的需求正在快速增長, projected 預(yù)計(jì)該行業(yè)的價(jià)值將達(dá)到 3903.3 億美元,是 2021 市場當(dāng)前價(jià)值的五倍。 market size 的增加將導(dǎo)致使用入站數(shù)據(jù)來訓(xùn)練 ML 模型的增加。這與更大的數(shù)據(jù)存儲(chǔ)容量需求和越來越強(qiáng)大的計(jì)算資源直接相關(guān)。

GPU 可用性加快了計(jì)算機(jī)視覺解決方案的速度。然而,單憑 GPU 還不足以提供這些應(yīng)用程序所需的可擴(kuò)展性和正常運(yùn)行時(shí)間,尤其是在為數(shù)千甚至數(shù)百萬消費(fèi)者提供服務(wù)時(shí)。云計(jì)算提供了啟動(dòng)和補(bǔ)充現(xiàn)有內(nèi)部基礎(chǔ)設(shè)施缺口所需的資源。

云計(jì)算平臺(tái),包括 Amazon Web 服務(wù)( AWS ) 、 谷歌云平臺(tái)( GCP ) 和 Microsoft Azure 為 ML 和數(shù)據(jù)科學(xué)項(xiàng)目管道的核心組件提供端到端解決方案,包括數(shù)據(jù)聚合、模型實(shí)現(xiàn)、部署和監(jiān)控。對于設(shè)計(jì)視覺系統(tǒng)的計(jì)算機(jī)視覺開發(fā)人員來說,重要的是要了解這些主要云服務(wù)提供商的優(yōu)勢,以及如何配置它們以滿足特定和復(fù)雜的管道需求。

大規(guī)模計(jì)算機(jī)視覺需要云服務(wù)集成

以下是支持典型計(jì)算機(jī)視覺系統(tǒng)的 NVIDIA 服務(wù)示例。

預(yù)訓(xùn)練 DL 模型的 NGC Catalog 降低了模型訓(xùn)練和實(shí)現(xiàn)的復(fù)雜性。

DL scripts 提供現(xiàn)成的可定制管道。強(qiáng)健的模型部署解決方案自動(dòng)化了向最終用戶的交付。

NVIDIA Triton 推理服務(wù)器 支持在任何基于 GPU 或 CPU 的基礎(chǔ)設(shè)施上部署來自 TensorFlow 和 PyTorch 等框架的模型。 Triton 推理服務(wù)器提供了跨各種平臺(tái)(包括云、邊緣和嵌入式設(shè)備)的模型可擴(kuò)展性。

NVIDIA 與云服務(wù)提供商(如VZX18)的合作伙伴關(guān)系支持部署基于計(jì)算機(jī)視覺的資產(chǎn),因此計(jì)算機(jī)視覺工程師可以將更多精力放在模型性能和優(yōu)化上。

企業(yè)在可行的情況下降低成本并優(yōu)化戰(zhàn)略。云計(jì)算和云服務(wù)提供商通過提供基于使用情況的計(jì)費(fèi)解決方案和基于需求的擴(kuò)展來實(shí)現(xiàn)這兩個(gè)目標(biāo)。

AutoML

ML 算法和模型開發(fā)涉及許多任務(wù),這些任務(wù)可以受益于自動(dòng)化,如特征工程和模型選擇。

特征工程涉及從數(shù)據(jù)集中檢測和選擇相關(guān)特征、屬性和屬性。

模型選擇涉及評估一組 ML 分類器、算法或給定問題的解決方案的性能。

特征工程和模型選擇活動(dòng)都需要 ML 工程師和數(shù)據(jù)科學(xué)家花費(fèi)大量時(shí)間來完成。軟件開發(fā)人員經(jīng)常重新訪問工作流的這些階段,以提高模型性能或準(zhǔn)確性。

有幾個(gè)正在進(jìn)行的大型項(xiàng)目可以簡化復(fù)雜的 ML 項(xiàng)目管道。 AutoML 專注于自動(dòng)化和增強(qiáng)工作流及其過程,以使 ML 易于訪問,并減少非 ML 專家的手動(dòng)強(qiáng)度。

從市場價(jià)值來看, projections 預(yù)計(jì)到 2030 年, AutoML 市場將達(dá)到 140 億美元。這意味著將比當(dāng)前值增加約 42 倍。

ML 和自動(dòng)化的這種特殊結(jié)合正在獲得吸引力,但也有局限性。

實(shí)踐中的 AutoML

AutoML 節(jié)省了數(shù)據(jù)科學(xué)家和計(jì)算機(jī)工程師的時(shí)間。 AutoML 功能使計(jì)算機(jī)視覺開發(fā)人員能夠?qū)⒏嗑ν度氲接?jì)算機(jī)視覺開發(fā)管道的其他階段,以最好地利用他們的技能集,如模型培訓(xùn)、評估和部署。 AutoML 有助于加速數(shù)據(jù)聚合、準(zhǔn)備和超參數(shù)優(yōu)化,但工作流的這些部分仍然需要人工輸入。

構(gòu)建正確的模型需要數(shù)據(jù)準(zhǔn)備和聚合,但它們是重復(fù)的、耗時(shí)的任務(wù),依賴于找到合適的數(shù)據(jù)質(zhì)量源。

同樣,超參數(shù)優(yōu)化可能需要大量時(shí)間進(jìn)行迭代以獲得正確的算法性能。它涉及到一個(gè)有根據(jù)的猜測的試錯(cuò)過程。尋找合適的超參數(shù)所需的重復(fù)工作量可能會(huì)很繁瑣,但對于使模型的訓(xùn)練達(dá)到所需的精度至關(guān)重要。

對于那些對 GPU 驅(qū)動(dòng)的 AutoML 感興趣的人來說,廣泛使用的 基于樹的管道優(yōu)化工具 ( TPOT )是一個(gè)自動(dòng)化的 ML 庫,旨在通過利用遺傳編程優(yōu)化 ML 過程和管道。 RAPIDS cuML 提供使用 GPU 計(jì)算資源加速的 TPOT 功能。

機(jī)器學(xué)習(xí)庫和框架

ML 庫和框架是任何計(jì)算機(jī)視覺開發(fā)人員工具包中的基本元素。主要 DL 庫,如 TensorFlow 、 PyTorch 、 Keras 和 MXNet 在 2021 收到了持續(xù)的更新和修復(fù),并且在未來可能會(huì)繼續(xù)這樣做。

最近,以移動(dòng)為中心的 DL 庫和優(yōu)化常用 DL 庫的包取得了令人興奮的進(jìn)展。

MediaPipe 于 2021 擴(kuò)展了姿勢估計(jì)功能,通過 BlazePose 模型提供 3D 姿勢估計(jì),該解決方案可在瀏覽器和移動(dòng)環(huán)境中使用。 2022 年,預(yù)計(jì)將在涉及動(dòng)態(tài)運(yùn)動(dòng)和需要穩(wěn)健解決方案的用例中看到更多姿勢估計(jì)應(yīng)用,例如舞蹈中的運(yùn)動(dòng)分析和虛擬角色運(yùn)動(dòng)模擬。

PyTorch 閃電 由于它的簡單性、復(fù)雜神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)細(xì)節(jié)的抽象性和硬件考慮的擴(kuò)展性,在研究人員和專業(yè) ML 從業(yè)者中越來越流行。

最先進(jìn)的深度學(xué)習(xí)

DL 方法長期以來被用來解決計(jì)算機(jī)視覺的挑戰(zhàn)。用于人臉檢測、車道檢測和姿態(tài)估計(jì)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)都使用深層連續(xù)的 CNN 。一種新的計(jì)算機(jī)視覺算法架構(gòu)正在出現(xiàn):變形金剛。

transformer 是在 注意力是你所需要的 中引入的 DL 體系結(jié)構(gòu)。論文方法通過使用 attention mechanism 來推導(dǎo)輸入數(shù)據(jù)的一部分相對于輸入數(shù)據(jù)的其他部分的重要性,從而創(chuàng)建數(shù)據(jù)的計(jì)算表示。

transformer 沒有使用 CNN 的約定,但研究表明 transformer 型號 在 vision-related tasks 中。變形金剛在 NLP 領(lǐng)域內(nèi)產(chǎn)生了相當(dāng)大的影響。有關(guān)更多信息,請參閱 發(fā)電預(yù)培訓(xùn)變壓器 ( GPT )和 變壓器的雙向編碼器表示 ( BERT )。

通過包含 PyTorch 中實(shí)際 transformer 模型的架構(gòu)和使用細(xì)節(jié)的 NGC Catalog 探索 transformer 模型。

有關(guān)將 Transformer 網(wǎng)絡(luò)體系結(jié)構(gòu)應(yīng)用于計(jì)算機(jī)視覺的更多信息,請參閱 視覺中的變形金剛:一項(xiàng)調(diào)查 論文。

移動(dòng)設(shè)備

邊緣設(shè)備正變得越來越強(qiáng)大。對于希望快速提供服務(wù)和 AI 功能的客戶來說,設(shè)備上推理功能是移動(dòng)應(yīng)用程序的必備功能。

將計(jì)算機(jī)視覺功能(如圖像和模式識別)納入移動(dòng)設(shè)備中,可以減少獲取模型推理結(jié)果的延遲,并提供以下好處:

縮短等待時(shí)間 用于獲取設(shè)備計(jì)算的推斷結(jié)果。

增強(qiáng)隱私和安全性 由于云服務(wù)器之間和到云服務(wù)器的數(shù)據(jù)傳輸有限。

云上的 降低了刪除依賴項(xiàng)的成本 和 CPU 服務(wù)器進(jìn)行推斷。

許多企業(yè)正在探索移動(dòng)產(chǎn)品,其中包括探索如何在移動(dòng)設(shè)備上復(fù)制現(xiàn)有 AI 功能。以下是實(shí)施 mobile first AI 解決方案的幾個(gè)平臺(tái)、工具和框架:

TensorFlow 很少

CoreML

Apple Vision 框架

TensorFlow-React

CreateML

MediaPipe

MLKit

總結(jié)

隨著人工智能越來越多地融入我們的日常生活,計(jì)算機(jī)視覺技術(shù)不斷發(fā)展。計(jì)算機(jī)視覺在最新的新聞?lì)^條中也變得越來越普遍。隨著這項(xiàng)技術(shù)的擴(kuò)展,由于云計(jì)算服務(wù)、自動(dòng) ML 管道、轉(zhuǎn)換器、以移動(dòng)為中心的 DL 庫和計(jì)算機(jī)視覺移動(dòng)應(yīng)用程序的發(fā)展趨勢,對具有計(jì)算機(jī)視覺系統(tǒng)知識的專家的需求也將增加。

2022 年,增強(qiáng)型和 VR 應(yīng)用程序的不斷發(fā)展將使計(jì)算機(jī)視覺開發(fā)人員能夠?qū)⑵浼寄軘U(kuò)展到新的領(lǐng)域,例如開發(fā)在 3D 空間中復(fù)制和與真實(shí)對象交互的直觀高效方法。展望未來,計(jì)算機(jī)視覺應(yīng)用將繼續(xù)改變并影響未來。

關(guān)于作者

Richmond Alake 是一名機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺工程師,他與多家初創(chuàng)公司和公司合作,整合深度學(xué)習(xí)模型,以解決商業(yè)應(yīng)用中的計(jì)算機(jī)視覺任務(wù)。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 轉(zhuǎn)換器
    +關(guān)注

    關(guān)注

    27

    文章

    8505

    瀏覽量

    145981
  • 計(jì)算機(jī)
    +關(guān)注

    關(guān)注

    19

    文章

    7174

    瀏覽量

    87153
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    8701

    瀏覽量

    84546
收藏 人收藏

    評論

    相關(guān)推薦

    計(jì)算機(jī)視覺有哪些優(yōu)缺點(diǎn)

    計(jì)算機(jī)視覺作為人工智能領(lǐng)域的一個(gè)重要分支,旨在使計(jì)算機(jī)能夠像人類一樣理解和解釋圖像和視頻中的信息。這一技術(shù)發(fā)展不僅推動(dòng)了多個(gè)行業(yè)的變革,也
    的頭像 發(fā)表于 08-14 09:49 ?288次閱讀

    計(jì)算機(jī)視覺技術(shù)的AI算法模型

    計(jì)算機(jī)視覺技術(shù)作為人工智能領(lǐng)域的一個(gè)重要分支,旨在使計(jì)算機(jī)能夠像人類一樣理解和解釋圖像及視頻中的信息。為了實(shí)現(xiàn)這一目標(biāo),計(jì)算機(jī)
    的頭像 發(fā)表于 07-24 12:46 ?355次閱讀

    機(jī)器視覺計(jì)算機(jī)視覺有什么區(qū)別

    機(jī)器視覺計(jì)算機(jī)視覺是兩個(gè)密切相關(guān)但又有所區(qū)別的概念。 一、定義 機(jī)器視覺 機(jī)器視覺,又稱為計(jì)算機(jī)
    的頭像 發(fā)表于 07-16 10:23 ?282次閱讀

    計(jì)算機(jī)視覺的五大技術(shù)

    計(jì)算機(jī)視覺作為深度學(xué)習(xí)領(lǐng)域最熱門的研究方向之一,其技術(shù)涵蓋了多個(gè)方面,為人工智能的發(fā)展開拓了廣闊的道路。以下是對計(jì)算機(jī)
    的頭像 發(fā)表于 07-10 18:26 ?902次閱讀

    計(jì)算機(jī)視覺與自然語言處理的區(qū)別

    計(jì)算機(jī)視覺(Computer Vision,簡稱CV)與自然語言處理(Natural Language Processing,簡稱NLP)作為人工智能(Artificial Intelligence
    的頭像 發(fā)表于 07-10 18:25 ?784次閱讀

    計(jì)算機(jī)視覺的工作原理和應(yīng)用

    圖像和視頻中提取有用信息,進(jìn)而進(jìn)行決策和行動(dòng)。自1960年代第一批學(xué)術(shù)論文問世以來,計(jì)算機(jī)視覺技術(shù)已經(jīng)取得了長足的發(fā)展,并在多個(gè)領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力和價(jià)值。
    的頭像 發(fā)表于 07-10 18:24 ?1068次閱讀

    計(jì)算機(jī)視覺與人工智能的關(guān)系是什么

    、交流等方面。計(jì)算機(jī)視覺與人工智能之間存在著密切的聯(lián)系,計(jì)算機(jī)視覺是人工智能的一個(gè)重要分支,也是實(shí)現(xiàn)人工智能的關(guān)鍵技術(shù)之一。
    的頭像 發(fā)表于 07-09 09:25 ?306次閱讀

    計(jì)算機(jī)視覺和機(jī)器視覺區(qū)別在哪

    ,旨在實(shí)現(xiàn)對圖像和視頻的自動(dòng)分析和理解。 機(jī)器視覺 機(jī)器視覺計(jì)算機(jī)視覺的一個(gè)分支,主要應(yīng)用于工業(yè)自動(dòng)化領(lǐng)域。它利用計(jì)算機(jī)和圖像處理
    的頭像 發(fā)表于 07-09 09:22 ?289次閱讀

    深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其中的核心技術(shù)之一,已經(jīng)在計(jì)算機(jī)視覺領(lǐng)域取得了顯著的成果。計(jì)算機(jī)
    的頭像 發(fā)表于 07-01 11:38 ?433次閱讀

    計(jì)算機(jī)視覺的主要研究方向

    計(jì)算機(jī)視覺(Computer Vision, CV)作為人工智能領(lǐng)域的一個(gè)重要分支,致力于使計(jì)算機(jī)能夠像人眼一樣理解和解釋圖像和視頻中的信息。隨著深度學(xué)習(xí)、大數(shù)據(jù)等技術(shù)的快速
    的頭像 發(fā)表于 06-06 17:17 ?520次閱讀

    【量子計(jì)算機(jī)重構(gòu)未來 | 閱讀體驗(yàn)】 跟我一起漫步量子計(jì)算

    首先感謝發(fā)燒友提供的試讀機(jī)會(huì)。 略讀一周,感觸頗深。首先量子計(jì)算機(jī)作為一種前沿技術(shù),正逐步展現(xiàn)出其巨大的潛力,預(yù)示著未來社會(huì)和技術(shù)領(lǐng)域的深刻變革。下面,我將從幾個(gè)方面探討量子
    發(fā)表于 03-13 19:28

    【量子計(jì)算機(jī)重構(gòu)未來 | 閱讀體驗(yàn)】+ 了解量子疊加原理

    如何生產(chǎn)制造。。。。。。 近來通過閱讀《量子計(jì)算機(jī)—重構(gòu)未來》一書,結(jié)合網(wǎng)絡(luò)資料,了解了一點(diǎn)點(diǎn)量子疊加知識,分享給大家。 先提一下電子計(jì)算機(jī),電子計(jì)
    發(fā)表于 03-13 17:19

    【量子計(jì)算機(jī)重構(gòu)未來 | 閱讀體驗(yàn)】+ 初識量子計(jì)算機(jī)

    欣喜收到《量子計(jì)算機(jī)——重構(gòu)未來》一書,感謝電子發(fā)燒友論壇提供了一個(gè)讓我了解量子計(jì)算機(jī)的機(jī)會(huì)! 自己對電子計(jì)算機(jī)有點(diǎn)
    發(fā)表于 03-05 17:37

    計(jì)算機(jī)視覺的十大算法

    視覺技術(shù)發(fā)展起到了重要的推動(dòng)作用。一、圖像分割算法圖像分割算法是計(jì)算機(jī)視覺領(lǐng)域的基礎(chǔ)算法之一,它的主要任務(wù)是將圖像分割成不同的區(qū)域或?qū)ο蟆?/div>
    的頭像 發(fā)表于 02-19 13:26 ?1045次閱讀
    <b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b>的十大算法

    什么是計(jì)算機(jī)視覺?計(jì)算機(jī)視覺的三種方法

    計(jì)算機(jī)視覺是指通過為計(jì)算機(jī)賦予人類視覺這一技術(shù)目標(biāo),從而賦能裝配線檢查到駕駛輔助和機(jī)器人等應(yīng)用。計(jì)算機(jī)
    的頭像 發(fā)表于 11-16 16:38 ?4160次閱讀
    什么是<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b>?<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b>的三種方法