0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何結(jié)合傳統(tǒng)計算機視覺與深度學(xué)習(xí)

新機器視覺 ? 來源:機器之心 ? 2020-09-24 10:17 ? 次閱讀

深度學(xué)習(xí)擴展了數(shù)字圖像處理的邊界。然而,這并不代表在深度學(xué)習(xí)崛起之前不斷發(fā)展進步的傳統(tǒng)計算機視覺技術(shù)被淘汰。近期,來自愛爾蘭垂利理工學(xué)院的研究者發(fā)表論文,分析了這兩種方法的優(yōu)缺點。

該論文旨在促進人們對是否保留經(jīng)典計算機視覺技術(shù)知識進行討論。此外,這篇論文還探討了如何結(jié)合傳統(tǒng)計算機視覺與深度學(xué)習(xí)。文中提及了多個近期混合方法,這些方法既提升了計算機視覺性能,又解決了不適合深度學(xué)習(xí)的問題。例如,將傳統(tǒng)計算機視覺技術(shù)與深度學(xué)習(xí)結(jié)合已經(jīng)在很多新興領(lǐng)域流行起來,如深度學(xué)習(xí)模型尚未得到充分優(yōu)化的全視野、3D 視覺領(lǐng)域。

深度學(xué)習(xí)VS 傳統(tǒng)計算機視覺

深度學(xué)習(xí)的優(yōu)勢

深度學(xué)習(xí)的快速發(fā)展和設(shè)備能力的改善(如算力、內(nèi)存容量、能耗、圖像傳感器分辨率和光學(xué)器件)提升了視覺應(yīng)用的性能和成本效益,并進一步加快了此類應(yīng)用的擴展。與傳統(tǒng)CV 技術(shù)相比,深度學(xué)習(xí)可以幫助 CV 工程師在圖像分類、語義分割、目標檢測和同步定位與地圖構(gòu)建(SLAM)等任務(wù)上獲得更高的準確率。由于深度學(xué)習(xí)所用的神經(jīng)網(wǎng)絡(luò)是訓(xùn)練得到而非編程得到,因此使用該方法的應(yīng)用所需的專家分析和微調(diào)較少,且能夠處理目前系統(tǒng)中的海量可用視頻數(shù)據(jù)。深度學(xué)習(xí)還具備絕佳的靈活性,因為對于任意用例,CNN 模型和框架均可使用自定義數(shù)據(jù)集重新訓(xùn)練,這與 CV 算法不同,后者具備更強的領(lǐng)域特定性。

以移動機器人的目標檢測問題為例,對比這兩類計算機視覺算法:

傳統(tǒng)計算機視覺方法使用成熟的CV 技術(shù)處理目標檢測問題,如特征描述子(SIFT、SUR、BRIEF 等)。在深度學(xué)習(xí)興起前,圖像分類等任務(wù)需要用到特征提取步驟,特征即圖像中「有趣」、描述性或信息性的小圖像塊。這一步可能涉及多種 CV 算法,如邊緣檢測、角點檢測或閾值分割算法。從圖像中提取出足夠多的特征后,這些特征可形成每個目標類別的定義(即「詞袋」)。部署階段中,在其他圖像中搜索這些定義。如果在一張圖像中找到了另一張圖像詞袋中的絕大多數(shù)特征,則該圖像也包含同樣的目標(如椅子、馬等)。

傳統(tǒng)CV 方法的缺陷是:從每張圖像中選擇重要特征是必要步驟。而隨著類別數(shù)量的增加,特征提取變得越來越麻煩。要確定哪些特征最能描述不同的目標類別,取決于CV 工程師的判斷和長期試錯。此外,每個特征定義還需要處理大量參數(shù),所有參數(shù)必須由 CV 工程師進行調(diào)整。

深度學(xué)習(xí)引入了端到端學(xué)習(xí)的概念,即向機器提供的圖像數(shù)據(jù)集中的每張圖像均已標注目標類別。因而深度學(xué)習(xí)模型基于給定數(shù)據(jù)「訓(xùn)練」得到,其中神經(jīng)網(wǎng)絡(luò)發(fā)現(xiàn)圖像類別中的底層模式,并自動提取出對于目標類別最具描述性和最顯著的特征。人們普遍認為DNN 的性能大大超過傳統(tǒng)算法,雖然前者在計算要求和訓(xùn)練時間方面有所取舍。隨著 CV 領(lǐng)域中最優(yōu)秀的方法紛紛使用深度學(xué)習(xí),CV 工程師的工作流程出現(xiàn)巨大改變,手動提取特征所需的知識和專業(yè)技能被使用深度學(xué)習(xí)架構(gòu)進行迭代所需的知識和專業(yè)技能取代(見圖 1)。

圖1:a)傳統(tǒng)計算機視覺工作流 vs b)深度學(xué)習(xí)工作流。(圖源:[8])

近年來,CNN 的發(fā)展對 CV 領(lǐng)域產(chǎn)生了巨大影響,也使得目標識別能力出現(xiàn)大幅提升。這種爆發(fā)與算力的提升、訓(xùn)練數(shù)據(jù)量的增加密不可分。近期CV 領(lǐng)域中深度神經(jīng)網(wǎng)絡(luò)架構(gòu)出現(xiàn)井噴并得到廣泛應(yīng)用,這從論文《ImageNet Classification with Deep Convolutional Neural Networks》引用量超 3000 次中可見一斑。

CNN 利用卷積核(又稱濾波器)來檢測圖像中的特征(如邊)。卷積核是權(quán)重矩陣,這些權(quán)重被訓(xùn)練用于檢測特定特征。如名字所示,CNN 的主要思想是在給定輸入圖像上空間性地卷積內(nèi)核,檢查是否出現(xiàn)檢測所需特征。為了用數(shù)值表示出現(xiàn)某個特征的置信度,神經(jīng)網(wǎng)絡(luò)執(zhí)行卷積操作,即計算卷積核與它和輸入圖像重疊區(qū)域的點積(卷積核正在查看的原始圖像區(qū)域叫做感受野)。

為了促進卷積核權(quán)重的學(xué)習(xí),研究人員向卷積層的輸出添加偏置項,并饋入非線性激活函數(shù)中。激活函數(shù)通常是非線性函數(shù),如Sigmoid、TanH 和 ReLU。激活函數(shù)的選擇取決于數(shù)據(jù)和分類任務(wù)的性質(zhì)。例如,ReLU 具備更多生物表征(大腦中的神經(jīng)元是否處于激活狀態(tài))。因此,在圖像識別任務(wù)中,ReLU 會得到更好的結(jié)果,因為它對梯度消失問題具備更強的抵抗力,而且它能夠輸出更稀疏、高效的表征。

為了加速訓(xùn)練過程,減少網(wǎng)絡(luò)消耗的內(nèi)存量,卷積層后通常跟著一個池化層,用于移除輸入特征中的冗余部分。例如,最大池化在輸入上移動窗口,僅輸出窗口中的最大值,從而高效減少圖像中的冗余部分,留下重要像素。如圖2 所示,深度 CNN 可能具備多對卷積和池化層。最后,全連接層將上一層壓縮為特征向量,然后輸出層利用密集網(wǎng)絡(luò)計算輸出類別/特征的分數(shù)(置信度或概率)。將該輸出輸入到回歸函數(shù)中,如 Softmax 函數(shù),它將所有事物映射為向量且其中所有元素的總和為 1。

圖2:CNN 構(gòu)造塊。(圖源:[13])

但是深度學(xué)習(xí)仍然只是CV 領(lǐng)域的工具。例如,CV 領(lǐng)域中最常用的神經(jīng)網(wǎng)絡(luò)是 CNN。那么什么是卷積呢?卷積廣泛應(yīng)用于圖像處理技術(shù)。(深度學(xué)習(xí)的優(yōu)點很明確,本文暫不討論當(dāng)前最優(yōu)算法。)但深度學(xué)習(xí)并非解決所有問題的萬靈藥,下文將介紹傳統(tǒng) CV 算法更適合的問題及應(yīng)用。

傳統(tǒng)CV 技術(shù)的優(yōu)勢

這部分將詳細介紹基于特征的傳統(tǒng)方法在CV 任務(wù)中能夠有效提升性能的原因。這些傳統(tǒng)方法包括:

·

尺度不變特征變換(Scale Invariant Feature Transform,SIFT)[14]

·

·

加速穩(wěn)健特征(Speeded Up Robust Feature,SURF)[15]

·

·

基于加速分割測試的特征(Features from Accelerated Segment Test,F(xiàn)AST)[16]

·

·

霍夫變換(Hough transform)[17]

·

·

幾何哈希(Geometric hashing)[18]

·

特征描述子(如SIFT 和 SURF)通常與傳統(tǒng)機器學(xué)習(xí)分類算法(如支持向量機和 K 最近鄰算法)結(jié)合使用,來解決 CV 問題。

深度學(xué)習(xí)有時會「過猶不及」,傳統(tǒng)CV 技術(shù)通常能夠更高效地解決問題,所用的代碼行數(shù)也比深度學(xué)習(xí)少。SIFT,甚至簡單的色彩閾值和像素計數(shù)等算法,都不是特定于某個類別的,它們是通用算法,可對任意圖像執(zhí)行同樣的操作。與之相反,深度神經(jīng)網(wǎng)絡(luò)學(xué)得的特征是特定于訓(xùn)練數(shù)據(jù)的。也就是說,如果訓(xùn)練數(shù)據(jù)集的構(gòu)建出現(xiàn)問題,則網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)集以外的圖像處理效果不好。因此,SIFT 等算法通常用于圖像拼接/3D 網(wǎng)格重建等應(yīng)用,這些應(yīng)用不需要特定類別知識。這些任務(wù)也可以通過訓(xùn)練大型數(shù)據(jù)集來實現(xiàn),但是這需要巨大的研究努力,為一個封閉應(yīng)用費這么大勁并不實際。在面對一個CV 應(yīng)用時,工程師需要培養(yǎng)選擇哪種解決方案的常識。例如,對流水線傳送帶上的兩類產(chǎn)品進行分類,一類是紅色一類是藍色。深度神經(jīng)網(wǎng)絡(luò)需要首先收集充足的訓(xùn)練數(shù)據(jù)。然而,使用簡單的色彩閾值方法也能達到同樣的效果。一些問題可以使用更簡單、快速的技術(shù)來解決。

如果DNN 對訓(xùn)練數(shù)據(jù)以外的數(shù)據(jù)效果不好,怎么辦?在訓(xùn)練數(shù)據(jù)集有限的情況下,神經(jīng)網(wǎng)絡(luò)可能出現(xiàn)過擬合,無法進行有效泛化。手動調(diào)參是非常困難的事情,因為 DNN 擁有數(shù)百萬參數(shù),且它們之間的關(guān)系錯綜復(fù)雜。也因此,深度學(xué)習(xí)模型被批評為黑箱。傳統(tǒng)的 CV 技術(shù)具備充分的透明性,人們可以判斷解決方案能否在訓(xùn)練環(huán)境外有效運轉(zhuǎn)。CV 工程師了解其算法可以遷移至的問題,這樣一旦什么地方出錯,他們可以執(zhí)行調(diào)參,使算法能夠有效處理大量圖像。

現(xiàn)在,傳統(tǒng)CV 技術(shù)常用于解決簡單問題,這樣它們可在低成本微處理器上部署,或者通過突出數(shù)據(jù)中的特定特征、增強數(shù)據(jù)或者輔助數(shù)據(jù)集標注,來限定深度學(xué)習(xí)技術(shù)能解決的問題。本文稍后將討論,在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中可使用多少種圖像變換技術(shù)。最后,CV 領(lǐng)域存在很多更具挑戰(zhàn)性的難題,比如機器人學(xué)、增強現(xiàn)實、自動全景拼接、虛擬現(xiàn)實、3D 建模、運動估計、視頻穩(wěn)定、運動捕捉、視頻處理和場景理解,這些問題無法通過深度學(xué)習(xí)輕松實現(xiàn),但它可以從傳統(tǒng) CV 技術(shù)中受益。

傳統(tǒng)CV 技術(shù)與深度學(xué)習(xí)的融合

傳統(tǒng)CV+深度學(xué)習(xí)=更好的性能

傳統(tǒng)CV 技術(shù)和深度學(xué)習(xí)方法之間存在明確的權(quán)衡。經(jīng)典 CV 算法成熟、透明,且為性能和能效進行過優(yōu)化;深度學(xué)習(xí)提供更好的準確率和通用性,但消耗的計算資源也更大。

混合方法結(jié)合傳統(tǒng)CV 技術(shù)和深度學(xué)習(xí),兼具這兩種方法的優(yōu)點。它們尤其適用于需要快速實現(xiàn)的高性能系統(tǒng)。

機器學(xué)習(xí)度量和深度網(wǎng)絡(luò)的混合已經(jīng)非常流行,因為這可以生成更好的模型?;旌弦曈X處理實現(xiàn)能夠帶來性能優(yōu)勢,且將乘積累加運算減少到深度學(xué)習(xí)方法的130-1000 分之一,幀率相比深度學(xué)習(xí)方法有 10 倍提升。此外,混合方法使用的內(nèi)存帶寬僅為深度學(xué)習(xí)方法的一半,消耗的 CPU 資源也少得多。

充分利用邊緣計算

當(dāng)算法和神經(jīng)網(wǎng)絡(luò)推斷要在邊緣設(shè)備上運行時,其延遲、成本、云存儲和處理要求比基于云的實現(xiàn)低。邊緣計算可以避免網(wǎng)絡(luò)傳輸敏感或可確認數(shù)據(jù),因此具備更強的隱私性和安全性。

結(jié)合了傳統(tǒng)CV 和深度學(xué)習(xí)的混合方法充分利用邊緣設(shè)備上可獲取的異質(zhì)計算能力。異質(zhì)計算架構(gòu)包含 CPU、微控制器協(xié)同處理器、數(shù)字信號處理器(DSP)、現(xiàn)場可編程邏輯門陣列(FPGA)和 AI 加速設(shè)備,通過將不同工作負載分配給最高效的計算引擎來降低能耗。測試實現(xiàn)證明,在 DSP 和 CPU 上分別執(zhí)行深度學(xué)習(xí)推斷時,前者的目標檢測延遲是后者的十分之一。

多種混合方法證明了其在邊緣應(yīng)用上的優(yōu)勢。使用混合方法能夠高效地整合來自邊緣節(jié)點傳感器的數(shù)據(jù)。

不適合深度學(xué)習(xí)的問題

CV 領(lǐng)域中存在一些難題,如機器人學(xué)、增強現(xiàn)實、自動全景拼接、虛擬現(xiàn)實、3D 建模、運動估計、視頻穩(wěn)定、運動捕捉、視頻處理和場景理解,它們很難通過深度學(xué)習(xí)以可微方式輕松實現(xiàn),而是需要使用其他「傳統(tǒng)」技術(shù)。

下文介紹了CV 領(lǐng)域中的一些新興問題,在這些問題中深度學(xué)習(xí)面臨新挑戰(zhàn),而經(jīng)典 CV 技術(shù)能夠發(fā)揮更大作用。

3D 視覺

3D 輸入的內(nèi)存大小比傳統(tǒng)的 RGB 圖像大得多,卷積核必須在三維輸入空間中執(zhí)行卷積(見圖 3)。

圖3:2D CNN vs. 3D CNN [47]

因此,3D CNN 的計算復(fù)雜度隨著分辨率呈現(xiàn)三次方增長。相比于 2D 圖像處理,3D CV 更難,因為增加的維度使得不確定性也隨之增加,如遮擋和不同的攝像頭角度(見圖 4)。

下一節(jié)將涉及處理多種3D 數(shù)據(jù)表征的解決方案,這些方法具備新架構(gòu)和預(yù)處理步驟,專用于解決上述挑戰(zhàn)。

幾何深度學(xué)習(xí)(GDL)將深度學(xué)習(xí)技術(shù)擴展到 3D 數(shù)據(jù)。3D 數(shù)據(jù)的表征方式多種多樣,總體上可分為歐幾里得和非歐幾里得。3D 歐幾里得結(jié)構(gòu)化數(shù)據(jù)具備底層網(wǎng)格結(jié)構(gòu),允許全局參數(shù)化,此外,它還具備和 2D 圖像相同的坐標系統(tǒng)。這使得現(xiàn)有的 2D 深度學(xué)習(xí)范式和 2D CNN 可應(yīng)用于 3D 數(shù)據(jù)。3D 歐幾里得數(shù)據(jù)更適合通過基于體素的方法分析簡單的剛性物體,如椅子、飛機等。另一方面,3D 非歐幾里得數(shù)據(jù)不具備網(wǎng)格數(shù)組結(jié)構(gòu),即不允許全局參數(shù)化。因此,將經(jīng)典深度學(xué)習(xí)技術(shù)擴展到此類表征是非常難的任務(wù),近期 [52] 提出的 Pointnet 解決了這個難題。

對目標識別有用的連續(xù)形狀信息常常在轉(zhuǎn)換為體素表征的過程中丟失。使用傳統(tǒng)CV 算法,[53] 提出可應(yīng)用于體素 CNN(voxel CNN)的一維特征。這種基于平均曲率的新型旋轉(zhuǎn)不變特征提升了體素 CNN 的形狀識別性能。該方法應(yīng)用到當(dāng)前最優(yōu)的體素 CNN Octnet 架構(gòu)時取得了極大成功,它在 ModelNet10 數(shù)據(jù)集上取得了 1% 的整體準確率提升。

SLAM

視覺SLAM 是 SLAM 的子集,它使用視覺系統(tǒng)(而非激光雷達)登記場景中的路標。視覺 SLAM 具備攝影測量的優(yōu)勢(豐富的視覺數(shù)據(jù)、低成本、輕量級和低能耗),且沒有后處理通常需要的繁重計算工作負載。視覺 SLAM 包含環(huán)境感知、數(shù)據(jù)匹配、運動估計、位置更新和新路標登記等步驟。

對在不同條件(如3D 旋轉(zhuǎn)、縮放、光照)中出現(xiàn)的視覺對象建模,以及使用強大的遷移學(xué)習(xí)技術(shù)擴展表征以實現(xiàn) zero/one shot learning,是一道難題。特征提取和數(shù)據(jù)表征方法可以有效地減少機器學(xué)習(xí)模型所需的訓(xùn)練樣本數(shù)量。

圖像定位中常使用一種兩步方法:位置識別+姿勢估計。前者使用詞袋方法,通過累積局部圖像描述子(如SIFT)來計算每個圖像的全局描述子。每個全局描述子均被存儲在數(shù)據(jù)庫中,一同存儲的還有生成 3D 點云基準圖的攝像頭姿勢。從 query 圖像中提取出類似的全局描述子,數(shù)據(jù)庫中最接近的全局描述子可以通過高效搜索檢索出來。最接近全局描述子的攝像頭姿勢可以幫助我們對 query 圖像進行粗略定位。在姿勢估計中,使用 Perspective-n-Point (PnP) [13] 和幾何驗證等算法更準確地計算 query 圖像的確切姿勢。

基于圖像的位置識別的成功很大程度上歸功于提取圖像特征描述子的能力。不幸的是,在對激光雷達掃描圖像執(zhí)行局部特征提取時,沒有性能堪比SIFT 的算法。3D 場景由 3D 點和數(shù)據(jù)庫圖像構(gòu)成。一種方法是將每個 3D 點與一組 SIFT 描述子結(jié)合起來,描述子對應(yīng)該點被三角化的圖像特征。然后將這些描述子平均為一個 SIFT 描述子,來描述該點的外觀。

另一種方法基于RGB-D 數(shù)據(jù)構(gòu)建多模態(tài)特征,而不是深度處理。至于深度處理部分,研究者采用基于表面法線的著色方法,因為它對多種任務(wù)有效且具備穩(wěn)健性。另一種使用傳統(tǒng) CV 技術(shù)的替代方法提出基于圖的層級描述子 Force Histogram Decomposition (FHD),它可以定義對象的成對結(jié)構(gòu)化子部分之間的空間關(guān)系和形狀信息。該學(xué)習(xí)步驟的優(yōu)勢是與傳統(tǒng)詞袋框架兼容,從而出現(xiàn)結(jié)合了結(jié)構(gòu)特征和局部特征的混合表征。

360 度攝像頭

由于球面攝像頭的成像特點,每張圖像都能夠捕捉到360 度全景場景,消除了對轉(zhuǎn)向選擇的限制。球面圖像面臨的一個主要挑戰(zhàn)是超廣角魚眼鏡頭導(dǎo)致的嚴重桶形畸變,這增加了受傳統(tǒng)人類視覺啟發(fā)的車道檢測和軌跡追蹤等方法的實現(xiàn)復(fù)雜度。這通常需要額外的預(yù)處理步驟,如先驗校準(prior calibration)和 deworming。[60] 提出的一種替代方法將導(dǎo)航看作分類問題,從而繞過了預(yù)處理步驟,該方法基于原始未校準球面圖像找出最優(yōu)潛在路徑方向。

全景拼接是該領(lǐng)域的另一個開放性問題。實時拼接方法[61] 使用一組可變形網(wǎng)格和最終圖像,并結(jié)合利用穩(wěn)健像素著色器的輸入。另一種方法 [62] 將幾何推理(線和消失點)提供的準確率和深度學(xué)習(xí)技術(shù)(邊和法線圖)實現(xiàn)的更高級數(shù)據(jù)提取和模式識別結(jié)合起來,為室內(nèi)場景提取結(jié)構(gòu)化數(shù)據(jù),并生成布局假設(shè)。在稀疏結(jié)構(gòu)化場景中,由于缺乏明顯的圖像特征,基于特征的圖像配準方法通常會失敗。這時可使用直接的圖像配準方法,如基于相位相關(guān)的圖像配準算法。[23] 研究了基于判別相關(guān)濾波器(DCF)的圖像配準技術(shù),證明基于 DCF 的方法優(yōu)于基于相位相關(guān)的方法。

數(shù)據(jù)集標注和增強

對于CV 和深度學(xué)習(xí)的結(jié)合存在一些反駁意見,總結(jié)為一句話就是:我們需要重新評估方法,不管是基于規(guī)則的方法還是數(shù)據(jù)驅(qū)動方法。從信號處理的傳統(tǒng)角度來看,我們了解傳統(tǒng) CV 算法(如 SIFT 和 SURF)的運算內(nèi)涵,而深度學(xué)習(xí)無法展示這些意義,你所需要的只是更多數(shù)據(jù)。這可以被視為巨大的前進,但也有可能是后退。本論文提到了該爭論的正反方觀點,但是如果未來的方法僅基于數(shù)據(jù)驅(qū)動,那么研究重點應(yīng)該放在更智能的數(shù)據(jù)集創(chuàng)建方法上。

當(dāng)前研究的基礎(chǔ)問題是:對于特殊應(yīng)用的高級算法或模型,沒有足夠的數(shù)據(jù)。未來,結(jié)合自定義數(shù)據(jù)集和深度學(xué)習(xí)模型將成為很多研究論文的主題。因此研究者的輸出不僅涉及算法或架構(gòu),還包括數(shù)據(jù)集或數(shù)據(jù)收集方法。數(shù)據(jù)集標注是深度學(xué)習(xí)工作流中的主要瓶頸,需要大量的手動標注工作。這在語義分割中尤為明顯,因為該領(lǐng)域需要準確標注每一個像素。[20] 討論了很多有用的半自動流程工具,其中一些利用了 ORB 特征、多邊形變形(polygon morphing)、半自動感興趣區(qū)域擬合等算法方法。

克服數(shù)據(jù)缺乏、減少圖像分類深度學(xué)習(xí)模型過擬合現(xiàn)象最容易也最常見的方法是,利用標簽不變的圖像變換(label-preserving transformation)人為地擴大數(shù)據(jù)集。該過程叫做數(shù)據(jù)集增強,指基于已有數(shù)據(jù)通過剪裁、縮放或旋轉(zhuǎn)等方式生成額外的訓(xùn)練數(shù)據(jù)。人們希望數(shù)據(jù)增強步驟需要極少的計算,且可在深度學(xué)習(xí)訓(xùn)練流程中實現(xiàn),這樣變換后的圖像就不必存儲在磁盤中了。數(shù)據(jù)增強使用的傳統(tǒng)算法方法包括主成分分析(PCA)、噪聲添加、在特征空間的樣本之間進行內(nèi)插或外推,以及基于分割標注建模視覺語境周邊物體。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2836

    瀏覽量

    107003
  • 計算機視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1685

    瀏覽量

    45811
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5422

    瀏覽量

    120591

原文標題:深度學(xué)習(xí)崛起后,傳統(tǒng)計算機視覺方法失寵了嗎?

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    機器視覺計算機視覺有什么區(qū)別

    機器視覺計算機視覺是兩個密切相關(guān)但又有所區(qū)別的概念。 一、定義 機器視覺 機器視覺,又稱為計算機
    的頭像 發(fā)表于 07-16 10:23 ?282次閱讀

    計算機視覺的五大技術(shù)

    計算機視覺作為深度學(xué)習(xí)領(lǐng)域最熱門的研究方向之一,其技術(shù)涵蓋了多個方面,為人工智能的發(fā)展開拓了廣闊的道路。以下是對計算機
    的頭像 發(fā)表于 07-10 18:26 ?902次閱讀

    計算機視覺的工作原理和應(yīng)用

    計算機視覺(Computer Vision,簡稱CV)是一門跨學(xué)科的研究領(lǐng)域,它利用計算機和數(shù)學(xué)算法來模擬人類視覺系統(tǒng)對圖像和視頻進行識別、理解、分析和處理。其核心目標在于使
    的頭像 發(fā)表于 07-10 18:24 ?1068次閱讀

    計算機視覺與人工智能的關(guān)系是什么

    引言 計算機視覺是一門研究如何使計算機能夠理解和解釋視覺信息的學(xué)科。它涉及到圖像處理、模式識別、機器學(xué)習(xí)等多個領(lǐng)域的知識。人工智能則是研究如
    的頭像 發(fā)表于 07-09 09:25 ?306次閱讀

    計算機視覺與智能感知是干嘛的

    引言 計算機視覺(Computer Vision)是一門研究如何使計算機能夠理解和解釋視覺信息的學(xué)科。它涉及到圖像處理、模式識別、機器學(xué)習(xí)
    的頭像 發(fā)表于 07-09 09:23 ?351次閱讀

    計算機視覺和機器視覺區(qū)別在哪

    計算機視覺和機器視覺是兩個密切相關(guān)但又有明顯區(qū)別的領(lǐng)域。 一、定義 計算機視覺 計算機
    的頭像 發(fā)表于 07-09 09:22 ?289次閱讀

    計算機視覺屬于人工智能嗎

    屬于,計算機視覺是人工智能領(lǐng)域的一個重要分支。 引言 計算機視覺是一門研究如何使計算機具有視覺
    的頭像 發(fā)表于 07-09 09:11 ?558次閱讀

    深度學(xué)習(xí)計算機視覺領(lǐng)域的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其中的核心技術(shù)之一,已經(jīng)在計算機視覺領(lǐng)域取得了顯著的成果。計算機
    的頭像 發(fā)表于 07-01 11:38 ?433次閱讀

    計算機視覺的主要研究方向

    計算機視覺(Computer Vision, CV)作為人工智能領(lǐng)域的一個重要分支,致力于使計算機能夠像人眼一樣理解和解釋圖像和視頻中的信息。隨著深度
    的頭像 發(fā)表于 06-06 17:17 ?520次閱讀

    傳統(tǒng)計算機視覺對比深度學(xué)習(xí)

    深度學(xué)習(xí)是一種技術(shù),它使用一種稱為梯度反向傳播的優(yōu)化技術(shù)來生成“程序”(也稱為“神經(jīng)網(wǎng)絡(luò)”),就像上面故事中學(xué)者學(xué)生編寫的那些程序一樣。
    發(fā)表于 03-31 09:48 ?376次閱讀

    計算機視覺的十大算法

    隨著科技的不斷發(fā)展,計算機視覺領(lǐng)域也取得了長足的進步。本文將介紹計算機視覺領(lǐng)域的十大算法,包括它們的基本原理、應(yīng)用場景和優(yōu)缺點。這些算法在圖像處理、目標檢測、人臉識別等領(lǐng)域有著廣泛的應(yīng)
    的頭像 發(fā)表于 02-19 13:26 ?1045次閱讀
    <b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>的十大算法

    計算機視覺中的立體視覺深度感知Python示例實現(xiàn)

    在人工智能和圖像處理的迷人世界中,這些概念在使機器能夠像我們的眼睛一樣感知我們周圍的三維世界中起著關(guān)鍵作用。和我們一起探索立體視覺深度感知背后的技術(shù),揭示計算機如何從二維圖像中獲得深度
    的頭像 發(fā)表于 11-21 10:50 ?496次閱讀

    什么是計算機視覺?計算機視覺的三種方法

    計算機視覺是指通過為計算機賦予人類視覺這一技術(shù)目標,從而賦能裝配線檢查到駕駛輔助和機器人等應(yīng)用。計算機缺乏像人類一樣憑直覺產(chǎn)生
    的頭像 發(fā)表于 11-16 16:38 ?4160次閱讀
    什么是<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>?<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>的三種方法

    最適合AI應(yīng)用的計算機視覺類型是什么?

    計算機視覺是指為計算機賦予人類視覺這一技術(shù)目標,從而賦能裝配線檢查到駕駛輔助和機器人等應(yīng)用。計算機缺乏像人類一樣憑直覺產(chǎn)生
    的頭像 發(fā)表于 11-15 16:38 ?346次閱讀
    最適合AI應(yīng)用的<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>類型是什么?

    用于計算機視覺的經(jīng)典機器學(xué)習(xí)應(yīng)用分析

    深度學(xué)習(xí)是指在大部分未處理或“原始”數(shù)據(jù)上運行的非常大的神經(jīng)網(wǎng)絡(luò)模型。深度學(xué)習(xí)通過將特征提取操作拉入模型本身,對計算機
    發(fā)表于 11-07 10:11 ?337次閱讀
    用于<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>的經(jīng)典機器<b class='flag-5'>學(xué)習(xí)</b>應(yīng)用分析