0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為什么深度學(xué)習(xí)還沒有取代傳統(tǒng)計(jì)算機(jī)視覺技術(shù)?

新機(jī)器視覺 ? 來源:云棲社區(qū) ? 作者:云棲社區(qū) ? 2020-10-23 11:24 ? 次閱讀

本文作者認(rèn)為,深度學(xué)習(xí)只是一種計(jì)算機(jī)視覺工具,而不是包治百病的良藥,不要因?yàn)榱餍芯鸵晃兜厥褂盟?。傳統(tǒng)的計(jì)算機(jī)視覺技術(shù)仍然可以大顯身手,了解它們可以為你省去很多的時(shí)間和煩惱;并且掌握傳統(tǒng)計(jì)算機(jī)視覺確實(shí)可以讓你在深度學(xué)習(xí)方面做得更好。這是因?yàn)槟憧梢愿玫乩斫馍疃葘W(xué)習(xí)的內(nèi)部狀況,并可執(zhí)行預(yù)處理步驟改善深度學(xué)習(xí)結(jié)果。

本文的靈感同樣來自論壇中的一個(gè)常見問題:

深度學(xué)習(xí)已經(jīng)取代了傳統(tǒng)的計(jì)算機(jī)視覺嗎?

或是換種說法:

既然深度學(xué)習(xí)看起來如此有效,是否還有必要學(xué)習(xí)傳統(tǒng)的計(jì)算機(jī)視覺技術(shù)?

這個(gè)問題很好。深度學(xué)習(xí)確實(shí)給計(jì)算機(jī)視覺和人工智能領(lǐng)域帶來了革命性的突破。許多曾經(jīng)看似困難的問題,現(xiàn)在機(jī)器可以比解決的比人類還好。圖像分類就是最好的印證。確實(shí),如從前所述,深度學(xué)習(xí)有責(zé)任將計(jì)算機(jī)視覺納入行業(yè)版圖。

但深度學(xué)習(xí)仍然只是計(jì)算機(jī)視覺的一個(gè)工具,且顯然不是解決所有問題的靈丹妙藥。因此,本文會(huì)對(duì)此進(jìn)行詳細(xì)闡述。也就是說,我將說明傳統(tǒng)的計(jì)算機(jī)視覺技術(shù)為何仍十分有用,值得我們繼續(xù)學(xué)習(xí)并傳授下去。

本文分為以下幾個(gè)部分/論點(diǎn):

深度學(xué)習(xí)需要大數(shù)據(jù)

深度學(xué)習(xí)有時(shí)會(huì)做過了頭

傳統(tǒng)計(jì)算機(jī)視覺將會(huì)提升你的深度學(xué)習(xí)水平

進(jìn)入正文之前,我認(rèn)為有必要詳細(xì)解釋一下什么是「?jìng)鹘y(tǒng)計(jì)算機(jī)視覺」,什么是深度學(xué)習(xí),及其革命性。

背景知識(shí)

在深度學(xué)習(xí)出現(xiàn)以前,如果你有一項(xiàng)諸如圖像分類的工作,你會(huì)進(jìn)行一步叫做「特征提取」的處理。所謂「特征」就是圖像中「有趣的」、描述性的、或是提供信息的小部分。你會(huì)應(yīng)用我在本文中稱之為的「?jìng)鹘y(tǒng)計(jì)算機(jī)視覺技術(shù)」的組合來尋找這些特征,包括邊緣檢測(cè)、角點(diǎn)檢測(cè)、對(duì)象檢測(cè)等等。

在使用這些與特征提取和圖像分類相關(guān)的技術(shù)時(shí),會(huì)從一類對(duì)象(例如:椅子、馬等等)的圖像中提取出盡可能多的特征,并將其視為這類對(duì)象的「定義」(稱作「詞袋」)。接下來你要在其它圖像中搜索這些「定義」。如果在另一個(gè)圖像中存在著詞袋中相當(dāng)一部分的特征,那么這個(gè)圖像就被歸為包含那個(gè)特定對(duì)象(如椅子、馬等等)的分類。

這種圖像分類的特征提取方法的難點(diǎn)在于你必須在每張圖像中選擇尋找哪些特征。隨著你試圖區(qū)分的類別數(shù)目開始增長,比如說超過 10 或 20,這就會(huì)變得非常麻煩甚至難以實(shí)現(xiàn)。你要尋找角點(diǎn)?邊緣?還是紋理信息?不同類別的對(duì)象最好要用不同種類型的特征來描述。如果你選擇使用很多的特征,你就不得不處理海量的參數(shù),而且還需要自己來微調(diào)。

深度學(xué)習(xí)引入了「端到端學(xué)習(xí)」這一概念,(簡而言之)讓機(jī)器在每個(gè)特定類別的對(duì)象中學(xué)習(xí)尋找特征,即最具描述性、最突出的特征。換句話說,讓神經(jīng)網(wǎng)絡(luò)去發(fā)現(xiàn)各種類型圖像中的潛在模式。

因此,借助端到端學(xué)習(xí),你不再需要手動(dòng)決定采用哪種傳統(tǒng)機(jī)器視覺技術(shù)來描述特征。機(jī)器為你做好了這一切?!哆B線》雜志如此寫道:

舉例來說,如果你想教會(huì)一個(gè) [深度] 神經(jīng)網(wǎng)絡(luò)識(shí)別一只貓,你不必告訴它去尋找胡須、耳朵、毛或是眼睛。你只需展示給它成千上萬的貓的圖像,它自然會(huì)解決這一問題。如果它總是會(huì)將狐貍誤認(rèn)為是貓,你也不用重寫代碼。你只需對(duì)它繼續(xù)進(jìn)行訓(xùn)練。

下圖描述了特征提?。ㄊ褂脗鹘y(tǒng)計(jì)算機(jī)視覺)和端到端學(xué)習(xí)之間的這種區(qū)別:

以上就是背景介紹?,F(xiàn)在接著討論為什么傳統(tǒng)計(jì)算機(jī)視覺仍然必不可少,而且學(xué)習(xí)它仍大有裨益。

深度學(xué)習(xí)需要大量數(shù)據(jù)

首先,深度學(xué)習(xí)需要數(shù)據(jù),許許多多的數(shù)據(jù)。前文提到過的著名圖像分類模型的訓(xùn)練都基于龐大的數(shù)據(jù)集。排名前三的訓(xùn)練數(shù)據(jù)集分別是:

ImageNet——150 萬圖像,1000 個(gè)對(duì)象分類/類別;

COCO——250 萬圖像,91 個(gè)對(duì)象分類;

PASCAL VOC——50 萬圖像,20 個(gè)對(duì)象分類。

但是一個(gè)訓(xùn)練不良的模型在你的訓(xùn)練數(shù)據(jù)之外很可能表現(xiàn)糟糕,因?yàn)闄C(jī)器并沒有對(duì)于問題的洞察力,也就不能在沒看到數(shù)據(jù)的情況下進(jìn)行概括歸納。而且對(duì)你來說查看訓(xùn)練模型內(nèi)部并進(jìn)行手動(dòng)調(diào)整又太過困難,因?yàn)橐粋€(gè)深度學(xué)習(xí)模型內(nèi)部擁有數(shù)以百萬計(jì)的參數(shù)——每個(gè)參數(shù)在訓(xùn)練期間都會(huì)被調(diào)整。某種程度上說,一個(gè)深度學(xué)習(xí)模型就是一個(gè)黑箱。

傳統(tǒng)的計(jì)算機(jī)視覺完全透明,允許你更好地評(píng)估判斷你的解決方案是否在訓(xùn)練環(huán)境之外依然有效。你對(duì)問題的深入見解可以放進(jìn)你的算法之中。并且如果任何地方出現(xiàn)故障,你也可以更輕易地弄清楚什么需要調(diào)整,在哪里調(diào)整。

深度學(xué)習(xí)有時(shí)做過了頭

這大概是我最喜歡的支持研究傳統(tǒng)計(jì)算機(jī)視覺技術(shù)的理由。

訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)需要很長的時(shí)間。你需要專門的硬件(例如高性能 GPU)訓(xùn)練最新、最先進(jìn)的圖像分類模型。你想在自己還不錯(cuò)的筆記本上訓(xùn)練?去度個(gè)一周的假吧,等你回來的時(shí)候訓(xùn)練很可能仍未完成。

此外,如果你的訓(xùn)練模型表現(xiàn)不佳呢?你不得不返回原點(diǎn),用不同的訓(xùn)練參數(shù)重做全部工作。這一過程可能會(huì)重復(fù)數(shù)百次。

但有時(shí)候所有這些完全沒必要。因?yàn)閭鹘y(tǒng)計(jì)算機(jī)視覺技術(shù)可以比深度學(xué)習(xí)更有效率地解決問題,而且使用的代碼更少。例如,我曾經(jīng)參與的一個(gè)項(xiàng)目是檢查每個(gè)通過傳送帶的罐子里是否有一個(gè)紅勺子?,F(xiàn)在你可以通過前文敘述的曠日持久的過程來訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)去檢測(cè)勺子,或者你也可以寫一個(gè)簡單的以紅色為閾值的算法(將任何帶有一定范圍紅色的像素都標(biāo)記為白色,所有其它的像素標(biāo)記為黑色),然后計(jì)算有多少白色的像素。簡簡單單,一個(gè)小時(shí)就可以搞定!

掌握傳統(tǒng)的計(jì)算機(jī)視覺技術(shù)可能會(huì)為你節(jié)省大量的時(shí)間并減少不必要的煩惱。

傳統(tǒng)計(jì)算機(jī)視覺會(huì)提升你的深度學(xué)習(xí)技巧

理解傳統(tǒng)的計(jì)算機(jī)視覺實(shí)際上能幫你在深度學(xué)習(xí)上做得更好。

舉例來說,計(jì)算機(jī)視覺領(lǐng)域最為普遍使用的神經(jīng)網(wǎng)絡(luò)是卷積神經(jīng)網(wǎng)絡(luò)。但什么是卷積?卷積事實(shí)上是一種被廣泛使用的圖像處理技術(shù)(比如,索貝爾邊緣檢測(cè))。了解這一點(diǎn)可以幫助你理解神經(jīng)網(wǎng)絡(luò)內(nèi)部究竟發(fā)生了什么,從而進(jìn)行設(shè)計(jì)和微調(diào)以更好地解決你的問題。

還有一件事叫做預(yù)處理。你輸入給模型的數(shù)據(jù)往往要經(jīng)過這種處理,以便為接下來的訓(xùn)練做準(zhǔn)備。這些預(yù)處理步驟主要是通過傳統(tǒng)的計(jì)算機(jī)視覺技術(shù)完成的。例如,如果你沒有足夠的訓(xùn)練數(shù)據(jù),你可以進(jìn)行一個(gè)叫做數(shù)據(jù)增強(qiáng)的處理。數(shù)據(jù)增強(qiáng)是指對(duì)你訓(xùn)練數(shù)據(jù)集中的圖像進(jìn)行隨機(jī)的旋轉(zhuǎn)、移動(dòng)、裁剪等,從而創(chuàng)造出「新」圖像。通過執(zhí)行這些計(jì)算機(jī)視覺操作,可以極大地增加你的訓(xùn)練數(shù)據(jù)量。

結(jié)論

本文闡述了為什么深度學(xué)習(xí)還沒有取代傳統(tǒng)計(jì)算機(jī)視覺技術(shù),以及后者仍值得學(xué)習(xí)和傳授。首先,本文將目光放在了深度學(xué)習(xí)往往需要大量數(shù)據(jù)才能表現(xiàn)良好這一問題上。有時(shí)并不具備大量數(shù)據(jù),而傳統(tǒng)計(jì)算機(jī)視覺在這種情況下可作為一種替代方案。第二,深度學(xué)習(xí)針對(duì)特定的任務(wù)偶爾會(huì)做過頭。在這些任務(wù)中,標(biāo)準(zhǔn)的計(jì)算機(jī)視覺比起深度學(xué)習(xí)可以更為高效地解決問題,并且使用更少的代碼。第三,掌握傳統(tǒng)計(jì)算機(jī)視覺確實(shí)可以讓你在深度學(xué)習(xí)方面做得更好。這是因?yàn)槟憧梢愿玫乩斫馍疃葘W(xué)習(xí)的內(nèi)部狀況,并可執(zhí)行預(yù)處理步驟改善深度學(xué)習(xí)結(jié)果。

總而言之,深度學(xué)習(xí)只是一種計(jì)算機(jī)視覺的工具,而不是包治百病的良藥。不要因?yàn)榱餍芯鸵晃兜厥褂盟?br /> 責(zé)任編輯人:CC

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:觀點(diǎn) | 為什么深度學(xué)習(xí)仍未取代傳統(tǒng)的計(jì)算機(jī)視覺技術(shù)?

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    計(jì)算機(jī)視覺技術(shù)的AI算法模型

    計(jì)算機(jī)視覺技術(shù)作為人工智能領(lǐng)域的一個(gè)重要分支,旨在使計(jì)算機(jī)能夠像人類一樣理解和解釋圖像及視頻中的信息。為了實(shí)現(xiàn)這一目標(biāo),計(jì)算機(jī)
    的頭像 發(fā)表于 07-24 12:46 ?374次閱讀

    機(jī)器視覺計(jì)算機(jī)視覺有什么區(qū)別

    機(jī)器視覺計(jì)算機(jī)視覺是兩個(gè)密切相關(guān)但又有所區(qū)別的概念。 一、定義 機(jī)器視覺 機(jī)器視覺,又稱為計(jì)算機(jī)
    的頭像 發(fā)表于 07-16 10:23 ?317次閱讀

    計(jì)算機(jī)視覺的五大技術(shù)

    計(jì)算機(jī)視覺作為深度學(xué)習(xí)領(lǐng)域最熱門的研究方向之一,其技術(shù)涵蓋了多個(gè)方面,為人工智能的發(fā)展開拓了廣闊的道路。以下是對(duì)
    的頭像 發(fā)表于 07-10 18:26 ?919次閱讀

    計(jì)算機(jī)視覺與人工智能的關(guān)系是什么

    引言 計(jì)算機(jī)視覺是一門研究如何使計(jì)算機(jī)能夠理解和解釋視覺信息的學(xué)科。它涉及到圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域的知識(shí)。人工智能則是研究如
    的頭像 發(fā)表于 07-09 09:25 ?332次閱讀

    計(jì)算機(jī)視覺與智能感知是干嘛的

    引言 計(jì)算機(jī)視覺(Computer Vision)是一門研究如何使計(jì)算機(jī)能夠理解和解釋視覺信息的學(xué)科。它涉及到圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 07-09 09:23 ?394次閱讀

    計(jì)算機(jī)視覺和機(jī)器視覺區(qū)別在哪

    計(jì)算機(jī)視覺和機(jī)器視覺是兩個(gè)密切相關(guān)但又有明顯區(qū)別的領(lǐng)域。 一、定義 計(jì)算機(jī)視覺 計(jì)算機(jī)
    的頭像 發(fā)表于 07-09 09:22 ?304次閱讀

    計(jì)算機(jī)視覺屬于人工智能嗎

    屬于,計(jì)算機(jī)視覺是人工智能領(lǐng)域的一個(gè)重要分支。 引言 計(jì)算機(jī)視覺是一門研究如何使計(jì)算機(jī)具有視覺
    的頭像 發(fā)表于 07-09 09:11 ?712次閱讀

    深度學(xué)習(xí)計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其中的核心技術(shù)之一,已經(jīng)在計(jì)算機(jī)視覺領(lǐng)域取得了顯著的成果
    的頭像 發(fā)表于 07-01 11:38 ?465次閱讀

    計(jì)算機(jī)視覺的主要研究方向

    計(jì)算機(jī)視覺(Computer Vision, CV)作為人工智能領(lǐng)域的一個(gè)重要分支,致力于使計(jì)算機(jī)能夠像人眼一樣理解和解釋圖像和視頻中的信息。隨著深度
    的頭像 發(fā)表于 06-06 17:17 ?551次閱讀

    傳統(tǒng)計(jì)算機(jī)視覺對(duì)比深度學(xué)習(xí)

    深度學(xué)習(xí)是一種技術(shù),它使用一種稱為梯度反向傳播的優(yōu)化技術(shù)來生成“程序”(也稱為“神經(jīng)網(wǎng)絡(luò)”),就像上面故事中學(xué)者學(xué)生編寫的那些程序一樣。
    發(fā)表于 03-31 09:48 ?381次閱讀

    【量子計(jì)算機(jī)重構(gòu)未來 | 閱讀體驗(yàn)】+量子計(jì)算機(jī)的原理究竟是什么以及有哪些應(yīng)用

    來的,看了本書第一部分內(nèi)容,有了點(diǎn)認(rèn)識(shí),但是感覺還是迷糊,還是沒有弄清楚什么是量子計(jì)算機(jī),尤其是其原理。以下是個(gè)人讀完之后的一些理解。 書中1.4章節(jié),以解決交通擁堵問題為例進(jìn)行了距離,對(duì)比了傳統(tǒng)方法和量子
    發(fā)表于 03-11 12:50

    計(jì)算機(jī)視覺的十大算法

    視覺技術(shù)的發(fā)展起到了重要的推動(dòng)作用。一、圖像分割算法圖像分割算法是計(jì)算機(jī)視覺領(lǐng)域的基礎(chǔ)算法之一,它的主要任務(wù)是將圖像分割成不同的區(qū)域或?qū)ο蟆3R姷膱D像分割算法包括基
    的頭像 發(fā)表于 02-19 13:26 ?1072次閱讀
    <b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b>的十大算法

    什么是計(jì)算機(jī)視覺?計(jì)算機(jī)視覺的三種方法

    計(jì)算機(jī)視覺是指通過為計(jì)算機(jī)賦予人類視覺這一技術(shù)目標(biāo),從而賦能裝配線檢查到駕駛輔助和機(jī)器人等應(yīng)用。計(jì)算機(jī)
    的頭像 發(fā)表于 11-16 16:38 ?4202次閱讀
    什么是<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b>?<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b>的三種方法

    最適合AI應(yīng)用的計(jì)算機(jī)視覺類型是什么?

    計(jì)算機(jī)視覺是指為計(jì)算機(jī)賦予人類視覺這一技術(shù)目標(biāo),從而賦能裝配線檢查到駕駛輔助和機(jī)器人等應(yīng)用。計(jì)算機(jī)
    的頭像 發(fā)表于 11-15 16:38 ?353次閱讀
    最適合AI應(yīng)用的<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b>類型是什么?

    用于計(jì)算機(jī)視覺的經(jīng)典機(jī)器學(xué)習(xí)應(yīng)用分析

    深度學(xué)習(xí)是指在大部分未處理或“原始”數(shù)據(jù)上運(yùn)行的非常大的神經(jīng)網(wǎng)絡(luò)模型。深度學(xué)習(xí)通過將特征提取操作拉入模型本身,對(duì)計(jì)算機(jī)
    發(fā)表于 11-07 10:11 ?346次閱讀
    用于<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b>的經(jīng)典機(jī)器<b class='flag-5'>學(xué)習(xí)</b>應(yīng)用分析