如果想要機(jī)器能夠進(jìn)行思考,我們需要先教會它們?nèi)タ础?/p>
李飛飛——Director of Stanford AI Lab and Stanford Vision Lab
計算機(jī)視覺(Computer vision)是一門研究如何使機(jī)器“看”的科學(xué),更進(jìn)一步的說,就是指用攝影機(jī)和計算機(jī)代替人眼對目標(biāo)進(jìn)行識別、跟蹤和測量等機(jī)器視覺,并進(jìn)一步做圖像處理,用計算機(jī)處理成更適合人眼觀察或進(jìn)行儀器檢測的圖像。
學(xué)習(xí)和運(yùn)算能讓機(jī)器能夠更好的理解圖片環(huán)境,并且建立具有真正智能的視覺系統(tǒng)。當(dāng)下環(huán)境中存在著大量的圖片和視頻內(nèi)容,這些內(nèi)容亟需學(xué)者們理解并在其中找出模式,來揭示那些我們以前不曾注意過的細(xì)節(jié)。計算機(jī)視覺的實現(xiàn)基本過程為:
計算機(jī)從圖片中生成數(shù)學(xué)模型
計算機(jī)圖形在模型中對圖像進(jìn)行繪制,然后在圖像處理過程中將其作為輸入,另外給出處理圖像作為輸出
計算機(jī)視覺的理念在某些方面其實與很多概念有部分重疊,包括:人工智能、數(shù)字圖像處理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、模式識別、概率圖模型、科學(xué)計算以及一系列的數(shù)學(xué)計算等。因此,你可以將本文看成是深入這個領(lǐng)域研究的第一步。本文將盡量包涵到盡可能多的內(nèi)容,但是可能仍然會存在一些較為復(fù)雜的主題,也有可能存在某些遺漏之處,敬請見諒。
丨第一步——背景
通常來說,你應(yīng)該具有一點(diǎn)相關(guān)的學(xué)術(shù)背景,比如上過有關(guān)概率學(xué)、統(tǒng)計學(xué)、線性代數(shù)、微積分(微分與積分)等相關(guān)課程,對矩陣計算有一定了解更好。另外,從我的經(jīng)驗來看如果你對數(shù)字信號處理有了解的話,在以后對于概念的理解來說會更加容易。
在實現(xiàn)層面來說,你最好能夠會用MATLAB或者Python中的一種,一定要記住的是計算機(jī)視覺幾乎全部與計算機(jī)編程有關(guān)。
你也可以在Coursera上選修《概率繪圖模型》一課,這門課程相對較難(講得比較深入),你也可以在學(xué)習(xí)一段時間之后再對其進(jìn)行了解。
丨第二步——數(shù)字圖像處理
觀看來自杜克大學(xué)的Guillermo Sapiro所教授的課程——《圖像和視頻處理:從火星到好萊塢Image and Video Processing: From Mars to Hollywood with a Stop at the Hospital》,該課程所提供的教學(xué)大綱每章都是獨(dú)立的且包涵大量的練習(xí),你可以在coursera和YouTube上找到相關(guān)的課程視頻信息。另外你可以看下Gonzalez與Woods編寫的《數(shù)字圖像處理(Digital Image Processing)》一書,使用MATLAB來運(yùn)行其中所提到的范例,相信一定會有所獲。
丨第三步——計算機(jī)視覺
一旦學(xué)習(xí)完有關(guān)數(shù)字圖像處理有關(guān)內(nèi)容,接下來應(yīng)該了解相關(guān)的數(shù)學(xué)模型在各種圖像和視頻內(nèi)容中的應(yīng)用方法。來自佛羅里達(dá)大學(xué)的Mubarak Shah教授在計算機(jī)視覺方面的課程可以作為一門很好的入門課程,其涵蓋了幾乎所有的基礎(chǔ)概念。
觀看這些影片的同時,可以學(xué)習(xí)Gatech的James Hays教授的計算機(jī)視覺項目課程所使用的概念和算法,這些練習(xí)也都是基于MATLAB的。千萬不要跳過這些練習(xí),只有在真正的練習(xí)過程中才會對這些算法和公式有更深入的了解。
丨第四步——高級計算機(jī)視覺
如果你認(rèn)真學(xué)習(xí)了前三步中的內(nèi)容,現(xiàn)在可以進(jìn)入到高級計算機(jī)視覺相關(guān)學(xué)習(xí)了。
來自巴黎中央理工學(xué)院的Nikos Paragios和Pawan Kumar講授了一門人工視覺中的離散推理(Discrete Inference in Artificial Vision)課程,它能提供相關(guān)的概率圖形模型和計算機(jī)視覺相關(guān)的大量數(shù)學(xué)知識。
到現(xiàn)在這一步來看就比較有趣了,這門課程一定能讓你感受到用簡單模型構(gòu)筑機(jī)器視覺系統(tǒng)有多么復(fù)雜。學(xué)完這門課程的話,在接觸學(xué)術(shù)論文之前又邁進(jìn)一大步。
丨第五步——引入Python和開源框架
這一步我們要接觸到Python編程語言。
就Python而言有許多像 OpenCV、PIL、vlfeat這樣的相關(guān)擴(kuò)展包,現(xiàn)在就是將這些擴(kuò)展包運(yùn)用到你的項目中的最好時機(jī)。因為如果有其他的開源框架存在的話,沒有必要從頭開始來編寫一切內(nèi)容。
如果需要參考資料的話可以考慮《使用Python對計算機(jī)視覺進(jìn)行編程 Programming Computer Vision with Python》,使用這本書就夠了。你可以動手去嘗試下,看看MATLAB和Python結(jié)合的話如何來實現(xiàn)你的算法。
丨第六步——機(jī)器學(xué)習(xí)與CovNets(卷積神經(jīng)網(wǎng)絡(luò))
有關(guān)如何從頭開始機(jī)器學(xué)習(xí)的資料實在太多,你可以從在網(wǎng)上查找到大量相關(guān)教程。
從現(xiàn)在開始最好一直使用Python進(jìn)行編程,可以看下《使用Python建立機(jī)器學(xué)習(xí)系統(tǒng)——Building Machine Learning Systems with Python》和《Python機(jī)器學(xué)習(xí)——Python Machine Learning》這兩本書。
目前深度學(xué)習(xí)正大行其道,可以試著學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺中的應(yīng)用( Computer Vision: the use of CovNets),在此推薦斯坦福的CS231n課程:針對視覺識別的卷積神經(jīng)網(wǎng)絡(luò)。
丨第七步——如何才能更進(jìn)一步
行文至此,你可能會覺得已經(jīng)講了太多的內(nèi)容,需要學(xué)的已經(jīng)太多。但是,你還可以進(jìn)一步進(jìn)行探索研究。
其中一個方法是看看由多倫多大學(xué)的Sanja Fidler和James Hays所舉行的一系列研討會課程,能幫助你對當(dāng)下計算機(jī)視覺研究方向的最新概念有所理解。
另一種即跟著 CVPR、ICCV、 ECCV、 BMVC這些頂級學(xué)術(shù)會議的相關(guān)學(xué)術(shù)論文,通過會上的研討會、主旨演講以及tutorial等日程一定能學(xué)到不少知識。
總結(jié):如果你按照步驟一步步完成所有的學(xué)習(xí)任務(wù),屆時你將大概了解計算機(jī)視覺中有關(guān)濾波器、特征檢測、描述、相機(jī)模型、追蹤器的歷史,另外還學(xué)習(xí)到分割和識別、神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的最新進(jìn)展。希望本文能幫助你在計算機(jī)視覺領(lǐng)域走得更遠(yuǎn),學(xué)習(xí)得更加深入。
-
圖像處理
+關(guān)注
關(guān)注
27文章
1275瀏覽量
56577 -
機(jī)器視覺
+關(guān)注
關(guān)注
161文章
4320瀏覽量
119997 -
計算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1694瀏覽量
45901
原文標(biāo)題:從計算機(jī)視覺的小白變?yōu)榇笊瘢阈枰?jīng)歷這七個階段
文章出處:【微信號:vision263com,微信公眾號:新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論