一、什么是計(jì)算機(jī)視覺(jué)?
計(jì)算機(jī)視覺(jué),其實(shí)就是教機(jī)器怎么像我們?nèi)艘粯?,用攝像頭看看周圍的世界,然后理解它。比如說(shuō),它能認(rèn)出這是個(gè)蘋果,或者那邊有輛車。除此之外,還能把拍到的照片或者視頻轉(zhuǎn)換成有用的信息,幫我們做決定。整個(gè)過(guò)程就是為了讓機(jī)器能看懂圖像,然后根據(jù)這些圖像來(lái)做出聰明的選擇。
二、計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)起來(lái)難嗎?
人類依賴視覺(jué),找輛汽車輕而易舉,畢竟汽車那么大,一眼就能看出來(lái),所以常誤以為計(jì)算機(jī)視覺(jué)簡(jiǎn)單,但實(shí)際上,這個(gè)過(guò)程背后有復(fù)雜的視覺(jué)處理機(jī)制,涉及大腦多通道處理、注意力系統(tǒng)選擇性分析、以及反饋機(jī)制的調(diào)節(jié)。
大致的視覺(jué)原理如下:從原始信號(hào)攝入開始(瞳孔攝入像素 Pixels),接著做初步處理(大腦皮層某些細(xì)胞發(fā)現(xiàn)邊緣和方向),然后抽象(大腦判定,眼前的物體的形狀,是圓形的),然后進(jìn)一步抽象(大腦進(jìn)一步判定該物體是只氣球)。
所以,機(jī)器的方法也是類似,就像搭積木一樣,我們用機(jī)器來(lái)學(xué)習(xí)識(shí)別圖片,就是一層層地搭建神經(jīng)網(wǎng)絡(luò)。最下面的幾層負(fù)責(zé)找出圖片里最基本的東西,比如邊邊角角或者顏色塊。然后,這些基本特征再被組合起來(lái),形成更復(fù)雜一些的特征,就像是用小積木拼成大積木。這樣一層一層地往上,每一層都用下一層的特征來(lái)構(gòu)建更高級(jí)的特征。最后,到了最頂層,機(jī)器就能根據(jù)這些層層疊加的特征來(lái)決定圖片里是啥東西了。
所以要開發(fā)高級(jí)的人工智能視覺(jué)系統(tǒng),需要模擬人類的視覺(jué)機(jī)制,包括大腦、眼睛和感官的協(xié)同工作,這其實(shí)是一個(gè)非常有挑戰(zhàn)性的任務(wù)。
三、學(xué)習(xí)計(jì)算機(jī)視覺(jué)的挑戰(zhàn)
計(jì)算機(jī)視覺(jué)在實(shí)現(xiàn)過(guò)程中會(huì)受到很多因素的影響,比如:
圖像噪聲
就是指照片里那些亂七八糟、本來(lái)不應(yīng)該出現(xiàn)的斑點(diǎn)或者條紋。這些東西可能是攝像頭不夠好,或者光線太暗,或者是照片在傳過(guò)來(lái)的時(shí)候出了點(diǎn)問(wèn)題造成的。這些噪聲會(huì)讓照片看起來(lái)沒(méi)那么清楚,質(zhì)量下降,對(duì)計(jì)算機(jī)視覺(jué)來(lái)說(shuō)就像是干擾信號(hào),特別是在計(jì)算機(jī)要認(rèn)出照片里是什么東西,或者是要把照片里不同的部分分開來(lái)的時(shí)候,這些噪聲就特別礙事。
復(fù)雜場(chǎng)景下的目標(biāo)檢測(cè)和跟蹤
在那種亂糟糟的環(huán)境里,我們想找的東西可能被其他東西擋住了,或者從我們這個(gè)角度看過(guò)去,它被遮得嚴(yán)嚴(yán)實(shí)實(shí)的。這種情況讓計(jì)算機(jī)視覺(jué)系統(tǒng)非常棘手,因?yàn)橐谶@樣的場(chǎng)景里找到并一直盯著目標(biāo),難度不小。
特征難以提取
比如我們?nèi)粘E恼?,無(wú)論是在白天還是夜晚拍攝,無(wú)論是從正面還是側(cè)面,或者是在笑還是在跑,每張照片看起來(lái)都會(huì)有很大的不同。哪怕你只是把照片旋轉(zhuǎn)一下,像素也會(huì)發(fā)生很大的變化。
所以,盡管這些照片的內(nèi)容都是一個(gè)人,但在像素層面上,它們之間的差異可能非常大。這對(duì)于計(jì)算機(jī)視覺(jué)系統(tǒng)來(lái)說(shuō),要準(zhǔn)確地從這些照片中提取出有用的特征,確實(shí)是個(gè)不小的挑戰(zhàn)。
需要計(jì)算的數(shù)據(jù)量巨大
就拿手機(jī)隨便拍張照來(lái)說(shuō),照片的分辨率可能是1000像素寬乘以2000像素高。每個(gè)像素點(diǎn)都有紅、綠、藍(lán)三個(gè)顏色通道,所以一張照片就有1000乘以2000再乘以3,等于600萬(wàn)個(gè)數(shù)據(jù)點(diǎn)。也就是說(shuō),光是處理一張照片,就得搞定600萬(wàn)個(gè)參數(shù)。要是考慮到現(xiàn)在越來(lái)越流行的4K視頻,那數(shù)據(jù)量更是驚人,你就能想象這背后的計(jì)算量有多大了。
四、計(jì)算機(jī)視覺(jué)的 7 大應(yīng)用方向
圖像分類
簡(jiǎn)單來(lái)說(shuō),就是計(jì)算機(jī)視覺(jué)里的一個(gè)任務(wù),目的是讓計(jì)算機(jī)能夠識(shí)別出一張圖片里主要是什么。這就像是給圖片貼標(biāo)簽,告訴計(jì)算機(jī)這張圖片代表的是什么類別的東西。
比如,你給計(jì)算機(jī)一張圖片,它能夠識(shí)別出這是一張“狗”的圖片,而不是“貓”?;蛘?,它能判斷出這是一張“日落”的風(fēng)景照,而不是“城市街景”。
這個(gè)過(guò)程就像是我們?nèi)祟惪磮D說(shuō)話一樣,計(jì)算機(jī)通過(guò)學(xué)習(xí)大量的圖片樣本,逐漸學(xué)會(huì)如何根據(jù)圖片里的特征來(lái)判斷圖片屬于哪個(gè)類別。這樣,計(jì)算機(jī)就能像人類一樣,對(duì)圖片進(jìn)行分類和識(shí)別了。
目標(biāo)檢測(cè)
目標(biāo)檢測(cè),就是計(jì)算機(jī)視覺(jué)中的一個(gè)技術(shù),它能讓電腦在圖片或者視頻里找出我們指定的東西,并且準(zhǔn)確地指出這些東西在畫面上的哪個(gè)位置。這不僅僅是認(rèn)出圖片里有什么,還要能指出這些東西具體在哪兒,就像是給圖片里的目標(biāo)畫個(gè)小圈圈或者打個(gè)小叉叉。
語(yǔ)義分割
就是讓計(jì)算機(jī)能夠理解圖片中的每一個(gè)像素是屬于哪個(gè)類別的。這就好比是給圖片中的每一小塊地方都貼上一個(gè)標(biāo)簽,告訴電腦這里是天空、那里是建筑物、這邊是個(gè)人。
語(yǔ)義分割的過(guò)程通常包括三個(gè)步驟:首先是分類,確定圖片中的對(duì)象是什么;然后是定位,找到這些對(duì)象在圖片中的位置;最后是分割,將這些對(duì)象從圖片中分離出來(lái) 。這項(xiàng)技術(shù)的核心在于它能夠處理像素級(jí)別的細(xì)節(jié),為每個(gè)像素分配一個(gè)語(yǔ)義標(biāo)簽,從而實(shí)現(xiàn)非常精確的圖像理解。
實(shí)例分割
實(shí)例分割是一種計(jì)算機(jī)視覺(jué)任務(wù),它要求模型不僅要識(shí)別出圖像中的對(duì)象,還要區(qū)分對(duì)象的不同實(shí)例,并對(duì)每個(gè)實(shí)例的每個(gè)像素進(jìn)行標(biāo)記。這就像是在圖像中進(jìn)行“精細(xì)的切割”,不僅要認(rèn)出圖像里都有啥,還要給每個(gè)東西都標(biāo)上名字,哪怕是長(zhǎng)得差不多的東西也得區(qū)分開。
實(shí)例分割可以看作是目標(biāo)檢測(cè)和語(yǔ)義分割的結(jié)合體。目標(biāo)檢測(cè)負(fù)責(zé)找出圖像中的對(duì)象并確定它們的位置,而語(yǔ)義分割則負(fù)責(zé)識(shí)別圖像中每個(gè)像素的類別。實(shí)例分割則更進(jìn)一步,它不僅要識(shí)別出每個(gè)像素的類別,還要區(qū)分出同一類別中不同的實(shí)例。
人體關(guān)鍵點(diǎn)檢測(cè)
就是用電腦來(lái)識(shí)別圖片或視頻里人的身體上特定的點(diǎn),比如肩膀、肘部、手腕、髖關(guān)節(jié)、膝蓋和腳踝這些部位。這些點(diǎn)就像是人體的“關(guān)節(jié)”,它們?cè)谌梭w動(dòng)作中扮演著重要的角色。
場(chǎng)景文字識(shí)別
就像是給電腦裝上了一雙能看懂文字的眼睛,讓電腦能夠在照片或者視頻里識(shí)別出文字,不管是路標(biāo)上的指示牌、書籍的封面,還是菜單上的文字,電腦都能把它們“看”懂,并且轉(zhuǎn)換成電子文本。
目標(biāo)跟蹤
目標(biāo)跟蹤就是讓計(jì)算機(jī)能夠鎖定這個(gè)人或車,不管他們?cè)趺磩?dòng),電腦都能在每一幀畫面里找到他們,就像用鼠標(biāo)點(diǎn)著他們不放一樣。
在體育比賽中,可以用來(lái)追蹤運(yùn)動(dòng)員的動(dòng)作;在交通監(jiān)控中,可以跟蹤車輛的流動(dòng);或者在電影制作中,可以用來(lái)制作特效,讓電腦生成的圖像能夠跟著真實(shí)的演員或物體移動(dòng)。
如上文所見(jiàn),計(jì)算機(jī)視覺(jué)確實(shí)是人工智能領(lǐng)域中一個(gè)非常關(guān)鍵的分支,我們生活在一個(gè)視覺(jué)信息爆炸的時(shí)代,照片、視頻無(wú)處不在,能夠從這些數(shù)據(jù)中提取有用信息的技術(shù)當(dāng)然非常有價(jià)值。計(jì)算機(jī)視覺(jué)CV崗,也是招聘網(wǎng)站人工智能算法工程師最熱門的一個(gè)招聘方向。你可能已經(jīng)在想:“聽(tīng)著是不錯(cuò),但我怎么才能掌握這門技術(shù)并把它應(yīng)用于實(shí)際工作中呢?”這就是我們推出人工智能課程的原因,就是想幫你把這高大上的知識(shí),變成你手里實(shí)實(shí)在在的技能。
五、計(jì)算機(jī)視覺(jué)體系化學(xué)習(xí)路線圖
下圖是華清遠(yuǎn)見(jiàn)整個(gè)人工智能體系課的學(xué)習(xí)路徑,主要包括前期的基礎(chǔ)課程、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的通用算法課程、不同AI應(yīng)用領(lǐng)域的高級(jí)算法課程(包括計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、大模型等)及綜合項(xiàng)目實(shí)戰(zhàn)課程。整體全體系課程是面向企業(yè)招聘,覆蓋了90%AI崗位技能。
對(duì)于想學(xué)習(xí)計(jì)算機(jī)視覺(jué)的同學(xué),可以重點(diǎn)學(xué)習(xí)下圖紅框和綠框的課程內(nèi)容,其中紅框部分是計(jì)算機(jī)視覺(jué)相關(guān)核心技術(shù)點(diǎn),綠框部分是學(xué)習(xí)計(jì)算機(jī)視覺(jué)之前需要掌握的一些基礎(chǔ)知識(shí)。按照下圖順序,即可完成計(jì)算機(jī)視覺(jué)從零基礎(chǔ)入門到項(xiàng)目實(shí)戰(zhàn)的完整學(xué)習(xí)。
所以我們的計(jì)算機(jī)視覺(jué)人工智能課程從基礎(chǔ)課程+核心課程+項(xiàng)目課程出發(fā)詳細(xì)講解,通過(guò)算法原理講解+編程代碼實(shí)現(xiàn)+項(xiàng)目案例實(shí)戰(zhàn)的優(yōu)勢(shì),幫助學(xué)生真正掌握計(jì)算機(jī)視覺(jué)技術(shù)。
算法原理講解部分,不同于普遍機(jī)構(gòu)只拿PPT講解或者單方面動(dòng)畫展示,我們采用圖形化交互的方式,將復(fù)雜的算法邏輯轉(zhuǎn)化為直觀的圖像和交互式模型,把算法分解成組件,隨意拖動(dòng),更改參數(shù),直觀“看到”算法的工作原理和過(guò)程,真正的講透、講懂。讓晦澀難懂的算法原理,變得簡(jiǎn)單易學(xué)!
代碼講解部分,有的機(jī)構(gòu)課程,代碼編程部分講的很少,而我們會(huì)為每個(gè)算法都搭配對(duì)應(yīng)的程序源碼,一行一行帶你學(xué)代碼編程。同時(shí)我們通過(guò)自動(dòng)生成Python代碼的方式來(lái)輔助教學(xué),根據(jù)實(shí)際需求隨時(shí)生成和講解代碼,動(dòng)態(tài)調(diào)整參數(shù),展示代碼的可視化變化,理解算法邏輯如何轉(zhuǎn)化為實(shí)際代碼,并提高學(xué)生的編程實(shí)踐能力,讓望而卻步的代碼編程,變得簡(jiǎn)單易學(xué)活用。
項(xiàng)目案例部分,很多機(jī)構(gòu)課程就是在自己電腦上跑跑,我們會(huì)針對(duì)每個(gè)技術(shù)點(diǎn)搭配小項(xiàng)目,讓你邊學(xué)邊練。還有3D大型綜合場(chǎng)景項(xiàng)目,每個(gè)場(chǎng)景里集成了多種算法,項(xiàng)目里每個(gè)涉及到的算法都可以單獨(dú)調(diào)試學(xué)習(xí),邊玩邊學(xué),這樣就能更深入地理解每個(gè)算法是怎么工作的。
華清遠(yuǎn)見(jiàn)深耕人工智能領(lǐng)域多年,花了3年時(shí)間精心打磨的人工智能在線實(shí)驗(yàn)平臺(tái),實(shí)打?qū)嵔鉀Q了學(xué)生學(xué)習(xí)人工智能算法難、編程難、應(yīng)用場(chǎng)景難三大痛點(diǎn),大大降低了人工智能教學(xué)的難度,使得學(xué)生能夠在一個(gè)高效的環(huán)境中學(xué)習(xí)AI,實(shí)現(xiàn)了教育體系與產(chǎn)業(yè)實(shí)踐的無(wú)縫對(duì)接,有效培養(yǎng)了符合現(xiàn)代產(chǎn)業(yè)發(fā)展需求的人工智能人才。
可視化的理論教學(xué)+支持實(shí)操的學(xué)習(xí)平臺(tái)+多年行業(yè)沉淀的公司,幫助你全面掌握計(jì)算機(jī)視覺(jué)知識(shí),給職業(yè)生涯多一份技術(shù)保障!
AI體系化學(xué)習(xí)路線
學(xué)習(xí)資料免費(fèi)領(lǐng)
? AI全體系學(xué)習(xí)路線超詳版
? AI體驗(yàn)卡(AI實(shí)驗(yàn)平臺(tái)體驗(yàn)權(quán)限)
? 100余講AI視頻課程
? 項(xiàng)目源碼《從零開始訓(xùn)練與部署YOLOV8》
? 170余篇AI經(jīng)典論文
-
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7383瀏覽量
87641 -
AI
+關(guān)注
關(guān)注
87文章
29858瀏覽量
268152 -
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
8文章
1694瀏覽量
45905 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5471瀏覽量
120903
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論