0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于物體識(shí)別技術(shù)最詳細(xì)講解

新機(jī)器視覺(jué) ? 來(lái)源:簡(jiǎn)書 ? 作者:放飛人夜 ? 2021-03-27 09:22 ? 次閱讀

一、物體識(shí)別的發(fā)展史

1)物體識(shí)別的理解

物體識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一項(xiàng)基礎(chǔ)研究,它的任務(wù)是識(shí)別出圖像中有什么物體,并報(bào)告出這個(gè)物體在圖像表示的場(chǎng)景中的位置和方向。目前物體識(shí)別方法可以歸為兩類:基于模型的或者基于上下文識(shí)別的方法,二維物體識(shí)別或者三維物體識(shí)別方法。對(duì)于物體識(shí)別方法的評(píng)價(jià)標(biāo)準(zhǔn),Grimson 總結(jié)出了大多數(shù)研究者主要認(rèn)可的 4 個(gè)標(biāo)準(zhǔn):健壯性(robustness)、正確性(correctness)、效率(efficiency)和范圍(scope)。

2)物體識(shí)別的發(fā)展簡(jiǎn)史

(1)20世紀(jì)60年代:

當(dāng)時(shí)MIT的計(jì)算機(jī)教授組織了一個(gè)面向本科生的兩個(gè)月的Summer Project。這個(gè)Project的目的是設(shè)計(jì)一個(gè)系統(tǒng),能夠智能識(shí)別場(chǎng)景里頭的物體,并區(qū)分出類別。當(dāng)時(shí)他們低估了這個(gè)問(wèn)題的難度,結(jié)果可想而知。

原因是我們看到的這個(gè)物體的樣子,只是它在某種背景下某一種光線條件下特定角度的投影的,換一個(gè)角度可能就是完全不同的樣子。即使是同一個(gè)物體,例如人,躺著或者站著,形態(tài)都是不一樣的。

(2)20世紀(jì)50年代初到90年代

這個(gè)時(shí)期基本都是嘗試用創(chuàng)建三維模型方法去做物體識(shí)別。通常,事先定義一些基本的幾何形狀,然后把物體表示為基本幾何形狀的組合,然后去匹配圖像。這時(shí)候識(shí)別問(wèn)題變成了一個(gè)匹配問(wèn)題。在三維模型庫(kù)中去搜索可能的視角投影,跟待識(shí)別的圖像進(jìn)行匹配。如果找到最合適的匹配,就認(rèn)為是識(shí)別成功了。

但是這么做并不是很有效。首先,很多物體很難用所謂的基本幾何形狀去描述它,特別是一些非剛體,比如動(dòng)物;其次,對(duì)于一類物體,它可能會(huì)有豐富的類內(nèi)差異性,即使是同一個(gè)物體在不同的姿態(tài)下也不一樣,不可能每一種姿態(tài)都預(yù)先創(chuàng)建一個(gè)三維模型模板;第三,即使解決了之前的問(wèn)題,如何才能準(zhǔn)確地從圖像中提取出 這些幾何形狀也存在困難。

(3)20世紀(jì)90年代之后

此時(shí)的主流方法是只從圖像本身考慮,而不去管物體原來(lái)的三維形狀。這類方法統(tǒng)一叫做appearance based techniques。所謂appearance, 從模式識(shí)別的角度去描述的話,就是圖像特征(feature),即對(duì)圖像的一種抽象描述。有了圖像特征,就可以在這個(gè)特征空間內(nèi)做匹配,或者分類。然 而這個(gè)方法還是存在很多問(wèn)題,首先它需要我們對(duì)所有的圖片進(jìn)行對(duì)齊,像人臉圖像,就要求每一幅圖中五官基本在固定的位置。但是很多應(yīng)用場(chǎng)景下,目標(biāo)并不是 像人臉那么規(guī)整,很難去做統(tǒng)一對(duì)齊,而且這種基于全局特征和簡(jiǎn)單歐式距離的檢索方法,對(duì)復(fù)雜背景,遮擋,和幾何變化等并不適用。

(4)2000年之后

物體識(shí)別領(lǐng)域有了較大的發(fā)展。首先圖像特征層面,人們?cè)O(shè)計(jì)了各種各樣的圖像特征,像SIFT,HOG,LBP等等。與此同時(shí),機(jī)器學(xué)習(xí)方法的發(fā)展也為模式識(shí)別提供了各種強(qiáng)大的分類器。后來(lái)人們還在對(duì)物體建模方面做了一些工作,旨在用更靈活的模型,而不是單一的模板去定義物體。

隨著人工智能、大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)的不斷發(fā)展,以及3D傳感器、深度攝像頭等硬件的不斷升級(jí),利用深度信息進(jìn)行三維物體識(shí)別的技術(shù),逐漸受到蘋果公司科技大牛和高通廠商重視,并被植入到硬件產(chǎn)品中。

舉個(gè)例子,蘋果即將推出的新一代手機(jī)中可能搭載3D掃描識(shí)別技術(shù),即在傳統(tǒng)平面識(shí)別的基礎(chǔ)上,能夠識(shí)別出人臉或者物體的3D外部輪廓,比如系統(tǒng)能夠掃描出一個(gè)立體的臉部,從而大幅度增加識(shí)別的準(zhǔn)確性,這種技術(shù)也避免了過(guò)去用一張照片就欺騙平面識(shí)別系統(tǒng)的問(wèn)題。

二、物體識(shí)別的主要技術(shù)及流程

1)物體識(shí)別的步驟

(1)圖片的預(yù)處理

預(yù)處理幾乎是所有計(jì)算機(jī)視覺(jué)算法的第一步,其動(dòng)機(jī)是盡可能在不改變圖像 承載的本質(zhì)信息的前提下,使得每張圖像的表觀特性(如顏色分布,整體明暗, 尺寸大小等)盡可能的一致,主要完成模式的采集、模數(shù)轉(zhuǎn)換、濾波、消除模糊、減少噪聲、糾正幾何失真等操作。

預(yù)處理經(jīng)常與具體的采樣設(shè)備和所處理的問(wèn)題有關(guān)。例如,從圖象中將汽車車牌的號(hào)碼識(shí)別出來(lái),就需要先將車牌從圖像中找出來(lái),再對(duì)車牌進(jìn)行劃分,將每個(gè)數(shù)字分別劃分開。做到這一步以后,才能對(duì)每個(gè)數(shù)字進(jìn)行識(shí)別。以上工作都應(yīng)該在預(yù)處理階段完成。在物體識(shí)別中所用到的典型的預(yù)處理方法不外乎直方圖均衡及濾波幾種。像高斯模糊可以使之后的梯度計(jì)算更為準(zhǔn)確;而直方圖均衡可以克服一定程度的光照影響。值得注意的是,有些特征本身已經(jīng)帶有預(yù)處理的屬性,因此不需要再進(jìn)行預(yù)處理操作。

預(yù)處理通常包括五種基本運(yùn)算:

(1)編碼:實(shí)現(xiàn)模式的有效描述,適合計(jì)算機(jī)運(yùn)算。

(2)閥值或者濾波運(yùn)算:按需要選出某些函數(shù),抑制另一些。

(3)模式改善:排除或修正模式中的錯(cuò)誤,或不必要的函數(shù)值。

(4)正規(guī)化:使某些參數(shù)值適應(yīng)標(biāo)準(zhǔn)值,或標(biāo)準(zhǔn)值域。

(5)離散模式運(yùn)算:離散模式處理中的特殊運(yùn)算。

(2)特征提取

1、簡(jiǎn)介:

特征提取是物體識(shí)別的第一步,也是識(shí)別方法的一個(gè)重要組成部分,好的圖像特征使得不同的物體對(duì)象在高維特征空間中有著較好的分離性,從而能夠有效地減輕識(shí)別算法后續(xù)步驟的負(fù)擔(dān),達(dá)到事半功倍的效果,下面對(duì)一些常用的特征提取方法進(jìn)行介紹。

近年來(lái),子空間方法,如主成分分析(PCA),辨別成分分析(LDA),也成為 一種相對(duì)重要的特征提取手段。這種方法將圖像拉長(zhǎng)成為高維空間的向量,并進(jìn)行奇異值分解以得到特征方向。人臉識(shí)別便是其較為成功的應(yīng)用范例。此類方法能處理有全局噪聲的情況,并且模型相當(dāng)簡(jiǎn)單易實(shí)現(xiàn);然而這種算法割裂了圖像的內(nèi)部結(jié)構(gòu),因此在本質(zhì)上是非視覺(jué)的,模型的內(nèi)在機(jī)制較難令人理解,也沒(méi)有任何機(jī)制能消去施加于圖像上的仿射變換。

2、圖像特征提取方法:

圖像特征提取就是提取出一幅圖像中不同于其他圖像的根本屬性,以區(qū)別不同的圖像。如灰度、亮度、紋理和形狀等等特征都是與圖像的視覺(jué)外觀相對(duì)應(yīng)的;而還有一些則缺少自然的對(duì)應(yīng)性,如顏色直方圖、灰度直方圖和空間頻譜圖等?;趫D像特征進(jìn)行物體識(shí)別實(shí)際上是根據(jù)提取到圖像的特征來(lái)判斷圖像中物體屬于什么類別。形狀、紋理和顏色等特征是最常用的視覺(jué)特征,也是現(xiàn)階段基于圖像的物體識(shí)別技術(shù)中采用的主要特征。

3、圖像顏色特征提取:

圖像的顏色特征描述了圖像或圖像區(qū)域的物體的表面性質(zhì),反映出的是圖像的全局特征。一般來(lái)說(shuō),圖像的顏色特征是基于像素點(diǎn)的特征,只要是屬于圖像或圖像區(qū)域內(nèi)的像素點(diǎn)都將會(huì)有貢獻(xiàn)。

典型的圖像顏色特征提取方法:顏色直方圖,顏色集,顏色矩。

1) 顏色直方圖是最常用的表達(dá)顏色特征的方法。

優(yōu)點(diǎn):能簡(jiǎn)單描述圖像中不同色彩在整幅圖像中所占的比例,特別適用于描述一些不需要考慮物體空間位置的圖像和難以自動(dòng)分割的圖像。

缺點(diǎn):它無(wú)法描述圖像中的某 一具體的物體,無(wú)法區(qū)分局部顏色信息。

2) 顏色集方法可以看成是顏色直方圖的一種近似表達(dá)。具體方法是:首先將圖像從 RGB 顏色空間轉(zhuǎn)換到視覺(jué)均衡的顏色空間;然后將視覺(jué)均衡的顏色空間量化;最后,采用色彩分割技術(shù)自動(dòng)地將圖像分為幾個(gè)區(qū)域,用量化的顏色空間中的某個(gè)顏色分量來(lái)表示每個(gè)區(qū)域的索引,這樣就可以用一個(gè)二進(jìn)制的顏色索引集來(lái)表示一幅圖像。

3) 顏色矩方法是基于圖像中任何的顏色分布都可以用相應(yīng)的矩來(lái)表示這個(gè)數(shù)學(xué)基礎(chǔ)上的。由于顏色分布信息主要集中在低階矩中,因此,表達(dá)圖像的顏色分布僅需要采用顏色的一階矩、二階矩和三階矩。

4、圖像紋理特征提?。?/strong>

圖像的紋理是與物體表面結(jié)構(gòu)和材質(zhì)有關(guān)的圖像的內(nèi)在特征,反映出來(lái)的是圖像的全局特征。圖像的紋理可以描述為:一個(gè)鄰域內(nèi)像素的灰度級(jí)發(fā)生變化的空間分布規(guī)律,包括表面組織結(jié)構(gòu)、與周圍環(huán)境關(guān)系等許多重要的圖像信息。

典型的圖像紋理特征提取方法:統(tǒng)計(jì)方法,幾何法,模型法,信號(hào)處理法。

1) 統(tǒng)計(jì)方法是灰度共生矩陣紋理特征分析方法;

2) 幾何法是建立在基本的紋理元素理論基礎(chǔ)上的一種紋理特征分析方法;

3) 模型法是將圖像的構(gòu)造模型的參數(shù)作為紋理特征;

4) 信號(hào)處理法主要是小波變換為主。

5、 圖像形狀特征提取

形狀特征是反映出圖像中物體最直接的視覺(jué)特征,大部分物體可以通過(guò)分辨其形狀來(lái)進(jìn)行判別。所以,在物體識(shí)別中,形狀特征的正確提取顯得非常重要。

常用的圖像形狀特征提取方法有兩種:基于輪廓的方法和基于區(qū)域的方法。

這兩種方法的不同之處在于:對(duì)于基于輪廓的方法來(lái)說(shuō),圖像的輪廓特征主要針對(duì)物體的外邊界,描述形狀的輪廓特征的方法主要有:樣條、鏈碼和多邊形逼近等;而在基于區(qū)域的方法中,圖像的區(qū)域特征則關(guān)系到整個(gè)形狀區(qū)域,描述形狀的區(qū)域特征的主要方法有:區(qū)域的面積、凹凸面積、形狀的主軸方向、縱橫比、形狀的不變矩等。這些關(guān)于形狀的特征目前已得到了廣泛的應(yīng)用。典型的形狀特征描述方法有:邊界特征法,傅里葉形狀描述符法,幾何參數(shù)法,形狀不變矩法。

6、空間特征提取:

空間特征是指圖像中分割出來(lái)的多個(gè)目標(biāo)之間的相互的空間位置或者相對(duì)方向關(guān)系,有相對(duì)位置信息,比如上下左右,也有絕對(duì)位置信息,常用的提取空間特征的方法的基本思想為對(duì)圖像進(jìn)行分割后,提取出特征后,對(duì)這些特征建立索引。

(3)特征選擇

再好的機(jī)器學(xué)習(xí)算法,沒(méi)有良好的特征都是不行的;然而有了特征之后,機(jī)器學(xué)習(xí)算法便開始發(fā)揮自己的優(yōu)勢(shì)。在提取了所要的特征之后,接下來(lái)的一個(gè)可選步驟是特征選擇。特別是在特征種類很多或者物體類別很多,需要找到各自的最適應(yīng)特征的場(chǎng)合。嚴(yán)格地來(lái)說(shuō),任何能夠在被選出特征集上工作正常的模型都能在原特征集上工作正常,反過(guò)來(lái)進(jìn)行了特征選擇則可能會(huì)丟掉一些有用的特征;不過(guò)由于計(jì)算上的巨大開銷,在把特征放進(jìn)模型訓(xùn)練之前還得進(jìn)行特征選擇。

(4)建模

一般物體識(shí)別系統(tǒng)賴以成功的關(guān)鍵基礎(chǔ)在于屬于同一類的物體總是有一些地方是相同的。而給定特征集合,提取相同點(diǎn),分辨不同點(diǎn)就成了模型要解決的問(wèn)題。因此可以說(shuō)模型是整個(gè)識(shí)別系統(tǒng)的成敗之所在。對(duì)于物體識(shí)別這個(gè)特定課題,模型主要建模的對(duì)象是特征與特征之間的空間結(jié)構(gòu)關(guān)系;主要的選擇準(zhǔn)則,一是模型的假設(shè)是否適用于當(dāng)前問(wèn)題;二是模型所需的計(jì)算復(fù)雜度是否能夠承受,或者是否有盡可能高效精確或者近似的算法。

(5)匹配

在得到訓(xùn)練結(jié)果之后(在描述、生成或者區(qū)分模型中常表現(xiàn)為一簇參數(shù)的取值,在其它模型中表現(xiàn)為一組特征的獲得與存儲(chǔ)),接下來(lái)的任務(wù)是運(yùn)用目前的 模型去識(shí)別新的圖像屬于哪一類物體,并且有可能的話,給出邊界,將物體與圖像的其它部分分割開。一般當(dāng)模型取定后,匹配算法也就自然而然地出現(xiàn)。在描述模型中,通常是對(duì)每類物體建模,然后使用極大似然或是貝葉斯推理得到類別信息;生成模型大致與此相同,只是通常要先估出隱變量的值,或者將隱變量積分,這一步往往導(dǎo)致極大的計(jì)算負(fù)荷;區(qū)分模型則更為簡(jiǎn)單,將特征取值代入分類器即得結(jié)果。

(6)定位

在成功地識(shí)別出物體之后,對(duì)物體進(jìn)行定位成為進(jìn)一步的工作。一些模型, 如描述生成模型,或是基于部分的模型天生具有定位的能力,因?yàn)樗鼈兯幚淼膶?duì)象就是特征的空間分布,而特征包方法相對(duì)較難定位,即使是能定位,準(zhǔn)確程度也不如前者。不過(guò)近年來(lái)經(jīng)過(guò)改進(jìn)的特征包方法也可以做相當(dāng)精確的定位。一部分是因?yàn)閳D像預(yù)分割及生成模型的引入,另一部分則歸功于一些能夠?qū)μ卣靼玫降奶卣鬟M(jìn)行重構(gòu)的方法。

2)物體識(shí)別的主要方法(由于方法太多,只列舉幾種)

(1)基于統(tǒng)計(jì)的方法與基于物體部件的方法:

根據(jù)識(shí)別方法是否對(duì)局部特征之間的關(guān)系建模,可以把識(shí)別方法分為基于統(tǒng)計(jì)的方法與基于物體部件的方法。

1、基于統(tǒng)計(jì)的物體分類方法(BoW:Bag of Words)

BoW模型嚴(yán)格上講并不是一種物體識(shí)別方法,而是一種物體分類方法。這種模型的靈感來(lái)自于NLP中的BoW模型。。一幅圖像可以看作是一篇“文檔”,而圖像中提取出的特征認(rèn)為是“詞語(yǔ)”。

1)生成性方法的學(xué)習(xí)與識(shí)別

生成性的學(xué)習(xí)方法通過(guò)先驗(yàn)知識(shí)去擬合并解釋圖像中的信號(hào)。在中,有兩種主要的生成性方法,一種是NB(樸素貝葉斯),另外一種是pLSA(概率潛語(yǔ)義分析)與LDA(線性判別分析)。

在NB中,根據(jù)特征在圖像中出現(xiàn)的頻率,利用后驗(yàn)概率來(lái)推斷圖像的類別屬性:

40cad906-8e94-11eb-8b86-12bb97331649.jpg

pLSA在上述模型中引入了一個(gè)隱藏變量z,用來(lái)表征物體類別。其基本出發(fā)點(diǎn)是圖像按照某種概率來(lái)產(chǎn)生各種物體,這些物體再按照某種概率來(lái)產(chǎn)生特征詞語(yǔ)。

4101bf2a-8e94-11eb-8b86-12bb97331649.jpg

4134f340-8e94-11eb-8b86-12bb97331649.jpg

2)鑒別性方法的學(xué)習(xí)與識(shí)別

如果說(shuō)生成性方法最后要得出的結(jié)論是圖像中包含某類物體的可能性有多大的話,鑒別性的方法最后要得出的結(jié)論是圖像中包含某類物體的可能性相比于包含其它類物體的可能性的比值是多少,或者說(shuō)比較哪種可能性更大,從而幫助做出推理判斷。

2、基于物體部件的識(shí)別

前述BoW的一個(gè)主要缺陷就是沒(méi)有對(duì)特征之間的關(guān)系進(jìn)行建模,因此無(wú)法刻畫各個(gè)特征在空旬中的順序關(guān)系。基于物體部件方法的出發(fā)點(diǎn)正是要解決這個(gè)問(wèn)題。在這里物體部件的定義并不一定是指高層語(yǔ)義上的物體部件例(如眼睛、鼻子之于人臉),也可以是一些底層的圖像特征,例如圖像或者點(diǎn)特征。

(2)自頂向下的識(shí)別方法與自底向上的搜索方法

根據(jù)識(shí)別方法的搜索方向,可以將識(shí)別分為自頂向下的識(shí)別方法與自底向上的搜索方法。前一種方法通常有一個(gè)先驗(yàn)物體模型,通過(guò)在圖像中尋找這個(gè)先驗(yàn)?zāi)P蛠?lái)實(shí)現(xiàn)物體檢測(cè)。后一種方法從圖像的底層或中層信號(hào)例如圖像分割塊,輪廓線條出發(fā),按照某種規(guī)則從物體部分逐步構(gòu)造至物體整體,在構(gòu)造過(guò)程中通常采用一定的能量函數(shù)對(duì)構(gòu)造結(jié)果進(jìn)行評(píng)估與驗(yàn)證。

雖然自頂向下的方法可以快速定位到物體,但是由于特征匹配的局部性,容易產(chǎn)生較多的假檢測(cè),這些假檢測(cè)往往會(huì)破壞底層圖像的完整性語(yǔ)義。自底向上的方法在搜索過(guò)程中保持了底層圖像語(yǔ)義圖像分割、輪廓線等的完整性,但通常需要設(shè)計(jì)良好的搜索規(guī)則與策略,并花費(fèi)很大的力氣來(lái)完成搜索。因此,越來(lái)越多的方法開始結(jié)合這兩個(gè)方向來(lái)進(jìn)行物體識(shí)別,利用自頂向下的過(guò)程快速定位到可能的物體,然后在自底向上的過(guò)程中,加入圖像底層語(yǔ)義不可再分割的約束對(duì)檢測(cè)到的可能物體進(jìn)一步驗(yàn)證,最終達(dá)到好的檢測(cè)效果。

(3)生成性方法與鑒別性方法(基本原理上面已提到過(guò))

1、生成性方法的一個(gè)優(yōu)點(diǎn)在于,給定一個(gè)模型,進(jìn)行學(xué)習(xí)之后,可以根據(jù)學(xué)到的規(guī)則在圖像中找到模型中沒(méi)有的物體,只要這個(gè)物體不違反模型的定義。這種方法可以達(dá)到較高的識(shí)別率,但是識(shí)別精度不高。例如,如果只給定一些蘋果的模型,一個(gè)具有良好的生成性方法會(huì)把圖像中凡是與圓形相似的形狀都找出來(lái)。

2、鑒別性方法通過(guò)增加反例來(lái)排除假檢測(cè),例如,給定蘋果的同時(shí)再給出一些梨的圖片作為反例,通過(guò)學(xué)習(xí)到這兩類的差別,檢測(cè)器就有可能把貌似蘋果但更像梨的結(jié)果去除掉。

(4)基于模型(model)的物體識(shí)別方法

現(xiàn)在主流的物體識(shí)別的基本方法都可以集合為一類:基于模型的物體識(shí)別?;谀P偷奈矬w識(shí)別方法首先需要建立物體模型,然后使用各種匹配算法從真實(shí)的圖像中識(shí)別出與物體模型最相似的物體,它的主要任務(wù)就是要從二維或三維圖像抽取的特征中,尋找出與模型庫(kù)中已建好的特征之間的對(duì)應(yīng)關(guān)系,以此來(lái)預(yù)測(cè)物體是什么。

這個(gè)方法主要涉及到兩個(gè)難點(diǎn),一是如何選取合適的圖像特征以及如何改進(jìn),二是如何恰當(dāng)?shù)亩x物體模型并建立抽取的特征與模型庫(kù)中特征的對(duì)應(yīng)關(guān)系。

419535e8-8e94-11eb-8b86-12bb97331649.jpg

(5)基于上下文(context)物體識(shí)別方法

在現(xiàn)實(shí)世界中,物體所處的情景為識(shí)別物體提供了更加豐富有用的信息,在現(xiàn)實(shí)世界中任何一個(gè)物體都不會(huì)單獨(dú)的出現(xiàn),它會(huì)出現(xiàn)在某些情景中,或者伴隨其他物體一起出現(xiàn),當(dāng)人們觀察并推測(cè)一個(gè)物體是什么時(shí),除了根據(jù)物體自身具備的特征之外,還有就是基于物體所處的上下文來(lái)推斷。雖然基于模型的物體識(shí)別方法僅僅利用了物體的特征信息,有效縮減了識(shí)別物體的時(shí)間,但是卻完全忽略了物體出現(xiàn)的情景,這時(shí)就會(huì)引出一些錯(cuò)誤的判斷,比如在網(wǎng)球場(chǎng),如果不考慮網(wǎng)球場(chǎng)這個(gè)場(chǎng)景,那么網(wǎng)球就會(huì)被識(shí)別為檸檬,當(dāng)考慮到場(chǎng)景時(shí),網(wǎng)球會(huì)很快并且被識(shí)別出來(lái),并且不會(huì)被識(shí)別錯(cuò),于是研究者們?cè)谘芯课矬w識(shí)別的方法時(shí),開始考慮物體所處的上下文,結(jié)合上下文,有助于更好的解釋物體,比如玩具車和真實(shí)的轎車,他們所處的場(chǎng)景是不同的,有些物體也只能出現(xiàn)在某些場(chǎng)景。

基于上下文識(shí)別物體的難點(diǎn)在于如何對(duì)物體與其上下文之間建立關(guān)系,這些關(guān)系比如有,桌子和椅子很容易同時(shí)出現(xiàn),大象和床非常不可能同時(shí)出現(xiàn),車很多時(shí)候都是出現(xiàn)在馬路上等,物體與其上下文之間的關(guān)系也有強(qiáng)弱之分,比如一個(gè)盤子大部分時(shí)候是出現(xiàn)在桌子上,但是出現(xiàn)在其他地方也是有可能,但是消火栓會(huì)一直在人行道上,對(duì)于這些物體與上下文之間的強(qiáng)弱關(guān)系,現(xiàn)在已有相關(guān)工作進(jìn)行了概述。物體與其上下文之間的關(guān)系是通過(guò)對(duì)包含此物體的圖像的低級(jí)特征進(jìn)行統(tǒng)計(jì)得出的。

3)物體識(shí)別的性能評(píng)估方法

判定物體識(shí)別的性能通常采用PR曲線。其中P(Precision)指精度(精確率),一般為y軸;R(Recall)指識(shí)別率(召回率),一般為x軸。

P=(識(shí)別正確的結(jié)果)/(所有識(shí)別結(jié)果);R=(識(shí)別正確的結(jié)果)/(實(shí)際上正確的結(jié)果)。識(shí)別結(jié)果的類型如下:

41c4ee32-8e94-11eb-8b86-12bb97331649.jpg

一個(gè)好的識(shí)別方法應(yīng)該同時(shí)具備高的精確率與高的召回率。精確率等于0.5是一個(gè)界限,當(dāng)精度低于0.5時(shí),說(shuō)明該方法的效率己經(jīng)低于隨機(jī)猜測(cè)的結(jié)果,(因?yàn)殡S機(jī)猜測(cè)的精確率為0.5)。除了PR曲線,也有文獻(xiàn)使用其它曲線來(lái)度量識(shí)別結(jié)果,如ROC曲線或FPPW等。

4)物體識(shí)別的困難與前景

雖然物體識(shí)別已經(jīng)被廣泛研究了很多年,研究出大量的技術(shù)和算法,物體識(shí)別方法的健壯性、正確性、效率以及范圍得到了很大的提升,但是現(xiàn)在依然存在一些困難以及識(shí)別障礙。這些困難主要有:

(1)獲取數(shù)據(jù)問(wèn)題:

在不同的視角對(duì)同一物體也會(huì)得到不同的圖像,物體所處的場(chǎng)景的背景以及物體會(huì)被遮擋,背景雜物一直是影響物體識(shí)別性能的重要因素,場(chǎng)景中的諸多因素,如光源、表面顏色、攝像機(jī)等也會(huì)影響到圖像的像素灰度,要確定各種因素對(duì)像素灰度的作用大小是很困難的,這些使得圖像本身在很多時(shí)候并不能提供足夠的信息來(lái)恢復(fù)景物。

(2)知識(shí)導(dǎo)引問(wèn)題:

同樣的圖像在不同的知識(shí)導(dǎo)引下,會(huì)產(chǎn)生不同的識(shí)別結(jié)果,知識(shí)庫(kù)的建立不僅要使用物體的自身知識(shí),如顏色、紋理、形狀等,也需要物體間關(guān)系的知識(shí),知識(shí)庫(kù)的有效性與準(zhǔn)備性直接影響了物體識(shí)別的準(zhǔn)確性。

(3)信息載體問(wèn)題:

物體本身是一個(gè)高緯信息的載體,但是圖像中的物體只是物體的一個(gè)二維呈現(xiàn),并且在人類目前對(duì)自己如何識(shí)別物體尚未了解清楚,也就無(wú)法給物體識(shí)別的研究提供直接的指導(dǎo)。目前人們所建立的各種視覺(jué)系統(tǒng)絕大多數(shù)是只適用于某一特定環(huán)境或應(yīng)用場(chǎng)合的專用系統(tǒng),而要建立一個(gè)可與人的視覺(jué)系統(tǒng)相比的通用視覺(jué)系統(tǒng)是非常困難的。

(4)前景展望:

雖然存在著很多困難,但是隨著人類對(duì)自己視覺(jué)的逐步了解,一個(gè)通用的物體識(shí)別技術(shù)終會(huì)被研究成功。人們一直致力于開發(fā)各種智能工具輔助人們的生產(chǎn)生活,比如機(jī)器人的研制,但是要想使得機(jī)器人可以像人一樣運(yùn)動(dòng),輔助人們的工作生活,那么前提是機(jī)器人必須具備類似于人的視覺(jué)系統(tǒng),能夠識(shí)別物體以及場(chǎng)景,真正的智能工具應(yīng)該要具備“視覺(jué)”。物體識(shí)別技術(shù)的成功將會(huì)極大改變提高智能工具的能力,成為計(jì)算機(jī)技術(shù)里程碑式的一項(xiàng)研究。

三、物體識(shí)別的市場(chǎng)

1)全球物體識(shí)別市場(chǎng)規(guī)模

根據(jù)KBV Research發(fā)布的“全球圖像識(shí)別市場(chǎng)(2016-2022)”報(bào)告,2022年,全球物體識(shí)別(商品識(shí)別、車輛識(shí)別等)將達(dá)到94.5億美元,年復(fù)合平均增長(zhǎng)率在20.3%左右。

422d5a6c-8e94-11eb-8b86-12bb97331649.jpg

2)中國(guó)物體識(shí)別市場(chǎng)

根據(jù) 重磅數(shù)據(jù) 發(fā)布的“中國(guó)圖像識(shí)別市場(chǎng)(2016-2022)”報(bào)告,2022年中國(guó)圖像識(shí)別市場(chǎng)預(yù)計(jì)將達(dá)到11.6億美元左右。年復(fù)合平均增長(zhǎng)率在18.1%左右。占全球市場(chǎng)平均為11.6%左右。

42a65c96-8e94-11eb-8b86-12bb97331649.jpg

3)國(guó)內(nèi)外主要玩家分布

42f29926-8e94-11eb-8b86-12bb97331649.jpg

4349d3b2-8e94-11eb-8b86-12bb97331649.jpg

43b7d6e6-8e94-11eb-8b86-12bb97331649.jpg

從表中可以看出,物體識(shí)別應(yīng)用最多的就是在商品識(shí)別領(lǐng)域。

(1)碼隆科技:

2014年,兩名從微軟離職的中美好搭檔黃鼎隆、碼特獲得¥1200萬(wàn)的天使輪投資后創(chuàng)立了碼隆科技;其主營(yíng)業(yè)務(wù)是利用圖像識(shí)別技術(shù)打造Product AI平臺(tái),針對(duì)客戶需求建立以圖搜圖引擎,公司主營(yíng)業(yè)務(wù)有智能搜索同款衣服,服裝風(fēng)格分析,家具識(shí)別、面料識(shí)別、藥品識(shí)別等。與國(guó)內(nèi)的穿衣助手(時(shí)尚穿搭)、卷皮網(wǎng)(電商平臺(tái))、優(yōu)料寶(紡織面料)、視覺(jué)中國(guó)(圖片版權(quán)平臺(tái))等公司有長(zhǎng)期的合作。

2017年,碼隆科技獲得軟銀中國(guó)領(lǐng)投的2.2億元B輪融資,預(yù)備將此次融資用于人工智能人才儲(chǔ)備,增加研發(fā)投入,并進(jìn)軍拓展海外市場(chǎng)。碼隆科技會(huì)繼續(xù)專注人工智能商品識(shí)別領(lǐng)域技術(shù)落地,持續(xù)深挖人工智能與傳統(tǒng)行業(yè)的深度結(jié)合點(diǎn),并進(jìn)一步加快國(guó)際化步伐。

(2)Yi+:

“Yi+”(北京陌上花科技有限公司)由美女張默創(chuàng)立于2014年,為企業(yè)提供視覺(jué)內(nèi)容智能化和商業(yè)化解決方案。致力于“挖掘視覺(jué)信息的價(jià)值”。公司旗下品牌Yi+是人工智能計(jì)算機(jī)視覺(jué)引擎,衣+是時(shí)尚商品搜索引擎。

目前,Yi+以視頻、圖像中的人臉、物體、場(chǎng)景檢測(cè)、識(shí)別、搜索、推薦技術(shù)的積累,布局在視頻媒體、智能電視、智能相機(jī)、廣播電視系統(tǒng)等領(lǐng)域,提供“電視+AI”、“相機(jī)+AI”及“營(yíng)銷+AI”的解決方案。已通過(guò)基于視覺(jué)識(shí)別技術(shù)的數(shù)據(jù)結(jié)構(gòu)化產(chǎn)品服務(wù)4億用戶,幫助媒體內(nèi)容方實(shí)現(xiàn)智能分析、內(nèi)容互動(dòng)和場(chǎng)景營(yíng)銷。團(tuán)隊(duì)成員來(lái)自于斯坦福、帝國(guó)理工、耶魯、新加坡國(guó)大、南洋理工、清華、北大、中科院等名校及谷歌、微軟、IBM、英特爾、阿里巴巴、騰訊、百度、華為等名企。2017年公司獲得了億元B輪投資。

(3)圖普科技:

圖普科技是一家基于深度學(xué)習(xí)技術(shù)解讀圖片和視頻內(nèi)容的公司。在2014年初創(chuàng)建并開放了提供各類圖像識(shí)別能力的云服務(wù)平臺(tái),目前圖普云平臺(tái)涵蓋黃暴識(shí)別、人臉識(shí)別、證件識(shí)別、場(chǎng)景識(shí)別、圖像風(fēng)格化等數(shù)十種圖像識(shí)別接口,日均圖像接口調(diào)用數(shù)億次,累計(jì)處理超過(guò)1000億圖像。憑借穩(wěn)定靠譜的服務(wù)和超越用戶期待的產(chǎn)品,贏得了包括映客、秒拍、今日頭條、唱吧、酷狗、花椒直播等數(shù)百家互聯(lián)網(wǎng)企業(yè)和政企機(jī)構(gòu)的穩(wěn)定合作,是較早將人工智能成功商業(yè)化落地的企業(yè),在人工智能領(lǐng)域獨(dú)樹一幟。

其中在物體識(shí)別領(lǐng)域的業(yè)務(wù)有自然場(chǎng)景識(shí)別、多物體檢測(cè)、服裝屬性識(shí)別(自動(dòng)檢測(cè)和識(shí)別圖片、視頻中的服飾,準(zhǔn)確識(shí)別服飾品類、風(fēng)格,美觀度等特征)、汽車識(shí)別(可識(shí)別10種細(xì)分車型,上百種車標(biāo)品牌,12種顏色)等。

4)商業(yè)模式

43fff78c-8e94-11eb-8b86-12bb97331649.jpg

四、行業(yè)應(yīng)用

1)電商行業(yè)

(1)市場(chǎng)規(guī)模

隨著電子商務(wù)的蓬勃發(fā)展,基于物體圖像識(shí)別技術(shù)的以圖搜圖正發(fā)揮重大作用,以移動(dòng)端為例,其中適合圖像搜索的圖片為20 %,假設(shè) 0.5%人次成功轉(zhuǎn)移,1% 平均購(gòu)買轉(zhuǎn)化率,平均購(gòu)物單價(jià)為20 0元,如,按平均10%的傭金計(jì)算,那么一年產(chǎn)業(yè)規(guī)模也超過(guò)220億元。加上其他收入,比如:廣告、手機(jī)搜索等,總體市場(chǎng)規(guī)模不低于600億元。隨著移動(dòng)電子商務(wù)日益興起,圖形圖像搜索已能為客戶帶來(lái)全新的用戶體驗(yàn)。在購(gòu)物領(lǐng)域,非常典型的就是服裝服飾等非標(biāo)類產(chǎn)品,占到整個(gè)電子商務(wù)的55%市場(chǎng)份額。

(2)圖片檢索原理

1、目錄式圖像檢索

目錄式檢索是將圖片進(jìn)行分類,用戶按照分類結(jié)構(gòu)逐漸細(xì)化查詢范圍。目錄式檢索方式經(jīng)常需要人工來(lái)進(jìn)行大部分的分類工作,因此效率較低?,F(xiàn)在仍有大部分的圖像搜索引擎結(jié)合關(guān)鍵字搜索保留了這一檢索途徑,但類目也通常限于大眾用途的圖片,這些類目下的圖片主要源自專題網(wǎng)站,如壁紙就多來(lái)源于專門的壁紙網(wǎng)站。

2、關(guān)鍵詞圖像檢索

關(guān)鍵詞圖像檢索原理是基于圖像外部信息的檢索,這種方式是根據(jù)圖像的文件名、路徑名、鏈路、ALT 標(biāo)簽及與圖像在同一頁(yè)面的文本信息等外部信息進(jìn)行檢索,實(shí)質(zhì)上是將圖像檢索轉(zhuǎn)化為文本檢索,這是目前搜索引擎普遍采用的方法。這種檢索方式最顯著的優(yōu)點(diǎn)是檢索速度快,很好地利用了成熟的基于文本的檢索技術(shù)。不足在于過(guò)于依賴網(wǎng)頁(yè)標(biāo)題與文件名的準(zhǔn)確性。以上兩種檢索方式可歸結(jié)為基于文本的圖像檢索,它們往往只分析圖像的外部信息即文本信息,而沒(méi)有考慮圖像本身的視覺(jué)信息。隨著圖像數(shù)量的大量增長(zhǎng),語(yǔ)言表達(dá)的限制性及語(yǔ)種的復(fù)雜性,這種只是基于文本的圖像檢索技術(shù)已經(jīng)不能滿足用戶的需求,于是有了基于圖像內(nèi)容檢索技術(shù)的發(fā)展。

3、視覺(jué)圖像檢索

基于內(nèi)容的圖像檢索技術(shù)主要就是圖像視覺(jué)檢索,將圖像自身的視覺(jué)內(nèi)容特征作為其索引,如顏色、紋理、形狀以及空間關(guān)系等底層視覺(jué)特征,通過(guò)對(duì)這些圖像特征的比較來(lái)實(shí)現(xiàn)檢索。這是一種基于圖像本身特征層次的自動(dòng)匹配,融合了圖像理解、模式識(shí)別和計(jì)算機(jī)視覺(jué)等理論,特別適用于檢索目標(biāo)明確的查詢。

視覺(jué)圖像檢索原理在實(shí)際應(yīng)用中有兩種檢索方式 :層次性和實(shí)例式。層次性圖像搜索是將關(guān)鍵字檢索與簡(jiǎn)單的視覺(jué)圖像檢索相結(jié)合,不再是“關(guān)鍵詞 + 關(guān)鍵詞 + ”的過(guò)程,而是將關(guān)鍵詞與某些主要的視覺(jué)特征由用戶自由組合。實(shí)例式圖像檢索在較新的專業(yè)圖像搜索引擎中應(yīng)用較多,該方法是提供一張圖片實(shí)例或者由用戶繪制一個(gè)大概的形狀,系統(tǒng)自主綜合可視特征尋找相似圖片。不過(guò),有時(shí)候需要用戶提供圖片實(shí)例會(huì)使系統(tǒng)變得很不友好,因此通常有實(shí)例式圖像檢索功能的搜索引擎也包含層次性圖像搜索功能。

(3)商品識(shí)別中的圖像搜索系統(tǒng)結(jié)構(gòu)

447694c8-8e94-11eb-8b86-12bb97331649.jpg

(4)具體應(yīng)用

1、商品分類:

在電商平臺(tái)中,商品的種類繁多,有衣服、鞋、帽子、圍巾等。其中衣服的分類品種復(fù)雜多樣按性別分有男裝、女裝;按季節(jié)分有春、夏、秋、冬季的服裝;按年齡來(lái)分有童裝、青少年裝、中年裝、老年裝;按群體來(lái)分有學(xué)生裝、白領(lǐng)裝、孕婦裝等;一件衣服可能同時(shí)有好幾個(gè)標(biāo)簽,可能是男裝、春裝、中年裝、白領(lǐng)裝,因此單憑人眼來(lái)分十分吃力。因此基于圖像識(shí)別技術(shù)可以將衣服的款式進(jìn)行分類,對(duì)同類衣服進(jìn)行標(biāo)簽的標(biāo)注。

2、價(jià)格比對(duì)

以淘寶為例,消費(fèi)者在通過(guò)關(guān)鍵字“風(fēng)衣”進(jìn)行檢索,得到幾萬(wàn)個(gè)不同的結(jié)果,如圖一所示的商品就有上百個(gè),細(xì)心的消費(fèi)者可能會(huì)一頁(yè)一頁(yè)的翻找比對(duì)這些商品,但是效率非常低,也不容易察覺(jué)到價(jià)格間的差異。消費(fèi)者越來(lái)越迫切地希望能基于描述商品的圖像進(jìn)行檢索,通過(guò)商品可視特征的提取和匹配,對(duì)數(shù)以百萬(wàn)計(jì)的商品圖片實(shí)現(xiàn)圖片到圖片的智能化檢索。

3、款式識(shí)別

幫助商家和用戶將每件衣服打上不同的款式標(biāo)簽,如吊帶衫、打底褲、直筒褲、Polo衫、短袖等。

4、時(shí)尚穿搭

當(dāng)用戶看到街上的某個(gè)時(shí)尚穿搭時(shí),可拍照上傳搜索同款的衣服,系統(tǒng)提供不同的穿搭建議,給予用戶隨時(shí)隨地的穿搭體驗(yàn)。

5、真?zhèn)巫R(shí)別

可通過(guò)對(duì)商品的材質(zhì)、標(biāo)簽識(shí)別,幫助用戶來(lái)識(shí)別正品和高仿,防止用戶受騙,以至于電商平臺(tái)的信譽(yù)受損。

2)新零售行業(yè)

(1)商品的分類監(jiān)測(cè)

通過(guò)識(shí)別商品的包裝,判斷商品的屬性。比如消費(fèi)者進(jìn)店后拿了又放到其他位置打亂商品原來(lái)的的順序與管理。可在后臺(tái)鏈接語(yǔ)音系統(tǒng),當(dāng)商品發(fā)生錯(cuò)亂時(shí),基于用戶語(yǔ)音提醒,方便商品的管理,減少了商超的分揀員;當(dāng)商品的貨架缺貨時(shí),可自動(dòng)提醒后臺(tái)增補(bǔ)貨源以對(duì)貨倉(cāng)進(jìn)行清查;以及對(duì)該類商品的統(tǒng)計(jì)分析,每周每月的消費(fèi)量等。

(2)食品安全的監(jiān)控與管理

通過(guò)對(duì)零售食品包裝袋的識(shí)別,判斷食品的生產(chǎn)日期、保質(zhì)期是否滿足食用要求等。

(3)用戶的精準(zhǔn)畫像

結(jié)合人臉識(shí)別,通過(guò)追蹤用戶的購(gòu)買行為和商品的購(gòu)買量來(lái)為用戶畫像,比如發(fā)現(xiàn)用戶在購(gòu)買牙膏的之后會(huì)去順手在買一個(gè)牙刷,再買了洗面奶之后會(huì)在買一瓶乳液等。幫助商家更好的了解用戶的需求,以及對(duì)商品擺放位置對(duì)用戶行為的影響等。

(4)完美連接線上線下:

識(shí)別系統(tǒng)獲得的用戶偏好還能反哺線上,將所得數(shù)據(jù)通過(guò)線上反饋給廠商,助力于廠商更全面地了解消費(fèi)者需求,進(jìn)而精準(zhǔn)地研發(fā)產(chǎn)品,設(shè)計(jì)營(yíng)銷策略。這些都是完美實(shí)現(xiàn)新零售“打通線上線下”內(nèi)在要求的極佳方式。

3)汽車行業(yè)

(1)車型識(shí)別

1、車型識(shí)別研究的主要方向:

1)基于神經(jīng)網(wǎng)絡(luò)的方向

2)基于小波變換的車型識(shí)別方向

3)利用地震動(dòng)信號(hào)進(jìn)行分析處理判斷車型

2、車輛的檢測(cè)方法:

1)基于背景差分的方法

2)基于幀間差分的方法

3)基于光流法的方法

3、車型特征提?。簣D像目標(biāo)識(shí)別特征的提取可采用多種方法,主要方法有傅立葉描述子、矩特征、變換域特征、邊緣輪廓特征、角點(diǎn)特征等。

4、車型識(shí)別技術(shù):

1)基于模板匹配的識(shí)別方法

2)基于統(tǒng)計(jì)模式的識(shí)別方法

3)基于神經(jīng)網(wǎng)絡(luò)的識(shí)別方法

4)基于仿生模式(拓?fù)淠J剑┑淖R(shí)別方法

5)基于支持向量機(jī)的識(shí)別方法

(2)車牌識(shí)別(摘自百度,可自查原版)

1、簡(jiǎn)介:

車牌識(shí)別技術(shù)要求能夠?qū)⑦\(yùn)動(dòng)中的汽車牌照從復(fù)雜背景中提取并識(shí)別出來(lái),通過(guò)車牌提取、圖像預(yù)處理、特征提取、車牌字符識(shí)別等技術(shù),識(shí)別車輛牌號(hào)、顏色等信息。

2、技術(shù)原理:

1)基本步驟:

A. 牌照定位,定位圖片中的牌照位置;

B. 牌照字符分割,把牌照中的字符分割出來(lái);

C. 牌照字符識(shí)別,把分割好的字符進(jìn)行識(shí)別,最終組成牌照號(hào)碼。

2)識(shí)別流程:利用車輛的動(dòng)態(tài)視頻或靜態(tài)圖像進(jìn)行牌照號(hào)碼、牌照顏色自動(dòng)識(shí)別。

3、應(yīng)用方式:

1)監(jiān)測(cè)報(bào)警:

對(duì)于納入“黑名單”的車輛,例如:被通緝或掛失的車輛、欠交費(fèi)車輛、未年檢車輛、肇事逃逸及違章車輛等,只需將其車牌號(hào)碼輸入到應(yīng)用系統(tǒng)中,車牌識(shí)別設(shè)備安裝于指定的路口、卡口或由執(zhí)法人員隨時(shí)攜帶按需要放置,系統(tǒng)將識(shí)讀所有通過(guò)車輛的牌照號(hào)碼并與系統(tǒng)中的“黑名單”比對(duì),一旦發(fā)現(xiàn)指定車輛立刻發(fā)出報(bào)警信息。

2)超速違章處罰:

車牌識(shí)別技術(shù)結(jié)合測(cè)速設(shè)備可以用于車輛超速違章處罰,一般用于高速公路。具體應(yīng)用是:在路上設(shè)置測(cè)速監(jiān)測(cè)點(diǎn),抓拍超速的車輛并識(shí)別車牌號(hào)碼,將違章車輛的牌照號(hào)碼及圖片發(fā)往各出口;在各出口設(shè)置處罰點(diǎn),用車牌識(shí)別設(shè)備識(shí)別通過(guò)車輛并將號(hào)碼與已經(jīng)收到的超速車輛的號(hào)碼比對(duì),一旦號(hào)碼相同即啟動(dòng)警示設(shè)備通知執(zhí)法人員處理。與傳統(tǒng)的超速監(jiān)測(cè)方式相比,這種應(yīng)用可以節(jié)省警力,降低執(zhí)法人員的工作強(qiáng)度,而且安全、高效、隱蔽,司機(jī)需時(shí)刻提醒自己不能超速,極大地減少了因超速引發(fā)的事故。

3)車輛出入管理:

將車牌識(shí)別設(shè)備安裝于出入口,記錄車輛的牌照號(hào)碼、出入時(shí)間,并與自動(dòng)門、欄桿機(jī)的控制設(shè)備結(jié)合,實(shí)現(xiàn)車輛的自動(dòng)管理。應(yīng)用于停車場(chǎng)可以實(shí)現(xiàn)自動(dòng)計(jì)時(shí)收費(fèi),也可以自動(dòng)計(jì)算可用車位數(shù)量并給出提示,實(shí)現(xiàn)停車收費(fèi)自動(dòng)管理節(jié)省人力、提高效率。應(yīng)用于智能小區(qū)可以自動(dòng)判別駛?cè)胲囕v是否屬于本小區(qū),對(duì)非內(nèi)部車輛實(shí)現(xiàn)自動(dòng)計(jì)時(shí)收費(fèi)。在一些單位這種應(yīng)用還可以同車輛調(diào)度系統(tǒng)相結(jié)合,自動(dòng)地、客觀地記錄本單位車輛的出車情況,車牌識(shí)別管理系統(tǒng)采用了車牌識(shí)別技術(shù),達(dá)到不停車、免取卡,有效提高車輛出入通行效率。

4)自動(dòng)放行:

將指定的牌照信息輸入系統(tǒng),系統(tǒng)自動(dòng)地識(shí)讀經(jīng)過(guò)車輛的牌照并查詢內(nèi)部數(shù)據(jù)庫(kù)。對(duì)于需要自動(dòng)放行的車輛系統(tǒng)驅(qū)動(dòng)電子門或欄桿機(jī)讓其通過(guò),對(duì)于其它車輛系統(tǒng)會(huì)給出警示,由值勤人員處理。可用于特殊單位(如軍事管理區(qū)、保密單位、重點(diǎn)保護(hù)單位等)、路橋收費(fèi)卡口、高級(jí)住宅區(qū)等。

5)高速公路收費(fèi)管理:

在高速路的各個(gè)出入口安裝車牌識(shí)別設(shè)備,車輛駛?cè)霑r(shí)識(shí)別車輛牌照將入口資料存入收費(fèi)系統(tǒng),車輛到達(dá)出口時(shí)再次識(shí)別其牌照并根據(jù)牌照信息調(diào)用入口資料,結(jié)合出入口資料實(shí)現(xiàn)收費(fèi)管理。這種應(yīng)用可以實(shí)現(xiàn)自動(dòng)計(jì)費(fèi)并可防止作弊,避免了應(yīng)收款的流失。

6)計(jì)算車輛旅行時(shí)間:

在交通管理系統(tǒng)中可以將車輛在某條道路的平均旅行時(shí)間作為判斷該道路擁堵?tīng)顩r的一個(gè)參數(shù)。安裝車牌識(shí)別設(shè)備于道路的起止點(diǎn),識(shí)讀所有通過(guò)車輛并將牌照號(hào)碼傳回交通指揮中心,指揮中心的管理系統(tǒng)根據(jù)這些結(jié)果就可計(jì)算出車輛平均旅行時(shí)間。

7)牌照號(hào)碼自動(dòng)登記:

交通監(jiān)管部門每天都要處理大量的違章車輛圖片,一般由人工辨識(shí)車牌號(hào)碼再輸入管理系統(tǒng),這種方式工作量大、容易疲勞誤判。采用自動(dòng)識(shí)別可以減少工作強(qiáng)度能夠大幅度提高處理速度和效率。這種功能可用于電子警察系統(tǒng)、道路監(jiān)控系統(tǒng)等。

(3)車輛識(shí)別的難點(diǎn)

1、受人自身對(duì)對(duì)象識(shí)別過(guò)程的只是限制,對(duì)自然界的認(rèn)識(shí)不足,缺乏先進(jìn)的科學(xué)知識(shí);

2、車輛繁多但差別不大,沒(méi)有明顯的區(qū)別特征;

3、受具體應(yīng)用環(huán)境的影響太大,各類檢測(cè)算法要求的條件太苛刻,攝像機(jī)的位置和角度要求高;

4、受視覺(jué)變化的影響大,從不同角度所攝的汽車特征差別大;

5、受自然環(huán)境影響太大特別是光照影響,嚴(yán)重的光照反射使得車輛輪廓線不分明,顏色偏離、變化太大,難以辨認(rèn);

6、汽車的外形更新太快,特征變化太快,使得算法適應(yīng)性較差;

7、汽車的管理規(guī)則變化太快,使得智能交通中的應(yīng)用系統(tǒng)算法修改頻繁。

8、復(fù)雜背景多車輛的特征的同時(shí)提取。復(fù)雜背景多車輛的檢測(cè),較容易實(shí)現(xiàn),但是多車輛的特征同時(shí)提取比較困難,實(shí)現(xiàn)多車輛特征的同時(shí)提取,對(duì)以后的分類識(shí)別、跟蹤等都有很大的幫助;

9、汽車遮擋情況的研究。在交通口,因車速行駛速度相對(duì)較慢,汽車遮擋情況雖然出現(xiàn)的比較少,但為樂(lè)萬(wàn)山系統(tǒng),增加系統(tǒng)的魯棒性,這種情況下的汽車識(shí)別有待于進(jìn)一步的研究;

10、運(yùn)動(dòng)車輛的三維建模。運(yùn)動(dòng)車輛是一個(gè)三維物體,因而獲取運(yùn)動(dòng)車輛的三維信息并利用它進(jìn)行識(shí)別將是車型識(shí)別發(fā)展的最終目標(biāo)和解決途徑。隨著信息獲取技術(shù)手段的不斷改進(jìn),這一途徑必將得到應(yīng)有的發(fā)展;

11、非正常天氣條件下車型的識(shí)別。車型識(shí)別的相關(guān)資料顯示,天氣、光線等對(duì)車型識(shí)別準(zhǔn)確性的影響不大,如何降低天氣條件的影響,增加系統(tǒng)的自適應(yīng)性,也是汽車分類識(shí)別有待解決的關(guān)鍵問(wèn)題;

12、支持向量機(jī)還處在繼續(xù)發(fā)展階段,很多方面還不完善,現(xiàn)有的算法都是采用多個(gè)支持向量機(jī)分類器進(jìn)行組合,從而實(shí)現(xiàn)多值分類目的。但目前多分類算法不是特別理想。

4)醫(yī)藥行業(yè)

(1)藥品標(biāo)簽處理

1、圖像采集與預(yù)處理:

1)藥瓶圖像采集:

圖像采集的原理是通過(guò)光學(xué)感光元器件將目標(biāo)物的光線轉(zhuǎn)換成電信號(hào),然后對(duì)電信號(hào)做采樣和量化即得到數(shù)字圖像。

2)圖像預(yù)處理:

圖像傳感器采集到的數(shù)字圖像難免會(huì)夾雜各類噪聲和畸變信號(hào),無(wú)法直接應(yīng)用于視覺(jué)識(shí)別。主要包括圖像灰度化、圖像平滑和圖像增強(qiáng)。

2、藥瓶圖像提?。?/p>

1)藥瓶邊緣檢測(cè):

邊緣檢測(cè)的實(shí)質(zhì)是利用相關(guān)算法提取圖像中目標(biāo)物與背景間灰度變化明顯的分界線,而藥瓶邊緣檢測(cè)是實(shí)現(xiàn)藥瓶圖像分割的先決條件。

2)藥瓶圖像分割:

經(jīng)過(guò)Canny算法邊緣檢測(cè)后的圖像是二值圖像,為提取出藥瓶的有效分割邊界,考慮到藥瓶?jī)蓚?cè)具有豎直邊緣特性,因此常用豎直邊界分割檢測(cè)的方法,根據(jù)檢測(cè)出的藥瓶上下左右邊界,完成藥瓶圖像分割

3、藥瓶圖像矯正:

西林瓶表面貼附的藥品標(biāo)簽呈現(xiàn)圓柱表面特征,成像后標(biāo)簽兩側(cè)區(qū)域會(huì)出現(xiàn)非線性擠壓變形,因此為了能正確識(shí)別藥品國(guó)藥準(zhǔn)字編號(hào),有必要對(duì)這部分畸形圖像做平面化矯正,恢復(fù)字符的正確形態(tài),并拉開字符間距。

1)圖像矯正算法:

藥瓶圖像矯正的根本目的是把圓柱面藥瓶圖像矯正為柱面圖案平面展開時(shí)的成像效果。

2)矯正實(shí)驗(yàn):驗(yàn)證矯正算法后的有效性。

(2)藥品標(biāo)簽字符識(shí)別

1、藥品標(biāo)簽識(shí)別原理(原理圖如下):

44d49726-8e94-11eb-8b86-12bb97331649.jpg

2、藥品標(biāo)簽識(shí)別流程:

1)字符預(yù)處理:字符切分、字符大小歸一化、字符筆畫寬度歸一化

2)候選字符提?。哼x取統(tǒng)計(jì)特征、創(chuàng)建字符模板、分類器設(shè)計(jì)

3)藥品標(biāo)簽字符識(shí)別:基于 BP 神經(jīng)網(wǎng)絡(luò)的字符識(shí)別、基于圖像異或增強(qiáng)算法的字符識(shí)別

3、應(yīng)用:

1)醫(yī)院和藥店藥品分類與管理:

目前醫(yī)院和藥店的藥品種類繁多,利用藥品識(shí)別技術(shù)可以快速的幫助醫(yī)療人員對(duì)藥品的分類管理。

2)藥品生產(chǎn)商的流程管理:

通過(guò)對(duì)藥品生產(chǎn)線上藥品的標(biāo)簽識(shí)別,幫助廠商快速發(fā)現(xiàn)藥品的標(biāo)簽撿漏、質(zhì)量檢測(cè)等。

3)違禁藥物的管理:

對(duì)實(shí)驗(yàn)室的一些危險(xiǎn)化學(xué)品的監(jiān)測(cè)與管理。

4)幫助用戶快速了解藥品:

大多用戶都是醫(yī)生開藥后,并無(wú)閱讀說(shuō)明書的習(xí)慣或者說(shuō)明書不夠詳細(xì),隨著智能終端的普及,用戶可以使用移動(dòng)終端拍照搜索藥品的詳細(xì)資料快速幫助用戶了解一款藥品的用途以及注意事項(xiàng)等。
編輯:lyn

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:物體識(shí)別技術(shù)及其應(yīng)用

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    物體識(shí)別桌 AR物體識(shí)互動(dòng)桌 電容屏實(shí)物識(shí)別漫游桌

    在這個(gè)科技發(fā)達(dá)的時(shí)代,AR增強(qiáng)技術(shù)也在迅速發(fā)展,在展廳展館中發(fā)光發(fā)熱,帶來(lái)了創(chuàng)意無(wú)限的互動(dòng)展示效果,AR技術(shù)結(jié)合物體識(shí)別技術(shù)打造的AR
    的頭像 發(fā)表于 10-21 17:44 ?130次閱讀

    物體識(shí)別交互軟件 AR實(shí)物識(shí)別桌軟件 電容物體識(shí)別

    物體識(shí)別交互軟件是一種新型的展示互動(dòng)設(shè)備,其采用Unity3D技術(shù)開發(fā),還運(yùn)用物體識(shí)別技術(shù)、多媒
    的頭像 發(fā)表于 10-16 17:22 ?176次閱讀

    電感技術(shù)講解

    詳細(xì)講解電感的原理及計(jì)算
    的頭像 發(fā)表于 09-06 02:07 ?1883次閱讀
    電感<b class='flag-5'>技術(shù)</b>的<b class='flag-5'>講解</b>

    第12章-ADC采集電壓和顯示 基于STM32的ADC—電壓采集(詳細(xì)講解+HAL庫(kù))

    第12章-ADC采集電壓和顯示 基于STM32的ADC—電壓采集(詳細(xì)講解+HAL庫(kù))
    的頭像 發(fā)表于 08-21 16:31 ?1980次閱讀
    第12章-ADC采集電壓和顯示 基于STM32的ADC—電壓采集(<b class='flag-5'>詳細(xì)</b><b class='flag-5'>講解</b>+HAL庫(kù))

    射頻識(shí)別技術(shù)的工作原理

    射頻卡)進(jìn)行讀寫,從而達(dá)到識(shí)別目標(biāo)和數(shù)據(jù)交換的目的。其工作原理相對(duì)復(fù)雜但高效,以下是對(duì)RFID技術(shù)工作原理的詳細(xì)闡述。
    的頭像 發(fā)表于 08-13 10:36 ?717次閱讀

    顏色識(shí)別傳感器:精準(zhǔn)捕捉世界的每一抹色彩

    ?顏色識(shí)別傳感器作為現(xiàn)代工業(yè)、機(jī)器視覺(jué)、自動(dòng)化控制等領(lǐng)域的重要設(shè)備,其技術(shù)的發(fā)展和應(yīng)用對(duì)于提升生產(chǎn)效率、保障產(chǎn)品質(zhì)量具有重要意義。本文將從顏色識(shí)別傳感器的原理、結(jié)構(gòu)組成、應(yīng)用以及選型等方面進(jìn)行
    的頭像 發(fā)表于 07-21 16:03 ?598次閱讀
    顏色<b class='flag-5'>識(shí)別</b>傳感器:精準(zhǔn)捕捉世界的每一抹色彩

    多目標(biāo)智能識(shí)別系統(tǒng)

    。以下是關(guān)于多目標(biāo)智能識(shí)別系統(tǒng)的詳細(xì)解析: 智慧華盛恒輝系統(tǒng)原理 多目標(biāo)智能識(shí)別系統(tǒng)的核心原理基于圖像處理、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù)。系統(tǒng)通
    的頭像 發(fā)表于 07-16 10:42 ?1.2w次閱讀

    工業(yè)機(jī)器人視覺(jué)技術(shù)的應(yīng)用分為哪幾種?

    工業(yè)機(jī)器人視覺(jué)技術(shù)的應(yīng)用非常廣泛,涉及到許多不同的領(lǐng)域和場(chǎng)景。以下是一些主要的應(yīng)用領(lǐng)域和相關(guān)技術(shù)物體識(shí)別與定位 物體
    的頭像 發(fā)表于 07-09 09:38 ?551次閱讀

    人臉識(shí)別技術(shù)的原理介紹

    的應(yīng)用。本文將詳細(xì)介紹人臉識(shí)別技術(shù)的原理,包括人臉檢測(cè)、人臉特征提取、人臉匹配等關(guān)鍵步驟。 一、人臉檢測(cè) 人臉檢測(cè)是人臉識(shí)別技術(shù)的第一步,其
    的頭像 發(fā)表于 07-04 09:22 ?1027次閱讀

    Meta探索開發(fā)AI耳機(jī):識(shí)別物體和翻譯外語(yǔ)

    據(jù)外媒The Information透露,F(xiàn)acebook母公司Meta正積極研究研發(fā)配備攝像頭的人工智能耳機(jī),旨在實(shí)現(xiàn)物體識(shí)別與外語(yǔ)實(shí)時(shí)翻譯功能。
    的頭像 發(fā)表于 05-14 14:26 ?452次閱讀

    關(guān)于MOS管電路工作原理的講解

    MOS管的話題雖說(shuō)是老生常談,但這份資料幾年前就有人給我分享過(guò),這是網(wǎng)上評(píng)價(jià)非常高的一篇關(guān)于MOS管電路工作原理的講解,從管腳的識(shí)別,到極性的分辨,再到常用功能,應(yīng)用電路等等
    發(fā)表于 04-22 12:26 ?450次閱讀
    <b class='flag-5'>關(guān)于</b>MOS管電路工作原理的<b class='flag-5'>講解</b>

    人臉識(shí)別技術(shù)的原理是什么 人臉識(shí)別技術(shù)的特點(diǎn)有哪些

    人臉識(shí)別技術(shù)的原理 人臉識(shí)別技術(shù)是一種通過(guò)計(jì)算機(jī)以圖像或視頻為輸入,識(shí)別、檢測(cè)、跟蹤和分析人臉的技術(shù)
    的頭像 發(fā)表于 02-18 13:52 ?1578次閱讀

    超聲波指紋識(shí)別技術(shù)原理 超聲波指紋識(shí)別和短焦區(qū)別

    超聲波指紋識(shí)別技術(shù)是一種利用聲波在物體表面的反射和散射特性來(lái)識(shí)別指紋的方法。與傳統(tǒng)的光學(xué)指紋識(shí)別技術(shù)
    的頭像 發(fā)表于 02-03 14:06 ?6964次閱讀

    圖像識(shí)別技術(shù)原理 圖像識(shí)別技術(shù)的應(yīng)用領(lǐng)域

    圖像識(shí)別技術(shù)是一種通過(guò)計(jì)算機(jī)對(duì)圖像進(jìn)行分析和理解的技術(shù)。它借助計(jì)算機(jī)視覺(jué)、模式識(shí)別、人工智能等相關(guān)技術(shù),通過(guò)對(duì)圖像進(jìn)行特征提取和匹配,找出圖
    的頭像 發(fā)表于 02-02 11:01 ?2209次閱讀

    詳細(xì)講解Altium Designer 23的安裝教程

    在PCB設(shè)計(jì)中,軟件的安裝是我們邁出的第一步,接下來(lái)將詳細(xì)講解Altium Designer 23安裝教程。
    的頭像 發(fā)表于 01-09 10:02 ?8380次閱讀
    <b class='flag-5'>詳細(xì)</b><b class='flag-5'>講解</b>Altium Designer 23的安裝教程