嚴(yán)格來(lái)說(shuō)不是在講Python而是講在Python下使用OpenCV。本篇將介紹和深度學(xué)習(xí)數(shù)據(jù)處理階段最相關(guān)的基礎(chǔ)使用,并完成4個(gè)有趣實(shí)用的小例子:
- 延時(shí)攝影小程序
- 視頻中截屏采樣的小程序
- 圖片數(shù)據(jù)增加(data augmentation)的小工具
- 物體檢測(cè)框標(biāo)注小工具
6.1 OpenCV簡(jiǎn)介
OpenCV是計(jì)算機(jī)視覺(jué)領(lǐng)域應(yīng)用最廣泛的開(kāi)源工具包,基于C/C++,支持Linux/Windows/MacOS/Android/iOS,并提供了Python,Matlab和Java等語(yǔ)言的接口,因?yàn)槠湄S富的接口,優(yōu)秀的性能和商業(yè)友好的使用許可,不管是學(xué)術(shù)界還是業(yè)界中都非常受歡迎。OpenCV最早源于Intel公司1998年的一個(gè)研究項(xiàng)目,當(dāng)時(shí)在Intel從事計(jì)算機(jī)視覺(jué)的工程師蓋瑞·布拉德斯基(Gary Bradski)訪問(wèn)一些大學(xué)和研究組時(shí)發(fā)現(xiàn)學(xué)生之間實(shí)現(xiàn)計(jì)算機(jī)視覺(jué)算法用的都是各自實(shí)驗(yàn)室里的內(nèi)部代碼或者庫(kù),這樣新來(lái)實(shí)驗(yàn)室的學(xué)生就能基于前人寫(xiě)的基本函數(shù)快速上手進(jìn)行研究。于是OpenCV旨在提供一個(gè)用于計(jì)算機(jī)視覺(jué)的科研和商業(yè)應(yīng)用的高性能通用庫(kù)。 第一個(gè)alpha版本的OpenCV于2000年的CVPR上發(fā)布,在接下來(lái)的5年里,又陸續(xù)發(fā)布了5個(gè)beta版本,2006年發(fā)布了第一個(gè)正式版。2009年隨著蓋瑞加入了Willow Garage,OpenCV從Willow Garage得到了積極的支持,并發(fā)布了1.1版。2010年OpenCV發(fā)布了2.0版本,添加了非常完備的C++接口,從2.0開(kāi)始的版本非常用戶非常龐大,至今仍在維護(hù)和更新。2015年OpenCV 3正式發(fā)布,除了架構(gòu)的調(diào)整,還加入了更多算法,更多性能的優(yōu)化和更加簡(jiǎn)潔的API,另外也加強(qiáng)了對(duì)GPU的支持,現(xiàn)在已經(jīng)在許多研究機(jī)構(gòu)和商業(yè)公司中應(yīng)用開(kāi)來(lái)。
6.1.1 OpenCV的結(jié)構(gòu)
和Python一樣,當(dāng)前的OpenCV也有兩個(gè)大版本,OpenCV2和OpenCV3。相比OpenCV2,OpenCV3提供了更強(qiáng)的功能和更多方便的特性。不過(guò)考慮到和深度學(xué)習(xí)框架的兼容性,以及上手安裝的難度,這部分先以2為主進(jìn)行介紹。
根據(jù)功能和需求的不同,OpenCV中的函數(shù)接口大體可以分為如下部分:
- core:核心模塊,主要包含了OpenCV中最基本的結(jié)構(gòu)(矩陣,點(diǎn)線和形狀等),以及相關(guān)的基礎(chǔ)運(yùn)算/操作。
- imgproc:圖像處理模塊,包含和圖像相關(guān)的基礎(chǔ)功能(濾波,梯度,改變大小等),以及一些衍生的高級(jí)功能(圖像分割,直方圖,形態(tài)分析和邊緣/直線提取等)。
- highgui:提供了用戶界面和文件讀取的基本函數(shù),比如圖像顯示窗口的生成和控制,圖像/視頻文件的IO等。
如果不考慮視頻應(yīng)用,以上三個(gè)就是最核心和常用的模塊了。針對(duì)視頻和一些特別的視覺(jué)應(yīng)用,OpenCV也提供了強(qiáng)勁的支持:
- video:用于視頻分析的常用功能,比如光流法(Optical Flow)和目標(biāo)跟蹤等。
- calib3d:三維重建,立體視覺(jué)和相機(jī)標(biāo)定等的相關(guān)功能。
- features2d:二維特征相關(guān)的功能,主要是一些不受專利保護(hù)的,商業(yè)友好的特征點(diǎn)檢測(cè)和匹配等功能,比如ORB特征。
- object:目標(biāo)檢測(cè)模塊,包含級(jí)聯(lián)分類和Latent SVM
- ml:機(jī)器學(xué)習(xí)算法模塊,包含一些視覺(jué)中最常用的傳統(tǒng)機(jī)器學(xué)習(xí)算法。
- flann:最近鄰算法庫(kù),F(xiàn)ast Library for Approximate Nearest Neighbors,用于在多維空間進(jìn)行聚類和檢索,經(jīng)常和關(guān)鍵點(diǎn)匹配搭配使用。
- gpu:包含了一些gpu加速的接口,底層的加速是CUDA實(shí)現(xiàn)。
- photo:計(jì)算攝像學(xué)(Computational Photography)相關(guān)的接口,當(dāng)然這只是個(gè)名字,其實(shí)只有圖像修復(fù)和降噪而已。
- stitching:圖像拼接模塊,有了它可以自己生成全景照片。
- nonfree:受到專利保護(hù)的一些算法,其實(shí)就是SIFT和SURF。
- contrib:一些實(shí)驗(yàn)性質(zhì)的算法,考慮在未來(lái)版本中加入的。
- legacy:字面是遺產(chǎn),意思就是廢棄的一些接口,保留是考慮到向下兼容。
- ocl:利用OpenCL并行加速的一些接口。
- superres:超分辨率模塊,其實(shí)就是BTV-L1(Biliteral Total Variation – L1 regularization)算法
- viz:基礎(chǔ)的3D渲染模塊,其實(shí)底層就是著名的3D工具包VTK(Visualization Toolkit)。
從使用的角度來(lái)看,和OpenCV2相比,OpenCV3的主要變化是更多的功能和更細(xì)化的模塊劃分。
6.1.2 安裝和使用OpenCV
作為最流行的視覺(jué)包,在Linux中安裝OpenCV是非常方便的,大多數(shù)Linux的發(fā)行版都支持包管理器的安裝,比如在Ubuntu 16.04 LTS中,只需要在終端中輸入:
>> sudo apt install libopencv-dev python-opencv
當(dāng)然也可以通過(guò)官網(wǎng)下載源碼編譯安裝,第一步先安裝各種依賴:
>> sudo apt install build-essential
>> sudo apt install cmake git libgtk2.0-dev pkg-config libavcodec-dev libavformat-dev libswscale-dev
>> sudo apt-get install python-dev python-numpy libtbb2 libtbb-dev libjpeg-dev libpng-dev libtiff-dev libjasper-dev libdc1394-22-dev
然后找一個(gè)clone壓縮包的文件夾,把源碼拿下來(lái):
>> git clone?opencv/opencv
然后進(jìn)入OpenCV文件夾:
>> mkdir release
>> cd release
>> cmake -D CMAKE_BUILD_TYPE=RELEASE -D CMAKE_INSTALL_PREFIX=/usr/local
準(zhǔn)備完畢,直接make并安裝:
>> make
>> sudo make install
Windows下的安裝也很簡(jiǎn)單,直接去OpenCV官網(wǎng)下載:
DOWNLOADS | OpenCV
執(zhí)行exe安裝后,會(huì)在<安裝目錄>/build/python/2.7下發(fā)現(xiàn)一個(gè)叫cv2.pyd的文件,把這個(gè)文件拷貝到Libsite-packages下,就可以了。Windows下如果只想在Python中體驗(yàn)OpenCV還有個(gè)更簡(jiǎn)單的方法是加州大學(xué)爾灣分校(University of California, Irvine)的Christoph Gohlke制作的Windows下的Python科學(xué)計(jì)算包網(wǎng)頁(yè),下載對(duì)應(yīng)版本的wheel文件,然后通過(guò)pip安裝:
~gohlke/pythonlibs/#opencv
本書(shū)只講Python下OpenCV基本使用,Python中導(dǎo)入OpenCV非常簡(jiǎn)單:
import cv2
就導(dǎo)入成功了。
評(píng)論
查看更多