近日,騰訊優(yōu)圖與《科學(xué)》(Science)雜志共同發(fā)布《Seeing is believing: R&D applications of computer vision》(眼見為實:計算機視覺的研發(fā)和應(yīng)用)主題報告,通過全球計算機視覺領(lǐng)域的專家訪談,為大眾帶來當(dāng)下計算機視覺技術(shù)發(fā)展的全面解讀,也為即將到來的計算機視覺峰會拉開序幕。
視覺是人類認知世界的重要組成部分,而計算機視覺作為人工智能的核心技術(shù)之一,近幾年的發(fā)展現(xiàn)狀如何?
在目前的人類生活中有這樣的應(yīng)用?是否已經(jīng)超越人類的眼睛?未來又將有怎樣的發(fā)展前景?
近日,騰訊優(yōu)圖與《科學(xué)》(Science)雜志共同發(fā)布《Seeing is believing: R&D applications of computer vision》(眼見為實:計算機視覺的研發(fā)和應(yīng)用)主題報告,通過全球計算機視覺領(lǐng)域的專家訪談,為大眾帶來當(dāng)下計算機視覺技術(shù)發(fā)展的全面解讀,也為即將到來的計算機視覺峰會拉開序幕。以下為報告全文(中文譯文版):
眼見為實:計算機視覺研發(fā)和應(yīng)用
人工智能 (AI) 曾經(jīng)只是一種存在于科幻領(lǐng)域的科技,而現(xiàn)在,研究實驗室已經(jīng)不斷研發(fā)出了各種應(yīng)用AI 的日常產(chǎn)品。
AI技術(shù)的進步很大程度上得益于計算機視覺的發(fā)展。計算機視覺技術(shù)關(guān)注的是構(gòu)建能夠收集和處理視覺信息的軟件。應(yīng)用計算機視覺可以識別照片中的人物、讀取X光片、進行工廠機器人系統(tǒng)的智能升級,但它的影響范圍遠不止于此。
大多數(shù)人都對自己的視覺習(xí)以為常,殊不知要拿起叉子或接住球,我們的大腦要進行大量的運算。計算機變得足夠快速、強大和小巧來實現(xiàn)計算機視覺的實際應(yīng)用,不過是這幾年的事情。
最先進的計算機視覺技術(shù)要運用到深度學(xué)習(xí),而深度學(xué)習(xí)是AI的一大領(lǐng)域,靈感來自于人腦。深度學(xué)習(xí)算法使用的人工神經(jīng)網(wǎng)絡(luò)(ANN),是指能夠分析并相互傳遞信息的互相連接的節(jié)點層,與神經(jīng)元的通信機制類似。
如果我們向神經(jīng)網(wǎng)絡(luò)展示一張自拍照,一層神經(jīng)元將會識別類似于面部輪廓的粗線條;另一層神經(jīng)元會關(guān)注五官之間的區(qū)域,例如眼睛到嘴巴的距離;還有其他神經(jīng)元會負責(zé)觀察耳朵的形狀。藉此,該算法可判斷出這是不是一張人物照片,甚至看出這人是誰。
“在大多數(shù)計算機視覺任務(wù)當(dāng)中,神經(jīng)網(wǎng)絡(luò)都能輕而易舉地生成最佳算法,”騰訊優(yōu)圖實驗室杰出科學(xué)家賈佳亞說道。騰訊總部位于中國深圳,是互聯(lián)網(wǎng)服務(wù)和產(chǎn)品、娛樂及人工智能的全球領(lǐng)導(dǎo)者。
像人工神經(jīng)網(wǎng)絡(luò)一樣,計算機視覺技術(shù)工程師也在試圖模仿人類視覺系統(tǒng)的運作機制。但是機器比人更有優(yōu)勢的一處是,它不需要像人類那樣依賴可見光,還能使用傳感器更清楚地看到世界。
“在人臉識別、圖像分類等眾多任務(wù)中,計算機視覺能比人類視覺完成的更優(yōu)秀。但在其他需要推理的任務(wù),計算機視覺還有很長的路要走?!辟Z佳亞表示,“人類能輕易明白物體彼此之間的關(guān)聯(lián),我們看到一張圖就能編出一個故事。但計算機還遠不能達到這種程度的理解能力和想象力?!?/p>
隨著計算機視覺技術(shù)的不斷發(fā)展,它將會帶來更多新的發(fā)現(xiàn)。計算機視覺和 AI 都處于各自發(fā)展的初始階段,還有很多東西值得探索。
計算機視覺技術(shù)的進步可能會推動AI 的迅猛發(fā)展,把科幻小說的情節(jié)全部變成現(xiàn)實——比如無人車、機器人管家,甚至遠距離太空旅行。
在實踐中學(xué)習(xí):AI的工作原理
跟大多數(shù) AI 系統(tǒng)類似,計算機視覺需要學(xué)習(xí)浩如煙海的數(shù)據(jù)。研究人員查閱數(shù)據(jù)并根據(jù)其特征仔細為數(shù)據(jù)添加標(biāo)簽,這些特征就是他們希望 AI 去理解的東西。
就計算機視覺的任務(wù)而言,研究人員會收集成百上千的照片用于分析。加標(biāo)簽的數(shù)據(jù)會成為范例,據(jù)此訓(xùn)練 AI 進行分類或?qū)ふ乙?guī)律。為了測試 AI 的學(xué)習(xí)效果,研究人員會展示新的、未加標(biāo)簽的圖像,測試其是否能夠正確分類。
除了要在收集、標(biāo)注和籌備龐大資料的工作中投入人力外,另一個重要障礙就是運行訓(xùn)練算法需要的大量計算能力。
費用低廉的在線服務(wù),讓研究人員可以在云端訓(xùn)練算法,而無需為強大的計算機投入數(shù)千美元,不過,要得出訓(xùn)練結(jié)果仍需數(shù)小時甚至數(shù)日。
對著鏡頭微笑:圖像和視頻識別
人工神經(jīng)網(wǎng)絡(luò)領(lǐng)域最重要的進展之一出自 ImageNet。ImageNet收集了 1400 萬標(biāo)簽圖像并于2009年發(fā)布。
ImageNet挑戰(zhàn)賽要求參賽者設(shè)計一個能夠跟人類一樣對照片進行分類的算法,但一直沒有出現(xiàn)獲勝者。直到2012年,一個使用深度學(xué)習(xí)算法的參賽隊伍取得了顯著優(yōu)于以往嘗試的結(jié)果。
今天,人們與計算機視覺產(chǎn)生交互的最常見的幾種方式包括圖像自動標(biāo)記和拍照面部識別等,都是基于ImageNet獲勝的技術(shù)。這些應(yīng)用有助進行網(wǎng)上購物可視化搜索、自動標(biāo)注社交媒體照片等特定任務(wù)。
除了圖像識別外,這項新科技也推動了照片編輯技術(shù)的發(fā)展。圖像分割算法是計算機視覺的組成部分,可以幫助機器將一張圖片分成不同的部分,例如識別背景和前景中的人物。用戶可迅速編輯照片,達到專業(yè)修圖的效果。
視覺識別能力目前也應(yīng)用于視頻。計算機視覺算法可以查看攝像機的視頻流,并且標(biāo)記重要部分,這樣人們就無需反復(fù)回看長達數(shù)小時的視頻。
了解視頻中人物的情緒是一項研究人員正在開展的工作,不過有些機構(gòu)已經(jīng)率先采用了這類技術(shù)。例如坐落在中國東部浙江省的杭州第十一中學(xué),正在嘗試用攝像頭追蹤學(xué)生的課堂行為,這些攝像頭被稱為“慧眼”。
讓機器人擁有正常視力
機器人在 20世紀(jì) 60年代開始投入制造業(yè)使用,這些裝置可以提升重物,執(zhí)行重復(fù)性任務(wù),并且可以一次進行數(shù)小時的精確測量,從而輕松地勝過人類。
斯德哥爾摩 KTH 皇家理工學(xué)院的機器人學(xué)教授 Danica Kragic 說:“這一領(lǐng)域始終關(guān)注的是建造出那些可以完成人類無法完成任務(wù)的機器人。”
Kragic表示,因為人類有40% 的大腦致力于處理視覺信息,如果要創(chuàng)造能夠模仿并參與我們世界的機器,了解它們在多大程度上需要視覺信息是非常重要的?!拔覀?nèi)祟愒谧鋈魏问虑闀r都會自然而然地使用視覺反饋,” Kargic說。
能夠處理視覺信息的機器可以在工廠中完成更復(fù)雜的工作,甚至進入了我們的家庭。某些技能(例如,拾取會因壓力而改變形狀的柔軟物品)對機器人來說仍然是遙不可及的。
這是因為人類在觀察時,獲得的不僅僅是視覺信息;我們還會獲得有關(guān)物體物理屬性的線索,以及與之交互所需要的物理知識。機器需要能夠收集這類信息,才能像人類一樣毫不費力地穿行在物理世界中。
“在五官感覺當(dāng)中,視覺是最重要的,因為它賦予了人類理解這個復(fù)雜世界的能力。”賈佳亞說,“同樣地,計算機視覺就是為了讓計算機能夠像人類一樣觀察環(huán)境并能跟環(huán)境互動?!?/p>
賦予機器人能夠更好地了解世界的傳感器是該技術(shù)的下一個迭代,它可能讓機器人完成在今天尚無法實現(xiàn)的任務(wù)。
即將上路:自動駕駛汽車
自動駕駛汽車是 AI 開發(fā)領(lǐng)域中獲得資金最充裕、最受關(guān)注的領(lǐng)域之一,全面了解世界對于自動駕駛汽車(AV) 也是至關(guān)重要的。
除了攝像頭,大多數(shù)無人駕駛汽車使用激光雷達、雷達、GPS 和感知算法進行導(dǎo)航。
“我們使用的許多算法都來自計算機視覺,但現(xiàn)在它不僅僅是關(guān)于攝像頭數(shù)據(jù),”多倫多大學(xué)副教授兼優(yōu)步多倫多高級技術(shù)集團負責(zé)人 Raquel Urtasun 介紹說?!拔覀兿虢o汽車裝上的,不僅僅是我們的眼睛?!?/p>
像優(yōu)步這樣的公司希望到 2020 年前能實現(xiàn)自動駕駛汽車上路和載客。
這些汽車只會在預(yù)先選定的路線上行駛,或需要有人坐在駕駛員座位上,以便在出現(xiàn)任何問題時能夠手動接管。
這項技術(shù)最終的目標(biāo)是實現(xiàn)真正自主,使得乘坐者除了注意路況外,還可以做其他活動。
Urtasun 表示,為了實現(xiàn)這一目標(biāo),需要在硬件和軟件兩方面都取得進步。
在硬件方面,激光雷達可能花費數(shù)萬美元,這使得大規(guī)模部署成本太高;在軟件方面,工程師需要找到一種方法來使 AI 具備歸納、區(qū)分不同物體的能力。
如果一個人類駕駛員在道路上看到一些出乎意料的東西(比如一條墜落的電源線),他們會知道應(yīng)該繞過電線。而如果一輛自動駕駛汽車遇到訓(xùn)練中沒有經(jīng)歷過的事情,它可能無法安全地做出反應(yīng)。
Urtasun 表示,雖然自動駕駛汽車現(xiàn)在尚未迎來發(fā)展的黃金期,但她對自己在改進傳感器和訓(xùn)練算法上的努力能夠有效應(yīng)用仍然充滿希望。
Urtasun進一步介紹,幸運的是,“這項技術(shù)能夠解決許多其他問題?!备倪M的激光雷達可以使地圖測繪和土地調(diào)查更加準(zhǔn)確,甚至配備傳感器的非自動駕駛汽車也可以幫助改善交通狀況。
特快專遞:無人機
汽車不是研究人員唯一希望能夠自動駕駛的東西:無人駕駛飛機也正在接受自動飛行的訓(xùn)練。無人機研究與自動駕駛汽車研究面臨著同樣的難題。
高質(zhì)量的訓(xùn)練數(shù)據(jù)既困難又昂貴,不同的飛行方式意味著無人機需要接受不同的新場景訓(xùn)練,而且法規(guī)使得在某些領(lǐng)域難以進行測試。即使是曾經(jīng)受過訓(xùn)練,飛行過程仍然會非常困難。
“任何嘗試過控制無人機的人都知道這不是件容易的事情,”比利時研究型大學(xué)天主教魯汶大學(xué)的教授 Tinne Tuytelaars 說道。
不過,與自動駕駛汽車不同,無人機犯錯的成本更低?!叭绻患軣o人機墜毀,”Tuytelaars 聳了聳肩,“也不是件什么大不了的事。”
無人機已經(jīng)可以投入到諸如協(xié)助救災(zāi)和管道檢查等的應(yīng)用。有朝一日它們將會可以進行送貨并提供載客服務(wù)。
像亞馬遜和波音這樣的公司已經(jīng)在測試無人機,未來它們可能會像現(xiàn)在的郵遞員那樣投遞包裹。
在某些情況下,多架無人機可能出現(xiàn)在同一個空域內(nèi),并且可以比人類飛行員更好地實現(xiàn)彼此間飛行的協(xié)調(diào)。使它們自動飛行意味著可以降低成本,將技術(shù)帶到全世界更多人和公司的手中。
機器人醫(yī)生
除了交通工具,計算機視覺給醫(yī)療領(lǐng)域帶來的變化是最顯著的。AI 算法已經(jīng)可以比放射科醫(yī)生更好地從醫(yī)學(xué)影像中識別出病癥,例如骨折和肺炎。
“大數(shù)據(jù)的爆發(fā),尤其在醫(yī)療領(lǐng)域的爆發(fā),意味著我們能獲得更多的數(shù)據(jù)來進行研究。”西班牙奧維耶多大學(xué)計算機學(xué)系助理教授 BeatrizRemeseiro表示,“我們正在利用數(shù)據(jù)去解決比以往更復(fù)雜的難題。”
去年,谷歌宣布開發(fā)出新的圖像識別算法,可用于檢測糖尿病視網(wǎng)膜病變的跡象,這種病變?nèi)绻患皶r治療會導(dǎo)致失明。
這種算法能媲美人類專家,可以在患者視網(wǎng)膜的照片中發(fā)現(xiàn)小動脈瘤,這種動脈瘤是病變的早期跡象。
2017年,騰訊也發(fā)布了一款用于醫(yī)學(xué)領(lǐng)域的AI產(chǎn)品——騰訊覓影,能夠通過掃描上消化道內(nèi)鏡圖片篩查食管癌,對早期食管癌的識別準(zhǔn)確率高達 90%。
目前,騰訊覓影已經(jīng)應(yīng)用于中國100多家醫(yī)院,未來也將輔助診斷糖尿病視網(wǎng)膜病變、肺結(jié)節(jié)、宮頸癌及乳腺癌等。
其他運用 AI 技術(shù)的工具也被用來更早地發(fā)現(xiàn)中風(fēng),為患者提供更好的生存機會。美國食品和藥物管理局最近宣布將簡化流程,以便幫助 AI 產(chǎn)品更快地獲得批準(zhǔn)。
當(dāng)然,這些工具并不會很快就替代醫(yī)生,它們起到更多是顧問的作用,而非取代從業(yè)醫(yī)師。
計算機視覺可以提高工作效率,并使醫(yī)生短缺地區(qū)的人們能得到更多醫(yī)療服務(wù)。這些創(chuàng)新技術(shù)也正在被用來最大限度地減少對人體的侵入性危害。
例如,CT 掃描比 X 射線能獲取更多信息,但會使患者暴露在更大的輻射中。AI 則可以對X光片進行分析后,給醫(yī)生提供相當(dāng)于CT掃描的信息。
“醫(yī)學(xué)影像是通過計算機視覺可以提供更多信息從而真正產(chǎn)生影響的領(lǐng)域,”康奈爾大學(xué)計算機科學(xué)系教授、谷歌研究所研究科學(xué)家 Ramin Zabih 表示。
“醫(yī)學(xué)史已經(jīng)證明,如果醫(yī)師可以獲得更多的數(shù)據(jù),這可能意味著能更好地幫助到患者。”
遠和近:邊緣設(shè)備和航天器
所有這些領(lǐng)域都令人印象深刻,計算機視覺的未來會更加光明。即將開始影響該行業(yè)的最大變化之一,就是邊緣設(shè)備——在兩個網(wǎng)絡(luò)的邊界控制數(shù)據(jù)流轉(zhuǎn)的硬件。
大多數(shù) AI 處理需要在大型遠程云服務(wù)器上完成,因為運行這些算法的計算密集程度很高。另一方面,人們制造了邊緣設(shè)備,從而具有足夠的處理能力能在本地完成工作。
隨著像 Nvidia和Facebook這樣的公司開始制造專門用于運行 AI的芯片,邊緣設(shè)備正在變得越來越普遍。
這將可以實現(xiàn)更快、更安全的數(shù)據(jù)處理,并且能讓用戶通過自己的數(shù)據(jù)進行更多 AI 自定義訓(xùn)練,增加個人結(jié)果的定制程度。
“它將推動更多的創(chuàng)新,”總部位于加利福尼亞的 Movidius 公司前首席執(zhí)行官 Remi El-Ouazzane表示,該公司為計算機視覺設(shè)計專用的低功耗處理器芯片。
目前 Remi El-Ouazzane也擔(dān)任英特爾 AI 產(chǎn)品集團首席運營官,這是另一家生產(chǎn)半導(dǎo)體芯片和微處理器的加州科技公司。
El-Ouazzane 表示,從智能家居設(shè)備和監(jiān)控攝像頭到自動駕駛汽車,數(shù)十億臺設(shè)備都可以運用 AI 技術(shù)并在邊緣設(shè)備上工作。
這還將創(chuàng)造能夠找到失蹤人員的技術(shù)(例如,通過掃描人群圖像),或者可以在孩子睡覺前沒有刷牙的時候能夠提醒父母。
“問題不是‘能不能實現(xiàn)’,而是‘什么時候?qū)崿F(xiàn)’?!彼f。
在邊緣設(shè)備的微世界之外,天文學(xué)家們也對計算機視覺特別感興趣,他們從無盡太空中收集到大量數(shù)據(jù)集并進行研究。
Kaggle 是一個用于預(yù)測建模和分析競賽的在線平臺,在Kaggle上就有一個比賽利用深度學(xué)習(xí)和計算機視覺技術(shù)讓研究人員能夠通過觀察天文圖像發(fā)現(xiàn)更多關(guān)于支配我們宇宙的暗物質(zhì)的相關(guān)信息。
此外,還有一個致力于通過 AI 促進探索太空的研究孵化器。前沿開發(fā)實驗室 (FDL) 是美國航空航天局 (NASA) 與英特爾 AI、谷歌云、洛克希德和 IBM 等公司共同建立的合伙機構(gòu)。
FDL將天文學(xué)家和計算機科學(xué)家?guī)У搅思永D醽喼莨韫裙餐ぷ?周,解決諸如了解太陽耀斑、繪制月球地圖和尋找小行星等問題。
根據(jù) FDL 創(chuàng)始人之一 James Parr 的說法,如果沒有計算機視覺,計劃就無法成功。
事實上,位于美國加州帕薩迪納的NASA 噴氣推進實驗室 (JPL) 對于攝像技術(shù)的發(fā)明起到了至關(guān)重要的作用,該技術(shù)影響了如今的大部分計算機視覺軟件。
“計算機視覺與太空計劃之間存在共生關(guān)系,” Parr 說?!暗@個議題在太空行業(yè)的討論度還不足夠?!?/p>
太空探索將同樣受到影響,因為AI 對于前往火星以及更遠的地方至關(guān)重要。
太空旅行者和地球指揮中心之間的通信滯后意味著系統(tǒng)必須要能夠做出自主決定,而這些決策很多都是由視覺數(shù)據(jù)來推動的。
“隨著我們不斷向外探索,我們需要機器人和自治系統(tǒng)為宇航員做好準(zhǔn)備并提供協(xié)助、建造結(jié)構(gòu)、定位并提取資源,” Parr 說?!斑@是發(fā)現(xiàn)和探索過程中激動人心的時刻?!?/p>
探索計算機視覺將如何改變地球上的生活,同樣令人激動。隨著 AI 擴展到更多領(lǐng)域并發(fā)展出新功能,它可能會遇到新的技術(shù)難題。但是,當(dāng)我們回顧 AI 的歷史時,給計算機提供視覺的能力可能是最重要的一項進步。擁有視力的機器將帶領(lǐng)我們走向更光明的未來。
-
人工智能
+關(guān)注
關(guān)注
1789文章
46652瀏覽量
237073 -
計算機視覺
+關(guān)注
關(guān)注
8文章
1694瀏覽量
45901
原文標(biāo)題:計算機視覺之——給汽車裝上的,不僅僅是眼睛
文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論