無論是擎天柱、伊娃和瓦力或是今年大火的大白,電影中人類往往把機(jī)器想象成無所不能的“超人”,但現(xiàn)實呢?人類一些聽、看、觸摸、感知世界等最基本的能力,對機(jī)器而言都有難度,比如——視覺?;蛟S你會說“攝像頭”就是機(jī)器之眼呀,但過去攝像頭的核心作用只有一個:記錄影像。李彥宏在2012年KDD(知識發(fā)現(xiàn)世界年會)上提出9大待解技術(shù)問題之一,“基于內(nèi)容的的視覺搜索”指的就是這一技術(shù)難題。而現(xiàn)在百度率先實現(xiàn)了計算機(jī)視覺領(lǐng)域“三維識圖”技術(shù)的突破,這個難題離徹底解決又邁出了關(guān)鍵一步。
計算機(jī)看見的世界與人眼有何不同?
目前的圖像識別都用在哪些方面呢?識別二維碼、書本、CD、菜單、人臉…這些機(jī)器做的都還不錯,而且百度、Google等一直在探索的基于這些圖像的搜索,識別率已經(jīng)具備商用條件。但這些物體的共性在于,它們都是平面的。如果換做穿著的服裝、行動的動物、周遭的街景、市場的蔬菜這些“非剛體”“非平面”的“三維立體空間”內(nèi)容,機(jī)器的識別率就很難讓人滿意。核心原因在于,機(jī)器看到的世界,是被一個一個色彩像素表征的二維序列,但是對與透視、深淺、近景、遠(yuǎn)景,這些需要被“三維感知”的世界卻沒有很好的概念。
無法識別三維世界,導(dǎo)致了圖像識別能力十分有限。除了必須面對一些特定的圖片類型外,還需要用戶穩(wěn)穩(wěn)拿著手機(jī)對二維碼、圖書封面等物體進(jìn)行掃描識別,這也讓手機(jī)等設(shè)備的理解能力大打折扣。識別的目的是為了理解所看到的內(nèi)容,每一幕都有非常豐富的意思,人工智能識圖的能力就像兩三歲的孩童,兒童認(rèn)知世界的過程便是基于三維世界的識別,基于二維世界識別的機(jī)器,很難在圖像意義理解上取得突破。所以如何讓機(jī)器知深淺、識遠(yuǎn)近,三維立體地看見這個世界,一直是科學(xué)家們努力的方向。
近日百度展示了一項最新的圖像識別技術(shù):三維識圖,有望解決這個問題。
這項技術(shù)可以對三維圖片進(jìn)行自動的分類和檢測,進(jìn)而可以進(jìn)行圖像識別、智能裁剪、智能模糊等處理。百度與國內(nèi)知名手機(jī)制造商華為合作,通過其獨(dú)創(chuàng)的仿生學(xué)平行雙鏡頭硬件技術(shù)平臺拍攝出包含景深信息的照片,再通過一系列算法解析照片,大大提升圖像識別成功率。此技術(shù)即將應(yīng)用在搜索、解鎖諸多方面。
華為榮耀6 Plus采用了雙攝像頭,與百度合作圖像處理技術(shù)
三維識別的難點(diǎn):硬件要求和識別效率
在百度三維識別技術(shù)推出之前,業(yè)界已有些許案例。在2014年的IntelIDF上,Intel推出了一款3D深度攝像頭,它可以更好地追蹤眼球、體感、表情等動態(tài)圖像,會上還展示了與騰訊QQ的合作,可以對視頻進(jìn)行動態(tài)的“美化處理”。Google相機(jī)具備一個“智能模糊”功能,即一鍵實現(xiàn)單反相機(jī)的遠(yuǎn)景模糊效果,這說明它已經(jīng)可以區(qū)分遠(yuǎn)景和深景。
三維識別的第一步是要獲取或可以還原成三維圖像。單個攝像頭的二維屬性讓這成為難點(diǎn)。Intel與QQ的合作仍舊未能如約落地,專門的3D深度攝像頭并未普及?;蛟S是技術(shù)不成熟,或許是成本太高。有手機(jī)廠商開始采取雙攝像頭,模擬動物的雙眼這個解決方案實現(xiàn)三維圖像的獲取(3D電影拍攝也是如此)。百度三維識圖技術(shù)正是基于這一方案獲取到的三維圖像內(nèi)容進(jìn)行,引入了圖像分類和檢測技術(shù),相似圖檢索和猜詞得分上較之以前有大幅提升。
下一階段百度三維識圖技術(shù)還會引入“單目相機(jī)深度恢復(fù)算法”,即不依賴于雙攝像頭,而是利用普通的攝像頭就可以了,具體方法為持機(jī)手臂左右位移一點(diǎn)點(diǎn),相當(dāng)于用軟件實現(xiàn),讓用戶拍攝時輕輕“搖一搖”,成本更低。其原理與光場相機(jī)類似,這是“先拍照后對焦”的新一代相機(jī),它在拍攝時捕捉一副圖片的整個光場,而不僅僅捕捉到一片光線。光場相機(jī)提供一套軟件技術(shù)對所有圖像數(shù)據(jù)進(jìn)行處理還原,它已將核心技術(shù)進(jìn)行開放。
相對Google相機(jī)的智能模糊功能而言,百度內(nèi)部測試表明,其App在幾款主流Android機(jī)上,識別時間效率遠(yuǎn)超Google。能夠?qū)崿F(xiàn)這一點(diǎn),在于百度識別的大部分運(yùn)算應(yīng)該是在云端進(jìn)行,百度大腦可能在后面支持。云+端的識別才是機(jī)器視覺的未來,眼睛在本地,大腦在云端。在準(zhǔn)確率上百度表現(xiàn)也更好。
因此,如果能擺脫對“雙攝像頭”或者“3D深度攝像頭”的依賴,3D圖像獲取將不是問題。而云+端的架構(gòu)則可以讓識別效率大幅提升,百度的三維識別算法就可以被普及到更多設(shè)備和更多應(yīng)用之中。
三維識別給世界帶來什么改變?給機(jī)器真正的視覺。
PC、手機(jī)、智能攝像頭、工業(yè)攝像頭、治安攝像頭、交通攝像,我們周圍充滿著“機(jī)器眼睛”。不過這些機(jī)器在過去并沒有真正的視覺。想象一下我們的視覺能力,除了可以識別靜態(tài)圖像之外,還可以識別三維世界的深淺、遠(yuǎn)近、模糊與清晰等等。我們可以動態(tài)識別變化的世界,瞬間完成識別過程毫無時延。不依賴特殊設(shè)備、可高效率完成的三維識別則有望給機(jī)器賦予人類一樣的視覺。這是它可能帶來的幾個典型應(yīng)用:
1、實時視覺移動搜索。
實時、視覺和移動都是搜索引擎發(fā)展的幾個趨勢。百度2014年改變可以邊輸入邊搜索,就是實時化的開始。比如您可以戴著智能眼鏡或者舉著智能手機(jī),邊走路一邊獲得百度推送的答案:旁邊是店鋪介紹和評價、景區(qū)的百科和歷史、賽事的球員資料推送……這是未來搜索必然會進(jìn)入的階段,它非常自然因此聽上去有些科幻,要實現(xiàn)第一步就是要讓機(jī)器可以動態(tài)、實時、立體識別世界,三維圖像識別可以幫到這一點(diǎn)。百度還具有李彥宏親子參與申請的“多輪實體識別”的專利,它與三維圖像識別結(jié)合可以讓人機(jī)交互更加自然。
2、工業(yè)級圖像識別檢索。
美國金門大橋需要收費(fèi),汽車卻不需停車,因為攝像頭會抓拍并識別車牌號,賬單自動寄送,這應(yīng)該運(yùn)用了三維圖像識別技術(shù),不過有嚴(yán)重的滯后。如果能夠做到適時識別生活中的一切物體,交通部門就可以實時發(fā)送收費(fèi)、違章、違規(guī)信息給司機(jī),甚至直接從信用卡扣款。政府部門在街上有著星羅棋布的攝像頭,不過要做到智能識別通緝犯并定位抓人還是很難,因為識別能力和時間效率的問題,三維識別技術(shù)未來可能解決這個問題。總之,就是各種工業(yè)、軍用、政府?dāng)z像頭可以更加準(zhǔn)確地、快速地識別真實世界的實體,進(jìn)而產(chǎn)生大量應(yīng)用。
3、更豐富的虛擬現(xiàn)實體驗。
有一款seene的App即3D版的Instagram通過不同角度拍攝4張照片合成一張實現(xiàn)3D取景。百度三維識圖未來可以借助這種方式實現(xiàn)一些增強(qiáng)現(xiàn)實應(yīng)用。比如建模用戶的三維生活環(huán)境,然后與社交應(yīng)用結(jié)合進(jìn)行遠(yuǎn)程聊天;與百度地圖結(jié)合做3D街景的UGC,三維視圖可以智能分類、合成和識別街景實體;基于三維視圖的反向3D建模內(nèi)容,與網(wǎng)絡(luò)游戲或者電視游戲結(jié)合做增強(qiáng)現(xiàn)實的體感游戲;利用虛擬現(xiàn)實做在線教育,三維識圖可以幫助生成各種模擬場景讓學(xué)生帶上頭盔體驗,或者可以智能跟蹤識別視頻中學(xué)生和老師的學(xué)習(xí)行為并分析匯總??傊S視圖讓虛擬現(xiàn)實建模更容易。
三維識圖的成熟對于機(jī)器視覺而言將具有里程碑的意義,它讓機(jī)器真正擁有跟人類相近的視覺,進(jìn)而在圖像信息的獲取上可以接近人類。隨后便可進(jìn)行更多的圖像意義理解,去理解這個世界,最終讓這個世界更美好。李彥宏先后提出過互聯(lián)網(wǎng)進(jìn)入讀圖時代、未來5年50%搜索會來自語音和圖像、“基于內(nèi)容的的視覺搜索”是九大待解技術(shù)難題等觀點(diǎn),并且還申請了“多輪圖像實體識別專利”。李彥宏如此重視機(jī)器視覺這塊,百度在三維識圖之后應(yīng)該還會有更多新的成績,讓機(jī)器能聽能看會思考,是百度未來重中之重。
評論
查看更多