【導(dǎo)讀】:最新,眼擎科技eyemore成像引擎隨處可見,讓機器擁有人眼,真有那么厲害還是吹捧過度呢?
視覺“識別”是人工智能時代下,對安防行業(yè)而言最重要的技術(shù)之一,但目前無論是人臉識別還是車輛識別,都面臨著被復(fù)雜光線影響的問題,而后端算法只能做到在特定場景、特定光線狀況下,對物體進行有效識別,可一旦光線發(fā)生了變化,識別率就會大打折扣。
“機器視覺不能重蹈語音識別的覆轍?!毖矍婵萍糃EO朱繼志告訴億歐,語音識別技術(shù)已經(jīng)宣稱識別率達到99%,但卻遲遲無法在生活場景中大規(guī)模應(yīng)用,原因就在于“99%的數(shù)據(jù)是在安靜的實驗室中得出的,而生活場景中有大量的噪音,這對識別產(chǎn)生了巨大的干擾?!蓖?,在視覺識別中,攝像頭正常光照下的成像AI識別率能接近100%,但實際部署中不可避免會遇到弱光、逆光、反光等復(fù)雜光的影響,所以現(xiàn)實中算法識別率遠不能達到實驗室的“理論”效果。
“大腦要強,但如果感知端無法傳輸有效的信息,那么大腦再強也沒有用?!贬槍Ξ?dāng)前AI成像的問題,朱繼志于2014年創(chuàng)立了眼擎科技,研發(fā)超越人眼視覺能力的成像引擎技術(shù)及芯片,解決數(shù)碼成像在弱光、逆光、反光等復(fù)雜光環(huán)境下成像的痛點。
AI視覺新問題:大腦夠強了,眼睛卻跟不上
在安防領(lǐng)域,每年攝像頭出貨量超過1億臺,人臉識別、車輛識別等算法的成熟持續(xù)帶動著安防市場擴大,但在實際應(yīng)用中,“識別”受到了諸多環(huán)境因素的限制,其中最重要一個挑戰(zhàn)就是復(fù)雜光線。
“如果將整個識別的系統(tǒng)比作一個人,我們現(xiàn)在已經(jīng)有很強的大腦了,但眼睛卻跟不上?!敝炖^志告訴億歐,要對人臉、車輛進行識別的前提條件,是前端攝像頭能夠傳回清晰的畫面。但現(xiàn)在的問題是,在光線環(huán)境足夠好的時候,“大腦”對畫面內(nèi)容的識別率能接近100%;但在弱光、逆光、反光等復(fù)雜光環(huán)境下,由于無法接收到清晰的畫面,“大腦”對畫面內(nèi)容的識別率大打折扣。
為了解決復(fù)雜光問題,業(yè)內(nèi)出現(xiàn)了各種各樣的應(yīng)對方法。針對黑暗或弱光環(huán)境,可以使用紅外線,或者直接在攝像頭旁加裝一盞燈,“但這些方法只能解決一部分的光問題,而且還有’副作用’?!敝炖^志說,紅外線只能在近距離發(fā)揮作用,而且成像噪點大,畫質(zhì)極易受到干擾;而加裝燈的方法只在某些場景下可行,“比如晚上在閘機口處加裝燈是可行的,但在公路上抓拍車輛的場景卻不合適。”朱繼志說道,大多數(shù)司機都對夜晚路過抓拍機的爆閃燈“有很不好的體驗”,但如果不加裝爆閃燈,監(jiān)控設(shè)備就無法正常捕捉到車輛信息。
解決單一非正常光環(huán)境的方法已經(jīng)不盡如人意了,而前端設(shè)備需要面臨的遠不止一種光環(huán)境。朱繼志告訴億歐,弱光、逆光、反光等只是復(fù)雜光線下的幾種典型,而大部分在戶外使用的攝像頭需要面臨的卻是多種復(fù)雜光線交替出現(xiàn)的場景。
以閘機口為例,攝像頭架設(shè)的位置和方向是固定的,但一天中光線的強弱、光源位置都會發(fā)生變化?!霸缟咸枏臇|邊升起,傍晚從西邊落下,到了晚上又是黑的?!敝炖^志說,如果攝像機朝向東方,則早上逆光現(xiàn)象就會非常嚴(yán)重,朝向西邊也是同理,到了晚上又是弱光,而通常情況下算法只能針對其中一種狀況作出優(yōu)化,這給閘機的高效識別帶來巨大的挑戰(zhàn)。
打破被日系企業(yè)壟斷的ISP架構(gòu)
不解決弱光、逆光、反光等復(fù)雜光環(huán)境下的自適應(yīng)能力,AI視覺產(chǎn)品就無法大規(guī)模落地進行產(chǎn)業(yè)化。但要怎么做才能解決這個問題呢?
朱繼志認(rèn)為,這個問題的出路在前端?!盁o論是什么樣的光環(huán)境,只要前端設(shè)備面臨負(fù)責(zé)光線對成像的干擾時,依然能夠輸出如同正常光環(huán)境下成像的效果。那么企業(yè)在后端算法上就不需要再做過多的定制,如此一來,企業(yè)就能夠生產(chǎn)更多標(biāo)準(zhǔn)化的產(chǎn)品,提升企業(yè)、乃至整個行業(yè)的效率。”
要改造前端設(shè)備,首先需要了解當(dāng)前攝像機成像的原理,以及存在的問題。
朱繼志介紹道,在數(shù)碼時代,攝像頭成像需要經(jīng)歷幾個環(huán)節(jié)。首先,光線穿過鏡頭后,要經(jīng)過CMOS傳感器,CMOS會將光信號轉(zhuǎn)化為電信號,“但這個電信號是很粗糙的,”朱繼志說,“如果要將它再轉(zhuǎn)化成一張可視化的圖像,就要再經(jīng)過ISP。”
ISP全稱為Image Signal Processing,即圖像信號處理,主要用來對前端圖像傳感器輸出信號處理進行處理。ISP架構(gòu)能夠通過一些列的工作,實現(xiàn)自動光圈、自動曝光、自動白平衡等功能,讓電信號真正變成一張可看的圖像。
“但傳統(tǒng)的ISP架構(gòu)有兩大問題?!敝炖^志說。第一個問題是所有RAW數(shù)據(jù)在進入ISP架構(gòu)時,會直接從16位被裁成8位,導(dǎo)致了大量RAW數(shù)據(jù)信息丟失。RAW是一個單獨的數(shù)據(jù)流,如果16位的信息變成8位,那么再轉(zhuǎn)換成JPG格式圖片時,圖片信息就會比原始的RAW數(shù)據(jù)信息少256倍?!斑@就是為什么圖像在逆光、反光等復(fù)雜光環(huán)境下質(zhì)量不高、成像不清晰的原因?!?/p>
另一個問題是,ISP架構(gòu)所有核心技術(shù)都被日本企業(yè)掌握?!叭毡?a target="_blank">公司是成像行業(yè)的頭部企業(yè),如果他們都不對ISP架構(gòu)進行突破,那其他公司更加不可能做出大的改變?!敝炖^志說道。
但成像中存在的痛點深深影響著AI視覺產(chǎn)品的大規(guī)模落地是不爭的事實。既然無法改變傳統(tǒng)的ISP架構(gòu),那就一定要在技術(shù)上進行創(chuàng)新。秉著這樣的初衷,眼擎科技完全拋棄了日系成像技術(shù)的ISP架構(gòu),打破了日系廠商在成像領(lǐng)域的技術(shù)壟斷,開發(fā)出了全新的“成像引擎”。
從“給人看”到“給機器看
“如果一個問題存在了很久,都沒有被現(xiàn)有架構(gòu)解決,這說明一定要有全新的技術(shù)架構(gòu)才能破解難題?!敝炖^志告訴億歐,眼擎科技開發(fā)的“成像引擎”就是這樣一個解決復(fù)雜光環(huán)境下AI視覺成像問題的全新架構(gòu)。
“傳統(tǒng)ISP架構(gòu)的目的是為了實現(xiàn)成像這個功能,”朱繼志說,“但成像引擎重視的是成像的性能?!?/p>
據(jù)了解,成像引擎是一個“算力+算法+數(shù)據(jù)”的全新成像架構(gòu),具有學(xué)習(xí)功能。朱繼志向億歐介紹道,處理圖片是一個十分復(fù)雜的過程,因此算力對成像引擎而言十分重要;但光有算力是不夠的,還要開發(fā)出針對不同場景的算法,才能解決實際應(yīng)用中的問題;在算力和算法都具備的條件下,最終還需要在不同復(fù)雜光環(huán)境下進行測試,以收集到更多的場景數(shù)據(jù),讓算法進行學(xué)習(xí),達到讓整個成像引擎能夠適應(yīng)多種復(fù)雜光環(huán)境的目的。
在成像引擎實際運作中,“經(jīng)過CMOS的8~16位RAW數(shù)據(jù)進來時,我們直接基于RAW數(shù)據(jù)進行無裁剪處理,如果按照16位的數(shù)據(jù)來算,成像引擎處理的原始圖像信息量比傳統(tǒng)ISP高256倍,最后把它壓縮成8位的JPG圖像?!敝炖^志說,這樣的方法能夠保留所有圖像細節(jié)信息,無論在什么光線環(huán)境下,都能對圖像實現(xiàn)優(yōu)質(zhì)處理。
“顏色是AI測量世界的根本依據(jù),也是深度學(xué)習(xí)進行圖像識別的基礎(chǔ)?!敝炖^志認(rèn)為,成像技術(shù)的目的已經(jīng)從“給人看”過渡到“給機器看”,“AI視覺需要的是一把標(biāo)尺,關(guān)注的不是美顏、像素,而是準(zhǔn)確的輸出物體的顏色、銳度以及豐富的細節(jié)?!?/p>
據(jù)了解目前成像引擎暗光能力比人眼高8倍,降噪能力比攝像頭高64倍,逆光能力比攝像頭高32倍。未來三年,眼擎科技的使命就是讓成像引擎芯片的成像能力將全方位超越人眼。
AI視覺的“最后一公里”
今年1月,眼擎科技推出了完全自主研發(fā)的全球首款復(fù)雜光線專用成像芯片eyemoreX42。除了成像芯片,眼擎科技也通過提供成像開發(fā)套件、成像模組、成像算法IP以及深度定制成像方案等一系列全套的成像技術(shù)方案及服務(wù)。
“我們定位是一家上游的芯片公司?!敝炖^志告訴億歐。傳統(tǒng)ISP架構(gòu)集成在SoC里面,而眼擎科技拋棄ISP架構(gòu)后,需要填補成像技術(shù)的空白,但眼擎科技的成像引擎是一個“算力+算法+數(shù)據(jù)”的全新成像架構(gòu),原來ISP在SoC中所處的位置無法承擔(dān)成像引擎的處理能力,“所以我們要單獨生產(chǎn)一個芯片來實現(xiàn)成像引擎的功能。”
“AI正驅(qū)動著芯片產(chǎn)業(yè)發(fā)生變化。”朱繼志告訴億歐,以前CPU一家獨大,攝像機里只需要一個主芯片就能實現(xiàn)所有功能;但AI時代來臨后,GPU的重要性就體現(xiàn)出來了,所有算法都是基于GPU實現(xiàn),因此攝像機中需要加入GPU;但當(dāng)GPU的算力變得很強、算法很豐富的時候,前端攝像頭能力的好壞就成了AI視覺“最后一公里”的關(guān)鍵問題,因此還需要一款新的成像芯片來解決這個問題,眼擎科技解決的正是這“最后一公里”的問題。
朱繼志表示,眼擎科技的愿景是成為AI成像領(lǐng)域的頭部企業(yè),定位上游的技術(shù)方案商,通過賦能的方式,向下游打造終端產(chǎn)品的公司輸出自己的成像能力。據(jù)了解,眼擎科技未來將在安防、工業(yè)檢測、無人零售、智能醫(yī)療、機器人、深度相機等領(lǐng)域重點發(fā)力。
“我們是面向未來的,關(guān)注的是新產(chǎn)品和新應(yīng)用市場?!敝炖^志告訴億歐,眼擎科技的戰(zhàn)略是先做核心技術(shù)突破,再找市場應(yīng)用部署,“場景與技術(shù)是相互推動的,場景的需求能催生技術(shù)的更新,而技術(shù)的創(chuàng)新能’解鎖’更多應(yīng)用場景?!敝炖^志說,比如在安防領(lǐng)域,眼擎的全新成像技術(shù)將變革閘機的場景,未來閘機處的攝像頭不再需要任何輔助光源,也能清晰的“看”見人和物;同樣,“未來公路上有爆閃燈,可能也會變成一件奇怪的事?!?/p>
今年是眼擎科技啟動市場推廣的第一年,朱繼志認(rèn)為,將芯片推向市場需要2年的時間,之后還要再用2年的時間等待市場成熟。“AI視覺成像能力的改變并不是一蹴而就的,而是一個慢慢迭代升級的過程。”朱繼志說,只講技術(shù)原理,安防圈子的人都懂,但只有看到成像引擎的實際效果,市場才能對這個原創(chuàng)技術(shù)有最直觀的感知,“用戶體驗這種主觀的感覺是很難說清楚的,所以還需要時間讓大家慢慢了解和接受?!?/p>
eyemore成像引擎,是否真像口頭說得那么厲害,只有到真正商用級別的時候才能見真章,更希望中國IOT大會中能夠見到眼擎科技帶來的干貨,在此我們滿懷期待,靜候眼擎科技佳音。
評論
查看更多