(2021年7月19日,北京)在近日舉辦的 ICME 2021 上,墨奇科技 CEO 及聯(lián)合創(chuàng)始人邰騁、墨奇科技 CTO 及聯(lián)合創(chuàng)始人湯林鵬受邀發(fā)表 Tutorial 演講,介紹了如何將指紋識別問題轉(zhuǎn)化為高精度圖像搜索問題,基于先進的多尺度特征表示、極少樣本的自學(xué)習(xí)框架、超高性能的異構(gòu)搜索系統(tǒng),首次實現(xiàn)了無需細(xì)節(jié)特征的指紋比對系統(tǒng),達到 20 億量級上的秒級、高精度、自動化比對,并揭示了這一技術(shù)泛化到其他自然圖像和非結(jié)構(gòu)化數(shù)據(jù)上的可能性。
演講還介紹了利用多目視覺和結(jié)構(gòu)光的非接觸指紋采集技術(shù)的原理,以及下一代保護隱私的生物識別技術(shù)特性和實現(xiàn)途徑探索。
指紋識別傳統(tǒng)方法的挑戰(zhàn)、基于機器學(xué)習(xí)的改進與局限性
指紋識別是一種典型生物特征比對方式,一般來說有兩種類型任務(wù):第一種是驗證,也稱之為 1:1 的比對,是看這個人是不是他所宣稱的人,例如手機解鎖等,這相對比較容易。第二種是識別,也稱之為 1:N 的比對,要回答的是這個人是誰。從以下系統(tǒng)錯比率和漏比率就可以看到,1:N 的問題比 1:1 的問題要困難得多,而且隨著庫容增大,這一問題會變得更加困難。
現(xiàn)有的比對系統(tǒng)主要是基于衡量輸入的相似度取閾值,一個真的比對分?jǐn)?shù)是比較高的,通常會形成偏右的分布。而錯誤比對的分?jǐn)?shù)會比較低,形成偏左邊分布。這兩個分布可能有重疊,所以系統(tǒng)會犯兩種錯誤:錯比(false match/false accept):把不同的人當(dāng)成同一個人;漏比(false nonmatch/false reject):把同一個人當(dāng)成不同的人。以下公式中,下標(biāo) N 是指有 N 個人的 1:1 的識別,可以看到兩類系統(tǒng)漏比率基本相當(dāng),而錯比率 1:N 系統(tǒng)近似于是 1:1 系統(tǒng)的 N 倍。
現(xiàn)場指紋(latent-print)比對是一個典型的1:N 識別的問題,對這一問題,傳統(tǒng)指紋系統(tǒng)尚未能很好地解決。傳統(tǒng)指紋識別方法主要有三方面問題:如何實現(xiàn)現(xiàn)場指紋圖像自動增強、如何進行畸變校正,如何加速流程實現(xiàn)在大庫中的快速比對。
這三方面問題存在于指紋識別的不同環(huán)節(jié):
·首先是采集環(huán)節(jié),通過指紋傳感器采集指紋信息,通常分為人員指紋和現(xiàn)場指紋兩類,其中,人員指紋(tenprint)通過人員主動參與獲得(例如油墨按捺或滾動),通常質(zhì)量較高,而現(xiàn)場指紋(latent-print)需要借助粉塵顯影等方式顯現(xiàn),圖像質(zhì)量往往較差,通常需要進行圖像增強后才能使用。
·第二個環(huán)節(jié)是通過圖像增強進行特征提取。在傳統(tǒng)指紋識別流程中需要提取細(xì)節(jié)特征點(minutia),即一些帶有方向的點,包括端點和分叉點等,用于比對相似性。這一環(huán)節(jié)需要使用方向估計(orientatioin estimation)(如傅里葉近似法或梯度法)、使用 Gabor 濾波器進行圖像平滑、去除假特征等圖像增強操作,以獲得細(xì)節(jié)特征。然而對于現(xiàn)場指紋,有時圖像增強不佳,過度壓縮,反而把真正的細(xì)節(jié)特征給去除了。
·第三個環(huán)節(jié)是細(xì)節(jié)特征比對,在對需要比對的兩個模型做細(xì)節(jié)特征對齊(alignment)后,對比對數(shù)量和精度進行評分,并設(shè)置閾值,以獲得相似性分?jǐn)?shù)。然而傳統(tǒng)指紋系統(tǒng)這一環(huán)節(jié)依賴于專家對細(xì)節(jié)特征進行人工標(biāo)注,技術(shù)門檻很高,效率卻很低。
針對這些問題,近年來,研究者們在利用機器學(xué)習(xí)技術(shù)來改進傳統(tǒng)的指紋識別上做了大量的工作,包括利用生成對抗網(wǎng)絡(luò)(GAN)進行現(xiàn)場指紋圖像增強,使用基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)進行畸變校正,以及通過 FingerNet 端到端細(xì)節(jié)特征提取方法直接從圖像中提取特征點。這些基于深度學(xué)習(xí)的方法是對傳統(tǒng)方法的一種改進。
然而,這些方法在精確度、訓(xùn)練數(shù)據(jù)和性能上仍存在局限:
·第一,在精確度上,由于這些方法都是基于細(xì)節(jié)特征,而細(xì)節(jié)特征本身的精度就有限,只覆蓋了指紋信息中的一小部分,曲率和幾何信息都丟失了。只使用了細(xì)節(jié)特征的系統(tǒng),隨著數(shù)據(jù)庫大小的增加,準(zhǔn)確率會迅速下降,即“大庫衰減”現(xiàn)象。
·第二,這些方法需要大量的訓(xùn)練數(shù)據(jù),但是這些數(shù)據(jù)并不易于獲得,而通過合成數(shù)據(jù)訓(xùn)練的模型通常并不能很好地應(yīng)用到真實數(shù)據(jù)中。
·第三,在性能表現(xiàn)上,仍不能達到預(yù)期,尤其在大型數(shù)據(jù)庫比對上花費的時間過長。
新一代指紋識別技術(shù):將指紋比對問題轉(zhuǎn)化為高精度圖像搜索問題
墨奇科技一直致力于探尋新的技術(shù)路徑來解決這些問題,并發(fā)現(xiàn)了一種可行的方式:除了傳統(tǒng)細(xì)節(jié)特征外,指紋上還有很多信息,例如紋線的曲率、疏密分布、宏觀的走向、拓?fù)浣Y(jié)構(gòu)等等,這些信息對于身份識別都很重要。如果指紋比對看作一個特殊的圖像搜索問題,就會發(fā)現(xiàn)解決問題的關(guān)鍵在于多尺度表示,即對不同信息運用不同尺度予以表示。然而圖像搜索問題更多是相似性搜索問題,對于準(zhǔn)確率的要求遠沒有指紋比對這么高。
圖:多尺度特征
那么如何實現(xiàn)高精度的圖像搜索呢?
首先需要一個更有效的數(shù)學(xué)框架為指紋圖像構(gòu)建最佳的多尺度表示,可以更搜索友好而非壓縮友好,讓高精度、高性能的圖像搜索成為可能。這里運用的是自適應(yīng)小波框架。新的表達方法具有三個顯著優(yōu)勢:一是可以學(xué)習(xí)向量、圖和標(biāo)簽的多尺度特征。二是更容易構(gòu)造多個特征。例如,在從像素到整體圖像的每一個中間尺度上,都提取了標(biāo)簽(label)、向量(vector)和圖(graph)等不同的特征,極大地擴充了指紋信息。三是表示更具冗余性,并且具有完全重構(gòu)特性,因此,可以對其應(yīng)用不同的操作以獲得更多特征,例如一個點在不同尺度上,可以包含標(biāo)簽等信息。
其次,只需要極少樣本的自學(xué)習(xí)框架,讓系統(tǒng)可以自學(xué)習(xí)。單張圖片的訓(xùn)練信號大大增加,因而學(xué)習(xí)所需的標(biāo)記數(shù)據(jù)很少;給定一對指紋圖像,在全部尺度都可以開展學(xué)習(xí);當(dāng)專家使用系統(tǒng)時,會不斷提供匹配/非匹配對,從而實現(xiàn)系統(tǒng)自驅(qū)動;特征具有局部性,無需再使用細(xì)節(jié)特征。因而,適應(yīng)多尺度特征的 AI 自學(xué)習(xí)框架,能夠從搜索候選中不斷自學(xué),達到無監(jiān)督學(xué)習(xí)。
另外,超高性能的異構(gòu)系統(tǒng)和架構(gòu),讓準(zhǔn)確性和速度提升。專門用于視覺搜索的異構(gòu)多層分布式系統(tǒng),針對多尺度特征進行了優(yōu)化。在比對過程中,向量和標(biāo)簽被首先分配到 GPU/NPU 中去,利用其強大的并行計算能力,對特征進行初步的比對和過濾;對結(jié)果使用 CPU 進行圖等幾何特征的比對和精確匹配,以及對于多種算法的候選列表進行再排序以優(yōu)化最終的結(jié)果,最終實現(xiàn)指紋圖像的高速比對。
上圖:需要人工標(biāo)注細(xì)節(jié)特征
下圖:無標(biāo)注比對自動搜索指紋圖像相似的區(qū)域
憑借這些底層的技術(shù)創(chuàng)新,墨奇科技的新一代指紋識別系統(tǒng)徹底改變了傳統(tǒng)系統(tǒng)的工作流程,且突破性地不需要人工標(biāo)注,與現(xiàn)有絕大部分依賴人工的指紋系統(tǒng)都有本質(zhì)的差別。
以前,人們必須去現(xiàn)場收集指紋,帶回到辦公室,讓指紋專家標(biāo)記特征并將這些模板發(fā)送到系統(tǒng)進行比對、等待結(jié)果。而現(xiàn)在只需要在現(xiàn)場用一些攝影設(shè)備(例如手機)來拍攝指紋,就可處理更多特征數(shù)量和特征維度,但比對效率和響應(yīng)速度卻更高,可以秒級返回高精度結(jié)果,突破性地實現(xiàn)了 20 億量級大庫的秒級、高精度、自動化比對。這一技術(shù)目前已運用到了指紋以外的更多圖像,如掌紋識別上,未來還可能推廣到更廣泛的圖像搜索應(yīng)用中。
相較于傳統(tǒng)系統(tǒng),雖然墨奇科技下一代指紋識別系統(tǒng)需要處理的特征數(shù)量和特征維度更多,但比對效率和響應(yīng)速度卻更高?;谝陨系募夹g(shù)突破,該系統(tǒng)是目前行業(yè)內(nèi)比對速度更快、精度更高的系統(tǒng),同時降低了大庫衰減率。
新一代指紋采集技術(shù):將指紋采集升級到非接觸 3D 時代
疫情期間,非接觸指紋采集和識別技術(shù)受到越來越多的關(guān)注。傳統(tǒng)指紋采集大多是接觸式的,需要手指按壓在儀器表面。而非接觸指紋采集具有更明顯的優(yōu)勢:
·一是因為這種技術(shù)能夠提供更高質(zhì)量的指紋圖像,包括采集更多 3D 信息和更大的指紋面積,且與傳統(tǒng)接觸式不同,無需擔(dān)心不同油墨量會影響指紋質(zhì)量,按壓過程中也不會出現(xiàn)非均勻畸變。
·二是因為這種技術(shù)對用戶更友好,采集速度更快、更便捷、更衛(wèi)生,并且不需要非常專業(yè)的操作人員協(xié)助指導(dǎo)。
非接觸式指紋技術(shù)涉及到幾個關(guān)鍵技術(shù),包括三維曲面重建和三維到二維曲面映射。指紋三維曲面重建目前主要有兩種方案:第一種是利用多目視覺技術(shù),在指紋采集時,手指的每一部分都需要出現(xiàn)在至少兩個攝像頭的視野中;另外一種則基于結(jié)構(gòu)光技術(shù),通過向被測物體表面投射特定圖案的光線,通過對光的反射構(gòu)建三維曲面。
墨奇科技提出了將多目視覺和結(jié)構(gòu)光結(jié)合使用的新方法。其中,多目視覺聚焦于中間部分,結(jié)構(gòu)光聚焦于邊緣部分,并與多目視覺的三維結(jié)果進行交叉驗證,這樣就實現(xiàn)了從不同角度對指紋的三維曲面進行高精密度的重建。
圖:多目視覺技術(shù)+結(jié)構(gòu)光
三維到二維曲面映射技術(shù),主要有兩種展開方式:參數(shù)化展開和非參數(shù)化展開。參數(shù)化展開將手指看做一個圓柱體,將圓柱體從三維鋪平到二維平面。該方法簡單有效,但是它無法保持手指垂直方向上的曲線距離,況且指尖部分也和圓柱體有很大的不同,所以會有有很多失真和誤差。非參數(shù)化展開實際上是模擬手指如何在平面上展開,構(gòu)建從三維表面到二維平面的非參數(shù)映射。這種方法需要的計算量更大,對三維曲面的精度要求也更高。
墨奇科技組合運用了這兩種方式。
圖:墨奇首創(chuàng)了高圖像質(zhì)量的非接觸式指紋掃描儀
第一行左邊結(jié)果來自傳統(tǒng)的掃描儀
中間圖像來自墨奇非接觸指紋掃描儀
第二行來自業(yè)界其他非接觸設(shè)備
基于這些技術(shù),墨奇首創(chuàng)了高圖像質(zhì)量、與滾動捺印采集面積相當(dāng)?shù)姆墙佑|式指紋掃描儀。它融合了世界領(lǐng)先的非接觸光學(xué)采集技術(shù)和三維視覺技術(shù),通過高精度曲面重建算法,使手指表面三維建模達到亞毫米精度,擁有采集速度快、采集質(zhì)量高、無需滾動捺印、無形變、采集面積更大等核心優(yōu)勢,是國際領(lǐng)先、國內(nèi)首創(chuàng)的自主科技創(chuàng)新成果,將指紋技術(shù)全面升級到非接觸 3D 時代。
保護隱私的生物識別技術(shù)
生物識別技術(shù)在許多應(yīng)用中帶來了便利和安全,但另一方面,對由此引發(fā)的隱私問題的關(guān)注也在不斷增長,而且重要日益凸顯。和密碼不同,生物特征與每個人都永久相連,具有終生不變的特性,一旦泄露就永遠泄露。因此,生物特征識別技術(shù)需要一種更有效的隱私保護機制。
用戶的原始特征和采集到的模板都是用戶的隱私信息,都應(yīng)該被保護。用來比對的是使用變換函數(shù)變換后的特征,并只將變換后的特征存在數(shù)據(jù)庫里。對照密碼常使用的哈希加密,我們可以用類似的方法,使用加密哈希變換和存儲生物特征信息嗎?
實際上,典型的哈希函數(shù)在生物特征識別上并不起作用,因為生物特征數(shù)據(jù)會隨著時間變化,例如同一個人的指紋可以有不同的形狀和面積,面部圖像可以有不同的角度和亮度,虹膜數(shù)據(jù)也可能隨睜眼或閉眼而變化,而例如用一個 SHA256 的哈希值,即使原始數(shù)據(jù)改變了一位,哈希值也完全改變了。
既然典型的哈希函數(shù)不起作用,保護隱私的生物識別技術(shù)應(yīng)該具有哪些特性?墨奇科技認(rèn)為,一個真正保護隱私的生物識別系統(tǒng)需要具備如下三點:
·第一,不可逆。在給定比對特征的情況下,恢復(fù)原始的特征模板非常困難,并且這一難度通常由 NP-hard 類問題來保證。這一特性防止了濫用存儲的生物特征數(shù)據(jù)進行欺騙或重放攻擊,因為攻擊者將無法從變換后的特征中獲取原始模板,這樣就提高了生物識別認(rèn)證系統(tǒng)的安全性。
·第二,可撤銷。一旦某一個模板泄露或被認(rèn)為不安全,就可以安全注銷,然后簽發(fā)一個新模板,這樣就使得使用生物識別的方式和使用密碼的方式一樣可撤銷。
·第三,非關(guān)聯(lián)性。這意味著想要確定一個或者多個變換后的模板是源于同一個原始特征,在計算上應(yīng)該是困難的。也就是說,用戶有不同的生物識別應(yīng)用,但彼此之間并不關(guān)聯(lián),比如說有小區(qū)門禁、支付等不同的應(yīng)用并不交叉認(rèn)證,從而保護了個人的隱私。
如果滿足了上述三點,那么這樣的方案才可被稱為可撤銷的生物識別技術(shù),其中有三種方案最具代表性:Biohashing 、Fuzzy Commitment 和 Fuzzy Vault。
·第一種方案,Biohashing,使用一個外部密鑰 k 生成從原始模板 T 中生成 biohash H (T, k)。這種方法的優(yōu)點是由于需要同時借助原始生物特征模板和外部密鑰兩個因素驗證,實際上提高了準(zhǔn)確性。然而,該方案的缺點是仍需要記住密鑰,且一旦密鑰暴露,原始生物特征數(shù)據(jù)也不安全。
·第二種方案,F(xiàn)uzzy Commitment,使用糾錯碼技術(shù),優(yōu)點是可以看到用戶不需要記住任何密鑰,而缺點在于取決于糾錯碼的構(gòu)造,不可撤銷性或者不可鏈接性可能無法完全滿足。
·第三種方案,F(xiàn)uzzy Vault,實際上假設(shè)原始生物特征模板包含圖像的許多特征點,使用一組網(wǎng)格點對圖像進行分區(qū),并將這些特征點量化到網(wǎng)格,如果足夠多的特征點是正確的,那多項式可以用Generalized Reed Solomon解碼技術(shù)來恢復(fù),否則,有很多錯誤點的多項式重建問題,實際上是 NP-hard 問題。這種方法的優(yōu)點是多項式重建問題的難度保證了一定的安全屬性,缺點是比對速度很慢。
圖:Biohashing 、Fuzzy Commitment 和 Fuzzy Vault
由此可見,研發(fā)保護隱私的生物識別相當(dāng)困難,現(xiàn)有系統(tǒng)很難達到。另一方面,對于所有保護隱私的生物識別系統(tǒng),都存在錯比率(FMR)和漏比率(FNMR)之間的權(quán)衡問題,可以視為安全性和便利性之間的權(quán)衡。
事實上,任何可撤銷的生物識別系統(tǒng)的安全級別實際上都受 1/FMR 的限制,因為攻擊者可能會生成一個數(shù)量超過 1/FMR 合成生物特征樣本數(shù)據(jù)庫,然后在如此大量的樣本中,可以只找到一個與原始樣本具有足夠相似度的樣本,然后我們就可以找到匹配并破解系統(tǒng),還原原始的生物特征樣本。因此,我們需要一個具有非常低的 FMR 錯比率的系統(tǒng),才能確保安全。
對于指紋識別系統(tǒng)來說,未來可撤銷的保護隱私的指紋識別系統(tǒng),未來發(fā)展方向包括:
·第一,進一步提高指紋圖像的質(zhì)量和獨特性。通過采集更大的圖像面積、掃描一只手的多根手指等方式,可以顯著增加指紋細(xì)節(jié)特征的數(shù)量,從而有效提高安全級別,而非接觸指紋采集實際上是實現(xiàn)這一目標(biāo)的一種非常有前景的方法。
·第二,結(jié)合多種方式在安全與便捷之間實現(xiàn)更好的平衡。比如,通過在每個指紋細(xì)節(jié)特征點中增加嵌入式向量,使得指紋細(xì)節(jié)點更具區(qū)別性,從而用更少的指紋細(xì)節(jié)特征達到相同的安全級別。
墨奇科技正在將圖像比對和密碼學(xué)相組合,引領(lǐng)下一代保護隱私的生物特征識別技術(shù)。盡管保護隱私的生物識別技術(shù)由于各種技術(shù)困難尚未被廣泛采用,但必是生物識別技術(shù)的未來。
ICME 2021 簡介:
全球計算機多媒體頂級會議 ICME 全稱 IEEE International Conference on Multimedia and Expo,2021 年于 7 月 5 日 - 9 日于線上召開。
ICME 是計算機多媒體領(lǐng)域最重要和權(quán)威的兩大國際旗艦會議之一,會議輪流由美洲、歐洲、亞洲城市主辦,至今已連續(xù)舉辦 20 屆,每年都有約 500 位學(xué)者參會,收到約 1000 份論文,涵蓋文本分析、圖形圖像、視頻處理、語音和音頻信號處理等主題。
評論
查看更多