國際權威市場洞察報告Gen Market Insights近日發(fā)布《全球人臉識別設備市場研究報告》稱,中國2017年人臉識別產(chǎn)值占全世界29.29%市場份額,2023年將達到44.59%。報告還提到中國人工智能公司云從科技在2017年占有12.88%市場份額(占世界比例)。
人臉識別是AI技術發(fā)展較快、應用較多的一個領域,目前國內(nèi)人臉識別應用已相當廣泛,并積累了不少實戰(zhàn)經(jīng)驗。
本文內(nèi)容涵蓋人臉識別發(fā)展歷程、市場研究、核心技術、商業(yè)應用以及產(chǎn)業(yè)落地、個人看法等干貨研究。注意,本文干貨滿滿,約有2萬7千字,強烈建議大家先收藏后學習!
01 發(fā)展史
1. 人臉識別的理解
人臉識別(Face Recognition)是一種依據(jù)人的面部特征(如統(tǒng)計或幾何特征等),自動進行身份識別的一種生物識別技術,又稱為面像識別、人像識別、相貌識別、面孔識別、面部識別等。通常我們所說的人臉識別是基于光學人臉圖像的身份識別與驗證的簡稱。
人臉識別利用攝像機或攝像頭采集含有人臉的圖像或視頻流,并自動在圖像中檢測和跟蹤人臉,進而對檢測到的人臉圖像進行一系列的相關應用操作。技術上包括圖像采集、特征定位、身份的確認和查找等等。簡單來說,就是從照片中提取人臉中的特征,比如眉毛高度、嘴角等等,再通過特征的對比輸出結果。
2. 人臉識別的發(fā)展簡史
第一階段(1950s—1980s)初級階段
人臉識別被當作一個一般性的模式識別問題,主流技術基于人臉的幾何結構特征。這集中體現(xiàn)在人們對于剪影(Profile)的研究上,人們對面部剪影曲線的結構特征提取與分析方面進行了大量研究。人工神經(jīng)網(wǎng)絡也一度曾經(jīng)被研究人員用于人臉識別問題中。較早從事 AFR 研究的研究人員除了布萊索(Bledsoe)外還有戈登斯泰因(Goldstein)、哈蒙(Harmon)以及金出武雄(Kanade Takeo)等??傮w而言,這一階段是人臉識別研究的初級階段,非常重要的成果不是很多,也基本沒有獲得實際應用。
第二階段(1990s)高潮階段
這一階段盡管時間相對短暫,但人臉識別卻發(fā)展迅速,不但出現(xiàn)了很多經(jīng)典的方法,例如Eigen Face, Fisher Face和彈性圖匹配;并出現(xiàn)了若干商業(yè)化運作的人臉識別系統(tǒng),比如最為著名的 Visionics(現(xiàn)為 Identix)的 FaceIt 系統(tǒng)。從技術方案上看, 2D人臉圖像線性子空間判別分析、統(tǒng)計表觀模型、統(tǒng)計模式識別方法是這一階段內(nèi)的主流技術。
第三階段(1990s末~現(xiàn)在)
人臉識別的研究不斷深入,研究者開始關注面向真實條件的人臉識別問題,主要包括以下四個方面的研究:1)提出不同的人臉空間模型,包括以線性判別分析為代表的線性建模方法,以Kernel方法為代表的非線性建模方法和基于3D信息的3D人臉識別方法。2)深入分析和研究影響人臉識別的因素,包括光照不變?nèi)四樧R別、姿態(tài)不變?nèi)四樧R別和表情不變?nèi)四樧R別等。3)利用新的特征表示,包括局部描述子(Gabor Face, LBP Face等)和深度學習方法。4)利用新的數(shù)據(jù)源,例如基于視頻的人臉識別和基于素描、近紅外圖像的人臉識別。
02 市場研究
1. 全球人臉識別市場
前瞻根據(jù)人臉識別行業(yè)發(fā)展現(xiàn)狀;到2016年,全球生物識別市場規(guī)模在127.13億美元左右,其中人臉識別規(guī)模約26.53億美元,占比在20%左右。預計到2021年,全球人臉識別市場預計將達到63.7億美元,按預計期間的復合增長率達17.83%。
2. 中國人臉識別市場
前瞻根據(jù)人臉識別行業(yè)發(fā)展現(xiàn)狀,估算我國人臉識別市場規(guī)模約占全球市場的10%左右。2010-2016年,我國人臉識別市場規(guī)模逐年增長,年均復合增長率達27%。2016年,我國人臉識別行業(yè)市場規(guī)模約為17.25億元,同比增長27.97%,增速較上年上升4.64個百分點。
3. 國內(nèi)主要玩家分布
3.1 中國部分人臉識別公司(排名不分先后)
3.2 四大獨角獸介紹及對比細分領域
(1)曠視科技:
2014年,獲阿里巴巴旗下螞蟻金服投資,主攻金融和監(jiān)控兩大行業(yè),有子公司曠視智安;團隊成員除了幾名來自清華校友外,還有來自美國哥倫比亞大學、英國牛津大學和美國南加州大學的科研及開發(fā)人員,截至目前員工僅有100余人。
在金融、安防、零售領域分別開始了商業(yè)化探索成功發(fā)育出Face++Financial,F(xiàn)ace++Security,F(xiàn)ace++BI等垂直人臉驗證解決方案,主要將人臉識別應用在互聯(lián)網(wǎng)產(chǎn)品上,自己做研發(fā),在美圖秀秀、淘寶等互聯(lián)網(wǎng)領域得到良好的應用,在金融領域的市場一直占據(jù)沙發(fā)前排陣營;2016年獲得上億元C輪融資,最后選擇通過計算機視覺技術與NLP技術的結合,制造出能“識別萬物”的智能機器人,提供硬件模組,里面內(nèi)置他們家的算法。目前正在準備啟動IPO的步伐,VIE架構讓他們得以繞過A股,不用達到連續(xù)三年盈利的標準實現(xiàn)快速上市。
(2)商湯科技:
SenseTime(商湯科技),獲IDG資本投資,主攻金融、移動互聯(lián)網(wǎng)、安防監(jiān)控三大行業(yè);由香港中文大學的湯曉歐創(chuàng)建,“商湯”中的湯指的就是湯曉歐本人,湯曉鷗及其研究團隊所開發(fā)的DeepID算法率先將深度學習應用到人臉識別上,在技術指標上實現(xiàn)了新的突破。主要案例是圍繞各個美化軟件與直播平臺制作人臉貼圖,重點強化了人臉識別的關鍵點檢測及跟蹤技術。
團隊有300多號,也從當初toC轉向toB領域;成立于2014年的商湯科技選擇另辟蹊徑,選擇用“四大美女”這個話題讓人們躁動起來,到最后四大美女走了三個;商湯的網(wǎng)絡都是自己設計的,這樣對于深度學習網(wǎng)絡的掌控力就會更強,提供SaaS服務的同時,可以通過SaaS把背后的數(shù)據(jù)拿到,再進行更多更細致的分析再次提升服務質量。
(3)云從科技:
2015年4月,周曦拿到戰(zhàn)略投資成立云從科技,同年針對金融和銀行業(yè)推出了40多種解決方案,包含從算法、產(chǎn)品、銷售、售后的全產(chǎn)業(yè)鏈打造,針對農(nóng)行、建行、交行、中行及多地公安提供定制化服務。團隊成員除了來自中科大的校友外,還來自中國科學院各大研究所、UIUC、IBM、NEC、MicroSoft等全球頂尖學府及研究機構。
截止2016年11月,成立一年半,研發(fā)團隊擴展為200余名,核心產(chǎn)品是人臉識別系統(tǒng)及IBIS集成生物識別平臺,還具備3D模型、紅外活體、靜默活體等技術,可根據(jù)場景需求自由調節(jié)。選擇連接硬件、開發(fā)與技術,屬于全產(chǎn)業(yè)鏈模式,因為人臉識別系統(tǒng)多數(shù)情況下需要深度定制,只有這樣,才能在客戶提出需求的情況下迅速反饋,修改,統(tǒng)一用戶體驗。
(4)依圖科技:
2012 年九月,朱瓏與他的好友林晨曦在創(chuàng)立依圖科技,這家從事人工智能創(chuàng)新性研究的創(chuàng)企從圖像識別入手,首先與全國省市級公安系統(tǒng)合作,對車輛品牌、型號等進行精準識別,隨后擴展到人像識別,通過靜態(tài)人像比對技術和動態(tài)人像比對技術,協(xié)助公安系統(tǒng)進行人員身份核查、追逃、監(jiān)控、關系挖掘等。
發(fā)展近6年,依圖科技的產(chǎn)品已經(jīng)應用到全國二十多個省市地區(qū)的安防領域,安防領域之外,依圖也進入智慧城市領域和健康醫(yī)療領域,它要協(xié)助政府構建"城市大腦",也希望將醫(yī)療領域的巨大知識鴻溝縮小,改善醫(yī)患體驗。
(5)細分領域對比表
(6)主要客戶對比
4. 商業(yè)模式
4.1 人臉識別商業(yè)模式設計步驟
4.2 人臉識別盈利模式
03 人臉識別的流程及主要技術
1. 人臉識別系統(tǒng)組成
2. 人臉識別的一般流程
2.1 人臉采集
(1)簡介
不同的人臉圖像通過攝像鏡頭采集得到,比如靜態(tài)圖像、動態(tài)圖像、不同的位置、不同表情等,當采集對象在設備的拍攝范圍內(nèi)時,采集設備會自動搜索并拍攝人臉圖像。
(2)人臉采集的主要影響因素
圖像大?。喝四槇D像過小會影響識別效果,人臉圖像過大會影響識別速度。非專業(yè)人臉識別攝像頭常見規(guī)定的最小識別人臉像素為60*60或100*100以上。在規(guī)定的圖像大小內(nèi),算法更容易提升準確率和召回率。圖像大小反映在實際應用場景就是人臉離攝像頭的距離。
圖像分辨率:越低的圖像分辨率越難識別。圖像大小綜合圖像分辨率,直接影響攝像頭識別距離?,F(xiàn)4K攝像頭看清人臉的最遠距離是10米,7K攝像頭是20米。
光照環(huán)境:過曝或過暗的光照環(huán)境都會影響人臉識別效果??梢詮臄z像頭自帶的功能補光或濾光平衡光照影響,也可以利用算法模型優(yōu)化圖像光線。
模糊程度:實際場景主要著力解決運動模糊,人臉相對于攝像頭的移動經(jīng)常會產(chǎn)生運動模糊。部分攝像頭有抗模糊的功能,而在成本有限的情況下,考慮通過算法模型優(yōu)化此問題。
遮擋程度:五官無遮擋、臉部邊緣清晰的圖像為最佳。而在實際場景中,很多人臉都會被帽子、眼鏡、口罩等遮擋物遮擋,這部分數(shù)據(jù)需要根據(jù)算法要求決定是否留用訓練。
采集角度:人臉相對于攝像頭角度為正臉最佳。但實際場景中往往很難抓拍正臉。因此算法模型需訓練包含左右側人臉、上下側人臉的數(shù)據(jù)。工業(yè)施工上攝像頭安置的角度,需滿足人臉與攝像頭構成的角度在算法識別范圍內(nèi)的要求。
2.2 人臉檢測
(1)簡介
在圖像中準確標定出人臉的位置和大小,并把其中有用的信息挑出來(如直方圖特征、顏色特征、模板特征、結構特征及Haar特征等),然后利用信息來達到人臉檢測的目的。
(2)人臉關鍵點檢測(人臉對齊)
自動估計人臉圖片上臉部特征點的坐標。
(3)主流方法
基于檢測出的特征采用Adaboost學習算法(一種用來分類的方法,它把一些比較弱的分類方法合在一起,組合出新的很強的分類方法)挑選出一些最能代表人臉的矩形特征(弱分類器),按照加權投票的方式將弱分類器構造為一個強分類器,再將訓練得到的若干強分類器串聯(lián)組成一個級聯(lián)結構的層疊分類器,有效地提高分類器的檢測速度。
最近人臉檢測算法模型的流派包括三類及其之間的組合:viola-jones框架(性能一般速度尚可,適合移動端、嵌入式上使用),dpm(速度較慢),cnn(性能不錯)。
2.3 人臉圖像預處理
(1)簡介
基于人臉檢測結果,對圖像進行處理并最終服務于特征提取的過程。
(2)原因
系統(tǒng)獲取的原始圖像由于受到各種條件的限制和隨機干擾,往往不能直接使用,必須在圖像處理的早期階段對它進行灰度矯正、噪聲過濾等圖像預處理。
(3)主要預處理過程
人臉對準(得到人臉位置端正的圖像),人臉圖像的光線補償,灰度變換、直方圖均衡化、歸一化(取得尺寸一致,灰度取值范圍相同的標準化人臉圖像),幾何校正、中值濾波(圖片的平滑操作以消除噪聲)以及銳化等。
2.4 人臉特征提取
(1)簡介
人臉識別系統(tǒng)可使用的特征通常分為視覺特征、像素統(tǒng)計特征、人臉圖像變換系數(shù)特征、人臉圖像代數(shù)特征等。人臉特征提取就是針對人臉的某些特征進行的,也稱人臉表征,它是對人臉進行特征建模的過程
(2)人臉特征提取的方法
基于知識的表征方法(主要包括基于幾何特征法和模板匹配法):根據(jù)人臉器官的形狀描述以及它們之間的距離特性來獲得有助于人臉分類的特征數(shù)據(jù),其特征分量通常包括特征點間的歐氏距離、曲率、和角度等。人臉由眼睛、鼻子、嘴、下巴等局部構成,對這些局部和他們之間結構關系的幾何描述,可作為識別人臉的重要特征,這些特征被稱為幾何特征。
基于代數(shù)特征或統(tǒng)計學習的表征方法:基于代數(shù)特征方法的基本思想是將人臉在空域內(nèi)的高維描述轉化為頻域或者其他空間內(nèi)的低維描述,其表征方法為線性投影表征方法和非線性投影表征方法?;诰€性投影的方法主要有主成分分析法或稱K-L變化、獨立成分分析法和Fisher線性判別分析法。非線性特征提取方法有兩個重要的分支:基于核的特征提取技術和以流形學習為主導的特征提取技術。
2.5 匹配與識別
提取的人臉特征值數(shù)據(jù)與數(shù)據(jù)庫中存貯的特征模板進行搜索匹配,通過設定一個閾值,將相似度與這一閾值進行比較,來對人臉的身份信息進行判斷。
3. 人臉識別的主要方法
3.1 Eigen Face(特征臉)
MIT實驗室的特克(Turk)和潘特(Pentland)提出的“特征臉”方法無疑是這一時期內(nèi)最負盛名的人臉識別方法。其后的很多人臉識別技術都或多或少與特征臉有關系,現(xiàn)在特征臉已經(jīng)與歸一化的協(xié)相關量(Normalized Correlation)方法一道成為人臉識別的性能測試基準算法。
人臉識別特征臉算法文檔:
https://blog.csdn.net/zizi7/article/details/52757300
3.2 Fisher Face(漁夫臉)
貝爾胡米爾(Belhumeur)等提出的 Fisherface 人臉識別方法是這一時期的另一重要成果。該方法首先采用主成分分析(PCA)對圖像表觀特征進行降維。在此基礎上,采用線性判別分析(LDA)的方法變換降維后的主成分以期獲得“盡量大的類間散度和盡量小的類內(nèi)散度”。該方法目前仍然是主流的人臉識別方法之一,產(chǎn)生了很多不同的變種,比如零空間法、子空間判別模型、增強判別模型、直接的LDA 判別方法以及近期的一些基于核學習的改進策略。
FisherFace算法文檔:
https://blog.csdn.net/zizi7/article/details/52999432
3.3 EGM(彈性圖匹配)
其基本思想是用一個屬性圖來描述人臉:屬性圖的頂點代表面部關鍵特征點,其屬性為相應特征點處的多分辨率、多方向局部特征——Gabor變換12特征,稱為Jet;邊的屬性則為不同特征點之間的幾何關系。對任意輸入人臉圖像,彈性圖匹配通過一種優(yōu)化搜索策略來定位預先定義的若干面部關鍵特征點,同時提取它們的Jet特征,得到輸入圖像的屬性圖。最后通過計算其與已知人臉屬性圖的相似度來完成識別過程。該方法的優(yōu)點是既保留了面部的全局結構特征,也對人臉的關鍵局部特征進行了建模。
彈性圖匹配算法文檔:
https://blog.csdn.net/real_myth/article/details/44828219
3.4 基于幾何特征的方法
幾何特征可以是眼、鼻、嘴等的形狀和它們之間的幾何關系(如相互之間的距離)。這些算法識別速度快,需要的內(nèi)存小,但識別率較低。
3.5 基于神經(jīng)網(wǎng)絡的方法
神經(jīng)網(wǎng)絡的輸入可以是降低分辨率的人臉圖像、局部區(qū)域的自相關函數(shù)、局部紋理的二階矩等。這類方法同樣需要較多的樣本進行訓練,而在許多應用中,樣本數(shù)量是很有限的。
3.6 基于線段Hausdorff 距離(LHD) 的方法
心理學的研究表明,人類在識別輪廓圖(比如漫畫)的速度和準確度上絲毫不比識別灰度圖差。LHD是基于從人臉灰度圖像中提取出來的線段圖的,它定義的是兩個線段集之間的距離,與眾不同的是,LHD并不建立不同線段集之間線段的一一對應關系,因此它更能適應線段圖之間的微小變化。實驗結果表明,LHD在不同光照條件下和不同姿態(tài)情況下都有非常出色的表現(xiàn),但是它在大表情的情況下識別效果不好。
3.7 基于支持向量機(SVM) 的方法
近年來,支持向量機是統(tǒng)計模式識別領域的一個新的熱點,它試圖使得學習機在經(jīng)驗風險和泛化能力上達到一種妥協(xié),從而提高學習機的性能。支持向量機主要解決的是一個2分類問題,它的基本思想是試圖把一個低維的線性不可分的問題轉化成一個高維的線性可分的問題。通常的實驗結果表明SVM有較好的識別率,但是它需要大量的訓練樣本(每類300個),這在實際應用中往往是不現(xiàn)實的。而且支持向量機訓練時間長,方法實現(xiàn)復雜,該函數(shù)的取法沒有統(tǒng)一的理論。
4. 技術發(fā)展方向
結合三維信息:二維和三維信息融合使特征更加魯棒
多特征融合:單一特征難以應對復雜的光照和姿態(tài)變化
大規(guī)模人臉比對:面向海量數(shù)據(jù)的人臉比對與搜索
深度學習:在大數(shù)據(jù)條件下充分發(fā)揮深度神經(jīng)網(wǎng)絡強大的學習能力
5. 人臉識別數(shù)據(jù)庫
Yale人臉數(shù)據(jù)庫
ORL人臉數(shù)據(jù)庫
CMU PIE人臉數(shù)據(jù)庫
FERET人臉數(shù)據(jù)庫
MIT數(shù)據(jù)庫
BANCA人臉數(shù)據(jù)庫
CAS-PEAL人臉數(shù)據(jù)庫
JAFE表情數(shù)據(jù)庫
Cohn-Kanade表情數(shù)據(jù)庫
MMI表情數(shù)據(jù)庫
6. 技術指標
6.1 人臉檢測中的關鍵指標
例子:在攝像頭某張抓拍圖像中,一共有100張人臉,算法檢測出80張人臉,其中75張是真實人臉,5張是把路標誤識為人臉。
檢測率:識別正確的人臉/圖中所有的人臉。檢測率越高,代表檢測模型效果越好。
誤檢率:識別錯誤的人臉/識別出來的人臉。誤檢率越低,代表檢測模型效果越好。
漏檢率:未識別出來的人臉/圖中所有的人臉。漏檢率越低,代表檢測模型效果越好。
速度:從采集圖像完成到人臉檢測完成的時間。時間約短,檢測模型效果越好。
在這個實際案例中:檢測率=75/100誤檢率=5/80漏檢率=(100-75)/100
6.2 人臉識別中的關鍵指標
1000張樣本圖片里,共600張正樣本。相似度為0.9的圖片一共100張,其中正樣本為99張。雖然0.9閾值的正確率很高,為99/100;但是0.9閾值正確輸出的數(shù)量確很少,只有99/600。這樣很容易發(fā)生漏識的情況。
檢測率:識別正確的人臉/圖中所有的人臉。檢測率越高,代表檢測模型效果越好。
誤檢率:識別錯誤的人臉/識別出來的人臉。誤檢率越低,代表檢測模型效果越好。
漏檢率:未識別出來的人臉/圖中所有的人臉。漏檢率越低,代表檢測模型效果越好。
速度:從采集圖像完成到人臉檢測完成的時間。時間約短,檢測模型效果越好。
在這個實際案例中:檢測率=75/100 誤檢率=5/80 漏檢率=(100-75)/100
6.3 人臉識別中的關鍵指標
1000張樣本圖片里,共600張正樣本。相似度為0.9的圖片一共100張,其中正樣本為99張。雖然0.9閾值的正確率很高,為99/100;但是0.9閾值正確輸出的數(shù)量確很少,只有99/600。這樣很容易發(fā)生漏識的情況。
精確率(precision):識別為正確的樣本數(shù)/識別出來的樣本數(shù)=99/100
召回率(recall):識別為正確的樣本數(shù)/所有樣本中正確的數(shù)=99/600
錯誤接受率/認假率/誤識率(FARFalse Accept Rate):
定義:指將身份不同的兩張照片,判別為相同身份,越低越好
FAR = NFA / NIRA
式中 NIRA 代表的是類間測試次數(shù),既不同類別間的測試次數(shù),打比方如果有1000個識別 模型,有1000個人要識別,而且每人只提供一個待識別的素材,那 NIRA=1000*(1000-1) 。NFA是錯誤接受次數(shù)。
FAR決定了系統(tǒng)的安全性,F(xiàn)RR決定了系統(tǒng)的易用程度,在實際中,F(xiàn)AR對應的風險遠遠高于FRR,因此,生物識別系統(tǒng)中,會將FAR設置為一個非常低的范圍,如萬分之一甚至百萬分之一,在FAR固定的條件下,F(xiàn)RR低于5%,這樣的系統(tǒng)才有實用價值。
錯誤拒絕率/拒真率/拒識率(FRR False Reject Rate):
定義:指將身份相同的兩張照片,判別為不同身份,越低越好
FRR = NFR / NGRA
上式中NFR是類內(nèi)測試次數(shù),既同類別內(nèi)的測試次數(shù),打比方如果有1000個識別模型, 有1000個人要識別, 而且每人只提供一個待識別的素 材,那 NIRA=1000,如果每個人提供N張圖片,那么 NIRA=N*1000 。NFR是錯誤拒絕次數(shù)。
04 行業(yè)應用
1. 人臉識別(FR)+其他行業(yè)
1.1 FR+金融
(1)實名認證
金融機構傳統(tǒng)上使用人工肉眼判斷、短信驗證、綁定銀行卡等手段進行實名認證。這些傳統(tǒng)手段存在準確率不高、客戶體驗較差、成本高等問題,對金融企業(yè)業(yè)務發(fā)展造成了巨大的困擾。基于人臉識別的實名認證方式具有準確率高(一億人中才存在兩人長相相同)、客戶體驗好(認證速度快、客戶操作少)、成本低(相較于傳統(tǒng)認證方式)的優(yōu)點,已被眾多領先金融企業(yè)所采用。
(2)人臉識別在銀行遠程開戶上的應用
在遠程開戶時,金融機構可以通過智能終端在線上進行身份鑒權驗證,使用人臉識別技術開戶可以極大提升業(yè)務辦理的安全性、時效性,并節(jié)省大量人力。
(3)刷臉取款
在這方面人臉取代了銀行卡,只需要人臉+密碼即可完成取款。在前兩個方面,人臉識別技術已經(jīng)被國內(nèi)各大銀行廣泛采用,刷臉取款方面,農(nóng)行和招行搶先一步在ATM上線了刷臉取款功能。
1.2 FR+醫(yī)療
(1)重點應用
打擊涉醫(yī)犯罪,確保就診安全。建立有針對性的涉醫(yī)犯罪人員布控庫,與屬地公安部門配合,進行實時布控。
管控職務犯罪,控制不當競爭。對進入醫(yī)院診療區(qū)域的醫(yī)藥代表進行管控,協(xié)助解決藥品流通領域經(jīng)營不規(guī)范、競爭失序等問題。
杜絕職業(yè)醫(yī)鬧,保護人身安全。打擊頻繁出現(xiàn)的職業(yè)醫(yī)鬧,提高事件的響應速度,從被動響應變?yōu)橹鲃宇A防。
規(guī)范就診流程,和諧醫(yī)患關系。重點防范黃牛、醫(yī)托等干擾正常就診秩序的特殊人群。
加強監(jiān)管力度,維護醫(yī)保基金。實現(xiàn)就診病人與醫(yī)保信息庫中身份證照的比對,杜絕冒用醫(yī)??ǖ默F(xiàn)象。
易肇事肇禍嚴重精神障礙患者管控。結合“雪亮工程”,確保嚴重精神障礙患者流入地、流出地發(fā)現(xiàn)管控到位。
(2)人臉識別在醫(yī)療行業(yè)的應用突破基于三點
獲取到目標對象的信息:因為行政體系不同,醫(yī)療行業(yè)想獲取到目標對象信息存在較大困難,需相關行政單位進行關鍵的協(xié)調工作。目標對象信息包含但不局限于:人臉照片、人像照片、人員基本信息、人員動態(tài)等。
人臉識別的算法進一步提升:目前的人臉識別算法的精度已經(jīng)達到了相當高的水準,誤報、漏報均已控制在可接受范圍;更近一步的算法,可以從非結構化的視頻/圖片中獲取更多的價值信息,從更多地維度來實現(xiàn)不同的應用。
管理者思維和水平的提升:人工智能、人臉識別是革命性顛覆性的技術,可以給醫(yī)療行業(yè)帶來巨大的提升。如何將人臉識別真正應用到醫(yī)療行業(yè)的各方各面需要管理者與技術提供方一起拓展思維、共同努力。
(3)人臉識別在醫(yī)療行業(yè)的前景
對接公安視頻監(jiān)控、醫(yī)警聯(lián)動平臺:系統(tǒng)滿足公安現(xiàn)有標準要求,后續(xù)可與公安機關視頻監(jiān)控、醫(yī)警聯(lián)動等平臺進行無縫對接,將報警信息及關聯(lián)的視頻、圖片推送給轄區(qū)派出所,實現(xiàn)聯(lián)動。
人臉身份查證:輸入目標人員照片,即可知道此人身份及其是否屬于重點管控人員,是否曾經(jīng)來過醫(yī)院,及其出現(xiàn)時間、頻次。可用于篩查可疑人員,找到其活動規(guī)律。
人員軌跡回放:輸入目標人員照片,即可查詢此人是否來過醫(yī)院,到過哪些地方。此功能可還原特定人員的行動軌跡,用于嫌疑人行為研判和事后取證。
對接門禁系統(tǒng):與門禁系統(tǒng)對接,預留刷臉開門、人臉考勤等高級功能,方便辦公區(qū)、手術室、藥品庫、住院部等區(qū)域的出入管理。
對接刷卡系統(tǒng):與二代證、醫(yī)??ǖ人⒖ㄏ到y(tǒng)對接,將采集的人臉照片與證件上存儲的照片進行比對,驗證刷卡人的真實身份。
1.3 FR+新零售
(1)應用人臉識別的優(yōu)勢
為重點客戶畫像:幫助賣家獲得顧客和潛在顧客更精準的信息,構建用戶畫像??梢园惭b在超市、商場、門店等入口,統(tǒng)計每天進入門店的人數(shù)、大致年齡和性別等;另一種可以安裝在貨架上,分析客戶的關注點和消費習慣等。通過大數(shù)據(jù)分析挖掘回頭客,提升客戶提袋率和VIP轉化率;
為零售商降本增益:以智能化系統(tǒng)來代替人工,以人臉識別系統(tǒng)連接支付端來代替收銀員,能跟快實現(xiàn)零售店的導流和商品人流分析等。
減少突發(fā)事件的產(chǎn)生:門店遇到商品失竊的突發(fā)事件,通過對所獲數(shù)據(jù)的分析,也可以將不良客戶拉入“黑名單”或是降低其信用水平。
完美連接線上線下:識別系統(tǒng)獲得的用戶偏好還能反哺線上,將所得數(shù)據(jù)通過線上反饋給廠商,助力于廠商更全面地了解消費者需求,進而精準地研發(fā)產(chǎn)品,設計營銷策略。這些都是完美實現(xiàn)新零售“打通線上線下”內(nèi)在要求的極佳方式。
(2)人臉識別的安全隱患
人臉特征容易被復制:眾所周知,破解密碼的最常用手段是復制,通過竊取數(shù)字密碼以及套取指紋來解密的案例己經(jīng)不勝枚舉。與記錄在大腦中或其他介質上面的數(shù)字密碼相比,暴露在外面的人臉更容易被復制。通過拍照完全可以獲得一個人的臉部特征并進行復制,利用整容技術或者用照片識別等欺詐的方法可以騙過人臉支付系統(tǒng)。
個人信息泄露問題:在科技發(fā)達的今天,人們似乎很輕易就可以通過無孔不入的渠道查到消費者的各種信息。而對于刷臉支付來講,像人臉特征這種人體密碼一旦交給別人保管,個人信息的安全系數(shù)將如何確保?獲取用戶的面部特征是否會涉及到個人隱私?基于面部掃描系統(tǒng)的支付在普遍應用之后會不會帶來基于位置服務造成的個人行蹤泄露?
1.4 FR+安防
(1)智慧城市的基礎
視頻分析:基于視頻中的人臉照片進行遠距離、快速、無接觸式的重點人員布控預警。讓應用于車站、機場、地鐵等重點場所和大型商場超市等人群密集的公共場所視頻監(jiān)控系統(tǒng)能夠對視頻圖像進行采集、自動分析、抓取人臉實時比對,主動在監(jiān)控場景中識別重點關注人員,實現(xiàn)重點人員的布控和識別。
重要場所的布控:對機場、車站、港口、地鐵重點場所和大型商超等人群密集公共場所進行布控,以達到對一些重點人員的排查,抓捕逃犯等目的。
靜態(tài)庫或身份庫的檢索:對常住人口、暫住人口的人臉圖片進行預先建庫,通過輸入各種渠道采集的人臉圖片,能夠進行比對和按照相似度排序,進而獲悉輸入人員的身份或者其他關聯(lián)信息,此類應用存在兩種擴展形式,單一身份庫自動批量比對并發(fā)現(xiàn)疑似的一個人員具有兩個或以上身份信息的靜態(tài)庫查重,兩個身份庫之間自動交叉比對發(fā)現(xiàn)交集數(shù)據(jù)的靜態(tài)庫碰撞。
動態(tài)庫或抓拍庫的檢索:對持續(xù)采集的各攝像頭點位的抓拍圖片建庫,通過輸入一張指定人員的人臉圖片,獲得其在指定時間范圍和指定攝像頭點位出現(xiàn)的所有抓拍記錄,方便快速瀏覽,當攝像頭點位關聯(lián)GIS系統(tǒng),則可以進一步的按照時間順序排列檢索得到的抓拍記錄,并繪制到GIS上,得到人員運動的軌跡。
(2)反恐行動的助力
現(xiàn)在新疆、西藏等城市都將人臉識別作為基礎設施建設領域的投資重點,由于人員復雜、居住人口相對混亂等因素,這些城市成為了恐怖襲擊等違法犯罪行為的高發(fā)場所。而人臉識別技術采用人臉檢測算法、人臉跟蹤算法、人臉質量評分算法以及人臉識別算法。實現(xiàn)城市居住人員人臉的抓拍采集、建模存儲,實時黑名單比對報警和人臉后檢索等功能。能及時在危險發(fā)生之前制止。
(3)兒童安全的保鏢
近年來兒童拐賣活動越來越猖獗,為了更好的保護兒童安全,有些幼兒園、小學在門口已經(jīng)安裝上了面部識別系統(tǒng)。系統(tǒng)采用人臉識別加IC/ID卡(非接觸式智能卡) 雙重認證:每一位幼兒在入學注冊時進行相關登記:資料、面像、IC/ID卡號、接送者、接送者面像。
每次入園時刷卡進行報道,放學時刷卡并進行接送家長人臉認證,如果認證失敗拍照后即報警通知管理員,如果認證成功即拍照放行。不論識別成功與否,系統(tǒng)都會記錄下被識別者圖像。每一次接送都有詳細的時間、接送人員的照片可供查詢。另外系統(tǒng)提供短信提示的擴展功能,家長可在手機上看到人臉識別認證時所拍的照片,從而監(jiān)控到接送這個過程,從其中一個重要源頭杜絕了兒童被拐的可能性。
(4)智慧酒店的管理
以前開房登記流程是:接待人員問詢——身份證掃描確認——支付押金——選房層發(fā)房卡——打印紙質票據(jù),這些流程非常繁雜,尤其是身份認證耗時最長,若遇到團隊入住情況則更為復雜,身份證識別設備可能會因高頻使用出現(xiàn)故障,而急于進房間休息的顧客卻只能在前臺等待手續(xù)完成,客戶體驗非常糟糕。
人臉識別技術就能很好的解決這一難題,幫助酒店實現(xiàn)系統(tǒng)化業(yè)務管理和一站式共享解決方案。智慧酒店的安防系統(tǒng)利用人臉識別技術,當顧客走到前臺時系統(tǒng)已經(jīng)自動根據(jù)顧客被攝像頭捕捉到的影像調取顧客身份核對。整個驗證核對過程簡單、快速且實現(xiàn)了自動化,更大幅降低了人工識別造成的誤差。而且,針對酒店VIP客人,系統(tǒng)可實時對比酒店大堂的攝像頭影像和登記在酒店基礎系統(tǒng)中的VIP面部數(shù)據(jù),當VIP客人到達時,酒店可第一時間提供個性化周到服務,提高客戶的滿意度。
1.5 FR+公安
尋人尋親:對老百姓或其他業(yè)務部門提供的照片,直接送入系統(tǒng)進行比對、檢索、篩選,最后人工確認。
派出所擋獲違法人員:對派出所擋獲的人員,登記筆錄,對于其中一些少數(shù)民族、聾啞人或保持沉默者等無法查證身份的人員,可拍攝照片送入各種照片庫中比對,排查涉及大案要案人員,以免漏網(wǎng);或查證其前科,累計處理。
查證無名尸源:需要查證無名尸源時,先拍攝正面照片,送入計算機,如果照片閉眼、破損或變形,可用人像合成系統(tǒng)或人工繪制一幅標準照,送入比對系統(tǒng)比對查證。
目擊者描述排查:獲得現(xiàn)場目擊者對嫌疑人的形象描述后,可用人像合成系統(tǒng)進行排查。
視頻監(jiān)控照片:一般監(jiān)控系統(tǒng)針對場景,得到的涉案嫌疑人的圖像都有模糊、偏轉、逆?zhèn)裙獾荣|量不佳問題,這時需要根據(jù)圖像用人像合成系統(tǒng)或人工繪制一幅標準照,送入照片比對系統(tǒng)比對查證。
公共場所集會:在政府、球場等公共場所,時常會有人員滋事,此時公安民警不便直接帶人處理,可以采用長焦攝像機拍攝特寫鏡頭,如果效果不夠好可以用人像合成系統(tǒng)修正,送入比對系統(tǒng)比對查證。
一代/二代居民身份證識別:根據(jù)犯罪人員的身份證照片信息,與系統(tǒng)照片庫中的信息資料進行比對,提取出與證件上照片相似的人員信息,能充分利用現(xiàn)有的二代身份證照片資源,為公安部門的工作提供高效有利的幫助。
其他應用:常住人口的比對查詢、暫住人口的比對查詢、重點人口的比對查詢、CCIC在逃人員的比對查詢等。
1.6 FR+商業(yè)場景
訪客登記:訪客到訪公司,于平板電腦進行訪客信息登記,由攝像頭自動抓取人臉,通過系統(tǒng)打印出訪客貼紙;
識別迎賓:公司員工,貴賓進入公司入口,攝像頭能識別到訪人員,實現(xiàn)門禁功能管理;
人臉識別考勤:通過入口處的前臺平板電腦進行人臉識別考勤,也可通過手機端進行人臉識別考;
智能生活:較多的園區(qū)、樓宇需要人臉門禁系統(tǒng),人員進出快速通行,便于管理住戶、訪客的進出記錄;
智慧教育:為嚴防替考事件的發(fā)生,確??荚嚢踩四樧R別可加強考試入場環(huán)節(jié)的考生身份認證,并有效實現(xiàn)智能視頻監(jiān)考、作弊防控等;
智慧商場:利用人臉識別技術追蹤并分析商場內(nèi)的人流屬性,人群分布等。
應用模式典型具體應用特點說明應用領域:
2. FR的部分應用
2.1 人臉檢測跟蹤
(1)應用
商場客流跟蹤分析,地鐵、火車站、會場、機場等場所的可疑人員的跟蹤檢測,體育賽事的現(xiàn)場監(jiān)控等。
(2)難點
多人臉跟蹤、遠場識別人臉、背景復雜、低質量圖片人臉識別(算法預處理),還有側臉(3D重建人物全面),遮擋,模糊,表情變化、強弱光(多特征融合增強抗干擾力)等各種實際環(huán)境。
(3)建議
遠場識別(可依據(jù)距離識別)、背景復雜(可虛化無關場景,凸顯主角)。
2.2 人臉關鍵點定位
(1)應用
可用于圖片的合成、動態(tài)圖片的分析(直播行業(yè)鑒黃、鑒暴),通過關鍵點分析人臉表情情緒。
(2)難點
大角度側臉,表情變化、遮擋、模糊、明暗等,動靜態(tài)關鍵點捕捉。
(3)建議
對模糊部位可進行平滑處理,根據(jù)眼睛、嘴的特點建立不同的區(qū)域塊等。
2.3 人臉身份認證
(1)應用
關鍵性應用(金融身份認證、海關檢查、火車站和機場等進站),非關鍵性應用(智慧小區(qū)居民進出、辦公大樓進出、公司單位上班打卡等)
(2)難點
年輕時的證件照和本人識別匹配、戴眼鏡和未戴眼鏡、側臉和正臉、表情、背景干擾、整容后、雙胞胎及長相類似等。
(3)建議
可基于三維人像分析避免認證時的假冒,動作分析等。(曠視的難以區(qū)分蠟像、海報和真人)
2.4 人臉屬性(性別、年齡、種族、表情、飾品、胡須、面部動作狀態(tài))
(1)人臉表情識別(Face expression recognition 簡稱FER)
普遍認為人類主要有六種基本情感:憤怒(anger)、高興(happiness)、悲傷(sadness)、驚訝(surprise)、厭惡(disgust)、恐懼(fear)。而大多數(shù)表情識別是基于這六種情感及其拓展情緒實現(xiàn)的
主要困難點是:
表情的精細化程度劃分:每種情緒最微弱的表現(xiàn)是否需要被分類。分類的界限需要產(chǎn)品給出評估規(guī)則。
表情類別的多樣化:是否還需要補充其他類別的情緒,六種情緒在一些場景下遠不能變現(xiàn)人類的真實情緒。因此除了基本表情識別外,還有精細表情識別、混合表情識別、非基本表情識別等細致領域的研究。
缺少魯棒性
(2)人臉性別識別
性別分類是一個典型的二類問題,人臉性別分類問題需要解決的兩個關鍵問題是人臉特征提取和分類器的選擇。人臉性別識別其實僅能識別到人臉外貌更偏向于女性還是男性,很難對女生男相、男生女相進行正確判斷。
(3)人臉年齡識別
難點:單人的不同年齡段識別和多人的不同年齡段識別,人臉年齡識別常和人臉識別進行組合識別,能更正確的判斷在一定年限內(nèi)“是否是一個人”的問題;除了以上內(nèi)容,還有是否戴眼鏡、頭發(fā)長度、膚色等。
建議:識別年齡無變化的人臉用分類即可,而對年齡變化的人臉識別方法是通過年齡模擬,將測試圖像和查詢庫中的圖像變換到某一共同的年年齡,從而去除年齡不同的影響,使識別在年齡相同的人臉圖像進行。
(4)人臉屬性的應用
根據(jù)物理屬性(性別、年齡、種族、眼鏡顏值等)可用于廣告定向投放、個性化智能推薦、顧客分析、婚戀交友等;化學屬性(面部動作、情緒等)可用于即時視頻社交、圖片合成、圖片美化等。
(5)識別建議
人臉屬性分析時,可利用K-近鄰算法匹配云端庫里的類似照片后再對相似屬性進行分析。
2.5 人臉聚類
(1)應用:個性化相冊管理、照片分享社交、婚戀交友相似臉型匹配推薦興趣社交等。
(2)難點:角度、光線、發(fā)型、相似臉型等干擾分類。
(3)建議:可基于一張正臉照片,將其他照片進行依次比對分析后再分類等(智能相冊、婚戀社交)。
2.6 真人檢測
(1)應用:銀行開戶驗證、車站、機場、公司打卡等。
(2)難點:2D和3D的識別檢測、真人與蠟像、硅膠假冒人臉識別、照片和真人識別檢測驗證等。
(3)建議:可基于三維人像分析避免認證時的假冒等,動態(tài)識別驗證以區(qū)分假象(曠視的難以區(qū)分蠟像、海報和真人)。
2.7 人像美顏/美妝
(1)應用:興趣社交、婚戀交友、圖像合成、個性化用品推薦和廣告投放等。
(2)難點:美顏與一般濾鏡效果的區(qū)別、美顏后的自然效果等。
(3)建議:基于數(shù)據(jù)集的算法更新迭代。
2.8 人體關鍵點(CPM、DeeperCut)
(1)應用:關鍵動作抓拍、人體姿態(tài)估計、舞蹈難度評定。
(2)難點:多目標關鍵點定位、關鍵點遮擋、光線強弱等。
(3)建議:關鍵點遮擋(分塊處理、三維構建找尋關鍵點)
3. FR的商業(yè)化
3.1 從時間上看商業(yè)化的不同階段
3.2 從業(yè)務場景上看
場景關鍵點:
盤子夠大,支撐公司發(fā)展
數(shù)據(jù)回流,為公司所用
高頻使用,需求占比高
可在行業(yè)中復制
3.3 垂直行業(yè)人臉解決方案(地產(chǎn)行業(yè)為例)
(1)地產(chǎn)行業(yè)分布
商業(yè)地產(chǎn):辦公樓宇+園區(qū)廠區(qū)+商業(yè)零售+酒店
住宅地產(chǎn):生活小區(qū)+公寓
(2)地產(chǎn)行業(yè)的市場規(guī)模
(3)演變方向及客戶痛點
視頻監(jiān)控:傳統(tǒng)視頻監(jiān)控廠家正在進行智能化轉型,從原先的“監(jiān)控”視頻,到現(xiàn)在的“讀懂”視頻當中的人、車、物、事;
門禁控制:傳統(tǒng)門禁控制領域價值鏈低,所有廠家正在尋求新的方式來轉型,絕大部分都在生物識別方式上進行摸索;人臉識別面板機、閘機及其它通行道閘雨后春筍般出現(xiàn);
樓宇對講:普通樓宇對講功能已無法滿足使用要求,結合人臉識別功能的門禁系統(tǒng)需求越來越多;
防盜告警:通過智能化手段,達到降本增效目的,已成為防盜告警、巡更檢查等功能的重點迭代方向;
可視化系統(tǒng):降低非專業(yè)人士的使用難度,使得多方數(shù)據(jù)為“我”所用,為多種決策提供依據(jù);信息孤島問題亟待解決,萬物互聯(lián)已是所有廠家達成的共識。
信息孤島問題(痛點):
智能化系統(tǒng)種類繁多,系統(tǒng)之間無法實現(xiàn)無縫連接,綜合管理難度大,效率低;
智能化子系統(tǒng)數(shù)據(jù)采集離散,標準不一,數(shù)據(jù)價值大打折扣,無法為管理提供決策依據(jù)和幫助;
各子系統(tǒng)依靠人工管理,人員配備要求高、勞動強度大,人工成本居高不??;
絕大多數(shù)B端客戶不懂具體業(yè)務或細節(jié),需要具象化、可視化系統(tǒng)呈現(xiàn)。
(4)建設步驟及架構
步驟:
第一步:人員通信管理
基于人員通行管理的平臺系統(tǒng)(功能性產(chǎn)品+后臺系統(tǒng)管理)
員工、VIP、訪客、陌生人、黑名單等人員權限管理;
第二步:傳感網(wǎng)絡融合
CCTV、車輛等;
基于“人員”、“車”、“監(jiān)控”的三位一體智慧建筑場景應用;
其他子系統(tǒng)模塊鏈接,形成整體傳感網(wǎng)絡,智能物聯(lián);
第三步:商業(yè)地產(chǎn)+新零售
人員、車輛、CCTV三功能在工作+消費場景融合;
構建以人為核心的商業(yè)綜合體運營方案。
整體IoT架構:
(5)影響因素與優(yōu)化方案
決定監(jiān)控系統(tǒng)性能的幾個主要因素:
模板庫的人數(shù):不宜大,包含關鍵人物即可;
經(jīng)過攝像頭的人數(shù):同時出現(xiàn)在攝像頭的人數(shù)決定了單位時間里的比對次數(shù);
報警反饋時間:實時性越強,對系統(tǒng)性能要求越高;
攝像頭采集幀數(shù):幀數(shù)越高,人員經(jīng)過攝像頭前采集的次數(shù)越多,比對的次數(shù)也越多。
實戰(zhàn)中的優(yōu)化方案:
使用更先進的高清攝像頭(3-5百萬);
室內(nèi)均勻光線,或室外白天,無側光和折射光;
人群面向同樣的方向,朝向相機的方向運動;
恰當?shù)谋O(jiān)控點,如走廊、巷子或安檢門/閘機口等(不要一群人同時出現(xiàn));
相機與人臉的角度小于20度。
3.4 頂尖公司的應用舉例
(1)Google:2011年07月 谷歌收購人臉識別軟件公司PittPatt
(2)Facebook:2012年6月 Facebook收購以色列臉部識別公司Face.com
(3) 微軟:2012年6月 微軟亞洲研究院發(fā)布人臉檢測算法,面部識別系統(tǒng)
(4)網(wǎng)易:2012年5月,網(wǎng)易人臉識別系統(tǒng)全國公測,用于郵箱登陸
(5)百度:2012年12月 百度推出人臉識別,基于圖像的全網(wǎng)人臉搜索
(6)阿里:2015年11月,在推出支付寶刷臉認證付款
(7)騰訊:2012年下半年,成立優(yōu)圖項目組
05 人臉識別(FR)的產(chǎn)品落地
1. FR技術產(chǎn)品的優(yōu)勢
1.1 非接觸
人臉圖像的采集不同于指紋、掌紋需要接觸指掌紋專用采集設備,指掌紋的采集除了對設備有一定的磨損外,也不衛(wèi)生,容易引起被采集者的反感,而人臉圖像采集的設備是攝像頭,無須接觸。
1.2 非侵擾
人臉照片的采集可使用攝像頭自動拍照,無須工作人員干預,也無須被采集者配合,只需以正常狀態(tài)經(jīng)過攝像頭前即可。
1.3 友好
人臉是一個人出生之后暴露在外的生物特征,因此它的隱私性并不像指掌紋、虹膜那樣強,因此人臉的采集并不像指掌紋采集那樣難以讓人接受。
1.4 直觀
我們判斷一個人是誰,通過看這個人的臉就是最直觀的方式,不像指掌紋、虹膜等需要相關領域專家才可以判別。
1.5 快速
從攝像頭監(jiān)控區(qū)域進行人臉的采集是非??焖俚?,因為它的非干預性和非接觸性,讓人臉采集的時間大大縮短。
1.6 簡便
人臉采集前端設備——攝像頭隨處可見,它不是專用設備,因此簡單易操作。
1.7 可擴展性好
它的采集端完全可以采用現(xiàn)有視頻監(jiān)控系統(tǒng)的攝像設備,后端應用的擴展性決定了人臉識別可以應用在出入控制、黑名單監(jiān)控、人臉照片搜索等多領域。
2. FR三大識別場景
2.1 人臉確認(1:1)
簡介:將某人面像與指定人員面像進行一對一的比對,根據(jù)其相似程度來判斷二者是否是同一人,相似程度一般以能否超過某一量化閥值為依據(jù)。簡單的說就是A/B兩張照片比對,產(chǎn)生的計算數(shù)值是否達到要求。
產(chǎn)品應用:快速的人臉識別比對,移動支付認證、安全性身份核對、作為身份確認的一種新方式,比如考生身份確認、公司考勤確認、各種證件照和本人確認。
實際問題:產(chǎn)品在系統(tǒng)設計的邏輯上,需要先考慮調取已儲存對象信息的先驗條件。通過界面/語音的提示,使得待認證者預先知道自己正處于被核對的過程中,且已預先了解擬核對對象的身份。
比對來源的三種主要方式:
用戶自傳照片,比如支付寶的人臉比對,用戶自傳的照片最大的問題是照片質量的合格率太低,拍照的光線、角度等因素會導致采集源的質量下降,不利于后期的大批量人臉特征碼管理。
使用身份證讀卡器,讀取身份證上的照片,遺憾的是這張照片2K的大小,不過也是目前用最多的源照片提取方式,比較適合簽到場合。
使用公安部旗下NCIIC的人臉比對接口(注意,不是網(wǎng)紋照片接口,這個接口已經(jīng)不對外),使用的是直接的人臉比對接口。
2.2 人臉辨認(1:N)
(1)簡介
將某人面像與數(shù)據(jù)庫中的多人的人臉進行比對,并根據(jù)比對結果來鑒定此人身份,或找到其中最相似的人臉,并按相似程度的大小輸出檢索結果。
(2)產(chǎn)品應用
人臉開門、人臉檢索,排查犯罪嫌疑人、失蹤人口的全庫搜尋、一人多證的重復排查等。
(3)實際問題
走失兒童的項目中去:這一類系統(tǒng)的部署需要兩個條件:A. BCD基本庫(比如1000萬人)B.強大的算法硬件
零售店中的刷臉支付長江,需要用戶預先輸入全手機號,確定用戶身份再進行人臉識別,將原本為1:N的問題轉化為了1:1的問題。
(4)產(chǎn)品難點
a. 1:N中的N能夠支持多大
場景多樣化:從一個班級百號人刷臉簽到,到一個公司千號人的刷臉打卡,再到一個學校的幾萬人,一個四線城市幾十萬人,一個一線城市的幾千萬人,難度是呈指數(shù)上升的。
公司實際情況:目前各家公司的成熟人臉識別應用能夠支持幾萬到幾百萬人不等的應用場景,而且還有一個錯誤率的概念。比如,公司宣稱千萬分之一的錯誤率的情況下(1/10000000),人臉通過率其實只有93%,這是因為很難做到一定不發(fā)生錯誤,而且每個人都能識別通過。(假如一家公司說自己能做到億分之一的錯誤率,通過率能做到98%以上,多半是虛假宣傳,在實際使用中是很難達到的)
b.非配合場景
在配合場景下:比如ATM機刷臉取款,用戶會自主配合,將人臉以一個理想的角度通過識別。
而在非配合應用場景下,比如監(jiān)控視頻下的人臉識別,追蹤違法犯罪分子的身份信息,情況就要困難得多。這種情況下,用戶臉部會發(fā)生角度偏大,遮擋,光線不可控等問題。
c. 跨人種,跨年齡識別問題
研究發(fā)現(xiàn),在一個數(shù)據(jù)集上訓練好的模型,想到遷移到另外一個人種上,效果會出現(xiàn)較大程度的下降。另外,人臉隨著年齡的變化帶來的改變也給人臉識別帶來不小的挑戰(zhàn)。
要改善這樣的問題,一個必要條件是需要建立一個足夠完備的跨人種,跨年齡的人臉數(shù)據(jù)庫;在國內(nèi)的話,是以漢族人為主,同時跨年齡的人臉數(shù)據(jù)庫也比較難收集,需要不短的時間跨度。
d. 產(chǎn)品體驗
近來備受關注的刷臉支付,很多時候都會要求用戶輸入全手機號,或手機號后四位,以縮小用戶搜索庫大小,實際上這是比較影響體驗的。
西安一高校晨讀刷臉簽到,由于系統(tǒng)實際響應匹配時間過長,導致學生排百米長隊。
2.3 多人臉檢索(N:N)
(1)簡介
1:N同時作業(yè)就是N:N了,同時相應多張照片檢索需求。
(2)實際產(chǎn)品問題中
在視頻級N:N的校驗中,如果要提高通過率,很多時候是采取降低準確率的方式,降低算法隊列數(shù)量;同樣在一些比賽中為了降低誤識率,大大提高了準確率,所以算法在校驗的過程中必須遵循至少一個固定標準,追求的是速度效率還是最高準確率。
視頻流的幀處理所用,對服務器的計算環(huán)境要求嚴苛,目前的算法系統(tǒng)所支撐的輸出率非常有限。
主要的限制如下:
海量的人臉照片解析需要大量運算(目前很少看到在采集端直接解析的,都是照片剪裁)海量的人臉照片傳輸需要大量的帶寬(常見的720布控攝像頭抓取最小的人臉照片為20K)海量的人臉照片在后臺檢索需要耗費大量的運算(國內(nèi)主流主機為例,最多到24路攝像頭)。
3. 產(chǎn)品實戰(zhàn)中的物理問題
3.1 光照問題
(1)簡介
光照問題是機器視覺重的老問題,在人臉識別中的表現(xiàn)尤為明顯。由于人臉的3D結構,光照投射出的陰影,會加強或減弱原有的人臉特征。
(2)解決思路
A、對其進行包括光照強度和方向、人臉反射屬性的量化,面部陰影和照度分析等,嘗試建立數(shù)學模型,以利用這些光照模型,在人臉圖像預處理或者歸一化階段盡可能的補償乃至消除其對識別性能的影響,將固有的人臉屬性(反射率屬性、3D表面形狀屬性)和光源、遮擋及高光等非人臉固有屬性分離開來。
B、基于光照子空間模型的任意光照圖像生成算法,用于生成多個不同光照條件的訓練樣本,然后利用具有良好的學習能力的人臉識別算法,如子空間法,SVM等方法進行識別。
3.2 人臉姿態(tài)問題
(1)簡介
與光照問題類似,姿態(tài)問題也是目前人臉識別研究中需要解決的一個技術難點。姿態(tài)問題涉及頭部在三維垂直坐標系中繞三個軸的旋轉造成的面部變化,其中垂直于圖像平面的兩個方向的深度旋轉會造成面部信息的部分缺失。針對姿態(tài)的研究相對比較的少,目前多數(shù)的人臉識別算法主要針列正面、準正而人臉圖像,當發(fā)生俯仰或者左右側而比較厲害的情況下,人臉識別算法的識別率也將會急劇下降。面部幅度較大的哭、笑、憤怒等表情變化同樣影像著面部識別的準確率。
(2)解決思路
第一種思路:是學習并記憶多種姿態(tài)特征,這對于多姿態(tài)人臉數(shù)據(jù)可以容易獲取的情況比較實用,其優(yōu)點是算法與正面人臉識別統(tǒng)一,不需要額外的技術支持,其缺點是存儲需求大,姿態(tài)泛化能力不能確定,不能用于基于單張照片的人臉識別算法中等。
第二種思路:是基于單張視圖生成多角度視圖,可以在只能獲取用戶單張照片的情況下合成該用戶的多個學習樣本,可以解決訓練樣本較少的情況下的多姿態(tài)人臉識別問題,從而改善識別性能。
第三種思路:是基于姿態(tài)不變特征的方法,即尋求那些不隨姿態(tài)的變化而變化的特征。中科院計算所的思路是采用基于統(tǒng)計的視覺模型,將輸入姿態(tài)圖像校正為正面圖像,從而可以在統(tǒng)一的姿態(tài)空間內(nèi)作特征的提取和匹配。
3.3 遮擋問題
對于非配合情況下的人臉圖像采集,遮擋問題是一個非常嚴重的問題。特別是在監(jiān)控環(huán)境下,往往彼監(jiān)控對象都會帶著眼鏡,帽子等飾物,使得被采集出來的人臉圖像有可能不完整,從而影響了后面的特征提取與識別,甚至會導致人臉檢測算法的失效。
3.4 年齡變化
隨著年齡的變化,面部外觀也在變化,特別是對于青少年,這種變化更加的明顯。對于不同的年齡段,人臉識別算法的識別率也不同。一個人從少年變成青年,變成老年,他的容貌可能會發(fā)生比較大的變化,從而導致識別率的下降。對于不同的年齡段,人臉識別算法的識別率也不同。
3.5 人臉相似性
不同個體之間的區(qū)別不大,所有的人臉的結構都相似,甚至人臉器官的結構外形都很相似。這樣的特點對于利用人臉進行定位是有利的,但是對于利用人臉區(qū)分人類個體是不利的。
3.6 圖像質量
人臉圖像的來源可能多種多樣,由于采集設備的不同,得到的人臉圖像質量也不一樣,特別是對于那些低分辨率、噪聲大、質量差的人臉圖像(如手機攝像頭拍攝的人臉圖片、遠程監(jiān)控拍攝的圖片等)如何進行有效地人臉識別是個需要關注的問題。同樣的,對于高分辨圖像對人臉識別算法的影響也需要進一步的研究。
3.7 樣本缺乏
基于統(tǒng)計學習的人臉識別算法是目前人臉識別領域中的主流算法,但是統(tǒng)計學習方法需要大量的訓練。由于人臉圖像在高維空間中的分布是一個不規(guī)則的流形分布,能得到的樣本只是對人臉圖像空間中的一個極小部分的采樣,如何解決小樣本下的統(tǒng)計學習問題有待進一步的研究。
3.8 海量數(shù)據(jù)
傳統(tǒng)人臉識別方法如PCA、LDA等在小規(guī)模數(shù)據(jù)中可以很容易進行訓練學習。但是對于海量數(shù)據(jù),這些方法其訓練過程難以進行,甚至有可能崩潰。
3.9 大規(guī)模人臉識別
隨著人臉數(shù)據(jù)庫規(guī)模的增長,人臉算法的性能將呈現(xiàn)下降。
3.10 動態(tài)識別
非配合性人臉識別的情況下,運動導致面部圖像模糊或攝像頭對焦不正確都會嚴重影響面部識別的成功率。在地鐵、高速公路卡口、車站卡口、超市反扒、邊檢等安保和監(jiān)控識別的使用中,這種困難明顯突出。
3.11 人臉防偽
偽造人臉圖像進行識別的主流欺騙手段是建立一個三維模型,或者是一些表情的嫁接。隨著人臉防偽技術的完善、3D面部識別技術、攝像頭等智能計算視覺技術的引入,偽造面部圖像進行識別的成功率會大大降低。
3.12 丟幀和丟臉問題
需要的網(wǎng)絡識別和系統(tǒng)的計算機識別可能會造成視頻的丟幀和丟臉現(xiàn)象,特別是監(jiān)控人流量大的區(qū)域,由于網(wǎng)絡傳輸?shù)膸拞栴}和計算能力問題,常常引起丟幀和丟臉問題。
3.13 攝像機的頭像問題
攝像機很多技術參數(shù)影響視頻圖像的質量,這些因素有感光器(CCD、CMOS)、感光器的大小、DSP的處理速度、內(nèi)置圖像處理芯片和鏡頭等,同時攝像機內(nèi)置的一些設置參數(shù)也將影響質量,如曝光時間、光圈、動態(tài)白平衡等參數(shù)。
4. 實戰(zhàn)中的數(shù)據(jù)標注
4.1 數(shù)據(jù)標注
(1)一般來說,數(shù)據(jù)標注部分可以有三個角色
標注員:標注員負責標記數(shù)據(jù)。
審核員:審核員負責審核被標記數(shù)據(jù)的質量。
管理員:管理人員、發(fā)放任務、統(tǒng)計工資。
只有在數(shù)據(jù)被審核員審核通過后,這批數(shù)據(jù)才能夠被算法同事利用。
(2)數(shù)據(jù)標記流程
任務分配:假設標注員每次標記的數(shù)據(jù)為一次任務,則每次任務可由管理員分批發(fā)放記錄,也可將整個流程做成“搶單式”的,由后臺直接分發(fā)。
標記程序設計:需要考慮到如何提升效率,比如快捷鍵的設置、邊標記及邊存等等功能都有利于提高標記效率。
進度跟蹤:程序對標注員、審核員的工作分別進行跟蹤,可利用“規(guī)定截止日期”的方式淘汰怠惰的人。
質量跟蹤:通過計算標注人員的標注正確率和被審核通過率,對人員標注質量進行跟蹤,可利用“末位淘汰”制提高標注人員質量。
4.2 模型訓練
數(shù)據(jù)標記完成后,交由算法同學進行模型的訓練,期間發(fā)現(xiàn)的問題可與產(chǎn)品一起商討。訓練過程中,最好能可視化一些中間結果。一來可以檢測代碼實現(xiàn)是否有Bug,二來也可以通過這些中間結果,來幫助自己更好的理解這個算法的過程。
4.3 模型測試
測試同事(一般來說算法同事也會直接負責模型測試)將未被訓練過的數(shù)據(jù)在新的模型下做測試。
如果沒有后臺設計,測試結果只能由人工抽樣計算,抽樣計算繁瑣且效率較低。模型的效果,需要在精確率(識別為正確的樣本數(shù)/識別出來的樣本數(shù))和召回率(識別為正確的樣本數(shù)/所有樣本中正確的數(shù))中達到某一個平衡。
測試同事需要關注特定領域內(nèi)每個類別的指標,比如針對識別人臉的表情,里面有喜怒哀樂等分類,每一個分類對應的指標都是不一樣的。測試同事需要將測試的結果完善地反饋給算法同事,算法同事才能找準模型效果欠缺的原因。同時,測試同事將本次模型的指標結果反饋給產(chǎn)品,由產(chǎn)品評估是否滿足上線需求。
(1)測試環(huán)境說明
例如:
CPU:Intel(R) Core(TM) i7-4790 CPU @ 3.60 GHz
內(nèi)存:8GB
系統(tǒng):Ubuntu 14.04 x86_64/Windows 7 SP1 64bit
GCC版本:4.8.2
(2)測試集和測試需求說明
比如“圖片包含人臉大小應超過96*96像素,測試結果達到XX程度滿足需求。
經(jīng)典人臉身份識別測試集LFW,共包含13233 張圖片 5749 種不同身份;世界記錄99.7%。
CK+ (一個人臉表情數(shù)據(jù)集),包含固定表情和自發(fā)表情,包含123個人的593個表情序列。每個序列的目標表情被FACS編碼,同時添加了已驗證的情感標簽(生氣、厭惡、害怕、快樂、悲傷、驚訝)。
(3)需要說明“有效距離,左右角度,上下角度,速度”等參數(shù)值(范圍)
注:這和“部署的靈活性”相關——由于不同客戶不同場景的需求不同,所以技術方的人臉檢測模塊,一般可以通過調整參數(shù)得到N種亞型,以適應不同應用場景(光照、角度、有效距離、速度) 下對運算量和有效檢測距離的需求。
(4)測試結果——欠擬合
定義:模型沒有很好地捕捉到數(shù)據(jù)特征,不能夠很好地擬合數(shù)據(jù)
左圖表示size與prize關系的數(shù)據(jù),中間的圖就是出現(xiàn)欠擬合的模型,不能夠很好地擬合數(shù)據(jù),如果在中間的圖的模型后面再加一個二次項,就可以很好地擬合圖中的數(shù)據(jù)了,如右面的圖所示。
解決方法
添加其他特征項,有時候我們模型出現(xiàn)欠擬合的時候是因為特征項不夠導致的,可以添加其他特征項來很好地解決。例如,“組合”、“泛化”、“相關性”三類特征是特征添加的重要手段,無論在什么場景,都可以照葫蘆畫瓢,總會得到意想不到的效果。
添加多項式特征,這個在機器學習算法里面用的很普遍,例如將線性模型通過添加二次項或者三次項使模型泛化能力更強。例如上面的圖片的例子。
減少正則化參數(shù),正則化的目的是用來防止過擬合的,但是現(xiàn)在模型出現(xiàn)了欠擬合,則需要減少正則化參數(shù)。
嘗試非線性模型,比如核SVM 、決策樹、DNN等模型。
(5)測試結果——過擬合
定義:模型把數(shù)據(jù)學習的太徹底,以至于把噪聲數(shù)據(jù)的特征也學習到了,這樣就會導致在后期測試的時候不能夠很好地識別數(shù)據(jù),即不能正確的分類,模型泛化能力太差。例如下面的例子。
上面左圖表示size和prize的關系,我們學習到的模型曲線如右圖所示,雖然在訓練的時候模型可以很好地匹配數(shù)據(jù),但是很顯然過度扭曲了曲線,不是真實的size與prize曲線。
解決方法
從產(chǎn)品角度:
重新清洗數(shù)據(jù),導致過擬合的一個原因也有可能是數(shù)據(jù)不純導致的,噪音太多影響到模型效果,如果出現(xiàn)了過擬合就需要我們重新清洗數(shù)據(jù)。
增大數(shù)據(jù)的訓練量,還有一個原因就是我們用于訓練的數(shù)據(jù)量太小導致的,訓練數(shù)據(jù)占總數(shù)據(jù)的比例過小。
從算法角度:
交叉檢驗,通過交叉檢驗得到較優(yōu)的模型參數(shù);
特征選擇,減少特征數(shù)或使用較少的特征組合,對于按區(qū)間離散化的特征,增大劃分的區(qū)間;
正則化,常用的有 L1、L2 正則。而且 L1正則還可以自動進行特征選擇;
如果有正則項則可以考慮增大正則項參數(shù) lambda;
增加訓練數(shù)據(jù)可以有限的避免過擬合;
Bagging ,將多個弱學習器Bagging 一下效果會好很多,比如隨機森林等.
4.5 標注流程中遇到的問題
(1)項目過程中的不確定性
a. 出現(xiàn)原因:
一般情況下,只要數(shù)據(jù)標注的規(guī)范清晰,對規(guī)則的界定從一而終,標注工作的流程還是比較簡單的。
數(shù)據(jù)標注規(guī)范可能會在測試后根據(jù)結果情況進行調整,那么,規(guī)則修改前后“數(shù)據(jù)標注的一致性”就出現(xiàn)了問題,會導致多次返工,在時間和人工成本上頗有影響。
b. 解決方法:
1)如是分類性質的解析工作,建議標注規(guī)則先從非??隙ǖ姆呛诩窗组_始;規(guī)則設定由簡到繁,帶有疑慮數(shù)據(jù)再另外作記號。隨著規(guī)則一步步深入,可能會出現(xiàn)交叉影響,此時就需要放棄一些低頻問題的規(guī)則,余下的未標注的數(shù)據(jù)就根據(jù)新的規(guī)則標注。
2)如是多類規(guī)則同時進行的標注工作,需要把每類規(guī)則定得足夠細致。
3)實例:
如詢問機器人會干什么的語料中出現(xiàn),“你說你會干什么?”可以理解為詢問,也可能是嫌棄,這兩類應對的策略不同,有歧義,所以不能把它歸納如詢問類,需要把它從訓練集里剔除。
如人臉情緒識別中,一個人在流眼淚,有時可以理解為傷心落淚,有時可以理解為喜極而泣,還有時可以理解為激動落淚,甚至是感動落淚等,所以在看到此類照片時,不能簡單的憑借慣性化思維將其歸納到悲傷一類中,當人眼都很難判別清楚時,需要把它從訓練集里剔除。
5. 實際案例分析
5.1 某領域的人臉識別監(jiān)測與身份確認
(1)案例問題
光照影響:過暗或過亮等非正常光照環(huán)境,會對模型的效果產(chǎn)生很大干擾。
(2)解決方案
a. 從產(chǎn)品角度控制
在用戶可以更換環(huán)境的前提下(比如銀行刷臉取錢等),可語音/界面提示用戶目前環(huán)境不理想(頭歪、頭發(fā)、眼鏡等),建議進行正確的正臉取照。
在用戶不能控制更換環(huán)境的情況下(比如人臉識別、車輛識別等攝像頭固定的場景),只能通過調試硬件設施彌補這個問題。
晚上:由于攝像頭在晚上會自動切換到黑夜場景(從圖片上看就是從彩色切換為黑白),因此在晚上強光下(例如路燈照射)人臉就會過曝,這時,我們可以通過強制設置攝像頭環(huán)境為白天(圖像為彩色)來避免。而過暗的情況,從節(jié)省成本角度看,可以在攝像頭旁邊增加一個光線發(fā)散、功率不高的燈來彌補。當然這兩個問題也可以通過購買高質量的攝像頭解決,但這樣做也意味著更高的成本。
白天:白天也會出現(xiàn)光線過亮的情況,這種情況可以考慮用濾光片等等。
b. 從算法角度控制
用算法將圖片進行處理,可以將圖片恢復得讓人眼看清的程度。
5.2 某款人臉年齡識別產(chǎn)品
(1)案例問題
一款識別人臉年齡的產(chǎn)品對女性某個年齡階段(25—35)的判斷,誤差較大,經(jīng)過發(fā)現(xiàn),是因為該年齡階段有以下特點:
女性在這個年齡階段面貌變化不是很大,有時人眼給出的判斷誤差都很離譜。
在這個年齡層次的女性注重打扮,化妝品很大程度上掩蓋了其真實年齡,有時30多的跟20歲沒多大差別;C. 精裝打扮的和素顏的差別不是很大。
(2)解決方案
補充數(shù)據(jù):針對該年齡層次的人臉圖片數(shù)據(jù)做補充。不僅補充正例(“XXX”應為多少歲),還應補充負例(“XXX”不應為多少歲)。
優(yōu)化數(shù)據(jù):修改大批以往的錯誤標注。
數(shù)據(jù)總結:對化妝和不化妝的人臉圖片進行分析,以便調整算法參數(shù)。
(3)需求研究
自拍:如女性群體一般都希望自拍時,年齡的判別在心里預期中能越小越好,當在和一群人自拍中可以適當?shù)膶⒅魅斯哪挲g判別結果調低至達到用戶心理滿足感。此時可適當降低算法的參照度。
婚戀交友:在婚戀網(wǎng)站交友過程中,雙方都希望知道彼此的真實年齡信息,此時運用人臉年齡識別可以分析雙方的年齡、皮膚等物理信息為彼此提供參考。此時的信息就不能以達到心理滿足感為主了,應當追求準確度。
5.3 某款AR美顏相機
(1)無法定位出人臉
在背景出現(xiàn)多人或寵物時,相機有時并未能精確定位出目標用戶,而定位到背景圖片中的人、寵物、身旁的其他人;有時屏幕一片漆黑;有時顯示未檢測出人臉。
從產(chǎn)品角度:界面提醒用戶遠離復雜背景,或美顏時最好屏幕中只出現(xiàn)一人,或給出方框圖讓用戶自己手動選擇主要定位區(qū)域進行AR美顏;屏幕一片漆黑時可提醒用戶是否是光線太暗,或是攝像頭被障礙物遮擋等;
從算法角度:可對人臉關鍵點進行定位,計算目標用戶與攝像頭的距離或計算人臉在頻幕的區(qū)域占比來確定目標用戶(一般幾何距離近的、頻幕區(qū)域占比較大的為美顏目標),結合活體檢測來排除背景圖片人物的干擾等。
(2)圖像模糊昏暗
光線太暗、運動、對焦等造成模糊(攝像頭距離因素,造成圖像低頻存在,高頻流失等)
從產(chǎn)品角度:可提醒用戶在光線較溫和的區(qū)域進行美顏操作;或是擦除前置攝像頭的障礙物;或文字提示動作太快;或是更換高清前置攝像頭;或提示對焦失敗,給與對焦框圖讓用戶手動對焦等。
從算法角度:在美顏前可在后臺中調取手機亮度調節(jié)功能,用算法調節(jié)光線的亮暗程度以適應美顏所需的物理條件;用算法設法補齊高頻部分從,而減少對照片的干擾。
(3)人臉關鍵動作抓捕太慢
在進行AR美顏搞怪時(如張嘴動作,屏幕出現(xiàn)音符、唾沫星子等)對動作抓捕太慢(半天才抓捕到張嘴動作)。
從產(chǎn)品角度:文字提示不支持快速移動或提示緩慢移動(如,親!您的動作太快了,奴家還未反應過來等)
從算法角度:人臉姿態(tài)估計、關鍵點定位來捕捉人臉動作。
(4)關鍵位置添加虛擬物品失敗(如在嘴上叼煙、耳朵吊耳環(huán)、眼鏡戴墨鏡、臉顯紅暈)
從產(chǎn)品角度:文字/圖片提醒用戶擺正人臉位置。
從算法角度:可利用算法對人臉關鍵區(qū)域進行分割并定位,來達到人臉精準定位添加虛擬物品
5.4 人臉開門和人臉檢索
(1)人臉開門等跨網(wǎng)方案需要關注的因素
遠程算法更新:遠程算法更新必然會造成本地局域網(wǎng)功能暫時性無法使用。因此遠程算法更新的頻率、時間、更新效果都需要產(chǎn)品在更新前精確評估。
增刪改人臉數(shù)據(jù)與本地數(shù)據(jù)的同步:本地局域網(wǎng)和互聯(lián)網(wǎng)是無法直接交互的,因此用戶在互聯(lián)網(wǎng)一旦對人臉數(shù)據(jù)庫進行增刪改的操作,下發(fā)程序的穩(wěn)定性和及時性都需要重點關注。
硬件環(huán)境:本地存儲空間的大小和GPU直接影響到本地識別的速度。服務器的穩(wěn)定性影響到功能地正常使用。
守護程序:斷電等外置情況意外情況發(fā)生又被處理完善后,程序能自動恢復正常。
(2)人臉檢索等某一局域網(wǎng)方案需要關注的因素
速度:除了算法識別需要消耗一定時間外,該局域網(wǎng)下的網(wǎng)速會影響到識別結果輸出的速度。
數(shù)據(jù)庫架構:通過檢索結果關聯(lián)結構化數(shù)據(jù)。
閾值的可配置性:在界面設置閾值功能,從產(chǎn)品層面輸入閾值后,改變相對應的結果輸出。
輸出結果排序:根據(jù)相似度排序或結構化數(shù)據(jù)排序內(nèi)容地抉擇
云服務的穩(wěn)定性。
5.5 曠視科技官網(wǎng)產(chǎn)品體驗(多圖預警)
(1)年齡略有差距,自我估計+-5,性別基本無誤,頭部狀態(tài)略有誤差,人種誤差在30-40%(樣本量10,白種人和黃種人誤差明顯),情緒基本無誤,眼鏡種類識別有誤差(商品識別的范疇),強光狀態(tài)下表現(xiàn)不佳。
(2)邏輯錯誤:左眼(睜眼、普通眼鏡)、右眼(墨鏡);相似度大(下圖為張一山和夏雨)的較難區(qū)分(雙胞胎估計很難區(qū)分)
(3)遠距離檢測較難:左圖檢測出一張,右圖檢測出兩張(估計10米開外檢測不到)
(4)能夠識別蠟像、海報等非真人場景,因此在一些場合可欺騙攝像頭,如在金融領域里的身份識別,海關檢查等關鍵性應用中,將會有風險。
(5)佩戴的口罩無法檢測出人臉
(6)公司體驗對比結果
6. 項目虛擬實戰(zhàn)(以AR美顏APP為例,過程為理論經(jīng)驗推理所得,自己并未實習)
人臉檢測系統(tǒng)下,有很多FR相關的應用,比如人臉屬性識別(年齡、表情、性別、種族等)、人臉美顏/美妝、人臉聚類等等。我們從AR美顏/美妝這一個例子著手,探索項目的具體流程。
6.1 項目前期準備
(1)需求調研
場景及痛點:現(xiàn)在大多數(shù)美顏相機拍照后,都只有添加各種濾鏡、加幾個字、變白一點,早已經(jīng)不能滿足廣大女性群體對于美顏的需求;加上如今年輕女性和男性的審美標準和獵奇心理都在發(fā)生改變,社交方式的趣味性也變得不同,比如原來大家可能在空間、朋友圈、直播上看到美女帥哥都會覺得很吸睛,點贊粉絲直奔而來,但隨著快手和抖音的出現(xiàn),可以發(fā)現(xiàn)不僅僅是俊男靚女的照片和視頻能引起圍觀,同樣的各種普通群眾的搞怪合成視頻或合成照片(虛擬的AR特效帶來的各種浮夸造型)同樣能吸引無數(shù)粉絲的追捧,讓普通人也能享受被人膜拜的滿足感,而這些都需要用到人臉識別的相關技術。
(2)目標用戶畫像分析
了解目標用戶的主流群體:學生(大學生、高中生、初中生)群體對月美顏美妝的心理需求、時尚人士的美妝需求、長相普通的人和長相突出的人對于美顏的心理需求等。
了解用戶的年齡組成、地域分布對應美妝的特點。
不同收入群體(白領、金領、藍領等)的美顏美妝需求關注點。
(3)市場分析
美顏美妝的市場規(guī)模,產(chǎn)業(yè)鏈,潛在的邊際效應利益等。
6.2 文檔準備
(1)需求文檔
詳細的分析目前的用戶需求,針對不同群體,設計不同的產(chǎn)品解決方案,包括市場的需求文檔。
(2)數(shù)據(jù)文檔
前期的人臉圖片收集、分發(fā)、標注總結文檔(確定什么樣的圖片能要,什么樣的不能要),各種臉型(長的、寬的、圓的、前額凸出的、眼睛深陷的等等)的分類,多少人完成眼睛美顏圖片的分類等。
(3)產(chǎn)品文檔
場景落地文檔:如聽歌時頭上戴虛擬耳機,嘆氣時嘴上叼煙,說話時唾沫星子等針對不同的人臉姿態(tài)場景研究可能的落地產(chǎn)品形式。
產(chǎn)品的設計文檔:如美顏APP的頁面交互設計、導航設計、視覺呈現(xiàn)設計等;直播APP中的彈幕呈現(xiàn)設計、點贊分享按鈕設計等。
產(chǎn)品開發(fā)流程文檔:如PM先提交需求、可行性分析、立項、設計流程、開發(fā)流程,算法搭建、模型訓練、測試訓練等一系列流程的步驟及跟進。
模型訓練及測試文檔:數(shù)據(jù)標注好后,喂給算法,搭建人臉識別美顏的模型框架,如前期用成千上萬的照片訓練機器的人臉關鍵點定位,讓機器找準鼻子、眼睛、耳朵、嘴等位置等。
6.3 數(shù)據(jù)標注
(1)數(shù)據(jù)圖片的采集
在文檔的指引下,從公開網(wǎng)站上爬取收集符合模型訓練的人臉圖片、或是運用公司的數(shù)據(jù)圖片等
(2)數(shù)據(jù)圖片的標注
在標注規(guī)范文檔的指引下,將圖片分發(fā)給標注團隊進行數(shù)據(jù)的標注,對一些模棱兩可的圖片,如圖片中的人臉較模糊,此時該照片是要還是不要,期間應與算法同事保持溝通,有時暗的圖片在算法的優(yōu)化中能準確識別,這樣增加實際情況的容錯率(實際中較暗的人臉圖像也能定位出關鍵部位),那么這張圖片則視為有效數(shù)據(jù);有時較暗的圖片經(jīng)過算法之后并不能達到要求(及無法定位出人臉關鍵點),此時這照片則視為無效數(shù)據(jù),直接剔除;但是標注團隊并不知道這張圖片是有效還是無效,所以標注過程中,算法同事也需間接參與進來。
(3)數(shù)據(jù)的反饋
在部分圖片標注過程后,交于算法同事訓練模型調節(jié)參數(shù),期間將測試后的數(shù)據(jù)(精確率和召回率的計算,來反映數(shù)據(jù)的標注結果)反饋給還在標注的人員,有時可能造成過擬合有時可能造成欠擬合等方便對數(shù)據(jù)進行重新操作。
6.4 項目流程跟蹤
(1)產(chǎn)品立項后,每天的任務管理,流程進度跟蹤,產(chǎn)出時間管理,開會反饋工作成果等。
(2)軟硬件端:在開發(fā)流程文檔的指引下,按照常規(guī)的軟硬件跟蹤開發(fā)。
(3)算法流程:人臉采集、人臉檢測、圖像的預處理(模糊的則用算法去模糊等)、人臉特征提取、圖像的匹配識別、AR虛擬等。
6.5 項目測試
手機攝像頭測試
平臺后臺程序測序
算法與平臺后臺測試
模型識別時間、準確率、召回率測試
服務器穩(wěn)定性測試
網(wǎng)絡帶寬限制測試
其他平臺、硬件產(chǎn)品常規(guī)測試
目標用戶使用測試
6.6 項目優(yōu)化
經(jīng)過各種測試之后,針對反饋回來的數(shù)據(jù)進行產(chǎn)品的優(yōu)化。
如一張嘴就給你來根煙,結果煙插到鼻子上了,這就明顯是沒有定位到人臉關鍵點,是數(shù)據(jù)的原因還是算法的原因,這些都要經(jīng)過優(yōu)化處理;經(jīng)過種子用戶測試后,反饋得知這個點贊按鈕操作起來有點別扭,應該怎樣怎樣,這時可能要與設計的同學討論一下,該怎樣優(yōu)化產(chǎn)品的設計和體驗。
6.7 項目驗收上線
產(chǎn)品按照流程功能進行驗收后上線。
06 FR的個人看法
1. 人臉識別的現(xiàn)狀
1.1 實驗室效果和現(xiàn)實效果對比,差距巨大
現(xiàn)如今的人臉識別技術在金融、安防等領域的應用實際上的效果要比實驗室里的差很多,前陣子西安的某高校引入人臉識別晨讀打卡,由于反應速度太慢,到中午還排著很長的隊??梢妼嶋H生活中,由于各種物理因素(光照、角度、對焦、人魚攝像頭的距離等)導致抓拍的圖片質量比較差,又經(jīng)過網(wǎng)絡傳輸?shù)骄钟蚓W(wǎng)/互聯(lián)網(wǎng)進行對比(網(wǎng)絡差的過程中,反應很慢),使得實際效果大打折扣。大多數(shù)情況下,實際抓拍圖像質量遠低于訓練圖像質量。
1.2 訓練時的標準和實際應用的標準
大多數(shù)情況下,實際應用的標準會遠高于訓練標準。例如,人臉識別實驗室的標準是通過正臉數(shù)據(jù)訓練出模型,能識別正確人臉就可以。而實際情況可能沒有正臉數(shù)據(jù),對訓練提出了更高的要求。
1.3 訓練效果和現(xiàn)實效果
大多數(shù)情況下,實際效果會遠低于訓練效果?,F(xiàn)在市面上CV公司都是說自己的訓練效果在99%以上(無限接近于100%),但這不等于實際應用的效果就是99%。工業(yè)上場景復雜的人臉應用(類似識別黑名單這種1:N的人臉比對)正確率在90%以上就已經(jīng)是表現(xiàn)得很好的算法模型。
2. 未來發(fā)展趨勢的思考
隨著人工智能的火熱和發(fā)展,在全球信息化、云計算、大數(shù)據(jù)的背景下,生物識別技術的應用面會越來越大,由以人臉識別為其中代表。以下幾個發(fā)展趨勢呈現(xiàn):
網(wǎng)絡化趨勢:人臉識別解決了日常生活中一個基本的身份識別問題,今后,這總身份認證的結果會越來越多的和各行各業(yè)應用結合起來,并通過互聯(lián)網(wǎng)和物聯(lián)網(wǎng)得以信息共享,簡單來說就是“身份識別+物聯(lián)網(wǎng)”的發(fā)展趨勢未來將十分普遍。
多生物識別模式融合趨勢:人臉識別技術現(xiàn)如今的還達不到人類的預期體驗,對于一些安全性要求高的特殊行業(yè)應用,如金融行業(yè),人臉識別很容易被不法分子攻破漏洞進行身份造假,因此需要多種生物特征識別技術的融合應用(如活體檢測、虹膜識別等)以進一步提高身份識別的整體安全性。
云技術:未來的云技術也將大大給人臉識別的應用提供數(shù)據(jù)和計算力支持,基于云技術的門禁控制可以同時管理成百上千的通道,加上物聯(lián)網(wǎng)的普及,用戶對任何地方的門禁進行遠程控制和管理,準確識別本人,將廣泛應用到企業(yè)、學校、培訓機構、大型商業(yè)場合、辦公大樓的門禁解決方案。
3. 盈利模式的思考
(1)單一盈利模式
現(xiàn)如今的人臉識別技術服務商,都以將技術接入第三方應用軟件,或是搭載在智能終端上,通過收取一定技術服務費來獲取盈利。目前國內(nèi)的第一梯隊創(chuàng)業(yè)公司都在技術和數(shù)據(jù)上沉淀,而是否盈利,盈利多少都還尚不明確。
如在金融領域,人臉識別用于身份確認,然而身份確認之后,就沒你什么事,你跟用戶的關系只在于,打開某款APP或某個終端場景(閘機)的鑰匙,打開之后,用戶的所有行為都沉浸在APP中,并沒有給FR技術服務商帶來其他的使用數(shù)據(jù)及用戶行為信息;從根本上來看,用戶只是用鑰匙開了門,而往往是門里面的東西(用戶數(shù)據(jù))才能帶來商業(yè)價值。
(2)對比互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)
互聯(lián)網(wǎng)時代早期有很多功能性的產(chǎn)品。如早年間的QQ只有聊天的功能;360用戶只是用它來給電腦殺殺毒;百度就是個即問即答的老師;搜狐、新浪也就是用來看看新聞而已。
移動互聯(lián)網(wǎng)時代也有很多這樣的產(chǎn)品。滴滴幫用戶叫個車;高德也就差不多是古代的指南針。
案例分析:眾所周知,上面舉的例子不是互聯(lián)網(wǎng)時代的高市值企業(yè),就是移動互聯(lián)網(wǎng)時代高融資率的企業(yè)。
QQ后來用戶數(shù)越來越多,QQ號成網(wǎng)絡身份的一個必不可少的身份屬性之一,用戶大量的數(shù)據(jù)沉淀在其中,通過用戶的使用行為信息,小馬哥知道了這么多人都用我的QQ,那趕緊搞個什么娛樂活動,讓有QQ號的人都來玩,于是就有了龐大的游戲帝國產(chǎn)業(yè),游戲里面又加上各種鉆(什么粉鉆、綠鉆、紫鉆、黑鉆)對應的各種會員機制,QQ號又以其他的方式來獲取用戶的行為信息如,QQ音樂(下歌要錢、換皮膚要錢)、騰訊視頻(各種廣告收入、會員充錢等)、QQ郵箱(會員高級功能)等,讓人們越加沉浸在QQ帝國的生態(tài)圈中,莫名其妙的就被吸走了很多錢。可能你會說我還可以用其他的呀,但是好煩啊,這個也要注冊,那個也要注冊,明明一個QQ號可以玩轉所有,沒辦法我就是這么懶,所以說懶人創(chuàng)造了這個世界的絕大多數(shù)科技產(chǎn)品。
滴滴現(xiàn)如今估值幾百億美刀,投資人為何給一個只幫你叫車的公司如此高的估值,我們知道滴滴打車比一般的直接叫車要便宜一點點(專車除外),那它的盈利點從而來,投資人有看中了它的哪一點。其實不難理解,滴滴之所以有如今的估值,正因為其幾乎壟斷了國內(nèi)的打車市場,大量的用戶使用它,必然就會有用戶的使用數(shù)據(jù),而這些數(shù)據(jù)便是變現(xiàn)的好東西,一旦整個生態(tài)搭建完畢,未來滴滴就將這些數(shù)據(jù)用無人駕駛方面,一旦搶占了市場的制高點,未來在行業(yè)鏈上就有絕對的議價能力。比如現(xiàn)在人們已經(jīng)習慣了去一個陌生地方,就來一個滴滴打車,若滴滴突然漲價,一公里漲幾毛或一元,你用它還是不用;心理學表明,人養(yǎng)成一個習慣之后,就會有慣性,對于沒有超出心理承受預期的東西(不是漲價漲得特別離譜),人們會一直保持這個習慣中的一些行為,而不愿做出改變(也就是常說的人有一種惰性)。因此我想大多數(shù)人都會去接受,因為可能你花時間自己打車也是需要很多成本的;用戶基數(shù)比較大,那這個漲了幾毛的就會帶來不少的盈利空間(中國十幾億人口,一人給我一毛錢,我都能成為億萬富翁了,但對別人而言,一毛錢可能連袋辣條都買不到),這還只是一方面。
d. 人臉識別作為一種技術,并沒有實際的產(chǎn)品承載點。以上分析中的種種產(chǎn)品,你都能叫出來名字,是因為這些功能或是技術都有一個實際的產(chǎn)品承載點,比如QQ用了即時通訊技術,頭條背后的智能推薦用了機器學習相關技術,但在我們心目中它不是以一種技術停留在我們的心智空間里,它是一款實實在在的產(chǎn)品,我們可以操作它,使用它。無論是QQ還是滴滴、高德、今熱頭條、新浪等等,這些產(chǎn)品我們都能實實在在的接觸到,并且后續(xù)行為都在這個技術的承載點里(如即時通訊技術的產(chǎn)品承載點是QQ,機器學習技術的產(chǎn)品承載點是頭條),那么用戶的數(shù)據(jù)自然也就在產(chǎn)品承載點之中,這樣我們才能應用數(shù)據(jù)來創(chuàng)造價值,從而實現(xiàn)盈利。
e. 人臉識別目前的階段停留在大眾視野里只是一種技術,人們的潛意識里并沒有建立起一個概念,那就是這個人臉識別到底是個什么東西,我能操作它嗎?它能給我?guī)硎裁茨兀慷坏┤四樧R別有一個產(chǎn)品承載點,讓用戶能實實在在的進行操作,并有數(shù)據(jù)積累,才會有盈利的可能。而人臉識別的產(chǎn)品承載點是什么,目前還都沒有出現(xiàn),未來肯定會有,這也是未來的一大機會,無論是什么,這個產(chǎn)品必然都能被用戶實實在在的接觸到,并且后續(xù)也都將在其中產(chǎn)生行為,后者是必要條件。
4. 信息安全的思考
一旦前面提到的產(chǎn)品承載點出現(xiàn),F(xiàn)R技術必將大行其道,隨之而來的可能是信息安全問題。
物聯(lián)網(wǎng)時代之下,萬物互聯(lián),萬物智能,F(xiàn)R技術也必將融入到物聯(lián)網(wǎng)之中,人們可能都不需要身份類的實物證件?;丶议_門掃臉,外出開車門掃臉,進公司掃臉,出去吃飯付錢掃臉。當人臉成為你的虛擬證件時,一旦又不法公司、團體、個人泄露或是破解了你的人臉虛擬證件,那么你的一切信息可能都暴露在他人面前,財產(chǎn)、房子、車子可能都有風險,還有可能因為丟失人臉證件,將無法證明你自己的身份,就像你丟了身份證一樣??上攵畔踩闹匾?,未來估計會誕生一個虛擬身份信息系統(tǒng),里面有每一個人的身份信息,當?shù)谌叫枰矸菡J證時,可接入系統(tǒng)等。前陣子臉書因為社交信息泄露而惹上眾怒引起公關麻煩。我想未來如果有一個公司專門負責用戶信息數(shù)據(jù)的監(jiān)管,我也不會覺得很奇怪的。
5. 產(chǎn)品形式的思考
可接觸性:無論FR技術最終是以硬件還是軟件方式出現(xiàn)在用戶面前,前提是用戶能夠實際的接觸到,而不是仿佛在云端不可觸摸,只有用戶接觸了,才能在心里產(chǎn)生出它是一款產(chǎn)品,而不是一項技術的概念。如AR美顏就是實實在在可操作的產(chǎn)品。
連續(xù)使用性(高頻性):產(chǎn)品必須是用戶能連續(xù)使用的,也就是所謂的高頻性,只有這樣才能產(chǎn)生可利用的信息數(shù)據(jù)來變現(xiàn)。
功能承載性:產(chǎn)品要能以一種功能的方式為用戶解決生活中的某一類問題。人臉除了身份認證(金融行業(yè)、安防門禁)、視覺欣賞(美顏美妝、整容)、社交評判依據(jù)(婚戀網(wǎng)站)還能用來干什么呢?
To C or To B:結合互聯(lián)網(wǎng)時代的發(fā)展,我個人始終認為一款產(chǎn)品只有圍繞用戶提供服務,才有可能成就明星產(chǎn)品。從歷史的角度來看,每一個王朝的興衰更替都是以老百姓的意愿為轉移,有道是“水能載舟亦能覆舟”。產(chǎn)品亦是如此,產(chǎn)品概念誕生到現(xiàn)在,每一款產(chǎn)品的興衰也都是建立在用戶的基礎之上。任何一款產(chǎn)品拋開用戶之后都只能死亡,盡管目前FR大層面上應用在B端,但是未來成功的FR應用產(chǎn)品必然是誕生在C端。
-
人工智能
+關注
關注
1789文章
46652瀏覽量
237060 -
人臉識別
+關注
關注
76文章
4002瀏覽量
81673
原文標題:深度干貨!一文讀懂人臉識別技術(建議收藏)
文章出處:【微信號:szwlw26059696,微信公眾號:物聯(lián)網(wǎng)之聲】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論