7月7日,全球人工智能和機器人峰會在深圳如期舉辦,由CCF中國計算機學(xué)會主辦、雷鋒網(wǎng)與香港中文大學(xué)(深圳)承辦的這次大會共聚集了來自全球30多位AI領(lǐng)域科學(xué)家、近300家AI明星企業(yè)。 當(dāng)今AI和機器人革命浪潮下,包括我國在內(nèi)的各國政府和投資界,都意識到推動這兩個領(lǐng)域各個方面的全球協(xié)作、迎接機遇與挑戰(zhàn)的重要性。而擁有完備制造產(chǎn)業(yè)鏈、作為改革開放窗口的深圳,則是推動AI與機器人行業(yè)產(chǎn)、學(xué)、研跨界協(xié)作的理想中心。基于這樣的時代背景,「CCF-GAIR」應(yīng)運而生。
山世光,中科院計算所研究員、博導(dǎo),基金委優(yōu)青,CCF青年科學(xué)獎獲得者,現(xiàn)任中科院智能信息處理重點實驗室常務(wù)副主任,中科視拓創(chuàng)始人、董事長兼CTO。他的研究領(lǐng)域為計算機視覺和機器學(xué)習(xí)。已在國內(nèi)外刊物和學(xué)術(shù)會議上發(fā)表論文200余篇,其中CCF A類論文60余篇,論文被谷歌學(xué)術(shù)引用10000余次。曾應(yīng)邀擔(dān)任過ICCV,ACCV,ICPR,F(xiàn)G,ICASSP等國際會議的領(lǐng)域主席,現(xiàn)任IEEE,TIP,CVIU,PRL,Neurocomputing,F(xiàn)CS等國際學(xué)術(shù)刊物的編委。研究成果獲2005年度國家科技進步二等獎,2015年度國家自然科學(xué)二等獎,CVPR2008 Best Student Poster Award Runner-up獎。
如何看待這次AI熱潮?
谷歌AlphaGo與李世石的世紀之戰(zhàn),讓人工智能(AI)這個話題再度火爆起來。山世光博士早在20年前就開始做AI領(lǐng)域中的計算機視覺技術(shù)研究,在這次GAIR大會分享中,他結(jié)合自己過去的科研經(jīng)歷和行業(yè)觀察,分別從四個不同的角度分析,給出了他對此次AI熱潮的一些看法:
從方法論角度看:過去幾十年流行的人類專家知識驅(qū)動的AI方法論被數(shù)據(jù)驅(qū)動的AI方法論全面取代。這里的數(shù)據(jù)主要指有監(jiān)督的大數(shù)據(jù)。人類智能的產(chǎn)生是不是也完全基于有監(jiān)督的大數(shù)據(jù)學(xué)習(xí)而來尚不得而知。從這個意義上講,計算智能和人類智能之間的差異也不得而知。
從學(xué)術(shù)角度來看:雖然有監(jiān)督大數(shù)據(jù)驅(qū)動的方法論在某些領(lǐng)域已經(jīng)構(gòu)建出了超越人類智能的AI,但基于有監(jiān)督大數(shù)據(jù)的深度學(xué)習(xí)是否構(gòu)建機器智能時代充分且必要的基礎(chǔ)性方法?他個人認為至少是不充分的,需要新的方法論。
從算法角度來看:主要得益于兩個方法:一是深度學(xué)習(xí),二是增強學(xué)習(xí)。增強學(xué)習(xí)被大家所熟知是因為AlphaGo在圍棋上戰(zhàn)勝了人類最強的棋手。但實際上增強學(xué)習(xí)在很多場景下是不能用的,至少目前在視覺和語音處理等任務(wù)中尚未得到有效的應(yīng)用。而深度學(xué)習(xí)可類比人類學(xué)習(xí)方法里的歸納學(xué)習(xí),卻不適合演繹學(xué)習(xí)。深度學(xué)習(xí)是否可以廣泛應(yīng)用于推理類任務(wù)尚不得而知。
從做計算機視覺的角度來講:包括智能視頻監(jiān)控、考勤門禁等在內(nèi)的安防應(yīng)用以及醫(yī)療讀圖、基于視覺的汽車輔助駕駛等都是計算機視覺技術(shù)落地的方向,商業(yè)化產(chǎn)品已經(jīng)雨后春筍般涌上市場。
關(guān)于演講主題中的X表示什么意思,山世光博士在接下來的演講中給出了X數(shù)據(jù)的五個含義,分別是:第一,大數(shù)據(jù);第二,小數(shù)據(jù);第三,臟數(shù)據(jù);第四,無監(jiān)督數(shù)據(jù);第五,是增廣,通過增廣獲得更大的數(shù)據(jù)集。下面的分享實錄中會有對各個含義的詳細解讀。
為什么要做X數(shù)據(jù)驅(qū)動?
山世光博士將深度學(xué)習(xí)算法、強大算力、大數(shù)據(jù)比作AI革命背后的“三駕馬車”,而這“三駕馬車“背后的現(xiàn)實問題是金錢投資,需要非常厲害的牛人做深度學(xué)習(xí)算法、搭建更加強大的計算力平臺以及收集更多的數(shù)據(jù)。其中數(shù)據(jù)收集和標注的成本日趨昂貴,所以他們希望在這方面看看能不能做點什么。
關(guān)于SeetaVision視覺技術(shù)
人臉識別:SeetaVision的多姿態(tài)人臉檢測技術(shù)是在標準人臉檢測評測集FDDB上最好的方法之一。在100個誤檢的情況下,SeetaVision的檢測率達到了92%。此外還研發(fā)了檢測加速技術(shù),從而可以在嵌入式設(shè)備上實現(xiàn)實時的多姿態(tài)人臉檢測。第二個人臉核心技術(shù)是面部關(guān)鍵特征點的定位,SeetaVision實現(xiàn)了81個關(guān)鍵特征點的超實時檢測與跟蹤。SeetaVison人臉識別具體應(yīng)用包括人證一致性驗證,員工考勤與打卡、黑白名單目標人檢測等。
手勢識別:SeetaVision可以實現(xiàn)實時的手語翻譯,就像語音識別一樣,把1000常用詞形成的手語句子翻譯成自然語言文本?;诖?,視拓目前已經(jīng)和美的合作,將其應(yīng)用于智能家居中。
情感計算:SeetaVision的基本表情識別率超過85%,基于普通攝像頭的心率估計也非常接近醫(yī)療設(shè)備的檢測結(jié)果。
視頻結(jié)構(gòu)化:面向智能視頻監(jiān)控類應(yīng)用,SeetaVision實現(xiàn)了嵌入式設(shè)備上的實時人車跟蹤,準確度超過85%。
無人機視覺:針對無人機地面目標檢測任務(wù),SeetaVision實現(xiàn)了高清視頻中地面車輛等目標的實時檢測
分類與跟蹤。
山世光博士還表示,中科視拓的終極目標是讓AI知人知面看世界,給每個AI裝上智慧的眼睛,讓它看清在跟誰交互,周圍環(huán)境如何,以及正在發(fā)生什么事情。而面對目前市場上已有多家做人臉識別等視覺技術(shù)的創(chuàng)業(yè)公司,如何才能在競爭中脫穎而出,山世光博士表示,將SeetaVision的商業(yè)模式定位為“開源賦能“,走差異化競爭路線,重點關(guān)注與行業(yè)客戶之間的深度合作。
在大會分享的最后,山世光博士對AI未來發(fā)展需要注意哪些問題做了一些總結(jié),他認為:
其一,魯棒性可能是AI和視覺智能一個最致命的問題。其二,AI的成長需要多模態(tài)協(xié)同,不能單靠視覺智能或語音智能等。其三,如何基于小數(shù)據(jù)甚至是零數(shù)據(jù)準確完成各類視覺任務(wù),還需要大量的深入研究。
以下是山世光博士在CCF-GAIR 2017的現(xiàn)場實錄,AI科技評論做了不改動原意的編輯:
我今天報告的題目是《X數(shù)據(jù)驅(qū)動的Seeta平臺與技術(shù)》,可能大家都在想X是什么,這里我們暫時認為X就是一個問號。在接下里的報告中,我會從X數(shù)據(jù)入手,來重點介紹一下我們所做的工作。
其實我們大家都非常深切的體會到,我們正在邂逅一場前所未有的人工智能技術(shù)革命和應(yīng)用的井噴。在這樣的一個狀態(tài)下,它的背后是有“三駕馬車”或者“三個引擎”,就是深度學(xué)習(xí)算法、強大算力以及大數(shù)據(jù),這些因素的共同作用才產(chǎn)生了這一輪新的AI熱潮。
我這次報告的題目為什么叫“X數(shù)據(jù)驅(qū)動”,主要從數(shù)據(jù)角度出發(fā),來看對AI產(chǎn)業(yè)能做什么事。
這一輪人工智能的熱潮,從方法論的角度來講,主要是源自AI研究范式的變遷。即從人類專家知識驅(qū)動的方法論到數(shù)據(jù)驅(qū)動的方法論的變遷。我們指的數(shù)據(jù),其實是特指有監(jiān)督的大數(shù)據(jù):一方面是數(shù)據(jù)量必須足夠大,另一方面這些數(shù)據(jù)還必須是帶有內(nèi)容標簽的。人類智能的本質(zhì)同現(xiàn)在的計算智能之間的差異,在目前而言還是不得而知。因此我們非常有必要從學(xué)術(shù)角度來探討,數(shù)據(jù)驅(qū)動或者有監(jiān)督的大數(shù)據(jù)驅(qū)動這樣一種方法論,是否會是我們構(gòu)建整個機器智能時代的基礎(chǔ)設(shè)施。
當(dāng)然,在目前這種有監(jiān)督大數(shù)據(jù)驅(qū)動的方法論條件下,在某些領(lǐng)域確實已經(jīng)出現(xiàn)AI超越人類智能的情況。這一輪AI熱潮,從算法角度,主要得益于兩個東西:一是深度學(xué)習(xí)、二是增強學(xué)習(xí)。增強學(xué)習(xí)被大家熟知是因為AlphaGo在圍棋上戰(zhàn)勝了人類最強的棋手。實際上增強學(xué)習(xí)并不是放之四海皆可用的方法,它在很多場景下是不能用的,特別是在視覺和語音等場景下并沒有得到非常有效的應(yīng)用。因為它需要AI能夠自動的判斷對錯,比如說下圍棋或者一個游戲,做得好或者不好,算法是可以自動去判斷好或者不好、對或者錯的。像我們的視覺、聽覺這樣的一些問題,比如說做人臉識別,AI算法本身識別錯了,它是不能夠知道自己識別錯了的,識別對了它自己也不知道,所以很難形成一個迭代的自我增強過程。如果是硬去迭代,很可能會學(xué)偏學(xué)傻,乃至走火入魔。
所以增強學(xué)習(xí)在這些問題上并沒有得到非常好的應(yīng)用。深度學(xué)習(xí)目前適合解決我稱之為“好數(shù)據(jù)肥沃”的領(lǐng)域,而且通常只對應(yīng)于人類學(xué)習(xí)方法里的歸納學(xué)習(xí)。然而,人類的學(xué)習(xí)除了歸納學(xué)習(xí)之外,還有演繹推理。針對演繹推理,深度學(xué)習(xí)則存在嚴重短板。舉個演繹推理的例子,比如說《幾何原本》,是歐幾里德從5條公理推演出來的。想用深度學(xué)習(xí)做這類自動推演,目前來看是完全沒有希望的。當(dāng)然,這是一個很極端的例子,但我們在日常生活中是需要大量推理的,深度學(xué)習(xí)在這一點上,目前來看也沒有太多可以有作為的地方。
李開復(fù)老師在過去一段時間多次提及,在未來10年可能人工智能會取代10種職業(yè)50%的工作。我不知道大家怎么去看,我個人覺得保姆可能還是很難取代的,也許醫(yī)生更有可能會被取代。從我們做計算機視覺的角度來講,醫(yī)療讀圖是一個很重要的方向。對于做人臉識別或者圖像識別的人來說,保安則是我們更感興趣的群體,在未來10年,也許不是50%,而是80%的保安,會被一些自動的系統(tǒng)所取代。比如說我們的一個企業(yè)客戶,用我們的人臉識別技術(shù)做單位的門禁和考勤,在1萬個員工的情況下,可以實現(xiàn)不需要員工卡自動做識別、開門和考勤的系統(tǒng),我想可能未來真的不需要一個保安坐在那兒了。
我和我的學(xué)生們在去年8月,基于計算所在視覺信息處學(xué)習(xí)方面的研究成果做了一個公司,叫做中科視拓,形成了一個產(chǎn)學(xué)研聯(lián)合體,一起開發(fā)SeetaVision技術(shù)。我們的目標是讓AI能知人識面看世界,讓每個AI都長上智慧的眼睛,讓它看清它在跟誰交流、了解周圍正在發(fā)生什么事情,以便智能地應(yīng)對這些場景。
我們主要的底層技術(shù),就是在機器學(xué)習(xí)特別是深度學(xué)習(xí)理論、方法與技術(shù)。基于這些機器學(xué)習(xí)的方法,在人臉識別、情感計算、視頻結(jié)構(gòu)化和無人機視覺等方面,我們有自己的一些布局。我們過去的積累包括在這些領(lǐng)域的競賽中,取得一些最好的成績,其中包括人臉識別、手勢識別、行人檢測、圖像搜索等等任務(wù)。我們剛才也提到,業(yè)界已經(jīng)有像商湯、Face++等等有很多前輩公司,比我們早走了多年。我們在商業(yè)模式上也希望不斷探索新的路徑。當(dāng)前階段,我們采取”開源賦能“的差異化做法與一些重點客戶開展了深度合作。
所謂的開源,是指我們可以給B端客戶提供源碼級的引擎技術(shù)。更進一步的是賦能,我們可以提供生成這些引擎的引擎技術(shù)。通俗地講,我們不但賣雞蛋,還賣下蛋的雞,這是完全不同的合作模式。去年8月中科視拓開源了Seetaface人臉識別引擎,它雖然不是業(yè)界最好的人臉技術(shù),但提供了一個優(yōu)秀的基準,從而顯著地提升了業(yè)界基準水平,也為一些公司提供了參照。有很多客戶把Seetaface代碼用到產(chǎn)品中,并進而與我們建立了更深度的合作。
在這里我也展示我們的一些核心技術(shù):
多視角人臉檢測技術(shù)
在人臉檢測方面實現(xiàn)多姿態(tài)的檢測,在FDDB上是最好的方法之一。其實人臉檢測大家都非常熟悉,就是我們把這個畫面有多少個人臉找出來。FDDB也是在這個領(lǐng)域里面被廣泛采用的標準評測,我們在100個誤檢時達到了接近93%的檢測率。另外,我們還實現(xiàn)了很多加速的方法,實現(xiàn)人臉的快速檢測,包括在一些嵌入式設(shè)備上實現(xiàn)實時的檢測。
面部關(guān)鍵點定位技術(shù)
面部關(guān)鍵點定位技術(shù),是指在檢測到人臉的基礎(chǔ)上,實現(xiàn)一面部關(guān)鍵點的定位。我們的技術(shù)可以定位80多個面部特征點,當(dāng)然我們也可以定位更多,但數(shù)目并不是關(guān)鍵。我們已實現(xiàn)超實時的特征點定位,在相關(guān)的數(shù)據(jù)庫中我們也取得了最好的成績?;谶@些技術(shù),我們落地了一些人臉識別應(yīng)用,包括1:1的人證比對、網(wǎng)紋身份證照片人臉驗證、以及人臉考勤系統(tǒng)等。與簡單人證比對相比,在公安的應(yīng)用場景,身份證查驗中心會把照片加一個網(wǎng)紋,再傳回來,而我們則需要首先把網(wǎng)紋去掉,再跟現(xiàn)場人員比較看看是不是這個人。目前我們的算法是可以正確判斷的。在人臉考勤方面,技術(shù)已經(jīng)成功應(yīng)用,可以實現(xiàn)1萬員工的考勤和門禁,在誤識率約為1%的情況下,可以達到95%以上的正確識別率。
情感計算與心率估計
此外我們公司還在情緒感知方面有一些積累,可以實現(xiàn)85%以上的表情識別率。SeetaVision還可以實現(xiàn)準確的心律估計,這里的心律估計是指通過攝像頭拍攝人臉部視頻來估計人的心跳次數(shù)。只要攝像條件好,即可準確估計。
手勢識別與視頻結(jié)構(gòu)化分析
我們還有一些手勢識別的技術(shù),以及手語實時翻譯技術(shù)。手語識別是指,用手語打一句話,把手語實時翻譯成文本,我們目前已經(jīng)和美的合作,實現(xiàn)對一些基本手勢的準確識別,用于智能家居控制。
此外在視頻結(jié)構(gòu)化分析方面,我們也可以實現(xiàn)人車的跟蹤,在TX1上做到準確度85%以上的實時檢測。
無人機視覺技術(shù)
我們還有一個方向是在做無人機視覺,能夠?qū)崿F(xiàn)地面車輛目標檢測,以及地面車輛的實時跟蹤。左圖是地面車輛目標檢測。每個綠框都是我們檢測出來的車輛。我們特意選了一個堵車的場景,在目標如此小且密集的情況下,人為識別都是有很多困難的,但我們的算法能夠?qū)崿F(xiàn)接近90%精度的檢測。右邊的視頻是實現(xiàn)跟蹤,能夠?qū)崿F(xiàn)對地面上車輛的實時跟蹤。
下面我回到報告的主題上來,即X數(shù)據(jù)驅(qū)動,針對X是什么,我想講幾種不同的場景。
第一,X=大,就是大數(shù)據(jù)驅(qū)動的視覺引擎的設(shè)計?,F(xiàn)在,無論大公司還是小公司,都是在拼命的收集數(shù)據(jù),進行深度學(xué)習(xí)模型的優(yōu)化和訓(xùn)練。我們在人臉方面有百萬級人數(shù)的億級人臉數(shù)據(jù),每個人又進一步有很多不同的場景和照片。我們在車輛和行人方面也有千萬量級的圖像和視頻,我們對這些數(shù)據(jù)做了大量的標注,如:人的頭部、軀干和四肢的標注信息。在無人機視覺方面,我們大概三四個月時間,就積累了百萬量級的無人機視覺數(shù)據(jù),可以實現(xiàn)對車輛目標以及車輛類型的檢測和估計。在大數(shù)據(jù)的條件下,類似于人的熟能生巧和見多識廣,見得多你就可以積累出來非常多的經(jīng)驗。
第二,X=小,在很多場景下,我們?nèi)祟惈@得智能的能力并沒有依賴于大量的數(shù)據(jù)學(xué)習(xí),反而是一些小數(shù)據(jù)。所以在小數(shù)據(jù)的情況下,如何使得我們的算法也能夠有效果。
最通常的思路是做遷移學(xué)習(xí),所謂遷移學(xué)習(xí)最簡單的是做Finetune,我們把一個已經(jīng)訓(xùn)練好的模型,再用小量的數(shù)據(jù)做調(diào)整和優(yōu)化,使得它適應(yīng)這些小數(shù)據(jù)所代表的應(yīng)用場景。例如:我們在2015年參加感知年齡估計的競賽并取得了亞軍。我們采用的算法是首先在人臉識別的數(shù)據(jù)庫里面,利用百萬級的數(shù)據(jù)做訓(xùn)練,再用幾萬量級真實年齡的數(shù)據(jù)做Finetune,最后在競賽方提供的感知年齡的測試數(shù)據(jù)集上,取得了非常好的效果。
在表情識別方面,我們在2014年參加了一個競賽,因為沒有大量的表情數(shù)據(jù),因此,我們采用人臉識別的數(shù)據(jù)做訓(xùn)練,直接拿人臉識別的特征來做,最后也是取得第一名的成績??梢娢覀兒芏嗟娜蝿?wù),特別是相關(guān)的任務(wù),是可以運用相關(guān)領(lǐng)域的數(shù)據(jù)來實現(xiàn)遷移的。
另外一個例子,比如面部特征點定位,要用到在面部標注點的數(shù)據(jù)集?,F(xiàn)在學(xué)術(shù)界或者工業(yè)界可能會有很多不同類型的數(shù)據(jù),比如一個數(shù)據(jù)集可能是68個點、另外一個數(shù)據(jù)集是74個點,它們之間的定義是不一樣的,如何把它合并起來,使它變大,從而形成更好的算法,也是一個很值得關(guān)注的方向。
我們的一個博士生就做了這樣的一個算法,利用預(yù)測填補和深度回歸的方式解決問題,其背后也是深度學(xué)習(xí)的方法以及一些適應(yīng)性的調(diào)整。
另外一個例子,手機上會有越來越多的攝像頭,這些攝像頭有可能是彩色的、也有可能是黑白的、還有可能是深度的,還有可能是近紅外的。這些攝像頭采集的數(shù)據(jù),如何實現(xiàn)共用,這也是一個非常值得研究的話題。比如說在RGB-D數(shù)據(jù)集不足的情況下,如何基于大量的RGB數(shù)據(jù)來完成跨模態(tài)的融合,以實現(xiàn)更好的結(jié)果。
首先通過不同模態(tài)的數(shù)據(jù)分別建立深度學(xué)習(xí)的模型,之后再通過共有的網(wǎng)絡(luò)去實現(xiàn)它們的融合,再反饋回來調(diào)整每個模塊的深度模型,最終可以實現(xiàn)不同模態(tài)數(shù)據(jù)之間的跨模態(tài)的比對以及融合利用。
這種方式其實也是在利用小數(shù)據(jù)和大數(shù)據(jù)的關(guān)系,在小數(shù)據(jù)條件下更好地學(xué)習(xí)算法模型。利用這樣的一種方式,我們在去年2016CVPR上發(fā)布的模型,實現(xiàn)了彩色和深度信息之間的融合,乃至比對。這就是第二個X=小數(shù)據(jù)。
第三,X=臟,還有很多情況下是臟數(shù)據(jù)。所謂的臟數(shù)據(jù),比如在百度圖片搜索“成龍”,確實會反饋很多成龍的照片,但是也會有大量的不是成龍的照片。而我們又不想雇1000個人大量的數(shù)據(jù)把它標注出來,干脆就基于有噪聲的數(shù)據(jù)實現(xiàn)機器學(xué)習(xí)。所以我們在今年提出具有“自糾錯學(xué)習(xí)”能力的深度學(xué)習(xí)方法,在深度學(xué)習(xí)的過程中,一邊去學(xué)習(xí)算法,一邊去估計哪些樣本的標簽可能是錯誤的,我們把一些可能錯誤的標簽修正過來,從而得到更好的算法。利用這種策略,我們發(fā)現(xiàn),即使加了40%或者60%的錯誤標簽,我們的算法也能夠?qū)崿F(xiàn)不錯的深度學(xué)習(xí)效果。
X=臟,這個臟還可能有另外一層含義,比如說有遮擋的情況。我們也提出了一個算法,在這個任務(wù)里面,我們能夠把面部的遮擋部分、臟的部分補出來,補出來之后再去實現(xiàn)感知。把這兩個過程迭代起來,形成聯(lián)合的學(xué)習(xí),這個工作發(fā)表在去年的CVPR上面,也是取得了非常不錯的效果。
第四,X還可能是無監(jiān)督數(shù)據(jù)。所謂的無監(jiān)督數(shù)據(jù)是指沒有標簽可以利用的數(shù)據(jù)。想象一個場景,比如我們手里面有大量東方人的有標簽數(shù)據(jù),但是有標簽的黑人數(shù)據(jù)相對較少,而我們可以在網(wǎng)上找到大量的無標簽的黑人數(shù)據(jù),我們?nèi)绾文軌蚶眠@些沒有標簽的數(shù)據(jù)進行識別,這是一個很重要的問題。因為只用東方人的數(shù)據(jù)做訓(xùn)練,去識別黑人效果會非常差,反過來也是一樣,所以我們要進行模型的調(diào)整,以實現(xiàn)從東方人數(shù)據(jù)到無監(jiān)督的黑人數(shù)據(jù)的遷移。我們這方面的工作發(fā)表在ICCV2015上面。
第五,X還可以是增廣數(shù)據(jù),即通過對已有少量數(shù)據(jù)進行修改的方式,來生成大量數(shù)據(jù)。人類有一種能力叫做舉一反三,比如說給大家一張平面的照片,可能看到這張很帥的照片之后,你就會浮想聯(lián)翩,怎么浮想呢?可能會想這個人從側(cè)面看是什么樣子,他笑起來是什么樣子,他戴上眼鏡會變成什么樣子,我們具備這種能力。我們能不能讓機器也有這樣的能力,從一張照片增廣出大量數(shù)據(jù),用于學(xué)習(xí)。這里示例的是我們基于三維模型的方法做數(shù)據(jù)增廣的效果,我們可以生成這位帥哥在不同視角條件下的照片。
完成這個任務(wù),另外一種方法是采用這兩年非?;鸬腉AN方法。輸入最左側(cè)的照片,用GAN可以生成不同表情的照片。還可以有更加復(fù)雜的,比如說帶上眼鏡,加上胡子等等。當(dāng)然這個也是有條件的,并不是說每張照片都可以做得這么好,基于GAN生成的人臉圖像是不是能夠用于提升算法,目前還是存疑的。
總結(jié)一下,X等于什么呢?大數(shù)據(jù)、小數(shù)據(jù)、無監(jiān)督數(shù)據(jù)、臟數(shù)據(jù)、或者通過增廣的方式,實現(xiàn)更大量數(shù)據(jù)的收集。其實還有一個非常重要的角度,就是類比人,人在很多時候都是自尋煩惱,當(dāng)然不是自尋煩惱,是自尋數(shù)據(jù)。例如,在我們觀察一個物體的時候,如果從一個角度不能全面觀察,我們會移動來收集不同視角的數(shù)據(jù),這種主動收集數(shù)據(jù)的能力,是現(xiàn)階段AI系統(tǒng)升級為自主AI系統(tǒng)的必備能力,特別是對自主無人機和機器人。
此外,從整個視覺智能的宏觀角度來說,我們現(xiàn)在已經(jīng)非常清晰的看到,魯棒性是視覺智能乃至整個AI的核心問題之一,即如何能夠?qū)崿F(xiàn)萬無一失。其實,現(xiàn)在像人臉識別的場景下,有些情況下我們已經(jīng)做到萬無一失,但是仍有很多實際應(yīng)用的場景,例如智能駕駛等領(lǐng)域,我們需要的是百萬無一失,意味著我們需要百萬分之一的錯誤率。在這樣的條件下,才能夠有更加廣泛的應(yīng)用。在這種情況下,是不是僅有大數(shù)據(jù)就足夠,這一點還存有疑問。
我們類比人類的發(fā)育成長過程,人類具備兩個特性:一是多模態(tài)數(shù)據(jù)協(xié)同;二是基于小樣本的自主學(xué)習(xí)。
多模態(tài)數(shù)據(jù)協(xié)同
人類的多模態(tài)數(shù)據(jù)協(xié)同是指什么呢?對于人來說,除了眼睛之外,我們有很多其它信息來對我們的智力發(fā)育提供幫助,包括語音、姿態(tài)、動作、以及背后有大量的知識庫作支撐。因此,人本身是需要一個多模態(tài)系統(tǒng)協(xié)同工作的魯棒AI,這帶給我們一個思路,AI的成長和發(fā)育也需要多模態(tài)。
基于小樣本的自主學(xué)習(xí)
對人的智能發(fā)育來說,我們生來就有“大腦”,有所謂的智商,我們從一出生的時候,神經(jīng)系統(tǒng)基本上發(fā)育的差不多,到3歲就基本發(fā)育完畢。也就是說,人類作為一種高級生物,經(jīng)過數(shù)百萬年甚至更長的時間進化出了這樣的一個”先天腦“模型。假設(shè)我們拿深度學(xué)習(xí)作為一個模型來類比,相當(dāng)于人在出生的時候,祖先已經(jīng)幫我們利用大量數(shù)據(jù)訓(xùn)練出了一個深度學(xué)習(xí)模型。
在后期的成長過程中,其實是對這個深度模型基于小數(shù)據(jù)的不斷調(diào)整和適應(yīng)性的優(yōu)化。所以說,我們認為AI發(fā)育的非常重要的一點,就是如何基于小數(shù)據(jù)甚至是0數(shù)據(jù)完成智能的發(fā)育和后天的學(xué)習(xí)。比如說我跟大家描述一下某個人長成什么樣子,你并沒有見過這個人,你并沒有見過這個人的照片,我們稱為0數(shù)據(jù),你如何能夠識別這個人,是對AI的一個挑戰(zhàn)。類似這樣的應(yīng)用場景,將來會有非常多的研究空間。
綜上,從人類智能的角度出發(fā)來看AI,AI要想在更多的場景下實現(xiàn)強大的視覺能力,還需要基于小數(shù)據(jù)乃至0數(shù)據(jù)情況下的自主學(xué)習(xí)能力、以及多模態(tài)的數(shù)據(jù)協(xié)同能力,這兩種能力為AI的發(fā)育提供了可能性,也為AI真正理解世界并服務(wù)人類提供了可能
評論