經(jīng)過一段漫長(zhǎng)時(shí)期的沉寂之后,人工智能正在進(jìn)入一個(gè)蓬勃發(fā)展的新時(shí)期,這主要得益于深度學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)近年來取得的長(zhǎng)足發(fā)展。更準(zhǔn)確地說,人們對(duì)深度學(xué)習(xí)產(chǎn)生的新的興趣在很大程度上要?dú)w功于卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的成功,卷積神經(jīng)網(wǎng)絡(luò)是一種特別擅長(zhǎng)處理視覺數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
但是,如果有人告訴你卷積神經(jīng)網(wǎng)絡(luò)存在根本性的缺陷,你會(huì)怎么看呢?而這一點(diǎn)是被譽(yù)為“深度學(xué)習(xí)鼻祖”和“神經(jīng)網(wǎng)絡(luò)之父”的Geoffrey Hinton教授在2020年度人工智能頂級(jí)會(huì)議 – AAAI大會(huì)上作的主題演講中提出的,AAAI(譯注:AAAI全稱為美國(guó)人工智能協(xié)會(huì))大會(huì)是每年主要的人工智能會(huì)議之一。
Hinton,與Yann LeCun和Yoshua Bengio一起出席了這次會(huì)議,這三大深度學(xué)習(xí)巨頭,圖靈獎(jiǎng)的獲得者,被業(yè)界并稱為“深度學(xué)習(xí)教父”。Hinton談到了卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和膠囊網(wǎng)絡(luò)的局限性,并提出這是他在人工智能領(lǐng)域的下一個(gè)突破方向。
和他所有的演講一樣,Hinton深入探討了許多技術(shù)細(xì)節(jié),這些細(xì)節(jié)使得卷積神經(jīng)網(wǎng)絡(luò)與人類視覺系統(tǒng)相比越來顯得效率低下而且不同。本文將會(huì)詳細(xì)闡述他在大會(huì)上提出的一些要點(diǎn)。但在我們接觸這些要點(diǎn)之前,讓我們像以往一樣,了解關(guān)于人工智能的一些基礎(chǔ)知識(shí),以及為什么卷積神經(jīng)網(wǎng)絡(luò)(CNNs)對(duì)人工智能社區(qū)來說如此重要的背景和原因。
計(jì)算機(jī)視覺的解決方案
在人工智能的早期,科學(xué)家們?cè)噲D創(chuàng)造出一種計(jì)算機(jī),它能像人類一樣“看”世界。這些努力導(dǎo)致了一個(gè)全新的研究領(lǐng)域的產(chǎn)生,這就是計(jì)算機(jī)視覺。
計(jì)算機(jī)視覺的早期研究涉及到符號(hào)人工智能的使用,其中的每個(gè)規(guī)則都必須由人類程序員指定。但是問題在于,并不是人類視覺設(shè)備的每一個(gè)功能都可以用明確的計(jì)算機(jī)程序規(guī)則來分解。所以,這種方法的使用率和成功率都非常有限。
另一種不同的方法是機(jī)器學(xué)習(xí)。與符號(hào)人工智能相反,機(jī)器學(xué)習(xí)算法被賦予了一個(gè)通用的結(jié)構(gòu),并通過對(duì)訓(xùn)練實(shí)例的檢驗(yàn)來開發(fā)自己的行為能力。然而,大多數(shù)早期的機(jī)器學(xué)習(xí)算法仍然需要大量的人工,來設(shè)計(jì)用來檢測(cè)圖像相關(guān)特征的部件。
卷積神經(jīng)網(wǎng)絡(luò)(CNNs),與以上兩種方法不同,這是一種端到端的人工智能模型,它開發(fā)了自己的特征檢測(cè)機(jī)制。一個(gè)訓(xùn)練有素的多層次卷積神經(jīng)網(wǎng)絡(luò)會(huì)以一種分層的方式自動(dòng)識(shí)別特征,從簡(jiǎn)單的邊角到復(fù)雜的物體,如人臉、椅子、汽車、狗等等。
卷積神經(jīng)網(wǎng)絡(luò)(CNNs)最早是在20世紀(jì)80年代由LeCun引入,當(dāng)時(shí)他在多倫多大學(xué)的Hinton實(shí)驗(yàn)室做博士后研究助理。但是,由于卷積神經(jīng)網(wǎng)絡(luò)對(duì)計(jì)算和數(shù)據(jù)的巨大需求,它們被擱置了下來,它在那個(gè)時(shí)間獲得的采用非常有限。而后,經(jīng)過三十年的發(fā)展,并且借助計(jì)算硬件和數(shù)據(jù)存儲(chǔ)技術(shù)取得的巨大進(jìn)步,卷積神經(jīng)網(wǎng)絡(luò)開始充分發(fā)揮其強(qiáng)大的潛力。
今天,得益于大型的計(jì)算集群、專用的硬件和海量的數(shù)據(jù),卷積神經(jīng)網(wǎng)絡(luò)在圖像分類和對(duì)象識(shí)別方面已經(jīng)得到了廣泛而且有益的應(yīng)用。
卷積神經(jīng)網(wǎng)絡(luò)的每一層都將從輸入圖像中提取特定的特征。
卷積神經(jīng)網(wǎng)絡(luò)(CNNs)與人類視覺的區(qū)別
在AAAI大會(huì)的演講中,Hinton指出:“卷積神經(jīng)網(wǎng)絡(luò)(CNNs)充分利用了端對(duì)端的學(xué)習(xí)方式。事實(shí)證明,如果一項(xiàng)功能在某個(gè)地方不錯(cuò),那么在其他地方也會(huì)很不錯(cuò),因此他們贏得了巨大的成功。這使得它們可以結(jié)合證據(jù),并很好地在不同位置進(jìn)行泛化。然而,它們與人類的感知非常不同。”
計(jì)算機(jī)視覺的關(guān)鍵挑戰(zhàn)之一是處理現(xiàn)實(shí)世界中的數(shù)據(jù)差異。我們的視覺系統(tǒng)可以從不同的角度、不同的背景和不同的光照條件下識(shí)別物體。當(dāng)物體被其他物體部分遮住或以古怪的方式著色時(shí),我們的視覺系統(tǒng)利用線索和其他知識(shí)來填補(bǔ)缺失的信息以及我們這樣看的理由。
事實(shí)證明,創(chuàng)建能夠復(fù)制相同對(duì)象識(shí)別功能的人工智能非常困難。
Hinton說:“卷積神經(jīng)網(wǎng)絡(luò)(CNNs)是為解決物體的平移問題而設(shè)計(jì)的”。這意味著一個(gè)訓(xùn)練有素的卷積神經(jīng)網(wǎng)絡(luò)可以識(shí)別一個(gè)對(duì)象,而不管其在圖像中的位置如何。但是他們并不能很好地處理視點(diǎn)變化的其他效果,例如旋轉(zhuǎn)和縮放。
根據(jù)Hinton的說法,解決這個(gè)問題的一種方法是使用4D或6D地圖來訓(xùn)練人工智能,然后執(zhí)行對(duì)象檢測(cè)。他補(bǔ)充道:“但這實(shí)在是令人望而卻步?!薄?/p>
目前,我們最好的解決方案是收集大量的圖像,在不同的位置顯示每個(gè)對(duì)象。然后,我們?cè)谶@個(gè)龐大的數(shù)據(jù)集上訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),希望它能看到足夠多的對(duì)象示例以進(jìn)行泛化,并且能夠在真實(shí)世界中以可靠的準(zhǔn)確度來檢測(cè)對(duì)象。諸如ImageNet這樣的數(shù)據(jù)集包含超過1,400萬個(gè)帶有注釋的圖像,目的就是旨在實(shí)現(xiàn)這一目標(biāo)。
Hinton說道:“這不是很有效。我們希望卷積神經(jīng)網(wǎng)絡(luò)能夠毫不費(fèi)力地推廣到新的視點(diǎn)。如果他們學(xué)會(huì)了識(shí)別某些東西,而你把它放大10倍并旋轉(zhuǎn)60度,那么這根本不會(huì)給他們帶來任何問題。我們知道計(jì)算機(jī)圖形學(xué)就是這樣,我們希望卷積神經(jīng)網(wǎng)絡(luò)更像這樣?!?/p>
事實(shí)上,ImageNet已經(jīng)被證明是有缺陷的,它目前是評(píng)估計(jì)算機(jī)視覺系統(tǒng)的首選基準(zhǔn)。盡管數(shù)據(jù)集龐大,但是它無法捕獲對(duì)象的所有可能角度和位置。它主要由在理想照明條件下以已知角度拍攝的圖像組成。
這對(duì)于人類視覺系統(tǒng)來說是可以接受的,因?yàn)樗梢暂p松地進(jìn)行知識(shí)泛化。事實(shí)上,當(dāng)我們從多個(gè)角度觀察到某個(gè)對(duì)象后,我們通??梢韵胂笏谛挛恢煤筒煌曈X條件下的外觀。
但是卷積神經(jīng)網(wǎng)絡(luò)(CNNs)需要詳細(xì)的示例來說明他們需要處理的案例,而且他們不具備人類思維的創(chuàng)造力。深度學(xué)習(xí)開發(fā)人員通常試圖通過應(yīng)用一個(gè)稱為“數(shù)據(jù)增強(qiáng)”的過程來解決這個(gè)問題,在這個(gè)過程中,他們?cè)谟?xùn)練神經(jīng)網(wǎng)絡(luò)之前翻轉(zhuǎn)圖像或少量旋轉(zhuǎn)圖像。實(shí)際上,卷積神經(jīng)網(wǎng)絡(luò)將在每個(gè)圖像的多個(gè)副本上進(jìn)行訓(xùn)練,每個(gè)副本都會(huì)略有不同。這將有助于人工智能針對(duì)同一對(duì)象的變化進(jìn)行泛化。在某種程度上,數(shù)據(jù)增強(qiáng)使得人工智能模型更加健壯。
然而,數(shù)據(jù)增強(qiáng)無法涵蓋卷積神經(jīng)網(wǎng)絡(luò)和其他神經(jīng)網(wǎng)絡(luò)無法處理的極端情況,比如說,一張上翹的椅子,或者放在床上的一件皺巴巴的T恤衫。這些都是現(xiàn)實(shí)生活中像素操縱無法實(shí)現(xiàn)的情況。
ImageNet與現(xiàn)實(shí)對(duì)比:在ImageNet(左列)中,對(duì)象放置整齊,處于理想的背景和光照條件下。而現(xiàn)實(shí)世界比它混亂得多(資料來源:objectnet.dev),已經(jīng)有人通過創(chuàng)建能夠更好地表示現(xiàn)實(shí)世界的混亂現(xiàn)實(shí)的計(jì)算機(jī)視覺基準(zhǔn)和訓(xùn)練數(shù)據(jù)集來解決這一泛化問題。但是,盡管它們可以改進(jìn)當(dāng)前人工智能系統(tǒng)的結(jié)果,但它們并不能解決跨視點(diǎn)泛化的根本問題??倳?huì)有新的角度、新的照明條件、新的顏色和姿勢(shì),而這些新的數(shù)據(jù)集并不能包含所有這些情況。這些新情況甚至?xí)棺畲?、最先進(jìn)的人工智能系統(tǒng)陷入混亂。
差異可能是危險(xiǎn)的
從上面提出的觀點(diǎn)來看,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)顯然是以與人類截然不同的方式來識(shí)別物體的。但是,這些差異不僅在弱泛化上存在局限,而且還需要更多的示例來學(xué)習(xí)一個(gè)對(duì)象。卷積神經(jīng)網(wǎng)絡(luò)生成對(duì)象的內(nèi)部表示形式也與人腦的生物神經(jīng)網(wǎng)絡(luò)非常不同。
這是如何表現(xiàn)出來的?“我可以拍攝一張照片,再加上一點(diǎn)點(diǎn)噪點(diǎn),卷積神經(jīng)網(wǎng)絡(luò)就會(huì)將其識(shí)別為完全不同的東西,而我本人幾乎看不出它們有什么不同。這似乎真的很奇怪,我認(rèn)為這是證據(jù),卷積神經(jīng)網(wǎng)絡(luò)實(shí)際上是在使用與我們完全不同的信息來識(shí)別圖像。” Hinton在AAAI會(huì)議上的主題演講中說道。
這些稍加修改的圖像被稱為“對(duì)抗性樣本”,是人工智能領(lǐng)域的研究熱點(diǎn)。
對(duì)抗性樣本可能會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行錯(cuò)誤分類,而對(duì)人眼卻沒有影響。
Hinton說:“并不是說這是錯(cuò)的,他們只是使用一種完全不同的方式來工作,而且他們這種完全不同的做法在如何泛化方面也會(huì)有一些不同?!?/p>
但是許多例子表明,對(duì)抗性干擾可能是極其危險(xiǎn)的。當(dāng)你的圖像分類器錯(cuò)誤地將熊貓標(biāo)記為長(zhǎng)臂猿時(shí),這一切都是可愛和有趣的。但是,當(dāng)自動(dòng)駕駛汽車的計(jì)算機(jī)視覺系統(tǒng)缺少了一個(gè)停車標(biāo)志時(shí),而繞過面部識(shí)別安全系統(tǒng)的邪惡黑客,或者谷歌照片將人類標(biāo)記為大猩猩時(shí),你就會(huì)有大麻煩了。
關(guān)于檢測(cè)對(duì)抗性擾動(dòng)并創(chuàng)建可抵抗對(duì)抗性擾動(dòng)的強(qiáng)大的人工智能系統(tǒng),已經(jīng)有很多研究。但是,對(duì)抗性樣本也提醒我們:我們的視覺系統(tǒng)經(jīng)過幾代人的進(jìn)化,已經(jīng)能夠處理我們周圍的世界,我們也創(chuàng)造了我們的世界來適應(yīng)我們的視覺系統(tǒng)。因此,如果我們的計(jì)算機(jī)視覺系統(tǒng)以與人類視覺根本不同的方式工作,它們將是不可預(yù)測(cè)且不可靠的,除非它們得到諸如激光雷達(dá)和雷達(dá)測(cè)繪等補(bǔ)充技術(shù)的支持。
坐標(biāo)系和部分-整體關(guān)系很重要
Geoffrey Hinton在AAAI大會(huì)的主題演講中指出的另一個(gè)問題是,卷積神經(jīng)網(wǎng)絡(luò)無法從對(duì)象及其部分的角度來理解圖像。它們將圖像識(shí)別為以不同圖案排列的像素斑點(diǎn)。它們也沒有實(shí)體及其關(guān)系的顯式內(nèi)部表示。
“當(dāng)你將卷積神經(jīng)網(wǎng)絡(luò)想象成各個(gè)像素位置的中心時(shí),你會(huì)越來越豐富地描述該像素位置上發(fā)生的事情,這取決于越來越多的上下文。最后,你獲得了如此豐富的描述,以至于你知道圖像中存在哪些對(duì)象。但是它們并沒有明確地解析圖像。”Hinton說。
我們對(duì)物體構(gòu)成的理解有助于我們了解這個(gè)世界,并理解我們以前從未見過的東西,比如這個(gè)奇特的茶壺。
將對(duì)象分解為多個(gè)部分有助于我們了解其性質(zhì)。這是馬桶還是茶壺?(資源來源:Smashing lists)
卷積神經(jīng)網(wǎng)絡(luò)中還缺少坐標(biāo)系,這是人類視覺的基本組成部分?;旧?,當(dāng)我們看到一個(gè)物體時(shí),我們開發(fā)了一個(gè)關(guān)于它的方向的心理模型,這有助于我們解析它的不同特征。例如,在下圖中,考慮右邊的臉。如果你將其倒置,你會(huì)看到左邊的臉。但實(shí)際上,你不需要物理翻轉(zhuǎn)圖像就可以看到左邊的臉。只需在精神上調(diào)整坐標(biāo)系,就可以看到兩個(gè)面,無論圖像的方向如何。
Hinton指出:“根據(jù)所施加的坐標(biāo)系,你會(huì)有完全不同的內(nèi)部感知。卷積神經(jīng)網(wǎng)絡(luò)確實(shí)不能解釋這一點(diǎn)。你給他們一個(gè)輸入,他們就有一個(gè)感知,而感知并不依賴于強(qiáng)加的坐標(biāo)系。我想,這與對(duì)抗性樣本有關(guān),也與卷積神經(jīng)網(wǎng)絡(luò)以與人完全不同的方式進(jìn)行感知這一事實(shí)有關(guān)?!?/p>
從計(jì)算機(jī)圖形學(xué)中吸取教訓(xùn)
Hinton在AAAI會(huì)議上的演講中指出,解決計(jì)算機(jī)視覺的一種非常簡(jiǎn)便的方法是制作逆向圖。三維計(jì)算機(jī)圖形模型是由對(duì)象的層次結(jié)構(gòu)組成的。每個(gè)對(duì)象都有一個(gè)轉(zhuǎn)換矩陣,該矩陣定義了其相對(duì)于其父對(duì)象的平移,旋轉(zhuǎn)和縮放比例。每個(gè)層次結(jié)構(gòu)中頂級(jí)對(duì)象的變換矩陣定義了其相對(duì)于世界原點(diǎn)的坐標(biāo)和方向。
例如,考慮汽車的3D模型?;A(chǔ)對(duì)象具有4×4變換矩陣,該矩陣表示汽車的中心位于具有旋轉(zhuǎn)(X = 0,Y = 0,Z = 90)的坐標(biāo)(X = 10,Y = 10,Z = 0)處 。汽車本身由許多對(duì)象組成,如車輪、底盤、方向盤、擋風(fēng)玻璃、變速箱、發(fā)動(dòng)機(jī)等。每個(gè)對(duì)象都有自己的變換矩陣,以父矩陣(汽車的中心)為參照,它們定義了自己的位置和方向。例如,左前輪的中心位于(X=-1.5,Y=2,Z=-0.3)。左前輪的世界坐標(biāo)可以通過將其變換矩陣與其父矩陣相乘得到。
其中一些對(duì)象可能具有自己的子集。例如,車輪由輪胎,輪輞,輪轂,螺母等部件組成。這些子項(xiàng)中的每一個(gè)都有自己的變換矩陣。
使用這種坐標(biāo)系層次結(jié)構(gòu),可以非常輕松地定位和可視化對(duì)象,而不管它們的姿勢(shì)、方向或視點(diǎn)如何。當(dāng)你要渲染對(duì)象時(shí),將3D對(duì)象中的每個(gè)三角形乘以其變換矩陣及其父對(duì)象的變換矩陣。然后將其與視點(diǎn)對(duì)齊(另一個(gè)矩陣乘法),然后在柵格化為像素之前轉(zhuǎn)換為屏幕坐標(biāo)。
“如果你(對(duì)從事計(jì)算機(jī)圖形學(xué)工作的人)說:‘你能從另一個(gè)角度向我展示嗎?’他們不會(huì)說,‘哦,好吧,我很樂意。但是我們沒有從那個(gè)角度進(jìn)行訓(xùn)練,所以我們無法從那個(gè)角度向你展示。’他們只是從另一個(gè)角度向你展示,因?yàn)樗麄冇幸粋€(gè)3D模型,他們依據(jù)部分和整體之間的關(guān)系對(duì)一個(gè)空間結(jié)構(gòu)進(jìn)行建模,而這些關(guān)系根本不依賴于視點(diǎn)。”Hinton說。“我覺得在處理3D對(duì)象的圖像時(shí),不利用這種漂亮的結(jié)構(gòu)是很瘋狂的?!?/p>
膠囊網(wǎng)絡(luò)(Capsule Network),是Hinton的另一個(gè)雄心勃勃的新項(xiàng)目,它嘗試制作逆向計(jì)算機(jī)圖形。盡管膠囊網(wǎng)絡(luò)應(yīng)該有自己獨(dú)立的一套東西,但其背后的基本思想也是拍攝圖像,提取其對(duì)象及其部分,定義其坐標(biāo)系,并創(chuàng)建圖像的模塊化結(jié)構(gòu)。
膠囊網(wǎng)絡(luò)仍在研發(fā)中,自2017年推出以來,它們已經(jīng)經(jīng)歷了多次迭代。但是,如果Hinton和他的同事們能夠成功地使他們發(fā)揮作用,我們將更接近復(fù)制人類的視覺。
評(píng)論
查看更多