2010年以來,基于機器學習(尤其是深度學習)的預測算法在一些領域取得了極大的成功,比如說圖像識別和機器翻譯。而我們把這些算法都稱作是人工智能(AI)。
不過,深度學習成為這些領域的主流并不是一蹴而就的。在人工智能紛繁的歷史中,聯(lián)結主義(神經(jīng)網(wǎng)絡就屬于聯(lián)結主義)長時間被符號主義所排斥。這篇論文通過符號主義和聯(lián)結主義之間的斗爭,回溯了人工智能的歷史,以及最近深度學習的出現(xiàn)。
在這篇被Yan LeCun等多位大咖推薦的法語文章中,我們將看到,聯(lián)結主義的科研者們是如何使用大量的數(shù)據(jù)和強大的算力,一步步用控制論時代的自適應推斷機,并主導了符號主義提出的人工智能項目。
大數(shù)據(jù)文摘將全文翻譯如下,enjoy。
2012年10月 ECCV 會議中的一幕將成為計算機發(fā)展史上的一個傳奇。ECCV幾乎匯集了計算機視覺領域的所有優(yōu)秀的研究人員。
“所以在2012年 ECCV 組織的比賽中,誰贏了?”
是Hinton,神經(jīng)網(wǎng)絡之父!
他給計算機視覺領域帶來了一場地震——他和他的學生提供的系統(tǒng)將傳統(tǒng)的方法打的一敗涂地,而之前他甚至在該領域鮮有研究。
他的學生Alex Krizhevsky提出的AlexNet類似于一個黑箱,Alex對這個黑箱說:“你給我好好訓練,等可以得到好的結果了,就結束吧。”
當時他們使用帶有 GPU 的機器進行訓練。但是和現(xiàn)在相比,機器的算力還是很有限的,但他們通過一些技巧使GPU之間的通信變得高效,并控制了通信的性能損耗。
這絕對是一個瘋狂的機器,否則它永遠不會成功。
那個時候,計算機視覺領域的研究人員都在為 ImageNet 這個數(shù)據(jù)集感到興奮。這個數(shù)據(jù)集有120萬張帶標簽的圖片,共有1000多個類別,是衡量比較不同的模型的基準。
第一名的錯誤率是27.3%,第二名是27.18%,第三名是27.68%。而 Hinton 他們使用了AlexNet:“我們跑的模型很深,我們的錯誤率是17%”,這個錯誤率比之前最優(yōu)模型減少了10%。Alex 這個穿黃衣服的極客,他做到了!他宣布結果,房間里的所有人都震驚了。
他也不能解釋為什么要使用這樣的技巧,他只是造了一個黑箱,然后讓它自己訓練,而他甚至對這個領域一無所知。在那里,他對面是李飛飛,而Yann LeCun坐在房間里面,正站起來準備回答問題。(李飛飛是計算機教授,斯坦福SAIL 實驗室的負責人。Yann LeCun 現(xiàn)在是Facebook FAIR 實驗室的負責人,同時也是神經(jīng)網(wǎng)絡的奠基人之一。)
計算機視覺領域的人試圖反駁 “這樣做是不行的,物體識別不能用這種方式來做……” 這些技術最終都落地了,這大概是因為它們默默的發(fā)展了十年然后厚積薄發(fā)吧。
很多人想探究這類方法取得這么好結果的深層原因。
深度學習可以看作一個黑箱,它有很深的結構,一億個參數(shù)。它通過大量的數(shù)據(jù)進行訓練,然后震驚了整個計算機視覺領域。“如果輸入的圖片有一些擾動,你的模型還能給出一樣的結果嗎?”,有人問。
Alex 自己也無法回答這個問題。還是 LeCun 作出了回答:“這個模型能處理這個問題,是因為……”。LeCun 非常高興,李飛飛問他“Yann,這個模型和你在80年代發(fā)明的模型有根本上的不同嗎”,Yann 回答說:“不,它們完全一樣,并且它贏得了所有的比賽。”
深度學習在圖像分類任務的成功改變了其相關技術在科學社區(qū)長期邊緣化的境況。在這個令人吃驚的結果后面,是對這個新方法有效性的質(zhì)疑,對傳統(tǒng)方法未來的擔憂,對這個新闖入者理論知識缺乏的嘲笑,對新方法帶來的改變的疑惑……自2010年以來,神經(jīng)網(wǎng)絡對計算機領域產(chǎn)生了深刻的影響,比如說:信號處理,語音處理,自然語言處理。這個新的方法可以直接把原始數(shù)據(jù)作為輸入,而不需要人工提取特征。它還可以通過大量的數(shù)據(jù)來優(yōu)化模型,產(chǎn)生令人矚目的結果。圖1 簡單展示了這個轉變:由假設演繹模型變成了歸納模型。
計算過程,程序,模型的規(guī)則,在舊的系統(tǒng)中需要人工設置,而在這個新的系統(tǒng)中它們則成了學習的目標。圖1 就展示了這種轉變。
符號主義 vs 聯(lián)結主義
神經(jīng)網(wǎng)絡在2012年的 ECCV 取得了巨大的成功,但它并不是什么新東西。利用強大的算力,以及大量的數(shù)據(jù),現(xiàn)在已經(jīng)可以滿足控制論的一些要求。只是最近用于描述這些技術的術語是人工智能( AI )。
John McCarthy 于1956年提出了人工智能這一概念。目前在機器學習領域,尤其是深度學習領域,預測算法正在取得重大進展,但把這些技術歸于人工智能并不嚴謹。在歷史上,神經(jīng)網(wǎng)絡(以前叫聯(lián)結主義)長時間被符號主義所鄙視。這兩種方法之間的緊張關系在人工智能剛誕生并與控制論劃清界限時就開始了。
符號主義的學派以認知主義為基礎構成了AI的初步框架:認知就是通過對有意義的表示符號進行推導計算。然而,聯(lián)結主義認為認知可以看作大規(guī)模并行計算, 這些計算在類似于人腦的神經(jīng)網(wǎng)絡中進行,這些神經(jīng)元集體協(xié)作并相互作用(Andler,1992)。這兩種思想下造出的“智能”機器區(qū)別是巨大的。
今天我們正在目睹科技史的一個偉大的逆轉:之前在人工智能領域被邊緣化的聯(lián)結主義重新回歸。就像Michael Jordan (2018) 諷刺的那樣:“維納提出的方法卻披著McCarthy發(fā)明的術語的外衣”。維納提出了控制論,我們現(xiàn)在使用的神經(jīng)網(wǎng)絡就可以看作控制論,而人工智能(AI)這個術語是 McCarthy 發(fā)明的。
為了講清楚這些互相交叉的理論方法,首先我們可以根據(jù) Web of Science(WoS)收集的出版物數(shù)據(jù)來進行統(tǒng)計。觀察提到“人工智能”,“符號主義”,“聯(lián)結主義”文章作者的共引網(wǎng)絡就夠了。
我們可以在圖2中看到我們將在本文中將提到的主要人物的名字,他們已經(jīng)根據(jù)不同的科學社區(qū)進行了區(qū)分。在聯(lián)結主義社區(qū)的中心是 Rumelhart, LeCun 和 Hinton。他們是深度學習的奠基者。他們周圍也有很多其他研究人員 (Holland, Hopfield), 還有一些人為傳統(tǒng)的機器學習方法作出了極大貢獻,如 Breiman, Mitchell 和 Vapnik。在符號主義那邊,核心人物如McCarthy, Minsky, Simon et Newell可以看作 AI 的創(chuàng)立者。他們周圍也圍繞著一群人,如 Dreyfus, Searle, Brooks,他們?yōu)檎J知模型、專家系統(tǒng)等等做出了重要貢獻。
圖3
如果我們看從1935年到2005年出版的 AI 論文,聯(lián)結主義和符號主義之間的斗爭似乎更加直觀。在圖3中,我們看到了最初聯(lián)結主義和控制論的誕生。然后,從20世紀60年代初開始,符號主義主導和定義了人工智能。最后,直到20世紀90年代中期,在人工智能的第二個寒冬之后,聯(lián)結主義開始使用深度學習的名頭在科學出版物中占據(jù)主導地位。
為了對人工智能系統(tǒng)有個整體的認識,我們引入三個詞語,世界(monde),計算器(calculateur),以及視野(horizon)。這些詞在不同的情況下有不同的含義:世界可以是:環(huán)境/輸入/數(shù)據(jù)/知識數(shù)據(jù),計算器可以是:計算/程序/模型/代理(agent),視野可以是:目標函數(shù)/結果/輸出。
我們講,這個預測系統(tǒng)安裝了一個計算器來根據(jù)世界計算一個視野。在 AI 的歷史中,世界,計算器,和視野的實體一直不停的變化。對這三部分的架構,研究人員還提出了種種截然不同的方式。AI 從符號主義轉向聯(lián)結主義并不是突然發(fā)生的結果,也不是說一種比另一種更有效。這個轉變過程是不同方法和科學社區(qū)之間的重新組合與競爭。這也影響了計算技術,所需要處理的數(shù)據(jù)格式,目標,以及需要解決的問題 (Latour, 1987)?,F(xiàn)在我們稍微總結一下這些概念:符號主義的研究人員嘗試著人工設計計算器,世界,和視野。而聯(lián)結主義的研究人員則相反,他們嘗試把計算器清空了,讓世界來自己得出它的視野。
控制論和最開始的聯(lián)結主義
神經(jīng)網(wǎng)絡起源于早期的計算機以及控制論,雖然最開始它并不是叫這個名字,我們叫它聯(lián)結主義。
神經(jīng)網(wǎng)絡這個詞由神經(jīng)學家 Warren McCulloch 和 邏輯學家 Walter Pitts 在 1943 年提出,最初含義是指給人腦的神經(jīng)網(wǎng)絡進行數(shù)學建模。那篇文章一直被深度學習的文章引用至今,甚至可以看作聯(lián)結主義的起源。
從圖3我們可以清楚的看到,在控制論的早期階段,聯(lián)結主義一直占據(jù)著主導地位。那篇文章所描述的是:神經(jīng)元接受不同的輸入,然后會計算出一個加權和。如果這個加權和超過一個閾值,會激發(fā)這個神經(jīng)元。當時這個概念并沒有和人工智能聯(lián)系起來,“人工智能”這個詞語還不存在。直到1949年神經(jīng)學家 Donald O. Hebb 才把神經(jīng)網(wǎng)絡和機器學習聯(lián)系起來。他發(fā)現(xiàn)神經(jīng)元之間通過突觸信息被激活可以看作一個學習過程。受此影響,神經(jīng)網(wǎng)絡模型變成了控制論的一個重點,并成了第一臺“智能”機器的計算器的核心 (Dupuy, 2005)。
世界和計算器之間的耦合
這類系統(tǒng)的特點在于它們與環(huán)境(世界)之間緊密耦合,以至于沒有必要為它們的計算器配備特別的部分。控制論提議直接弄一個簡單的黑箱,將這個黑箱的學習與視野聯(lián)系起來,通過測量世界和機器行為的誤差來調(diào)節(jié)黑箱里的參數(shù)。這種機器智能行為主要基于信息,而不同于人工智能誕生時用的符號主義(Triclot,2008)。這個信息所指的是編碼之前的信號。根據(jù) Shannon 的信息論,信息被視為一種純粹的形式,它表示 “事物中的有序程度或結構”(Triclot,2008)。
然后,控制論將其計算的視野定義為對世界的輸入和輸出的比較。在Norbert Wiener 的防空導彈制導系統(tǒng)里,預測裝置的訓練過程就是通過比較目標有效軌跡與上一步的預測軌跡之間的區(qū)別,然后不斷更新系統(tǒng)。
這個設備可以根據(jù)給定的數(shù)據(jù)對計算器進行更新,然后收斂到最佳的結果。負反饋系統(tǒng)(將輸出誤差變?yōu)樽赃m應系統(tǒng)的新的輸入)就變成了控制論的主要部分。這也參考了當時的行為心理學(Skinner,1971),參考了生物器官的一些行為,機器可以根據(jù)環(huán)境信號來進行自適應,而不需要在內(nèi)部給它設置一些規(guī)則,總之智能需要有自我學習能力。
Arturo Rosenblueth, Norbert Wiener 和 Julian Bigelow 在 1943 年定義了控制論的基本原理,他們想象一個能夠自我糾錯的機器,通過概率的方法根據(jù)目標以及所犯的錯誤對結果進行修正,這就是一個自適應的過程。以嚴格的“消除主義”思想,控制論里的系統(tǒng)可以沒有意圖,計劃,或推理的概念(Galison,1994)。
Ross Ashby (1956, p. 110) 把系統(tǒng)的計算器部分描述是一個黑箱,控制論里的預測系統(tǒng)的配置與世界和計算器緊密相關,它的視野是系統(tǒng)對自己的自適應優(yōu)化。 20世紀50年代的控制論系統(tǒng)(Homeostat,Adaline等)由于算力限制,只能算是實驗室里的一個玩具,但現(xiàn)在隨著算力的提高以及更多的數(shù)據(jù),深度學習可以更有效地配置訓練這個黑箱。
感知機和聯(lián)結主義系統(tǒng)
McCulloch和Pitts提出的神經(jīng)網(wǎng)絡給計算機視覺領域提供了一種特別適合的解決方案,用計算機配備這些原始的自適應機器。在20世紀50年代后期,神經(jīng)網(wǎng)絡經(jīng)歷了一次重大的發(fā)展,進入了一個類腦機器計劃。
聯(lián)結主義受到了很多其它工作的啟發(fā),包括 Bernard Widrow 的 Adaline,斯坦福大學 Charles Rosen 的 Shakey, Pandemonium, Oliver Selfridge 的混合系統(tǒng) (1960)??的螤柎髮W的心理學家和計算機學家 Frank Rosenblatt 提出的感知機可以算是一個真正的聯(lián)結主義系統(tǒng),并且成為了計算器產(chǎn)生智能行為的標志。這種用于圖像識別的系統(tǒng)受到了很多關注,并從美國海軍(ONR)獲得了大量資金。
Frank Rosenblatt 設計的機器受 McCulloch 和 Pitts 提出的神經(jīng)網(wǎng)絡的啟發(fā),同時增加了學習機制。在感知機疊加的各層中,輸入神經(jīng)元模擬視網(wǎng)膜活動,輸出神經(jīng)元對系統(tǒng)識別的“特征”進行分類,只有中間的隱藏層才能學習。
與 McCulloch 和 Pitts 提出的“下行”組織不同,F(xiàn)rank Rosenblatt 提出采用自下而上的方法,用學習機制統(tǒng)計學習網(wǎng)絡結構。在軟件實現(xiàn)感知機之后,F(xiàn)rank Rosenblatt 將開始構建硬件版本的感知機:Mark I,它將400個用光電設備組成神經(jīng)元。 突觸權重由電位計編碼,并且學習期間的權重變化由電動機執(zhí)行。由于當時的技術限制,這類物理實現(xiàn)的感知機還是很罕見的。并且,由于人工智能另一個分支, 符號主義的發(fā)展,這部分研究趨于停滯。
符號主義
Dartmouth, John McCarthy 和 Marvin Minsky 在1956年達特茅斯舉行的會議中提出了人工智能(AI) 這個詞語,用來反對早期控制論里的聯(lián)結主義 (Dupuy, 2005)。他們覺得機器根據(jù)輸入和輸出進行自適應調(diào)整是不夠的, “符號主義” 人工智能的目標是把人工定義的程序算法和規(guī)則放入計算機系統(tǒng)中,這樣可以從更高一級來操縱系統(tǒng)。所以AI誕生之初對聯(lián)結主義的一些觀點是排斥的。如圖3所示,符號主義從19世紀60年代中期到90年代初,一直在人工智能領域占主導地位。
符號主義的最初工作由 Herbert Simon 和 Allen Newell 在19世紀50年代推動。1956年,他們寫了第一個人工智能程序 Logic Theorist ,讓機器來模擬做決策的過程。這個程序完成的任務也經(jīng)常被人工智能的研究人員使用。他們宣布: “這個圣誕節(jié)我們發(fā)明了一個有思維的機器”。從1956年到70年代初,推理模型都是早期AI的核心。這個領域的研究迅速被一小部分機構和人給統(tǒng)治:MIT (Minsky, Papert), Carnegie Mellon (Simon, Newell) 和 Stanford University (McCarthy)。
盡管這個研究圈子內(nèi)部有一些分歧,但是他們幾乎壟斷了 AI 研究的一切,包括資金以及大型計算機的使用權。從1964 到 1974,ARPA和空軍用于研究人工智能75%的資金都被他們拿走了。他們的項目也爭取到了當時為數(shù)不多的算力資源。在ARPA,受益于 Joseph Licklider的堅定支持,符號主義項目獲得了科研資金,同時也可以通過在軍事系統(tǒng)上的應用來驗證系統(tǒng)的合理性。在19世紀60年代初,繼承自控制論的聯(lián)結主義方法由于 Frank Rosenblatt 提出的感知機產(chǎn)生了一股熱潮。盡管還是一名學生,他開發(fā)出了一個神經(jīng)網(wǎng)絡系統(tǒng) Snarc(1951)。
Marvin Minsky 說符號主義所領導的具有優(yōu)美數(shù)學的AI正面臨著“神秘”,“被浪漫主義氣氛包圍”的自組織系統(tǒng)和聯(lián)結主義的挑戰(zhàn) (Minsky et Papert, 1969)。通過對單層感知機的分析,他和 Simon Papert 證明了神經(jīng)網(wǎng)絡不能實現(xiàn)異或(XOR)操作,所以覺得它們是沒有未來的。正如 Mikel Olazaran (1996) 所介紹的,Minsky 和 Papert 的策略是通過流行的符號主義來對人工智能進行定義。即使這本書的造成的影響可能并不是作者的本意,其后果也將是不可改變的:在1971年 Frank Rosenblatt 英年早逝之后,神經(jīng)網(wǎng)絡被拋棄,相關項目的資金資助被停止,神經(jīng)網(wǎng)絡離開了人工智能領域。
對符號進行操作的空間
符號主義的機器的主要特征是打破了與世界的耦合,并賦予了計算器一個自主的推理空間。在這個完全對計算器開放的編程空間里可對符號進行操作。
20世紀50年代建立的馮·諾伊曼架構,就是這樣一個空間。設計于計算導彈彈道的ENIAC(1946)本想在硬件中給機器“編程”,但后來分離了軟件和硬件,軟件用執(zhí)行基于符號的邏輯運算,而硬件是機器的物理結構 (von Neumann, 1945) 。
于是一個獨立于硬件,專門用于程序的空間產(chǎn)生了。硬件變成“計算程序的中央化通用型自動機”(Goldstine,1972,pp.198-199),而編程,根據(jù)艾倫·圖靈(2004,p.21),變成了“文書工作”。Paul Edwards(1996)表明,接近人類語言的高級編程語言的出現(xiàn)(再編譯成0/1形式的機器語言)使分離物理機器和符號機器成為可能。人工智能從此可以說是關于機器的思想的科學。編程語言也是人工智能對計算機科學的最早貢獻之一。
符號操作空間的出現(xiàn)與認知科學的出現(xiàn) (1956) 有關。認知科學反對行為主義心理學極其控制論的“黑箱”概念,它的任務是賦予機器抽象和邏輯能力。認知科學也與聯(lián)結主義不同,不關心生理學和人的行為,只關注推理。計算思想的理論,基于二元論,被構建出來:假設精神狀態(tài)可以同時被物理地和符號地描述;物理式描述,如對信息的一系列物理性處理,符號式描述,包括符號操作,機械操作,比較,層次、推斷 (Andler,2016) 。這一假說也稱為“物理符號系統(tǒng)”,假設思想不能直接與世界交流,但世界在思想內(nèi)部的表示和思想所為可以被嵌在程序中的符號描述和組織。
一個“玩具”世界
符號主義機器的世界只是一個舞臺背景,機器把它的邏輯原則的語法投射到世界:國際象棋,跳棋游戲(Arthur Samuel),幾何定理證明 (Herbert Gelertne),就像電子游戲的背景。 第一波人工智能的特點是發(fā)明了簡化的空間,空間形式需要機器去認識和改動,例如Marvin Minsky的計算機環(huán)境Microscope (MAC) 或Terry Winograd的著名語言SHLURDU。 想象一個虛構的空間,只有幾個房間幾個物體,Shakey機器人在其中移動,一個“玩具空間”,其中的物體可以很容易地被聯(lián)系到語法,語法經(jīng)過計算會產(chǎn)生相應的系統(tǒng)行為。
如果計算器投射它自己的世界,這也是因為它企圖把自己本身融入視野。正是在這個意義上,AI能夠以“強者”的姿態(tài)回歸,因為給予系統(tǒng)的目標是它自己的,可以從模型的邏輯推理中推導出來。巧妙的塑造系統(tǒng)語法的語言都是推論,它們把各種操作層層組織,每個操作都是對實體的基礎變換,都是一次正確計算基礎上的推論(Andler,1990,p100)。 如決策樹,中間邏輯鏈,目標和子目標分解,中途/末尾分析(analyse moyen/fin) 。
合理的計算視野包含在程序的語法中。機器可以解決實際問題,找到正確的解,或做出適當?shù)臎Q策,而不需要給它正確答案(比如機器學習中的樣本),因為規(guī)則可以通過遵循計算器的推理推導出來。推理原則的語法和被操縱對象的語義都內(nèi)置在計算器中,可能會在正確的推理中彼此混淆,但也可以或多或少確定下來——以人工的代價:“智能”世界是由設計師實現(xiàn)的,受到監(jiān)督,精準,明確,因此理性就是它的視野。是,在機房,這些機器能夠達到一定的性能,但一旦向它們展現(xiàn)整個世界,它們很快就會變得盲目和愚蠢。
人工智能的第一個冬天
20世紀70年代早期,人工智能進入了它的第一個冬天,聯(lián)結主義和符號主義的項目都將凍結。 兩個流派都承諾得過多,而結果遙遙無期。 聯(lián)結主義一邊,F(xiàn)rank Rosenblatt的感知機被過早公之于眾。在《激動人心的智能機器》新聞中,紐約時報報道“電子計算機雛形出現(xiàn),海軍希望它能走,說,看,寫,制造自己,甚至擁有自我意識”。
符號主義一邊,以Herbert Simon和Marvin Minsky為首,不切實際的宣言很快被否定掉了。翻譯俄語的翻譯器、滲透進敵人戰(zhàn)線的機器人,坦克和飛機駕駛員的語音指揮系統(tǒng),宏圖面對的現(xiàn)實是:“智能系統(tǒng)” 還只是機房里的游戲。1966年,國家研究委員會削減了機器翻譯的預算,隨后一系列撤回落到了對人工智能的財務和學術支持上:Minsky和Papert在麻省理工學院的micromonde項目,斯坦福大學的Shakey機器人, DARPA的SUR語音識別計劃……英格蘭,1973年,重要的Lighthill報告發(fā)表,勸說人們停止對AI的公共資助。
在資金危機頻發(fā)的情況下,推理邏輯模型的項目奄奄一息,批評越來越多。 1965年,Rand委托哲學家Hubert Dreyfus撰寫了一篇關于人工智能的報告,名為“煉金術和人工智能”,發(fā)表了一個有力的論證:“計算機不能做什么”(Dreyfus,1972) , 第一版就大獲成功。Hubert Dreyfus對建造人工智能的爭論迅速大大削弱了推理規(guī)則可以給機器“智能”的想法。 對邏輯規(guī)則的闡釋完全忽視了知覺有身體的,位置的,隱性的,顯性的,集體性的,語境的,也忽視了人類對行為的決策。
第一代“叛徒”出現(xiàn),他們批評、質(zhì)疑自己曾有的希望:Joseph Weizenbaum, 先驅Eliza,SHRDLU的設計者 Terry Winograd?!爸悄堋睓C器與美妙的邏輯規(guī)則,確定性語法和理性的目標吻合,但這樣的機器的世界并不存在。
人工智能第二波浪潮:專家的世界
然而,人工智能將在20世紀80年代迎來第二個春天,“專家系統(tǒng)”對符號主義機器架構進行了重大修訂。
通過訪問更強大的計算機,將更多信息輸入計算機的內(nèi)存,重生得以實現(xiàn)。 然后,“玩具”世界被專家的智識構成的“專業(yè)知識簿”取代。第二代AI與可以世界的外延相互作用,而世界的外延并非由程序員設計塑造:它現(xiàn)在由來自不同領域的專家的知識組成,這些知識轉化為陳述性命題,用盡可能自然的語言表達 (Winograd,1972),以便用戶可以通過提問來互動 (Goldstein,Papert,1977)。
根據(jù)Edward Feigenbaum為DENDRAL(第一個識別材料化學成分的專家系統(tǒng))提出的術語,待計算世界的外延導致了符號主義機器的架構改變,分離了計算器構成的“推理引擎”和稱為“生產(chǎn)系統(tǒng)”的一系列可能的世界。知識的數(shù)據(jù)庫是一個可修改的“如果 ... 那么”型規(guī)則的列表(例如:“如果發(fā)熱,那么[搜索感染]”),它們與推理引擎分離,推理引擎用于決定何時、如何應用規(guī)則。
規(guī)則的圣殿
早期僵化的計算主義想發(fā)明一個不切實際的抽象宇宙,受到諸多的批評?,F(xiàn)在人工智能研究將從最高層開始,理解,抽象,然后完成一個概念系統(tǒng),來操作這些新的知識庫。然后,這個符號主義的項目以超過必要的建模,不完備的推理和啟發(fā)式的算法,在專家的幫助下,更接近用戶的世界。這種計算器編程的特征在于放松邏輯運算符(語法),而構建過密的表示知識的概念網(wǎng)絡(語義)。借用關于思想模塊性的討論(Fodor,1983),計算器將推理過程分解為基本的模塊,分解為交互的“代理(agent)”,這些“代理”可以自主地用不同方式使用知識和做出推斷。因此,第二波符號主義人工智能的主要創(chuàng)新構思產(chǎn)生于知識庫、知識庫衍生出的有啟發(fā)式意義的語義結構。
越來越多的輸入知識和越來越復雜的概念網(wǎng)絡推動了另一個轉變:推理規(guī)則變得有條件,并且可以被概率化。對于John McCarthy的顯式邏輯方法,Marvin Minsky和Samuel Papert在20世紀70年代堅持了另一個觀點:正確/錯誤的二分法過于僵化。人們更傾向使用啟發(fā)式的而非邏輯性的處理,因此真/假的分類不如有效/無效的分類。我們主要通過近似,簡化和合理的直覺來走向真理,而這些直覺實際上是虛假的(Minsky et Papert, 1970, p. 41)。
在專家制定的數(shù)千條規(guī)則中,可能會發(fā)生這樣的情況:從一個固定的前提(IF ...)出發(fā),第二個命題(THEN ......)有一定概率為真。概率化使我們能夠放寬人工智能早期確定性的推理形式,于是進入機器的知識變得更實際,更多樣化,更矛盾,滲透進了更多概率(Nilsson,2010,p.475)?!坝行?無效”代替了“真/假”,那么計算機的目標與其說是邏輯真理,不如說是對系統(tǒng)給出的答案的正確性,相關性或可能性的估計。但是,這種估計不再有計算機的規(guī)則的內(nèi)在支持, 必須求助于外部的專家,由專家為機器學習提供示例和反例。
推斷概率化逐漸滲透到AI領域,以執(zhí)行程序員無法“手動”實現(xiàn)的任務(Carbonnell etc,1983)。在TomMitchell(1977)的工作之后,學習機制可總結為一種統(tǒng)計學方法:計算機自動生成假設空間內(nèi)的最佳模型。學習機制“探索”計算器生成的各種假設模型,在邏輯推論上進行推理(概念簡化,包含關系,反演推導),搜索合理的假設。進行推斷性推理,消除候選假設的統(tǒng)計方法在此基礎上成熟和發(fā)展,例如決策樹(后來產(chǎn)生了隨機森林)或貝葉斯網(wǎng)絡(可以因果主義地定義變量之間的依賴關系)(Domingos, 2015)。然而,從20世紀90年代初開始,數(shù)據(jù)越來越多,卻沒有組織起來,不是被標記的變量,也不是相互依賴的概念,很快它們將失去可懂度。然后,我們將看到人工智能學習從“探索”向“優(yōu)化”轉變(Cornuéjols et al., 2018,p.22),這將使規(guī)則的圣殿崩潰。
要計算的數(shù)據(jù)的量和數(shù)據(jù)的現(xiàn)實意義不斷增加,歸納機制轉向了計算器內(nèi)部。如果數(shù)據(jù)不再反映類別,變量之間的依賴關系,概念網(wǎng)絡,那么,為了求得目標函數(shù),歸納機制將基于優(yōu)化標準得出正確的分布(Cornuéjols et al. , 2018, p. 22)。 待學習世界的構成轉變,研究人員修改歸納的方法,并提出完全不同的機器架構。這種轉變隨著神經(jīng)網(wǎng)絡的發(fā)展加速,但轉折點其實已藏于人工智能要學習的世界。 由于數(shù)據(jù)越來越“去符號化”,歸納機制構建模型時不再關注初始數(shù)據(jù)結構,而是優(yōu)化因子 (Mazières, 2016)。計算的視野不再是計算器的內(nèi)部,而是世界從外部給出的值 - 而且通常非?!叭祟悺保?這個圖像是否包含(或不包含)犀牛? 這個用戶是否在這樣的鏈接上點擊(或不點擊)?答案也就是優(yōu)化的標準,必須將其輸入計算器,才能發(fā)現(xiàn)貼切的“模型”。 因此新的機器學習方法(如SVM,神經(jīng)網(wǎng)絡)變得更加有效,但也變得難以理解,就如決策樹的發(fā)明者LéoBreiman(2001)所指出。
由專家系統(tǒng)建設者建造的崇高圣殿沒有實現(xiàn)承諾,它們太復雜,而且性能非常有限。原本充滿活力的市場大幅崩潰,有前途的人工智能公司也破產(chǎn)了。20世紀80年代,計算成本的降低和計算能力的提高給了超級計算機新的機會,這些計算機曾被符號主義者擱置,那時符號主義者統(tǒng)治著各種大型IT項目 (Fleck, 1987, p. 153)。將人工智能限于符號主義的大學學術圈的控制力越來越弱,在語音合成,模式識別等領域,專家系統(tǒng)獲得的成果很少。在20世紀90年代初,符號主義的AI非常弱,以至于這個術語幾乎從研究中消失了。 完成無限長的顯性規(guī)則目錄,讓機器懂得人類知覺、語言和推理的千萬微妙之處,愈發(fā)成為一項不可能的,荒唐的,無效的任務(Collins, 1992 ; Dreyfus, 2007).
深度學習的分布式表示
正是在這種背景下,20世紀60年代末開始流亡的聯(lián)結主義方法在20世紀80年代和90年代回歸和興起,這個復興時期,理論和算法都有巨大創(chuàng)造。1979年6月在La Jolla ,加州,Geoff Hinton和James Anderson組織召開了一個會議,會議上,一個聚集了生物學家、物理學家和計算機科學家的跨學科研究小組建議重新審視心理過程極具分布式和并行性的特點。
1986年,該小組以并行分布式處理(Parallel Distributed Processing,PDP)之名,出版了兩卷成果。這一術語常用來洗脫聯(lián)結主義的惡名 (Rumelhart et al. , 1986b)。 不同于計算機的序列式操作和符號主義的推理方法,PDP基于認知的微觀結構,通過利用神經(jīng)元隱喻的特點,繪制反模式:基本單元通過巨大的網(wǎng)絡連接在一起; 知識不是統(tǒng)計性存儲的,而是依靠各單元之間的連接;各單元通過0-1激活機制實現(xiàn)相互通信(<我們的系統(tǒng)中貨幣不是符號,而是激勵和抑制>,p.132) ;這些激活一直并行進行,而非遵循一系列步驟; 信息流沒有控制中心; 一個子路徑不影響另一個子路徑,但一個子系統(tǒng)會生成計算中需滿足的約束,進而調(diào)整其他子系統(tǒng)的行為。
由機器執(zhí)行的操作類似于松弛操作,其中計算迭代地進行,直到取得某個滿足大量弱約束的近似值 (< 系統(tǒng)安裝出解決方案,而非計算出解決方案>,p.135)。由聯(lián)結主義者的構思物生成了許多內(nèi)部表示,這些表示可能是高層級的,但它們是“亞符號的”,統(tǒng)計的,分布式的 (Smolensky, 1988)。如上,聯(lián)結主義方法并不簡單,而是一種非常有野心的智能架構,可以顛覆認知計算。
“一開始,在20世紀50年代,像馮·諾伊曼和圖靈這樣的人不相信符號主義人工智能,Geoff Hinton解釋,人腦更能給他們啟發(fā)。不幸的是,他們都死得太年輕,他們的聲音沒有被聽到。
在人工智能開始時,人們絕對相信我們所需要的智能的形式是一種符號主義的形式,不完全是邏輯的,但類似邏輯的東西:智能的本質(zhì)是推理。現(xiàn)在的觀點完全不同:思想只是表示神經(jīng)元活動的大型向量。我相信那些認為思想可以用符號表示的人犯了一個大錯。輸入一串字符,輸出一串字符,如此,字串成為顯而易見的事物表現(xiàn)方式,于是他們認為兩種狀態(tài)之間必然有一個字串,或者類似字串的東西。我認為兩者之間的關系與字串無關! 思想只不過是一些大型的,可以表示因果的向量。它們會產(chǎn)生其他大型向量,這和傳統(tǒng)的AI的觀點完全不同。 “
如果現(xiàn)在新一批的神經(jīng)網(wǎng)絡的使用者少些參考這種認知論,由于他們沒有經(jīng)歷過長輩們禁受的排斥和嘲弄,他們將形成一個堅持不懈追求聯(lián)結主義事業(yè)的團體。在輸入和輸出字串之間需要插入的,不是對思想的編程模型,而是基本單元構成的網(wǎng)絡,可以根據(jù)輸入輸出調(diào)整參數(shù)的網(wǎng)絡。 盡可能地,這個網(wǎng)絡需要“獨自完成一切”,這恰恰需要許多人工的技巧。
聯(lián)結主義的算法重構
收到John Hopfield工作的啟發(fā),他提出通過賦予每個神經(jīng)元獨立更新其價值的能力來修訂Perceptron模型,物理學家Terry Sejnowski和英國心理學家Geoff Hinton將在1980年代早期發(fā)展用于神經(jīng)網(wǎng)絡的新的多層架構(成為Boltzmann機器),設計者是Nettalk,一個具有三層神經(jīng)元和18000個突觸的系統(tǒng),能夠將文本轉換為發(fā)聲的句子。
但這次復興的真正亮點是算法的設計,即隨機梯度反向傳播(《反向傳播》),這使得計算系數(shù)權重成為可能。除了對Minsky和Papert(1969)的評論之外,作者還表示,當它提供多個層次時,可以簡單地訓練一個神經(jīng)元網(wǎng)絡;這些附加的神經(jīng)元層可以用來學習非線性函數(shù)。該算法通過獲取網(wǎng)絡損失函數(shù)的導數(shù)并“傳播”誤差來修正基礎網(wǎng)絡(網(wǎng)絡下層)的系數(shù),在接近控制論機器的精神中,輸出誤差被“傳播”到輸入。
通過一種通用算法來優(yōu)化所有類型的神經(jīng)網(wǎng)絡,20世紀80年代和90年代是一個非凡的創(chuàng)造性時期,它記錄了聯(lián)結主義的更新。最初成功之一的例子是Yann Lecun創(chuàng)造的,他對AT&T貝爾實驗室(Lecun等人,1989)的郵政編碼進行了識別,卷積技術就是AT&T貝爾實驗室發(fā)明出來的。通過使用美國郵政服務數(shù)據(jù)庫,他設法帶動多層網(wǎng)絡來識別包裹上的郵政編碼。
他這種方法的成功,正在成為神經(jīng)網(wǎng)絡在銀行業(yè)(支票金額)和郵政行業(yè)中首次廣發(fā)的工業(yè)用途之一。然后遵循一系列建議來適應更多隱藏層,使地圖鏈接(編碼器)復雜化,使優(yōu)化功能(RELU)多樣化,在網(wǎng)絡層中集成儲存器(循環(huán)網(wǎng)絡和LSTM),根據(jù)網(wǎng)絡的無監(jiān)督和監(jiān)督學習(信念網(wǎng)絡)等部分進行混合 (Kurenkov, 2015 )。用非常具有創(chuàng)意的方式,測試許多以不同方式布線神經(jīng)元之間關系的架構來探索其屬性。
“它不是很突出,但效率更高!”
雖然這些算法為當今深度學習的大多數(shù)方法提供了基礎,但它們的發(fā)明并不是立即成功的。從1995年到2007年,機構支持變得非常罕見,論文在會議上被拒絕,取得的成果仍然有限。 計算機視覺研究人員說:“他們經(jīng)歷了一次寒冬,實際上,在當時,沒有人可以運行這些機器。世界上有五個實驗室,他們知道,我們跑不了這些機器。” 圍繞在杰夫·辛頓,亞·萊卡和約書亞·本焦周圍的技術研究者們,形成了一個孤立卻團結的小團體,他們主要是給加拿大高級研究所(CIFAR)提供支持。他們的處境變得比1992年的原始技術學習更加困難了,支持向量機(SVM) - 也被稱為“核方法”,是非常有效的小數(shù)據(jù)集。已經(jīng)處于人工智能禁令之下,聯(lián)結主義者們發(fā)現(xiàn)自己已經(jīng)處于人工智能學習社區(qū)的邊緣。
“那時,如果你說你正在做一個神經(jīng)元網(wǎng)絡,你的論文就無法順利通過。直到2010年,就像這樣,一直存在。我記得,LeCun,我們作為被邀請的老師去了實驗室,我們不得不全身心投入和他一起吃飯。沒有人想去那里。我向你發(fā)誓這是很倒霉的事情。他哭了,因為他的論文被CVPR拒絕了,他的東西不夠潮流,也不性感,所以大家會去看時髦的東西。他們需要掌握核心,SVM的事情。所以LeCun他說:“我有一個10層的神經(jīng)網(wǎng)絡,它們是并行的。” 他們對他說,“真的假的?你確定嗎?有新東西嗎?“因為當你提出一個神經(jīng)網(wǎng)絡,這次它有10層,但它沒有比別機器的更好。這就很糟糕了!所以他說,“是的(新的),但沒有足夠的數(shù)據(jù)!”
在與神經(jīng)網(wǎng)絡的少數(shù)推動者相對立的指責中,一個個論證接連不斷地被打翻。
“他們(那些SVM的支持者)總是說,”你的東西不是很突出,它只是一瞬間!“另一位研究員說。他們口中只有那個。我們提交了論文,然后他們說:“它不夠突出不夠優(yōu)秀!” 他們都是數(shù)學很好的人,癡迷于優(yōu)化,在他們的生活中從沒有見過這個東西!多年來,我們都有接觸。所以說,我們可以完全不用在意他們?!?/p>
由于其非線性構成,神經(jīng)網(wǎng)絡無法保證在損失函數(shù)的優(yōu)化階段,可以找到整體最小值;它可以很好地聚集到局部最小值。在2005 - 2008年,真正的政策是由一小群的“神經(jīng)元的陰謀”的開始的(馬科夫,2015年,第150頁),為了說服機器學習社區(qū),他們也是“<凸>炎癥”流行病的患者(LeCun,2007)。所以在2007年,他們的論文被NIPS拒絕,他們組織了一個衛(wèi)星會議,把與會者用汽車送到溫哥華凱悅酒店,捍衛(wèi)了由SVM最早提出的方法。 Yann LeCun演講說:“誰害怕非凸函數(shù)?” 通過研究了幾個結果后得出,神經(jīng)網(wǎng)絡的表現(xiàn)要比SVM好,他認為,線性模型對理論要求的過于接近,無法想象創(chuàng)新的計算架構,并關注其他優(yōu)化方法。當然,非常簡單的隨機梯度下降算法并不能保證可以收斂到整體的最小值,但是“當經(jīng)驗證據(jù)表明,如果你沒有理論上的保證,它只是意味著該理論是不合適的……如果因此,你就不得不將凸性拋出窗外,那太好了! (LeCun,2017,11'19)。
“這些創(chuàng)意總是很瘋狂”,這場爭議的一位參與者評論道?!白畛?,對于這群人,這群有創(chuàng)意的人,這是一場騷動。然后直到那些不在人工智能圈子的人的到來。在優(yōu)化方面,人們已經(jīng)花了十年時間來尋找一種更巧的凸方法,來解決復雜的問題,但這是非常昂貴的(算力上)。這并不枯燥,但完全干涸了,這方面有成千上萬的論文,當大量的數(shù)據(jù)到來時,所有的機器都不工作了!”
將世界轉變?yōu)橄蛄?/p>
因此,聯(lián)結主義者將通過實驗室的新數(shù)據(jù)流來選擇最佳計算方法,從而改變關于凸性的科學爭議。為了面對大數(shù)據(jù),用于預測的機器的架構將被轉變。這與傳統(tǒng)的小型的校準的高度人工的數(shù)據(jù)集完全不同。因為,在此次爭辯中,以大數(shù)據(jù)為依托,社會和網(wǎng)絡服務的發(fā)展產(chǎn)生了一些新的工程問題,如垃圾郵件的檢測,用于推薦的協(xié)同過濾技術,股票預測,信息搜索或社交網(wǎng)絡分析。
在這個工業(yè)前提下,新的數(shù)據(jù)科學的統(tǒng)計方法借用并開發(fā)了機器學習技術(貝葉斯,決策樹,隨機森林等)。但是,很顯然,面對數(shù)據(jù)的量和異質(zhì)性特點,更準確說是“驗證”技巧,有必要使用更多的“試探性”和歸納的方法(杜克,1962年)。因此,在與行業(yè)接觸中(最初是AT&T,然后是谷歌,F(xiàn)acebook和百度),神經(jīng)網(wǎng)絡的陰謀者將遇到問題:計算能力和數(shù)據(jù)上的,這些問題給他們機會去展示他們的機器的潛力,并將他們的觀點加諸科學爭議。他們將引出一個新的判準:當這些預測適用于“真實”世界時,預測是有效的。
新聯(lián)結主義者首先要求在爭辯中加入自己的術語。他們解釋說,有必要區(qū)別“淺層”架構(如SVM)的“寬度”與神經(jīng)元分層架構的“深度”。他們可以證明深度優(yōu)于寬度:當數(shù)據(jù)和尺寸增加時,只有深度是可計算的并且可以設法捕獲數(shù)據(jù)特征的多樣性。所有凸(函數(shù)),因為他們,SVM不能給出大型數(shù)據(jù)集一個好的結果:維數(shù)增長太快,并無法估量,不好的對預測產(chǎn)生了相當大擾動,非線性方法的線性化的解,導致系統(tǒng)失去學習復雜表征的能力(Bengio和LeCun,2007)。
聯(lián)結主義者設法說服人們,最好是犧牲計算的可理解性,犧牲嚴格控制的優(yōu)化,換取對新的數(shù)據(jù)的復雜性更好的感知。隨著訓練數(shù)據(jù)量的急劇增加,存在有許多局部最小值。在機器學習這種緊張爭辯的核心中,一個潛臺詞是無所不在:它實驗室里,模型才是線性的,世界,“真實世界”,由之產(chǎn)生的數(shù)據(jù)圖像,聲音,文字和文本的數(shù)字化,它是非線性的。它是嘈雜的,信息是冗余的,數(shù)據(jù)流沒有被歸類為齊次變量的屬性,也并不清晰和易于構造,有些樣本甚至是錯誤的。
“一個AI”,Yoshua Bengio等人寫道(2013年),“必須從根本上了解我們周圍的世界,而我們認為,這是可以實現(xiàn)的。這就是為什么<深層>架構比<淺層>架構更容易計算和更具“表現(xiàn)力”的原因(Lecun和Bengio,2007)。降低可理解性,讓計算器捕捉到更復雜的世界,關于凸性的爭論表明,歸納性機器的產(chǎn)出絕不是憑天真的經(jīng)驗, 它是一個大量工作的結果, 有必要說服他們重新看待計算器和世界之間的關系。
此外,為了使這些數(shù)據(jù)能運用到科學爭辯中,有必要從源頭上增加科研數(shù)據(jù)集的大小。
在1988年關于字符識別的文章中,Yann LeCun使用了9,298個手寫體的郵政編碼。自2012年以來就被用在字符識別的數(shù)據(jù)庫mnist包括了 60, 000個標記為黑白的圖像, 每個28像素。它已經(jīng)證明了神經(jīng)網(wǎng)絡的有效性,但比起其他技術,比如SVM,還是不能贏得支持。另外,科學界將利用互聯(lián)網(wǎng)的優(yōu)勢,來產(chǎn)生更大的數(shù)據(jù)集和構建機器學習任務。這種系統(tǒng)的,廣泛的,盡可能基礎的數(shù)字數(shù)據(jù)捕獲,讓Hubert Dreyfus的格言更具意義,“世界上最好的模型就是世界本身” (dreyfus, 2007, p1140)。正如人工智能的異端們長期倡導的那樣,代表性存在于世界的數(shù)據(jù)中,而不是計算器的內(nèi)部。(布魯克斯,1988年)。
IMAGEnet的誕生,在這方面堪稱典范。
該數(shù)據(jù)集用于文章最初提出的挑戰(zhàn),由LI Feifei最初建立(Deng et al,2009)。該數(shù)據(jù)庫目前包括1400萬個圖像,其元素已被手動標注了21841個類,分類基于自動語言處理中另一個經(jīng)典數(shù)據(jù)庫Wordnet的層次結構。為了完成這項巨大的工作(鑒定各圖像,圖像的區(qū)別在于圖中由人工繪制的方塊),有必要通過Mechanical Turk, 將眾多的任務交給成千上萬的標注器。(su et al, 2012; jaton, 2017)。從9298 到1400萬個數(shù)據(jù),數(shù)據(jù)量和數(shù)據(jù)維度天翻地覆。同時伴隨的還有計算器功耗的指數(shù)增長,這將由并行化計算和GPU的發(fā)展解決 (圖 6)。
2009年, 顯卡上實現(xiàn)了反向傳播算法, 從而神經(jīng)網(wǎng)絡的速度提高了 70倍 (raina et al, 2009)。今天有 5 000個樣本的分類學習很常見,但這很快就會變成幾百萬個樣本的數(shù)據(jù)集。數(shù)據(jù)集的指數(shù)增長同樣伴隨著計算器架構的改變:網(wǎng)絡中的神經(jīng)元數(shù)量每2.4年翻一番(Goodfellow et al,2016,p27)。
但是,聯(lián)結主義者還將采用另一種數(shù)據(jù)轉換,通過執(zhí)行稱為“嵌入”的操作將它們?;⑵滢D換為可計算的格式。神經(jīng)網(wǎng)絡要求計算器的輸入采用向量的形式。因此,世界必須用純數(shù)字向量的表示形式進行編碼。某些對象 (如圖像) 自然分解為向量, 而其他對象需要 "嵌入" 矢量空間, 然后才有可能通過神經(jīng)網(wǎng)絡進行計算或分類。這一技術的原型來自文本。為了將單詞輸入神經(jīng)網(wǎng)絡, word2vec 技術 將單詞"嵌入" 到一個向量空間中, 并測量它與語料庫中其他單詞的距離 (mikolov et al, 2013)。因此,這些詞在數(shù)百維的空間中有了位置。
這種表示的優(yōu)點在于這種轉換可提供許多操作。在這個空間中位置接近的兩個詞在語義上也是相似的,我們說這種表示是分布式的:“appartement”的向量[-0.2,0.3,-4.2,5.1 ...]會接近“home”[-0.2,0.3,-4.0,5.1 ...]。語義接近度不是從符號分類推導出來的,而是從文本材料的所有詞的統(tǒng)計鄰域推導出來的。因此,這些向量可以有利地替換它們所代表的單詞以解決復雜的任務,例如文檔的自動分類,翻譯或自動摘要。因此,連接主義機器的設計者正在進行非常人工的操作,將數(shù)據(jù)轉換到另一個系統(tǒng)。如果說語言處理首創(chuàng)性地將單詞“嵌入”向量空間,那么今天我們正在目睹嵌入的全過程,該過程逐步擴展到所有應用程序領域:有了graph2vec,網(wǎng)絡成為了向量空間中簡單的點,paragraph2vec ——文本,movie2vec——電影,sense2vec——單詞含義,mol2vec——分子結構,等等。用Yann LeCun的話說,聯(lián)結主義機器設計者的目標是將世界變成一個向量(world2vec)。
從模型到架構
因此,必須從計算器中扣除現(xiàn)在由數(shù)據(jù)多樣性和數(shù)據(jù)量帶來的真實的波動。 因此,神經(jīng)架構的設計者將在計算器中事先“有意”地插入明確的規(guī)則,以便預先識別,表征或聚合數(shù)據(jù)。
“這背后有一種力量,”該領域的一位研究人員說,“ 有一股浪潮,數(shù)據(jù)浪潮,一股巨大的帶走一切的浪潮。 這完全打破了人類建模的所有思想潮流。 我在多個領域工作過,應用,語音,寫作,文本,社交數(shù)據(jù)等,每次我都是做一樣的事情。 人們曾有一個時期想將知識放進他的系統(tǒng)中,這種想法已被掃地出門。系統(tǒng)性的! 這已經(jīng)持續(xù)了三十年,逐個領域。 就是這樣。 你知道,這很有意思。 與那些一生都相信社會主義政權然后崩潰的人一樣......這是同樣的事情?!?/p>
從2000年代末開始,以一種非常不安定的心情,看到一種沒有理論做依托的技術,將取代多年來耐心進行的建模工作,并連續(xù)地征服信號,聲音,圖像和自動翻譯的社區(qū)。一個領域接著一個領域,神經(jīng)網(wǎng)絡的計算贏在轉換到操作網(wǎng)絡中的權重分布的效率,這是以前科學活動的主要焦點:特征工程和模式識別。這些技術包括“手動”編寫算法以識別初始數(shù)據(jù)的特征。該提取過程通過簡化特征與問題或目的之間的關系來促進學習。日益強大的自動化將允許統(tǒng)計機器學習技術獲得計算器內(nèi)部建模器的功能(見上文)。但神經(jīng)網(wǎng)絡正在激化這一運動,從特征提取過程轉向所謂的端到端過程:從“原始”數(shù)字數(shù)據(jù)轉向樣本“標記”。
此舉的一個示例是本文開頭縮略圖中使用的卷積原理。計算機視覺社區(qū)已經(jīng)開發(fā)了非常精細的提取方法,以識別圖像中的邊緣,角落,對比度過渡和興趣點,并將它們與詞袋相關聯(lián)。這些操作現(xiàn)在由給定的卷積網(wǎng)絡的特定結構隱式支持: 將圖像鋪成小的像素切片, 這些像素被分配到分離的神經(jīng)元片段, 然后再將它們在另一層組裝。而不是建模一只犀牛, 或概括像素塊的特點來預測犀牛的形狀, 幾千張犀牛照片在圖像中移動, 身體的一部分被切斷, 從角度和不同的位置。
相比不知道如何處理縮放,轉換或旋轉問題的預處理程序,這能更好地描繪概念 "犀牛" 對神經(jīng)元的影響。數(shù)據(jù)與其特征的關系不是需要的, 而是獲得的。神經(jīng)網(wǎng)絡做很好的提取特征, 邊緣往往被第一層神經(jīng)元 "看到", 角落是另一個, 元素更復雜的形式在最后, 但這些操作, 沒有被明確實施, 這是網(wǎng)絡在體系結構約束下出現(xiàn)的效應。
因此,計算“參數(shù)”的預處理已轉變?yōu)橛嬎闫鞯摹俺瑓?shù)”的定義。人工建模的部分越少,歸納機器的結構就越復雜。完全連接的神經(jīng)網(wǎng)絡什么都不產(chǎn)生。因此有必要對其進行雕刻,以使其架構適應委托給它的學習任務:隱藏層數(shù),每層神經(jīng)元數(shù),連接方式,激活函數(shù)選擇,初始系數(shù),目標函數(shù)的選擇,向模型顯示所有學習數(shù)據(jù)的次數(shù)等。這些設置可能會通過試錯調(diào)整。
例如,剪枝(pruning),包括移除神經(jīng)元以查看是否會改變網(wǎng)絡的性能,丟棄(dropout), 在學習階段, 不發(fā)送信號輸入層中的一些神經(jīng)元或隨機隱藏的層, 以避免過擬合(overfitting) 。這些方法、技巧和工藝規(guī)定為社區(qū)的許多討論提供了素材, 并保持了工藝的特征 (domingos, 2012年)。面對特征提取的數(shù)學改進,神經(jīng)網(wǎng)絡的生成因而可以被看作黑客的工作,看作一個有天賦的程序員練習黑魔法一般的技能的活動。
“他們,也就是那些與Hinton一起的人,采取了一些措施來完成所有功能的提取以獲取原始圖像。這很瘋狂,因為它是重現(xiàn)的一件事,但是以探索的方式! 他們制造了一個難以想象的復雜系統(tǒng),他們能夠讓它們發(fā)揮作用。 你從這些人那里拿論文來看,我很害怕,我太老了! 伙計們,他們跟你說話,好像他們是在編程。 他們沒有用對我有意義的三個方程進行描述。
但在5行里,他們會向你描述一個超復雜的東西。 所以,這意味著他創(chuàng)建了一個架構,在這個架構中,他將100個元素彼此放在一起,并且每個元素要連接它們,你有十種可能的選擇。 他和它游戲,發(fā)動它。 這是一個黑客,這是一個黑客的工作!”
因此,超參數(shù)是一個可解釋性的新要求可以活動的地方。這些數(shù)據(jù)不是“自己說話”,而是受制于無法從數(shù)據(jù)中學習的架構,現(xiàn)在集中了大部分的AI研究。在NIPS會議上,有一篇值得注意的論文,它提出了一個新架構,就像對行星命名一樣,研究人員進行了系統(tǒng)地命名,就像一群好奇的動物。通過從模型轉向架構,有了表達研究人員創(chuàng)造性的地方,創(chuàng)造性也是他們的設計所需要的技能和品質(zhì)。
這還為新的數(shù)據(jù)科學家,黑客和程序員提供開放且易于操作的工具,以進入以前非常封閉的AI生產(chǎn)者領域。通過改變預測機器的架構,聯(lián)結主義者推動了人工智能的社交世界:首先,因為“真實的”數(shù)據(jù)集,特別是來自數(shù)字行業(yè)的數(shù)據(jù),已經(jīng)(部分)取代了學術實驗室的“玩具”數(shù)據(jù)集,還因為,生產(chǎn)聯(lián)結主義機器所需的專業(yè)知識是軟件開發(fā)的技能,但不是前幾代AI需要的開發(fā)技能。
歸納的工作
智能機器的發(fā)展軌跡剛剛相繼在四個背景中進行了總結,顯示了它們架構的深刻變革。 這些設備的世界,計算器和視野都經(jīng)過了深刻的改造,這些組件之間的聯(lián)系正在塑造那些提供與智能,推理和預測明顯不同的定義的設備。
然而,整體動態(tài)出現(xiàn)在這個動蕩歷史中。 計算并制造心靈的唯物主義項目今天已經(jīng)走上了堅定的聯(lián)結主義道路。 目前成功的歸納機器只不過是一個術語或已找到的一個“解決方案”。 盡管他們的能力很強,但深度學習技術遠遠不能滿足一般人工智能項目的要求,就像“符號主義者”一直以來的指責。 但是在本文敘述的軌跡中特別指出, 如果不做大量雄心勃勃的工作來改變兩者之間的平衡, 這種預測性演算的歸納重組就無法實現(xiàn)。
在計算器的輸入上,首先,世界的構成經(jīng)歷了原子化和顆粒化的深刻運動。數(shù)據(jù)封裝組成的關系,全局樣式等的許多規(guī)律,它們必須由計算器,而不是程序員來識別,因此,歸納工作的第一個特征是以盡可能最基本的形式將數(shù)據(jù)引入系統(tǒng)數(shù)據(jù):像素,而非形式;頻率,而非音素;字母,而非字;點擊,而非用戶聲明;行為,而非類別......(Cardon,2017)。數(shù)據(jù)是否是異質(zhì)的,冗余的,常常不正確的,這些都不再是問題,每一個新的信號都可以作為構成聯(lián)結主義機器世界輸入的矩陣的新列被添加。
這一整體變動的第二個特征是計算器活動的先驗模型的消失(這種現(xiàn)象通常被描述為“理論的終結”(Anderson,2008)),有利于模型的概率在假設空間中越來越大,當考慮到數(shù)據(jù)的變化維度時,模型的更激進的分布散布在神經(jīng)元網(wǎng)絡的多個層。這是早期人工智能的巨大野心,用于模擬推理,同時為計算機科學研究做出重大貢獻。
聯(lián)結主義機器已經(jīng)將人工智能的挑戰(zhàn)從解決抽象問題、正統(tǒng)認知科學的目標,轉變?yōu)榇罅棵舾行盘栔械奶卣鳉w納。歸納生成工作的第二個特點是實現(xiàn)了顛覆AI計算系統(tǒng)的條件,以輸出程序而不是輸入程序。盡管如此,神經(jīng)網(wǎng)絡并沒有使“理論”消失。他們只是將其轉向計算器架構的超參數(shù),同時讓“理論”這一概念少了一些“符號主義”的含義。
這一問題使預測過程的理解和可解釋性上的挑戰(zhàn)尤其敏感 (burrel, 2016;cardon, 2015)。由于許多工作需要在復雜的系統(tǒng)上完成,毫無疑問, 我們必須學會使可感知的, 適當?shù)暮涂梢傻男问降慕>哂懈嗟膶傩?(線性,可讀性、完整性、經(jīng)濟性等)。在這些屬性中,我們使用了——非常 "符號主義" 的——社會科學中模型的<可理解性>的概念。
第三個變動與計算器的視野有關。符號主義AI設計出的智能機器給予了理性和邏輯的預期目標 – 內(nèi)植于計算的理性,這讓AI的推動者認為,機器是“自主的”在聯(lián)結主義模型中,計算的視野不屬于計算器,而是屬于給了它有標注樣本的世界。輸出,由人類產(chǎn)生,符號化和加入了偏差的輸出,這些輸出組成了聯(lián)結主義機器最有價值的數(shù)據(jù)之一。歸納產(chǎn)生工作的第三個特點是通過更新控制論機器反射的自適應預期來建立對世界本身的預測性能: 系統(tǒng)與環(huán)境一起計算安裝新型的反饋循環(huán)??偠灾?,面對這些越來越具創(chuàng)新的新機器,我們還不夠富有想象力。
-
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4749瀏覽量
100434 -
大數(shù)據(jù)
+關注
關注
64文章
8856瀏覽量
137222 -
深度學習
+關注
關注
73文章
5471瀏覽量
120904
原文標題:學界 | Yan LeCun強推的AI簡史:兩大流派世紀之爭,神經(jīng)網(wǎng)絡華麗回歸
文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學會】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論