国产视频二区,做着饭下面还连在一起

摘要

人工智能和機器學(xué)習(xí)的最新研究在很大程度上強調(diào)了通用學(xué)習(xí)和越來越大的訓(xùn)練集以及越來越多的計算。

相反，我提出了一種以認(rèn)知模型為中心的混合，知識驅(qū)動，基于推理的方法，該方法可以為比當(dāng)前可能的更豐富，更健壯的AI提供基礎(chǔ)。

1.邁向強大的人工智能

盡管沒有人完全知道深度學(xué)習(xí)或人工智能將在未來幾十年發(fā)展，但是如果我們要達(dá)到一個新的水平，那么既要考慮過去十年所學(xué)到的知識，又要研究下一步應(yīng)該研究的東西。

讓我們將其稱為健壯的人工智能新水平：雖然不一定是超人或自我完善的智能，但可以依靠它以系統(tǒng)和可靠的方式將其所學(xué)知識應(yīng)用到廣泛的問題中，從各種知識中綜合知識來源，這樣它就可以靈活，動態(tài)地對世界進(jìn)行推理，以一種我們對普通成年人所期望的方式，將它在一個環(huán)境中學(xué)到的東西轉(zhuǎn)移到另一環(huán)境中。

從某種意義上說，這是一個微不足道的目標(biāo)，既不像“超人”或“人工智能”那樣雄心勃勃，也沒有像它那樣無邊無際，但也許是邁出重要的一步，并且是可以實現(xiàn)的，如果我們要實現(xiàn)這一目標(biāo)，那是至關(guān)重要的一步。創(chuàng)建我們可以信賴的人工智能，無論是在我們的家中，在道路上，在醫(yī)生的辦公室和醫(yī)院，在企業(yè)中還是在社區(qū)中，我們都可以信賴。

簡而言之，如果我們不能指望人工智能能夠可靠地表現(xiàn)，那么我們就不應(yīng)該信任它。（當(dāng)然，事實并非如此：可靠性不能保證可信度；相反，可靠性不能保證可信度。這只是許多前提條件之一，包括價值和良好的工程實踐；請參閱Marcus和Davis（Marcus＆Davis，2019）進(jìn)行進(jìn)一步討論。）

有人可能會將強大的AI與例如狹義的智能，可以很好地完成單個狹窄目標(biāo)（例如下棋或識別狗的品種）的系統(tǒng)進(jìn)行對比，但這些系統(tǒng)往往以非常單一的任務(wù)為中心，并且不健壯且無法轉(zhuǎn)移到甚至適度不同的環(huán)境（例如，到不同尺寸的電路板，或從一個具有相同邏輯但字符和設(shè)置不同的視頻游戲到另一個視頻游戲），而無需進(jìn)行大量的重新培訓(xùn)。當(dāng)將這些系統(tǒng)應(yīng)用到要在其上進(jìn)行訓(xùn)練的確切環(huán)境時，它們通常會表現(xiàn)出令人印象深刻的良好效果，但是，如果環(huán)境與他們在其上進(jìn)行訓(xùn)練的環(huán)境有所不同，有時甚至是很小的差異，我們通常就無法指望它們。這種系統(tǒng)在游戲環(huán)境中已顯示出強大的功能，但在現(xiàn)實世界的動態(tài)，開放式流程中尚未被證明是足夠的。

還必須將強大的智能與我稱之為點畫式智能進(jìn)行對比，點智能在許多情況下都有效，但在許多其他情況下卻失敗了，表面上看起來很相似，以某種無法預(yù)測的方式。圖1展示了一個視覺系統(tǒng)，該視覺系統(tǒng)通?？梢宰R別校車，但是在積雪的道路中（左）無法識別翻倒的校車（左），而閱讀系統(tǒng)（右）可以正確地解釋一些句子，但在閱讀過程中卻失敗。存在無關(guān)的干擾物。

任何密切關(guān)注AI文獻(xiàn)的人都將意識到，健壯性從一開始就一直遙遙無期。盡管已經(jīng)投入了巨大的資源，但深度學(xué)習(xí)迄今仍未解決該問題。

相反，到目前為止，深度學(xué)習(xí)技術(shù)已證明是數(shù)據(jù)饑渴，淺薄，易碎且泛化能力有限（Marcus，2018）。或者，正如Francois Chollet（Chollet，2019年）最近所說的那樣，人工智能一直未能達(dá)到其理想：盡管我們能夠設(shè)計出在特定任務(wù)上表現(xiàn)出色的系統(tǒng)，但它們?nèi)匀淮嬖诿黠@的局限性，脆弱性，數(shù)據(jù)量饑餓，無法理解與培訓(xùn)數(shù)據(jù)或創(chuàng)建者的假設(shè)略有不同的情況，并且在沒有人類研究人員的大量參與的情況下無法調(diào)整自己的工作方式來應(yīng)對新穎的任務(wù)。

用Facebook AI研究人員團(tuán)隊的話說（Nieet al。，2019）

“越來越多的證據(jù)表明，最先進(jìn)的模型學(xué)會了利用數(shù)據(jù)集中的虛假統(tǒng)計模式……而不是像人類那樣靈活而可概括地學(xué)習(xí)意義。”

正如Yoshua Bengio在最近的一篇文章（Bengio等人，2019年）中所指出的那樣，一個關(guān)鍵的弱點是當(dāng)需要將機器學(xué)習(xí)方法推廣到訓(xùn)練分布之外時，當(dāng)前的機器學(xué)習(xí)方法似乎很薄弱，而這在實踐中通常是需要的。

我們怎樣才能將AI提升到一個新的水平？

我認(rèn)為，如果不首先開發(fā)具有我和ErnieDavis所說的深刻理解的系統(tǒng)的能力，我們就不會獲得強大的情報，這不僅具有關(guān)聯(lián)和辨別復(fù)雜數(shù)據(jù)集中細(xì)微模式的能力，而且還具有查看任何場景并解決一些問題，例如記者可能會問：誰，什么，什么地方，為什么，何時以及如何。

在美好的一天，像被廣泛討論的神經(jīng)網(wǎng)絡(luò)GPT-2這樣的系統(tǒng)可以產(chǎn)生故事和類似的給定句子片段，可以傳達(dá)表面上似乎反映出深刻理解的東西。例如，給定一個句子片段（以粗體顯示），例如“兩個士兵走進(jìn)酒吧”，它通?？梢援a(chǎn)生流利且聽起來似真實的連續(xù)感，例如人，酒吧，飲料和金錢之間的關(guān)系：

兩名士兵走進(jìn)摩蘇爾的一家酒吧，把所有的錢都花在了喝酒上。

但是，無論許多GPT-2例子看起來多么引人注目，事實都是它的表示很單薄且不可靠，類似于Nie等人（2019）所指出的那樣，通常在密切檢查下會崩潰（Marcus，2020）。這是兩個典型案例，取材自我于2019年12月在NeurIPS（Marcus，2019）上提出的開發(fā)中基準(zhǔn)測試。

?昨天我把衣服放在干洗店里了，還沒撿起來。我的衣服在哪里？在我媽媽的房子里。

?原木上有六只青蛙。兩只離開，三只加入?，F(xiàn)在原木上的青蛙數(shù)是十七。

首先，GPT-2可以正確預(yù)測查詢片段后面的元素類別（即位置），但無法跟蹤干洗位置。在第二篇中，GPT-2再次正確預(yù)測了正確的響應(yīng)類別（在這種情況下為數(shù)字），并且再次無法掌握細(xì)節(jié)。正如Marcus（Marcus，2020; Marcus，2019）所討論的那樣，這種錯誤非常普遍。顯然，我們將需要更穩(wěn)定的基材以實現(xiàn)堅固性。

一切照舊主要集中在穩(wěn)步改善深度學(xué)習(xí)工具箱中的函數(shù)逼近和組合工具，以及收集更大的訓(xùn)練集并擴展到越來越大的GPU和TPU集群。可以想象通過收集更大的數(shù)據(jù)集，以各種方式擴充這些數(shù)據(jù)集以及在基礎(chǔ)架構(gòu)中納入各種改進(jìn)來改進(jìn)像GPT-2這樣的系統(tǒng)。盡管這些方法具有價值，但需要進(jìn)行更根本的重新思考。

可能會采用更多激烈的方法。例如，Yoshua Bengio為大幅擴展深度學(xué)習(xí)工具包提出了許多復(fù)雜的建議，包括開發(fā)通過對分布變化的敏感性統(tǒng)計提取因果關(guān)系的技術(shù)（Bengio等人，2019）和自動提取模塊化的技術(shù)。結(jié)構(gòu)（Goyal et al。，2019），我都十分同情。

但我認(rèn)為這還不夠，可能需要更強有力的藥物。特別是，本文的建議，即我們必須重新集中精力，致力于開發(fā)一個框架，用于構(gòu)建能夠常規(guī)獲取、表示和操作抽象知識的系統(tǒng)，使用這些知識來構(gòu)建、更新和推理復(fù)雜的外部世界內(nèi)部模型。 §

從某種意義上說，我將要咨詢的是回歸到三個問題：經(jīng)典人工智能知識、內(nèi)部模型和推理，但希望以新的方式，用現(xiàn)代的技術(shù)來解決它們。

這些問題都是經(jīng)典人工智能的核心。例如，約翰·麥卡錫在他的開創(chuàng)性論文《程序與常識》（Programs withCommon Sense）中指出了常識知識的價值[McCarthy 1959]；道格·萊納特（Doug Lenat）將常識知識的機器表達(dá)形式作為他畢生的工作來解釋（Lenat，Prakash，&Shepherd，1985；Lenat，2019）。由TerryWinograd（谷歌創(chuàng)始人Larry Page和Sergey Brin的導(dǎo)師）設(shè)計的經(jīng)典AI“blocks world”系統(tǒng)SHRLDU圍繞一個內(nèi)部的、可更新的世界認(rèn)知模型展開，該模型表示軟件對一組堆疊物理對象的位置和屬性的理解（Winograd，1971）。然后，SHRLDU對這些認(rèn)知模型進(jìn)行推理，以便推斷出隨著時間的推移，世界的狀態(tài)。

瀏覽一下機器學(xué)習(xí)領(lǐng)域最新論文的標(biāo)題，你會發(fā)現(xiàn)很少有人引用這些觀點。一小部分人會提到推理，另一小部分人可能會提到實現(xiàn)常識的愿望，大多數(shù)人會（故意地）缺乏豐富的認(rèn)知模型，比如個人和物體，它們的屬性，以及它們之間的關(guān)系。

例如，一個像GPT-2這樣的系統(tǒng)，做它所做的事情，不管是好是壞，沒有任何明確的（直接表示和隨時共享的）常識知識，沒有任何明確的推理，也沒有任何它試圖討論的世界的明確的認(rèn)知模型。

許多人認(rèn)為這種缺乏費力編碼的顯性知識的優(yōu)勢。GPT-2并不是反常的，而是一種當(dāng)前趨勢的特征，即遠(yuǎn)離經(jīng)典人工智能的關(guān)注，轉(zhuǎn)向一種不同的、更為數(shù)據(jù)驅(qū)動的范式，這種范式是由深度學(xué)習(xí)的復(fù)蘇所推動的（大約2012年）。隨著DeepMind備受推崇的Atari游戲系統(tǒng)（Mnihet al.，2015）的出現(xiàn)，這一趨勢加速發(fā)展，正如后面所討論的，該系統(tǒng)在不使用任何詳細(xì)認(rèn)知模型的情況下成功地玩了各種各樣的游戲。

最近，強化學(xué)習(xí)的創(chuàng)始人之一Rich Sutton在一篇廣為閱讀的文章中明確了這一趨勢。這篇名為“痛苦的教訓(xùn)”的文章明確建議不要利用人類的知識：

從70年的人工智能研究中可以得到的最大教訓(xùn)是，利用計算的一般方法最終是最有效的，而且在很大程度上……研究人員試圖利用人類對該領(lǐng)域的知識，但從長遠(yuǎn)來看，唯一重要的是利用計算?！祟愔R方法傾向于使方法復(fù)雜化，使它們不太適合利用利用計算的一般方法。

在某種程度上，將人類知識構(gòu)建到機器學(xué)習(xí)系統(tǒng)中甚至在機器學(xué)習(xí)界被視為作弊，當(dāng)然也不可取。在DeepMind最有影響力的論文之一“掌握圍棋的游戲而不需要人類知識”中，其目標(biāo)是完全放棄人類知識，以便“學(xué)習(xí)、制表、超人在挑戰(zhàn)領(lǐng)域的熟練程度”（Silver等人，2017）。如果能從大規(guī)模的語料庫中歸納出常識，并且有最小的先驗約束，那么機器學(xué)習(xí)社區(qū)的一大群人將非常高興。【當(dāng)然，盲目地同化所有人類所說的一切，都會以自己的方式產(chǎn)生問題。正如ConceptNet的主要維護(hù)者Robyn Speer所說，我們的雄心壯志應(yīng)該更好：“我們希望避免僅僅因為電腦對人來說很糟糕就讓電腦對人來說很糟糕。我們希望提供的（知識表達(dá)）不僅是技術(shù)上最好的，而且在道德上也很好?！磕Ｐ蜆?gòu)建也被證明是一項艱苦的工作，而且普遍的看法是，如果能跳過這一步，生活會更輕松。

問題是，即使有大量數(shù)據(jù)，也有像GPT-2（Radford等人，2019）那樣的Transformer（Vaswani等人，2017）這樣的基礎(chǔ)，當(dāng)代神經(jīng)網(wǎng)絡(luò)收集的知識仍然是零散的和點狀的，可以說是有用的，當(dāng)然令人印象深刻，但永遠(yuǎn)不可靠（Marcus，2020）。

上面的例子（如果你把洗好的衣服放在家里，顯然不可能還在你媽媽家里）和更明確的GPT-2測試中都暗含著這種不可靠和不可靠，比如：

如果打破玻璃瓶水，水可能會滾動。

如果打破玻璃瓶水，水可能會破裂一些并濺到地板上。水會產(chǎn)生氣泡，當(dāng)瓶子中的水量增加時氣泡會膨脹。

如果您打破了一個裝有玩具兵的玻璃瓶，玩具兵可能會跟隨您到那里。

至關(guān)重要的是，薩頓關(guān)于用“通用方法”代替人類知識的價值的例子來自封閉性領(lǐng)域，例如游戲，對象分類和語音識別，而常識則是開放性的。在Go之類的游戲中獲勝與解釋和評估新聞故事或解決現(xiàn)實世界中意料之外的計劃問題大不相同，例如阿波羅13號機如何確定如何在宇航員所在的瀕危航天器上解決空氣過濾器問題快速耗盡。這是一種一次性解決方案，似乎超出了無知識的深度強化學(xué)習(xí)所可能管理的范圍。當(dāng)要知道干洗地點在哪里時（就像前面的例子一樣，昨天，我把衣服放在干洗店里了，還沒有撿起來。），您需要一個世界的內(nèi)部模型，以及一種隨著時間的推移更新模型的方法，這是一些語言學(xué)家稱為話語更新的過程（Bender＆Lascarides，2019）。像GPT-2這樣的系統(tǒng)根本沒有那樣的功能。

當(dāng)純粹的計算能力應(yīng)用于開放式領(lǐng)域，如會話語言理解和對世界的推理時，事情就不會完全按照計劃進(jìn)行。結(jié)果總是過于尖刻和零散，不可靠。

是時候反思一下了：如果我們接受了深度學(xué)習(xí)的教訓(xùn)，但人類的知識和認(rèn)知模式再次成為尋求人工智能的一流公民，我們的系統(tǒng)會是什么樣子？

2，一種混合的、知識驅(qū)動的、基于認(rèn)知模型的方法

許多認(rèn)知科學(xué)家，包括我自己，都以一種循環(huán)的方式來對待認(rèn)知：有機體（例如人類）從外部吸收感知信息，他們基于對信息的感知建立內(nèi)部認(rèn)知模型，然后做出尊重的決策。這些認(rèn)知模型，其中可能包括有關(guān)外部世界中存在哪種類型的實體，它們的屬性是什么以及這些實體之間如何關(guān)聯(lián)的信息。認(rèn)知科學(xué)家普遍認(rèn)識到，此類認(rèn)知模型可能不完整或不準(zhǔn)確，但也將它們視為有機體如何看待世界的關(guān)鍵（Gallistel，1990； Gallistel＆King，2010）。即使是不完美的形式，認(rèn)知模型也可以作為世界的有力指南。在很大程度上，有機體在世界上的繁榮程度取決于這些內(nèi)部認(rèn)知模型的良好程度。

電子游戲?qū)嵸|(zhì)上是按照類似的邏輯運行的：該系統(tǒng)具有某種世界內(nèi)部模型，并且該模型會根據(jù)用戶輸入（以及游戲模擬世界中其他實體的活動）定期進(jìn)行更新。游戲的內(nèi)部模型可能會跟蹤角色的位置，角色的健康狀況和所有物等。）游戲中發(fā)生的事情（用戶朝特定方向移動后是否發(fā)生碰撞）是該模型動態(tài)更新的功能。

語言學(xué)家通常根據(jù)一個相似的循環(huán)來理解語言：句子中的單詞被解析成一個語法，映射到一個語義上，這個語義指定了各種實體參與的事件之類的事情。該語義用于動態(tài)更新世界模型（例如，各種實體的當(dāng)前狀態(tài)和位置）。機器人學(xué)的許多工作（雖然不是全部）都是以類似的方式進(jìn)行的：感知、更新模型、做出決策。（有些工作，特別是對物體抓取的端到端的深度學(xué)習(xí)不起作用。）

當(dāng)前論文最強烈、最核心的觀點是，如果我們不做類似的事情，我們就不會成功地尋求強大的智能。如果我們的人工智能系統(tǒng)不能利用對世界及其動力學(xué)的大量知識，對外部世界的過于詳細(xì)、結(jié)構(gòu)化、內(nèi)部模型進(jìn)行描述和推理，它們將永遠(yuǎn)類似于GPT-2：它們會利用大量的相關(guān)數(shù)據(jù)庫，正確地處理一些事情，但它們不會理解正在發(fā)生的事情，我們也不會能夠依靠他們，特別是當(dāng)現(xiàn)實世界中的情況偏離訓(xùn)練數(shù)據(jù)時，就像他們經(jīng)常做的那樣?！救绻鸊PT-2的輸入范圍擴大到包括感性輸入而不僅僅是文本輸入，它會做得更好嗎？也許，但我不認(rèn)為僅僅擴大輸入范圍就能解決系統(tǒng)缺乏明確的內(nèi)部模型的根本問題。同時，值得注意的是，盲童發(fā)展出豐富的內(nèi)部模型，學(xué)習(xí)了相當(dāng)多的語言以及如何將其與這些模型聯(lián)系起來，完全沒有視覺輸入（Landau，Gleitman，&Landau，2009）?！?/p>

為了擁有能夠以健壯的方式對世界進(jìn)行推理的系統(tǒng)，我們需要什么計算先決條件？想要將深度學(xué)習(xí)（主要側(cè)重于學(xué)習(xí)）和經(jīng)典AI（更關(guān)注知識，推理和內(nèi)部認(rèn)知模型）之間的橋梁聯(lián)系起來，將需要做什么？

作為熱身運動，可以考慮將簡單的任務(wù)作為較大挑戰(zhàn)的替代品。假設(shè)您正在構(gòu)建一個機器學(xué)習(xí)系統(tǒng)，該系統(tǒng)必須基于少量數(shù)據(jù)來獲得廣泛范圍的概括，并且您將獲得少量這樣的訓(xùn)練對，其輸入和輸出均表示為二進(jìn)制數(shù)：

Input	Output
0010	0010
1000	1000
1010	1010
0100	0100

對于任何人來說，很快就會發(fā)現(xiàn)這里有一個籠統(tǒng)的概括（稱為“規(guī)則”），例如恒等式的數(shù)學(xué)定律f（x）= x +0。適用于新案例[f（1111）= 1111; f（10101）= 10101，依此類推]。

令人驚訝的是，一些神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)（例如，多層感知器，最近被一本教科書描述為深度學(xué)習(xí)的典型例子）遇到了麻煩。這是一個多層感知器的示例，輸入在底部，輸出在頂部，中間是一個隱藏層。對于任何接觸過神經(jīng)網(wǎng)絡(luò)的人來說，它應(yīng)該看起來很熟悉：

多層感知器接受身份功能訓(xùn)練

這樣的網(wǎng)絡(luò)可以容易地學(xué)習(xí)將輸入與輸出相關(guān)聯(lián)，并且實際上“通用函數(shù)逼近”的各種定律可以保證這一點。給定足夠的訓(xùn)練數(shù)據(jù)和通過訓(xùn)練數(shù)據(jù)進(jìn)行的足夠迭代，網(wǎng)絡(luò)可以輕松掌握訓(xùn)練數(shù)據(jù)。

當(dāng)一切順利的時候（例如，如果架構(gòu)設(shè)置正確，并且沒有陷入學(xué)習(xí)的局部極小值），它還可以推廣到其他示例，這些示例在重要方面與所看到的示例相似。在“培訓(xùn)分配范圍內(nèi)”，例如：

Test Input	Typical Test Output
1110	1110
1100	1100
0110	0110

但是，在訓(xùn)練分布之外進(jìn)行泛化卻是完全不同的局面：

Test Input	Typical Human Response	Typical Test Output
0011	0011	0010
1001	1001	1000
1101	1101	1110
1111	1111	1110

這樣的例子表明，盡管在訓(xùn)練分布范圍內(nèi)的案例表現(xiàn)良好，多層感知器神經(jīng)網(wǎng)絡(luò)畢竟還沒有學(xué)習(xí)到身份關(guān)系。如果同一系統(tǒng)僅針對偶數(shù)在f（x）=x上進(jìn)行訓(xùn)練，則不會將身份函數(shù)擴展到奇數(shù)，這不在訓(xùn)練分布范圍內(nèi)（Marcus，1998）。舉幾個例子，每個輸出節(jié)點，包括最右邊的代表“ 1”位的節(jié)點，都應(yīng)以類似的方式處理：我們采用了最左邊的位抽象為最右邊的位的抽象概念。經(jīng)過反向傳播訓(xùn)練的多層感知器對不同的東西有反應(yīng)。最右邊的節(jié)點始終為零，因此網(wǎng)絡(luò)將繼續(xù)預(yù)測最右邊的節(jié)點將始終為零，而不管輸入的性質(zhì)如何，例如，得出f（1111）=1110。網(wǎng)絡(luò)以其自己獨特的方式進(jìn)行了概括，但并未概括人類自然會發(fā)生的身份關(guān)系。

添加隱藏層不會改變網(wǎng)絡(luò)的行為（Marcus，1998）；添加具有更多節(jié)點的隱藏層也不會改變（Marcus，1998）。當(dāng)然，可以將任意數(shù)量的解決方案組合在一起來解決特定的問題（僅從偶數(shù)、二進(jìn)制示例中學(xué)習(xí)身份），我在這里僅使用簡單的身份示例，僅用于說明目的，但是在訓(xùn)練分布之外進(jìn)行外推的問題很普遍，并且越來越得到認(rèn)可。JoelGrus在這里給出了一個類似的例子，游戲fizz buzz和Lake and Baroni（Lake&Baroni，2017）展示了一些現(xiàn)代自然語言系統(tǒng)如何容易受到類似問題的影響，無法以各種方式將抽象模式概括為新單詞。Bengio在最近的NeurIPS演講（Bengio，2019）中對現(xiàn)存的中樞神經(jīng)網(wǎng)絡(luò)的能力進(jìn)行了限制。在規(guī)范的神經(jīng)網(wǎng)絡(luò)架構(gòu)中，廣泛的共性（如同一性）的非均勻擴展是非常普遍的，在我看來，它仍然是進(jìn)展的主要障礙。

從本質(zhì)上講，某些種類的現(xiàn)存神經(jīng)網(wǎng)絡(luò)（例如此處討論過的反向傳播訓(xùn)練的多層感知器）在兩方面表現(xiàn)出色：記憶訓(xùn)練示例，以及在圍繞這些示例的點云內(nèi)插點，這些點圍繞超維空間的某些簇（我稱之為在培訓(xùn)空間中進(jìn)行概括），但在培訓(xùn)空間之外（在Bengio的措辭中，即培訓(xùn)分布）中，它們的推廣效果很差。

多層感知器：善于在訓(xùn)練樣本空間內(nèi)推廣，而不善于在訓(xùn)練樣本空間外推廣同一性函數(shù)。

結(jié)果是出現(xiàn)了兩個密切相關(guān)的問題：

1.特質(zhì)：在開放式領(lǐng)域中，如果系統(tǒng)缺乏可靠的方法來概括超出訓(xùn)練示例空間的內(nèi)容，則不能信任這些系統(tǒng)。如果你把每個單獨的系統(tǒng)看作一個函數(shù)逼近器，那么目前流行的系統(tǒng)往往擅長于記憶示例，并且擅長于訓(xùn)練示例附近的許多（盡管不是全部）示例，這使得它們對于圍繞分類的許多應(yīng)用程序很有用。但是，如果超出培訓(xùn)范圍，他們就很窮了。例如，最近的一個數(shù)學(xué)學(xué)習(xí)系統(tǒng)擅長于1+1=2；1+1+1=3到1+1+1+1+1=6，但在1+1+1+1+1+1+1=7和所有更大的例子中都失敗了。（想象一下，在一個計算機程序中編寫一個FOR循環(huán)，其中只有小于7的計數(shù)器值才能信任執(zhí)行）。（相比之下，微軟Excel的Flash-fill是一種基于歸納程序綜合的符號系統(tǒng)，在許多情況下更有效（Polozov&Gulwani，2015）。

2.過分依賴訓(xùn)練制度的具體細(xì)節(jié)：盡管所有正常的人類學(xué)習(xí)者都掌握了他們的母語和對世界的理解，但盡管環(huán)境千差萬別，神經(jīng)網(wǎng)絡(luò)往往對確切的細(xì)節(jié)非常敏感，例如訓(xùn)練項目的呈現(xiàn)順序（因此有一篇關(guān)于神經(jīng)網(wǎng)絡(luò)“課程”的文獻(xiàn)）。同樣地，三十年來人們已經(jīng)知道，它們?nèi)菀资艿綖?zāi)難性干擾的影響，即早期的關(guān)聯(lián)被后來的關(guān)聯(lián)覆蓋（McCloskey&Cohen，1989），這使得它們對項目呈現(xiàn)的順序非常敏感。潛在的解決方案仍在定期提出（McClelland，2019年），但問題仍然存在。同樣，正如最近的一篇論文（Hillet al.，2019）所說，“網(wǎng)絡(luò)表現(xiàn)出的泛化程度在很大程度上取決于給定任務(wù)實例化的環(huán)境細(xì)節(jié)?！?/p>

特質(zhì)和無法推斷超出訓(xùn)練分布范圍與我們許多常識性知識的普遍性相矛盾。這也使因果關(guān)系難以估量；另見Pearl和Mackenzie（Pearl＆Mackenzie，2018）。

從引言中擴展一個例子，大多數(shù)普通的成年人和兒童將認(rèn)識到（大概是從特定的經(jīng)驗中得出的）以下抽象的因果歸納是正確的：如果您打破了一個盛裝液體的瓶子，一些液體將會（其他事情正在發(fā)生）相等）可能會越過瓶子。

這樣的真理是抽象的，因為它們不僅適用于某些特定項目，而且適用于大型的，不限成員名額的實體類別，而與瓶子的顏色或形狀或瓶子的大小無關(guān)，無論瓶子是否裝有水，咖啡，或不尋常的軟飲料。我們希望對于裝有滾珠軸承或游戲骰子的瓶子也能有類似的概括，即使我們以前對破碎瓶子的經(jīng)驗幾乎只涉及盛裝液體的瓶子。

幾乎每個人也都會意識到以下概括是不切實際的：如果您打破了一個盛裝液體的瓶子，那么一些液體（其他東西將相等）可能會卷走300米。

同樣，無論個人經(jīng)驗如何，我們都可以通過多種方式擴展此知識，因為對于大小不一的瓶子，甚至比以前遇到的瓶子大或小的瓶子，這種主張都不太可能成立。

在這種意義上，我們?nèi)绾未砗筒倏v并獲得抽象的知識，不僅涉及特定實體，還涉及整個事物類？

外推的挑戰(zhàn)意味著像反向傳播訓(xùn)練的多層感知器這樣的通用工具本身并不是適合該工作的工具。相反，我們必須找到一種替代的機制來學(xué)習(xí)，表示和擴展抽象知識。

2.1混合架構(gòu)

2.1.1變量上的符號運算提供了唯一的已知解決方案，但解決方案是局限的

解決方案變量上的符號運算提供了一個潛在的答案-每天幾乎每秒使用數(shù)萬億次的解決方案，幾乎是世界上所有軟件的基礎(chǔ)。特別是，實際上，每個計算程序都包含四個基本概念：變量，實例，將變量綁定到實例的綁定以及對變量的操作。

這些想法中的每一個都是小學(xué)代數(shù)所熟悉的，其中像x和y這樣的實體是變量。特定數(shù)字（2、3.5等）是這些變量可能綁定的實例（例如，x當(dāng)前可能等于3）。操作包括加法和乘法。這些使得可以表示諸如y = x + 2之類的關(guān)系，這些關(guān)系自動擴展到某個類中的所有值（例如，所有數(shù)字）。將變量連接到實例的過程有時也稱為變量綁定。

當(dāng)然，計算機程序是建立在同一根基石上的。算法主要是根據(jù)對變量執(zhí)行的操作來指定的。將變量綁定到實例，調(diào)用算法，執(zhí)行操作，并返回值。

重要的是，核心操作的指定方式通常適用于某個類的所有實例（例如所有整數(shù)、所有字符串或所有浮點數(shù)）。核心操作通常包括一些基本操作，如算術(shù)運算（加法、乘法等）、比較（x的值是否大于y的值）和控制結(jié)構(gòu)（對變量n當(dāng)前綁定到的任何值執(zhí)行n次操作；如果x的值超過y的值，則選擇備選方案a），否則選擇備選方案b等）。一級近似（忽略bug、程序員邏輯中的錯誤等），這意味著正確實現(xiàn)的函數(shù)適用于某個類中的所有輸入，完全獨立于它們可能暴露于或不暴露于的輸入。

值得注意的是，這種根據(jù)操作定義的功能定義事物的方法是與標(biāo)準(zhǔn)機器學(xué)習(xí)完全不同的范例。機器學(xué)習(xí)系統(tǒng)通常通過Judea Pearl將其比作曲線擬合的過程來學(xué)習(xí)將輸入變量與輸出變量相關(guān)的函數(shù)，而程序員通常根據(jù)變量的運算來獨立于訓(xùn)練數(shù)據(jù)來定義其算法。不用說，它已經(jīng)很好地服務(wù)于傳統(tǒng)的計算機程序員，支持從操作系統(tǒng)到Web瀏覽器到視頻游戲再到電子表格等的所有內(nèi)容。

至關(guān)重要的是，通常將系統(tǒng)對變量的核心操作構(gòu)建為獨立于經(jīng)驗而系統(tǒng)地工作。例如，微處理器中的循環(huán)移位操作的機制是由一組并行的子操作定義的，每個子操作一個位，直到微處理器字的寬度。不管以前是否使用過該操作，其操作都相同，因此無需學(xué)習(xí)。程序員可以放心地預(yù)期，無論經(jīng)驗如何，換檔操作都將起作用，并且無論經(jīng)驗如何，將來都將以此方式繼續(xù)進(jìn)行。所有這些機制（變量，實例，綁定和操作）的優(yōu)點在于，它允許程序員以某種抽象級別指定事物，并以某種可靠性作為副產(chǎn)品。

總的來說，關(guān)于變量，綁定，實例和對變量的操作的這四個假設(shè)構(gòu)成了符號操縱的核心（Newell，1980； Marcus，2001）。（符號本身只是對其他系統(tǒng)使用的事物進(jìn)行編碼的簡單方式，例如用于表示ASCII代碼中的字母的二進(jìn)制數(shù)字模式，或允許神經(jīng)網(wǎng)絡(luò)中的輸出節(jié)點表示特定單詞的編碼據(jù)我所知，目前所有的系統(tǒng)都使用它們；請參閱Marcus 2001，第2章。某些符號處理系統(tǒng)可能只有少量的操作，例如加法，連接和比較，而另一些符號可能具有更豐富的操作（例如，復(fù)雜邏輯公式的統(tǒng)一），就像微處理器的大小可能有所不同一樣。他們的核心指令集?？梢栽诜柼幚眢w系結(jié)構(gòu)上構(gòu)建遞歸，但這并不是絕對的邏輯要求。

正如我所說（Marcus，2001；Marcus，1998；Marcus，Vijayan，Bandi Rao，＆Vishton，1999；Berent，Marcus，Shimron，＆Gafos，2002；Berent，Vaknin，＆Marcus，2007），某種形式的符號操縱似乎對人類認(rèn)知是必不可少的，比如當(dāng)一個孩子學(xué)會了一種抽象的語言模式，或者一個像姐妹這樣的詞的含義可以被理解應(yīng)用于無限多的家庭，或者當(dāng)一個成年人以一種新穎的方式擴展了一種熟悉的語言模式，這種方式超越了訓(xùn)練分布（Berent et al.，2002；Berent et al.，2007）。一些最有力的證據(jù)來自1999年的一項研究（Marcus等人。，1999年），我的同事和我展示了7個月大的嬰兒能夠識別簡單的抽象模式，比如拉塔塔中的ABB模式，并將它們從一組訓(xùn)練樣本中推斷出完全由不同音節(jié)組成的新字符串，這些音節(jié)在語音上與他們的訓(xùn)練集沒有重疊。隨后的研究表明，即使是新生兒似乎也有能力進(jìn)行這種推斷。Gallistel和King（Gallistel和King，2010）認(rèn)為變量的存儲和檢索對于動物認(rèn)知至關(guān)重要。例如，蜜蜂似乎能夠?qū)⑻柗轿唤枪δ軘U展到它們未曾接觸過的光照條件。（Dyer和Dickinson，1994年）。

符號處理的通用機制也為結(jié)構(gòu)化表示提供了基礎(chǔ)（Marcus，2001）。例如，計算機程序通常使用由符號構(gòu)成的樹形結(jié)構(gòu)，這些符號通過對變量的操作組合而成，以表示各種各樣的事物（例如層次結(jié)構(gòu)文件夾或目錄）。

同樣，符號操縱的機制允許跟蹤個體隨時間變化的屬性（例如，以數(shù)據(jù)庫記錄的形式）。這些能力似乎對于人類語言（如遞歸句子結(jié)構(gòu)）以及隨著時間的變化而對個體和對象的了解至關(guān)重要（Marcus，2001）?！尽洞鷶?shù)思維》的第5章提供了一些示例，這些示例在消除連接主義模型的范圍之外，其中許多示例依賴于實體隨著時間的推移而存在。）這種機制非常強大。世界上所有的Web瀏覽器，世界上所有的操作系統(tǒng)，世界上所有的應(yīng)用程序等都建立在它們之上。（具有諷刺意味的是，幾乎在世界上所有神經(jīng)網(wǎng)絡(luò)的規(guī)范和執(zhí)行中都使用了相同的工具）。】

然而，在歷史上，主流的深度學(xué)習(xí)在很大程度上試圖擺脫符號操縱機制，而這種機制往往是有意回避的，這是為什么神經(jīng)網(wǎng)絡(luò)提供了一種替代經(jīng)典范式的號召的一部分。魯梅爾哈特和麥克萊蘭（1986，#39979；）在著名的PDP書籍中，將符號操縱視為一種邊緣現(xiàn)象，而不是人類計算的本質(zhì)。2015年，辛頓將符號比作“發(fā)光的以太”，認(rèn)為將符號邏輯作為人工智能的一個組成部分的追求是，

認(rèn)為光波只能通過在發(fā)光的以太中造成干擾而在太空中傳播的信念，這是不正確的……與科學(xué)家……被令人信服的但不正確的類比誤導(dǎo)了，他們只知道他們知道具有所需特性的系統(tǒng)。

令人驚訝的是，在神經(jīng)網(wǎng)絡(luò)上的大量工作中也缺少個人的數(shù)據(jù)庫式記錄之類的想法，而僅在很小的研究中發(fā)現(xiàn)了諸如層次結(jié)構(gòu)化句子之類的復(fù)雜結(jié)構(gòu)化表示形式，而這兩者的規(guī)范輸入和輸出是簡單的矢量或二維位圖，而巧妙地避免了針對個人的分層數(shù)據(jù)結(jié)構(gòu)和記錄。（DeepMind有趣的新MEMO架構(gòu)（Banino等人，2020年）幾乎代表了一個記錄數(shù)據(jù)庫。）

并非一定要這樣。例如，原則上，人們可以嘗試構(gòu)建與符號操縱兼容的神經(jīng)網(wǎng)絡(luò)采用的術(shù)語中的“實現(xiàn)連接主義”，也可以嘗試建立與之兼容的神經(jīng)網(wǎng)絡(luò)。無需依靠符號操縱原理（“消除聯(lián)系主義”）或兩者之間的某種混合，就可以進(jìn)行操作。到目前為止，絕大多數(shù)工作都是消除主義的，但這種優(yōu)勢反映了社會學(xué)事實，而不是邏輯上的必要性。

我預(yù)計，幾年內(nèi)，許多人會想，為什么這么長時間以來，深度學(xué)習(xí)在很大程度上沒有使用符號操縱這一極具價值的工具；實際上，人類所有偉大的工程成就都依賴于某種符號推理，人類在日常認(rèn)知中利用它們的證據(jù)是巨大的。事實上，正如我將在下面討論的，隨著一種新的、更廣泛的實用主義的暗示，事情終于開始改變了，我希望這種實用主義能夠克服先前的教條。

本文的第一個主要主張是：要建立一種強大的，知識驅(qū)動的AI方法，我們必須在工具包中使用符號處理機制。太多有用的知識是抽象的，如果沒有表示和操縱抽象的工具就無法做到，并且迄今為止，我們知道的唯一可以可靠地操縱這種抽象知識的機器就是符號操縱的設(shè)備。

遺憾的是，就變量本身而言，運算的手段對學(xué)習(xí)沒有任何幫助。【歸納邏輯編程（Cropper，Morel和Muggleton，2019年）是一種純粹基于規(guī)則的學(xué)習(xí)方法，值得一些考慮，盡管不在本文的討論范圍之內(nèi)?！?/p>

正是從那里，混合架構(gòu)的基本需求，結(jié)合符號操作和其他技術(shù)，如深度學(xué)習(xí)，最根本的東西出現(xiàn)了。深度學(xué)習(xí)提高了學(xué)習(xí)的門檻，特別是在大型數(shù)據(jù)集上，符號操作為表示和操作抽象設(shè)置標(biāo)準(zhǔn)。很明顯，我們需要把兩者（或類似的東西【雖然我很有信心，強大的智能將依賴于某種混合，將符號運算與機器學(xué)習(xí)機制相結(jié)合，但目前尚不清楚深度學(xué)習(xí)（如目前實踐的）是否會在其作為主導(dǎo)機器學(xué)習(xí)機制的角色中發(fā)揮最后的作用，或者這種角色是否會在某種繼承者身上發(fā)揮，e、例如，在數(shù)據(jù)和能源使用方面更易處理或更高效。諸如統(tǒng)計關(guān)系學(xué)習(xí)（Raedt，Kers ting，Natarajan，&Poole，2016）和概率規(guī)劃（Bingham et al.，2019）等受到較少關(guān)注的方法非常值得考慮；有關(guān)概述，請參見van den Broeck（van den Broeck，2019）?！浚┙Y(jié)合起來。

2.1.2混合動力通常是有效的

混合動力并不是什么新鮮事物：Pinker和我在三年前（Marcus等，1992）提出，關(guān)于兒童如何學(xué)習(xí)英語過去時的最好解釋是混合動力：一條規(guī)則（添加到動詞詞干）形成規(guī)則動詞的過去式，以及類似神經(jīng)網(wǎng)絡(luò)的系統(tǒng)來獲取和檢索不規(guī)則動詞。長期以來，明顯需要將符號知識與感知知識相結(jié)合（例如，人們希望能夠通過將對馬的外觀的感知知識與將斑馬比作有條紋的馬相類似的語言定義相結(jié)合來識別斑馬【現(xiàn)有的零射擊學(xué)習(xí)文獻(xiàn)試圖整合各種形式的多模態(tài)知識，但據(jù)我所知，目前沒有一個系統(tǒng)能夠利用字典定義中的精確信息?！浚?。

像Ron Sun（Sun，1996）這樣的計算機科學(xué)家在整個1990年代都倡導(dǎo)混合模型。 Shavlik（Shavlik，1994）表明，有可能將（有限的）邏輯子集轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)。 D’AvilaGarcez，Lamb和Gabbay（D’Avila Garcez，Lamb和Gabbay，2009年）是有關(guān)神經(jīng)符號方法的重要早期工作。

壞消息是這些早期的混合方法從來沒有受到太大的關(guān)注。當(dāng)時的結(jié)果并不令人信服（可能部分是因為在TPU之前的日子里，神經(jīng)網(wǎng)絡(luò)本身的能力不足）。而且神經(jīng)網(wǎng)絡(luò)社區(qū)經(jīng)常不屑一顧混合動力（以及涉及符號操縱的任何事物）。直到最近，混合符號在歷史上一直被困在符號方法和神經(jīng)方法之間的交火中。

好消息是，符號操縱世界和深度學(xué)習(xí)領(lǐng)域之間的早就應(yīng)該融化了。例如，Yoshua Bengio在我們2019年12月的辯論中談到了合并可以按名稱傳遞變量的技術(shù)，這是一些早期計算機語言中使用的標(biāo)準(zhǔn)符號操作技術(shù)。越來越多的努力正在積極嘗試將符號和神經(jīng)網(wǎng)絡(luò)更緊密地構(gòu)建在一起，有時出于實際需要，有時出于研究工作以開發(fā)新方法。

世界上一些最龐大、最活躍的商業(yè)人工智能系統(tǒng)，比如谷歌搜索，實際上是混合了符號操作和深度學(xué)習(xí)的混合體。雖然Google搜索并不是我們心目中強大的人工智能，但它是一個高效的人工智能信息檢索系統(tǒng)，能夠以高精度、大容量的方式工作。它的設(shè)計者以高度數(shù)據(jù)驅(qū)動的方式對其進(jìn)行了廣泛的優(yōu)化，目前（根據(jù)多種來源）通過混合經(jīng)典的、符號操作的人工智能技術(shù)（例如，表示和查詢谷歌知識圖的工具，它使用經(jīng)典的符號圖結(jié)構(gòu)表示知識，這些符號圖結(jié)構(gòu)使用神經(jīng)網(wǎng)絡(luò)社區(qū)的工具（例如，BERT和RankBrain）。谷歌做了大量的實證實驗，看看什么在大范圍內(nèi)運作良好，而事實上，即使在深度學(xué)習(xí)的時代，他們?nèi)匀皇褂霉雀柚R圖，這既說明了符號的價值，也說明了混合動力車的價值。（不幸的是，我知道沒有詳細(xì)的公開討論各個組成部分的相對優(yōu)勢和劣勢。）

OpenAI的Rubik求解器（OpenAI等人，2019）（盡管它并未如此推銷）是用于解決Rubik立方體的認(rèn)知方面的符號算法與針對手動操作方面的深度強化學(xué)習(xí)的混合體。

Mao等人（Mao，Gan，Kohli，Tenenbaum，&Wu，2019）最近提出了一種用于視覺問答的混合神經(jīng)網(wǎng)絡(luò)符號系統(tǒng)，稱為NS-CL（神經(jīng)符號概念學(xué)習(xí)者的縮寫），該系統(tǒng)超過了他們研究的深度學(xué)習(xí)方案。Janner等人的相關(guān)工作（Janner等人，2018年）。通過對單個對象的顯式記錄進(jìn)行深度學(xué)習(xí)，以便做出預(yù)測和基于物理的計劃，遠(yuǎn)遠(yuǎn)超過可比的純黑盒深度學(xué)習(xí)方法。Evans和Grefenstette（Evans和Grefenstette，2017）展示了混合模型如何更好地捕捉各種學(xué)習(xí)挑戰(zhàn)，例如挑戰(zhàn)multlayer感知機的游戲fizzbuzz。Smolensky和Schmidhuber等團(tuán)隊將BERT與張量積（Smolensky et al.，2016）相結(jié)合，形成了一個表示符號變量及其綁定的正式系統(tǒng)（Schlag et al.，2019），創(chuàng)建了一個稱為TP Transformer的新系統(tǒng)，從而在一個數(shù)學(xué)問題集上取得了更好的結(jié)果。

神經(jīng)符號模型的基礎(chǔ)工作是（D\\\\\\'Avila Garcez，Lamb，&Gabbay，2009），它檢驗了符號系統(tǒng)和神經(jīng)網(wǎng)絡(luò)之間的映射，并顯示了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中可以表示的知識種類的重要限制，并從表征和推理能力的角度論證了符號和神經(jīng)網(wǎng)絡(luò)在構(gòu)建混合系統(tǒng)中的價值。在一級近似下，傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)可以被認(rèn)為是命題邏輯的引擎，并且缺乏表示量化語句的好方法，就像在謂詞演算中使用諸如every和some之類的量詞一樣。邏輯張量網(wǎng)絡(luò)（Serafini&Garcez，2016）旨在在深度張量神經(jīng)網(wǎng)絡(luò)中實現(xiàn)形式邏輯。

統(tǒng)計關(guān)系學(xué)習(xí)（Raedtet al.，2016）代表了另一種有趣的方法，旨在將邏輯抽象和關(guān)系與概率和統(tǒng)計結(jié)合起來，正如Vergari et al.最近關(guān)于概率電路的工作一樣（Vergari，Di Mauro，&Vanden Broek，2019）。Domingo的Markov邏輯網(wǎng)絡(luò)試圖將符號操作與機器學(xué)習(xí)的優(yōu)勢結(jié)合起來（Richardson&Domingo，2006）。Uber的Pyro（Bingham等人，2019年）

Arabshahi等人（Arabshahi，Lu，Singh，&Anandkumar，2019）展示了如何通過用作堆棧的外部內(nèi)存來擴充樹LSTM。Fawzi等人（Fawzi，Malinowski，F(xiàn)awzi，&Fawzi，2019）最近提出了一個用于搜索多項式不等式證明的混合系統(tǒng)。Minervini等人（Minervini、Bo?njak、Rockt?schel、Riedel和Grefenstette，2019）最近提出了一種混合神經(jīng)符號推理系統(tǒng)，稱為貪婪神經(jīng)定理證明器（GNTP），可用于大規(guī)模數(shù)據(jù)庫；Gupta等人（Gupta、Lin、Roth、Singh和Gardner，2019）也在推理方面取得了進(jìn)展。艾倫人工智能研究所（Allen Institute for AI）的亞里士多德（ARISTO）是一個復(fù)雜的多部分混合系統(tǒng)，在八年級科學(xué)考試中顯著優(yōu)于其他系統(tǒng)（Clark et al.，2019）。Battaglia已經(jīng)發(fā)表了許多關(guān)于物理推理系統(tǒng)的有趣論文，這些系統(tǒng)集成了符號圖和深度學(xué)習(xí)（例如，Cranmer，Xu，Battaglia，&Ho，2019）

所有這些只是一個快速發(fā)展領(lǐng)域的幾個例子?，F(xiàn)在阻礙勝利者還為時過早，但要構(gòu)建將符號方法的優(yōu)勢與機器學(xué)習(xí)的見解相結(jié)合的體系結(jié)構(gòu)，還有很多第一步，以便開發(fā)更好的技術(shù)，從大型、通常是嘈雜的數(shù)據(jù)集中提取和概括抽象知識。2.1.3對混合模型和符號操縱的普遍反對意見

盡管人們對研究混合模型的興趣日益濃厚，并且有多種考慮，但是在機器學(xué)習(xí)社區(qū)的某些地方，人們對符號操縱的厭惡情緒日益高漲。如前所述，例如，杰弗里·欣頓（Geoffrey Hinton）認(rèn)為，歐洲對混合動力汽車的投資將是“巨大的錯誤”，并將混合動力汽車的研究比作電動汽車時代使用過時的汽油發(fā)動機。

但是據(jù)我所知，Hinton近年來沒有寫過多篇有關(guān)他為何反對部分象征性混合模型的文章。

以下是我從其他人那里聽到的一些常見異議，并對每個異議都做出了簡短回應(yīng)：

?符號在生物學(xué)上不合理。對此異議至少存在四個問題（關(guān)于相似的觀點，另請參見Gallistel和King（Gallistel＆King，2010年））。

首先，僅僅因為我們還沒有確定支持符號操縱的神經(jīng)機制并不意味著我們永遠(yuǎn)不會。已經(jīng)確定了一些有希望的可能的神經(jīng)基質(zhì)（Frankland&Greene JD，2019；Marcus，Marblestone，&Dean，2014；Legenstein，Papadimitriou，Vempala，&Maass，2016），其他文獻(xiàn)指出了理論上合理的神經(jīng)基質(zhì)（Marcus，2001）。沒有令人信服的證據(jù)表明，沒有這樣的機制根本不可能存在于大腦的濕部。今年我們已經(jīng)看到樹突中的一個小隔間可以計算XOR（Gidon etal.，2020），這增加了單個神經(jīng)元可能比通常假設(shè)的復(fù)雜得多的可能性。例如，對符號操作至關(guān)重要的變量值的存儲和檢索可能在單個神經(jīng)元內(nèi)起作用（Gallistel&King，2010）。

第二，大量心理學(xué)證據(jù)（見上文第2.1.1節(jié)）支持這樣一種觀點，即符號操作在大腦中是具體化的，比如嬰兒將新的抽象模式擴展到新項目的能力，成年人將抽象的語言模式概括為他們沒有直接數(shù)據(jù)的非本族語的能力，蜜蜂將太陽方位角函數(shù)概括為他們沒有直接觀察到的光照條件的能力。人類還可以學(xué)習(xí)在外部表示的符號上應(yīng)用形式邏輯，并編程和調(diào)試符號表示的計算機程序，所有這些都表明，至少在某些配置中，神經(jīng)軟件確實可以（在某種程度上，部分受內(nèi)存限制）操縱符號。我們可以理解語言本質(zhì)上是無限多樣的，從無數(shù)的句子中推斷出無數(shù)的意義。在整個認(rèn)知過程中，作為變量運算特征的自由概括是普遍存在的。

第三，現(xiàn)有的神經(jīng)認(rèn)知證據(jù)的缺乏幾乎沒有告訴我們什么。我們目前還沒有詳細(xì)了解加里·卡斯帕羅夫水平的象棋是如何在大腦中實現(xiàn)的，但這并不意味著加里·卡斯帕羅夫的象棋在某種程度上依賴于非神經(jīng)機制。

最后，即使結(jié)果表明大腦沒有使用符號操縱機制，對于人工智能為什么不能使用這些機制，也沒有原則性的論據(jù)。人類沒有浮點運算芯片，但這并不意味著他們在人工智能中應(yīng)該是多余的。人類顯然有寫一次的機制，可以立即檢索短期記憶，這是某種形式變量綁定的前提，但我們不知道相關(guān)機制是什么。這并不意味著我們不應(yīng)該在人工智能中使用這種機制。

?過去，符號系統(tǒng)/混合系統(tǒng)運行不佳。我經(jīng)常聽到這種說法，但是在我看來，這是一個奇怪的說法。將混合模型描述為明顯無效或過時的混合體，這并不是現(xiàn)實的準(zhǔn)確描述，而實際上已經(jīng)對其進(jìn)行了積極有效的研究，如2.1.2.10節(jié)中所述。

?符號操縱/混合系統(tǒng)無法縮放。盡管這里有一些真正的問題需要解決，而且必須花大量的精力來約束符號搜索，以便能夠?qū)崟r處理復(fù)雜的問題，Google說

知識圖似乎至少是這一異議的部分反例，最近在軟件和硬件驗證方面取得的大規(guī)模成功也是如此。Minervini等人（Minervini等人，2019年）和Yang等人（Yang，Yang，&Cohen，2017年）等論文在構(gòu)建端到端可區(qū)分的混合神經(jīng)符號系統(tǒng)方面取得了實際進(jìn)展，這些系統(tǒng)在規(guī)模上起作用。與此同時。沒有正式的證據(jù)證明不可能充分縮放，給予適當(dāng)?shù)膯l(fā)，存在。

在過去的三十年中，我看到了很多對符號的偏見，但是我還沒有看到對它們的有說服力的論據(jù)。

2.1.4確定給定系統(tǒng)是否為混合系統(tǒng)并不總是一件容易的事

一種常見的（雖然不是普遍的）對符號的偏見產(chǎn)生了一個特殊的社會學(xué)事實：研究人員偶爾會建立包含符號操縱裝置的系統(tǒng)，卻不承認(rèn)（甚至不考慮事實）他們已經(jīng)這樣做了；我在馬庫斯，2001中給出了一些具體的例子。例如，如上所述，OpenAI Rubik的立方體解算器（OpenAIet al.，2019）包含了一個被稱為Kociemba算法的符號組件，但只有非常細(xì)心和成熟的讀者才會認(rèn)識到這一點?！盎旌稀焙汀跋笳鳌边@兩個詞從未被提及。而“神經(jīng)”這個詞出現(xiàn)了13次。

因為你不能總是通過粗略的檢查來告訴我們一個給定的系統(tǒng)是如何工作的，所以從邏輯上講，有可能無意中構(gòu)建一臺有效地執(zhí)行符號操作的機器，而沒有意識到這樣做。事實上，一個網(wǎng)絡(luò)設(shè)計師可能會無意中發(fā)現(xiàn)一些與符號FPGA同構(gòu)的東西，而從來沒有意識到它。

正如本吉奧在我們最近的辯論后對話中所建議的那樣，深度學(xué)習(xí)系統(tǒng)可以為符號操縱提供一個真正的替代方案，這是可以想象的：

我敢打賭，深度學(xué)習(xí)變體可以實現(xiàn)人類可能實際執(zhí)行的類似符號的計算形式，但使用的基底與GOFAI非常不同，限制與人類經(jīng)歷的類似（例如，只有很少的遞歸級別），在GOFAI推理中，除了能夠?qū)W習(xí)和處理不確定性之外，還避免了與搜索問題相關(guān)的主要效率問題。

我們不能想當(dāng)然地認(rèn)為任何給定的神經(jīng)網(wǎng)絡(luò)都提供了一種替代方法。

評估一個系統(tǒng)是執(zhí)行“類似符號的計算”的替代方案，還是使用真正的符號操縱操作進(jìn)行計算的唯一方法是探索映射：考慮該體系結(jié)構(gòu)及其組件是否映射到符號操縱的組件（在某種意義上，化學(xué)映射到物理學(xué)）。Marr（Marr，1982）的計算水平清楚地表明了這一點：任何給定的計算都可以以多種方式實現(xiàn)，并且不是每個實現(xiàn)都是透明的?；瘜W(xué)映射到物理上，但這并不意味著映射很容易被發(fā)現(xiàn)?！罢_”的神經(jīng)網(wǎng)絡(luò)可能映射到符號操縱機器上，也可能映射到符號操縱機器上；真相可能很難辨別。

我堅信，任何健壯的系統(tǒng)都會有某種機制來綁定變量，并在綁定后對這些變量執(zhí)行操作。但我們看不出來。

為了避免這聽起來很奇怪，回想一下映射對于理解神經(jīng)科學(xué)以及它與計算的關(guān)系同樣重要。無論我們的大腦中實現(xiàn)了什么樣的計算，都是在沒有任何有意識的決策的情況下實現(xiàn)的；它們是進(jìn)化的。其中很少有透明的。這是神經(jīng)科學(xué)家和那些致力于以大腦為靈感的人工智能方法的人工智能研究人員的工作，他們對大腦進(jìn)行逆向工程，以找出存在哪些計算。任何驅(qū)動大腦的東西都可能會或不會映射到我們目前的理論。當(dāng)我們評估大腦如何工作的一些理論時，我們正在評估大腦的機制是否符合這個理論。有些理論將包含與大腦中發(fā)生的實際過程同構(gòu)的結(jié)構(gòu)，而另一些則不會。Knudsen和Konishi（Knudsen和Konishi，1979）對谷倉貓頭鷹聲音定位的仔細(xì)研究是一個很好的例子，說明了一個神經(jīng)回路最終是如何被破譯并映射到基礎(chǔ)計算上的；很少有研究項目能與之相媲美。

人工智能中也出現(xiàn)了類似的問題：當(dāng)一個系統(tǒng)工作時，理解是什么驅(qū)動了它的性能是有價值的，但往往是不重要的。

一個系統(tǒng)將所有的經(jīng)驗存儲在一個單獨的內(nèi)存中，而不是可以檢索和計算出來的，可以用“神經(jīng)”的術(shù)語來描述，但是它的組件可以識別地起到維護(hù)變量、綁定、實例和變量操作（如檢索）的作用。

如果我們通過某種搜索過程（無論是隨機的、試錯的、進(jìn)化的、AutoML的或其他方法）來創(chuàng)建適當(dāng)?shù)木C合系統(tǒng)，我們將解決部分工程問題，但不一定科學(xué)地理解是什么使這些模型起作用。后者是逆向工程的工作，是發(fā)現(xiàn)和拒絕可能的映射，就像神經(jīng)科學(xué)一樣。

如果完美的神經(jīng)網(wǎng)絡(luò)降臨到我們身上，我們可能會通過廣泛的測試發(fā)現(xiàn)它是有效的；要理解它是如何工作的，還需要另一個科學(xué)發(fā)現(xiàn)階段。如果我們發(fā)現(xiàn)一些成功的神經(jīng)網(wǎng)絡(luò)，結(jié)果發(fā)現(xiàn)它的組成部分恰好完美地映射到符號操作上，那么這將不僅是神經(jīng)網(wǎng)絡(luò)的勝利，而且也是符號操作的勝利——不管系統(tǒng)設(shè)計者的意圖是什么。相應(yīng)地，如果沒有一個系統(tǒng)的組成部分映射到符號操縱上，這將是符號操縱的失敗。

任何一個通情達(dá)理的人都會認(rèn)識到，到目前為止，理解人類大腦是如何工作的是多么的困難，而當(dāng)神經(jīng)網(wǎng)絡(luò)變得越來越復(fù)雜時，同樣的道理也會變成現(xiàn)實。人類大腦本身就是一個令人印象深刻的神經(jīng)網(wǎng)絡(luò)的例子，它有效地（通過進(jìn)化）降臨到我們身上；它似乎工作得很好，但我們不知道為什么【尋求實現(xiàn)細(xì)節(jié)和算法描述之間的映射（如果它們存在的話）也可能具有實際價值，因為，例如，一旦發(fā)現(xiàn)了那些映射，一些低級的神經(jīng)網(wǎng)絡(luò)類計算可能會更有效地在純符號級別上進(jìn)行計算。相反，一些被稱為神經(jīng)網(wǎng)絡(luò)的模型，如Lample和Charton最近關(guān)于符號集成的研究（Lample和Charton，2019），經(jīng)過仔細(xì)檢查，結(jié)果發(fā)現(xiàn)有嚴(yán)重的局限性，并且嚴(yán)重依賴于符號處理器（Davis，2019）。對符號和神經(jīng)成分如何協(xié)同工作有一個清晰的、有原則的理解可能是非常有價值的?！?/p>

2.1.5總結(jié)

符號操作，特別是對變量的操作機制，提供了一個自然但不完整的解決方案，來解決在訓(xùn)練機制之外進(jìn)行外推的挑戰(zhàn)：用對變量的操作來表示一個算法，并且它固有地被定義為擴展到某類的所有實例。它還提供了一個清晰的基礎(chǔ)來表示結(jié)構(gòu)化的表示（例如在生成語言學(xué)中被視為基礎(chǔ)的樹結(jié)構(gòu)）和記錄個人及其行為屬性。

它所缺乏的是一個令人滿意的學(xué)習(xí)框架?；旌峡梢允莾蓚€世界的最佳結(jié)合的一種方式：從大規(guī)模數(shù)據(jù)集學(xué)習(xí)的能力，如深度學(xué)習(xí)所示，以及表示抽象表示的能力，這些抽象表示是世界上所有計算機編程語言的語法和語義貨幣。我猜想它們是安全獲得可靠情報的先決條件。

用于研究混合模型的資源遠(yuǎn)遠(yuǎn)少于用于避免符號操縱的“純”深度學(xué)習(xí)系統(tǒng)的資源，但第2.1.2節(jié)中回顧的來自廣泛研究實驗室的越來越多的工作，更不用說谷歌搜索的成功，所有這些都表明了對混合體系結(jié)構(gòu)進(jìn)行更深入研究的價值。

遺憾的是，我們還沒有走出困境。將強大的數(shù)據(jù)驅(qū)動學(xué)習(xí)技術(shù)與符號操作的表示和計算資源相結(jié)合的混合模型可能是魯棒智能所必需的，但它們肯定是不夠的。接下來我將描述三個進(jìn)一步的研究挑戰(zhàn)。

2.2大規(guī)模的、抽象的、有因果關(guān)系的知識

符號操作允許抽象知識的表示，但是積累和表示抽象知識的經(jīng)典方法，一個稱為知識表示的領(lǐng)域，一直是殘酷的艱苦工作，遠(yuǎn)遠(yuǎn)不能令人滿意。在人工智能的歷史上，Doug Lenat于1984年發(fā)起的以機器可解釋的形式創(chuàng)造常識知識的最大努力是被稱為CYC的系統(tǒng)（Lenat等人，1985）。它需要數(shù)千人-年的時間，幾乎是巨大的努力，以精確的邏輯形式捕捉心理學(xué)、政治學(xué)、經(jīng)濟(jì)學(xué)、生物學(xué)和許多其他領(lǐng)域的事實。

到目前為止，回報并不令人信服。關(guān)于CYC的報道相對較少（這使得評估變得很有挑戰(zhàn)性，盡管你可以看到這個有趣的黑客新聞線索），商業(yè)應(yīng)用程序看起來很溫和，而不是勢不可擋。大多數(shù)人，如果他們了解CYC的話，都認(rèn)為它是一種失敗，而目前很少有研究人員廣泛使用它。似乎很少有人愿意嘗試建立具有可比廣度的競爭體系。（像googleknowledgegraph、Freebase和YAGO這樣的大型數(shù)據(jù)庫主要關(guān)注事實，而不是常識。）

考慮到CYC需要付出的努力，以及它對整個領(lǐng)域的影響是多么的小，很難不被GPT-2這樣的Transformers所激發(fā)。當(dāng)他們工作得很好時，他們看起來幾乎是神奇的，好像他們自動地、幾乎毫不費力地吸收了世界上大量的常識知識。從某種程度上說，Transformers給人的感覺是，它將自己所吸收的任何知識與對人類語言看似復(fù)雜的理解無縫地結(jié)合在一起。

這對比鮮明。然而，知識表示社區(qū)幾十年來一直在努力用精確的方式來描述容器及其內(nèi)容之間的關(guān)系，而自然語言理解社區(qū)幾十年來一直在努力進(jìn)行語義分析，而GPT2這樣的Transformers似乎是在不借助于語法的情況下解決了棘手的問題任何明確的知識工程（或語義分析）-無論如何。

例如，在GPT-2中沒有知識工程規(guī)則，沒有相對于容器的液體規(guī)格，也沒有關(guān)于水甚至是液體的規(guī)格。在前面的示例中

如果打破玻璃瓶裝的水，裝滿的水可能會流出，會發(fā)出飛濺的聲音。

從概念H20（化學(xué)中水的表達(dá)）到單詞water都沒有映射，也沒有動詞語義的任何顯式表示形式，例如中斷和流動。

再舉一個例子，GPT-2似乎也對火進(jìn)行了編碼：

點火的一個好方法是使用打火機。

點燃火的一個好方法是使用火柴

與Lenat數(shù)十年的以機器可解釋的形式對人類知識進(jìn)行手工編碼的項目相比，乍看之下，這既代表了一夜的成功，也代表了驚人的勞動力節(jié)省。

問題在于GPT-2的解決方案只是對知識的近似，不能替代知識本身。特別是，它所獲得的是近似的統(tǒng)計數(shù)據(jù)，即單詞在大型語料庫中是如何共存的，而不是概念本身的清晰表述。換句話說，它是單詞用法的模型，而不是思想的模型，前者是后者的近似模型。

這樣的近似值就像是一個復(fù)雜的三維世界的陰影。通過使用與瓶子相關(guān)的單詞，瓶子和打破的概念在語料庫上投射了陰影，這些陰影編碼了人類互動的一個子集。 Transformers分析單詞留下的陰影，就像柏拉圖的洞穴寓言中的囚徒一樣。麻煩的是，對陰影的分析（即在這些語料庫中如何使用單詞的共現(xiàn)統(tǒng)計分析）并不一定能揭示瓶的真正含義或破碎含義。

事實是，GPT-2幾乎不了解與它所分析的單詞相關(guān)的概念的相關(guān)性（無關(guān)緊要）?？紤]一下發(fā)生了什么情況，例如，按照弗蘭克·基爾（Frank Keil，1992）的經(jīng)典實驗，如果您將感知功能與更深的概念理解相對立：

如果您在浣熊上穿上服裝使它看起來像臭鼬，那將是臭鼬。

如果將飛機噴漆成看起來像龍，那將是龍。

顯然，僅了解某個概念中如何使用單詞的某些統(tǒng)計屬性不足以理解基礎(chǔ)概念的本質(zhì)，例如使飛機變成飛機而不是龍的原因（反之亦然）。這份最近匿名的，正在審查的手稿也提出了類似的觀點。

我想起了像Nigel Richards這樣的Scrabble冠軍，他們在不懂法語的情況下贏得了法國Scrabble比賽；各個單詞僅用作游戲代幣，而與它們的含義無關(guān)。本質(zhì)上，GPT-2可以預(yù)測單詞序列作為游戲代幣的屬性，而不會暗示所引用的基本概念。

它做得如此之好，以至于有時會引起“伊麗莎效應(yīng)”，在這種效應(yīng)中，幼稚的人對機器的歸屬要比對機器的實際歸屬更多，但是除了表面的概念理解之外，別無所求。

如果我們繼續(xù)探究起火的例子，我們會得到類似的結(jié)果

點火的一個好方法是用干燥的棉球遮蓋保險絲！

點燃火的一個好方法是使用一品脫大小的爐子

“火”，“融合”，“光”等詞都是相互關(guān)聯(lián)的； GPT-2能夠做到這一點，但這還不足以讓GPT-2引發(fā)對火的性質(zhì)的概念性理解；結(jié)果參差不齊。換句話說，就像朱迪亞·珀爾（Judea Pearl）所說的那樣，這種異常行為是您試圖通過近似統(tǒng)計單詞用法的統(tǒng)計曲線來誘導(dǎo)世界如何運轉(zhuǎn)時得到的結(jié)果，而不是歸納出對世界的更抽象，因果的理解?！驹谏疃葘W(xué)習(xí)社區(qū)的某些部分中，有一種積極的努力試圖整合因果方法；我的猜測是，如果不在因果知識的表示和操作上增加一些固有的約束，這就不可能成功，很可能導(dǎo)致某種混合網(wǎng)絡(luò)?！坑袝r行得通，有時卻行不通。

一個人不可能用如此缺乏可靠性保證的零件來設(shè)計一個健壯的系統(tǒng)。

用如此低的可靠性試圖用零件構(gòu)建系統(tǒng)的一個問題是，下游推理將不可避免地受到影響。擁有知識的全部目的是將其用于行動，解釋和決策中。如果您不知道會引起火災(zāi)的原因，或者瓶子破裂時會發(fā)生什么，則很難推斷周圍的情況。同樣，您不能可靠地進(jìn)行計劃。想象一下，一個家用機器人無法點燃頑固的爐灶，用干燥的棉球花了幾個小時，一個又一個地覆蓋了一個保險絲。

語言理解也不可避免地會受到影響，因為我們經(jīng)常根據(jù)話語的真實性和語境來消除話語的歧義（Tanenhaus，Spivey-Knowlton，Eberhard和Sedivy，1995）。像GPT這樣的系統(tǒng)具有一定程度的詞語用法語境，但缺乏對認(rèn)知語境和合理性的可靠表示。

在充滿了如此淺薄的概念理解的系統(tǒng)中，可解釋性和可解釋性也將變得難以捉摸。將棉球和打火機凝結(jié)成同等有效的點火方式的系統(tǒng)可能沒有內(nèi)部一致性來滿足可解釋性的需求。

如果對基本概念沒有連貫的因果理解，則可能沒有辦法在復(fù)雜的實際環(huán)境中設(shè)計魯棒性。 Pearl是對的：如果我們的系統(tǒng)僅依賴于曲線擬合和統(tǒng)計近似，則它們的推論必然會很膚淺。

這使我想到了本論文的第二個主要主張：歸結(jié)，表示和操縱通常具有因果關(guān)系的結(jié)構(gòu)化，抽象知識的大型數(shù)據(jù)庫的系統(tǒng)方法是強大情報的先決條件。

2.2.1強大的人工智能將需要什么樣的知識？

以下是一些基本注意事項：

?大部分（但重要但并非全部）知識（請參閱下文）都可以學(xué)習(xí)。沒有人生來就知道打火機會著火，干燥的棉球不會起火，玻璃瓶破裂時可能會做什么。可以想象，可以像CYC那樣，將這些知識硬連接到AI系統(tǒng)中，對每個事實進(jìn)行手工硬連接，但是現(xiàn)代機器學(xué)習(xí)愛好者顯然不愿意這樣做。而且由于總是有新知識要收集，因此有必要學(xué)習(xí)新的抽象機制（通常是因果知識）。

??一個健壯的系統(tǒng)可能利用的知識中，有相當(dāng)一部分是象征性地表現(xiàn)出來的外部文化知識。例如，維基百科的絕大多數(shù)內(nèi)容都是口頭表達(dá)的，一個強大的情報機構(gòu)應(yīng)該能夠利用這種知識。（目前的深度學(xué)習(xí)系統(tǒng)只能在非常有限的范圍內(nèi)做到這一點。）大部分知識都是根據(jù)變量之間的量化關(guān)系進(jìn)行有效編碼的（例如，對于所有x、y和z，x、y和z都是人，如果有一個人y是x的父母和z的孩子，那么x就是z的孫子；對于所有x，x是一個物種，x物種的生物體產(chǎn)生的后代也是x物種的后代，等等）。

?健壯的系統(tǒng)需要的知識中有很大一部分可能是抽象的。當(dāng)前的系統(tǒng)擅長表示特定事實，例如BORN（ABRAHAMLINCOLN，KENTUCKY）和CAPITAL（KENTUCKY，F(xiàn)RANKFORT），但缺少表示和有效處理信息的方式，例如如果瓶子壞了，其他條件相等時，瓶子中的內(nèi)容物可以逃逸。

?規(guī)則和例外必須并存。規(guī)則動詞（walk-walked）與不規(guī)則動詞（sing-sang）共存。不會飛的企鵝和其他很多會飛的鳥類共存。機器必須能夠以某種方式來表示知識，就像語言學(xué)家所說的泛型：知識通常是真實的，但也有例外（飛機會飛，但我們認(rèn)識到，一架特定的飛機可能會被停飛），甚至不必在統(tǒng)計上準(zhǔn)確地反映病例（蚊子攜帶瘧疾是重要的知識，但只有一小部分蚊子實際攜帶瘧疾）。只能獲取規(guī)則而不能獲取例外的系統(tǒng)（例如Evans和Grefenstette（Evans和Grefenstette，2017））是構(gòu)建能夠獲取抽象知識但還不夠的系統(tǒng)的一個有趣步驟。 ?一個健壯的系統(tǒng)可能是因果關(guān)系，并支持反事實的知識的一個重要部分。例如，封閉的人并不知道國家有首都，他們知道這些首都在政治上是由人民的行動決定的，而且這些決定有時會被改變。奧爾巴尼是紐約州目前的首府，但如果首府（事實上）被燒毀，我們認(rèn)識到該州可能會選擇一個新的首府。孩子們知道，當(dāng)玻璃瓶落在堅硬的地板上時，那些瓶子可能會碎。

?盡管在網(wǎng)上搜集諸如首都和出生地等事實知識相對容易，但我們掌握的許多抽象知識很難通過網(wǎng)絡(luò)搜集；例如，很少有人會寫關(guān)于破碎瓶子及其內(nèi)容的文章。大多數(shù)情況下，正如列納特曾經(jīng)指出的，作家不會寫下常識，因為他們的讀者已經(jīng)知道了。（盲目拉網(wǎng)也有其他問題；例如，歷史偏見，比如醫(yī)生是男性，往往會被天真的拉網(wǎng)系統(tǒng)自動延續(xù)下去。）

?相關(guān)知識的范圍必須非常廣泛。例如，理解一部小說可能需要技術(shù)、政治實體、金錢、天氣、人際交往、禮儀、性、暴力、貪婪等方面的知識。例如，約翰·格里沙姆（johngrisham）的第一部暢銷小說《公司》（TheFirm）中的關(guān)鍵情節(jié)轉(zhuǎn)折就建立在對影印機能做什么、能做多快的理解上，與對人類動機和時間推理的深刻理解并列。

?很難將知識付諸實踐。擁有一個龐大的知識數(shù)據(jù)庫是一回事，其中包括有關(guān)復(fù)印機及其運行速度的事實，另一種方法是將這些知識（在大量其他不太相關(guān)的信息庫中）整合到關(guān)鍵任務(wù)的時間推理中，即英雄律師在陷入秘密但高尚的信息收集行為之前所處的狹窄時間窗口。以一種有效的方式將抽象的知識與現(xiàn)實世界中的具體情況聯(lián)系起來，本質(zhì)上是一個尚未解決的問題。

??人類知識的一些小而重要的子集可能是天生的；健壯的人工智能也應(yīng)該從一些重要的先驗知識開始。在當(dāng)代的ML中，人們常常強烈地希望將知識和天賦最小化；正如下面第2.2.3節(jié)所討論的，我認(rèn)為這是一個錯誤。

2.2.2案例研究：容器

讓我們更詳細(xì)地考慮一個案例研究-一個事實（在通常情況下），帶蓋的茶壺中的水只能從壺嘴出來。

正如讀者現(xiàn)在所期望的那樣，GPT-2有時會做到這一點。

原則上，我們也許可以通過眾包獲得這一特定事實，但由于人們很少陳述如此明顯的事實，而且更不經(jīng)常精確地陳述，我們不應(yīng)該指望它。盡管我們可能需要在我們的數(shù)據(jù)庫中有這樣一個事實，例如，如果我們正在構(gòu)建人工智能來支持一個仿人的老年人機器人的決策，我們可能不會提前預(yù)料到這種需要。

如果我們能從更一般的知識中得出這樣的事實就更好了，例如，如果我們遇到一個外表陌生的茶壺，我們就會知道它是什么，以及如何與它互動。

Ernest Davis、NoahFrazier Logue和我提出了一個框架（Davis、Marcus和Frazier Logue，2017），可以幫助解決這類挑戰(zhàn)：一大套獨立動機的邏輯公理，這些公理不是茶壺特有的，都是通用的，主要由大多數(shù)普通人在思考后認(rèn)識到的抽象組成是真的，從中可以對容器做出正確的推斷。

總的來說，公理所處的框架是相當(dāng)普遍的：關(guān)于時間、空間、操縱、歷史、行動等的公理。這些公理包括如下陳述（這里有一些稍微簡化的解釋）：

?物理世界由一系列物體組成，這些物體在時間和空間上移動。

?對象是不同的；也就是說，一個對象不能是另一個對象的一部分，也不能在空間上與另一個對象重疊。

?物體占據(jù)某個三維范圍的區(qū)域；它不能是一維的曲線或二維曲面。

?特定數(shù)量的液體可以占據(jù)特定體積的任何區(qū)域。

?封閉容器是完全包裹內(nèi)腔的一個物體或一組物體。

?直立開口容器是頂部開口的開口容器。

配備了此類知識的探索性機器人（以及將知識與感知模型和認(rèn)知模型聯(lián)系起來的其他機械）也許可以推斷出帶有幾乎隱藏的壺嘴的形狀異常的水壺的使用和功能：

經(jīng)過一定的擴展，這樣一個系統(tǒng)可以提供一個系統(tǒng)的基礎(chǔ)，這個系統(tǒng)可以推理出送紗器的用途，即使人們以前從未見過送紗器；最終，人們希望，這些基礎(chǔ)可以作為機器人系統(tǒng)的一個組成部分，可以在一個動作過程中應(yīng)用這些知識，比如編織。

并推斷出新的供料器（或與用戶進(jìn)行交流），甚至是完全不同的供料器：

這種情況在目前的神經(jīng)網(wǎng)絡(luò)方法中并沒有自然地表現(xiàn)出來。首先，這樣做可能需要一個對象的先驗概念，而這個對象本身在大多數(shù)當(dāng)前的神經(jīng)網(wǎng)絡(luò)中并不容易表示。然而，這些知識需要成為健壯的人工智能的核心部分，我們必須擁有獲取這些知識的策略和能夠獲取、表示和操作這些知識的體系結(jié)構(gòu)——其中一些在本質(zhì)上似乎是象征性的。

原則上，也許我們提出的公理中有一小部分是天生的，其他人是學(xué)來的，盡管到目前為止我還不知道有哪個系統(tǒng)能夠?qū)W習(xí)這類公理。（這里再次強調(diào)，具有嵌入式知識的神經(jīng)符號系統(tǒng)可能會有所幫助。）

重要的是，這組框架本身會聚集到一組相當(dāng)容易識別的域中，例如關(guān)于空間、時間和因果關(guān)系的知識，如這里所示：

容器知識框架，摘自（Davis et al。，2017）

2.2.3固有的知識框架

把我們帶到本土主義。雖然沒有人可能認(rèn)為所有的抽象知識都是與生俱來的，但其中一些可能是與生俱來的，而讓某些知識與生俱來的論點最終非常簡單：你一開始知道的越多，其他知識就越容易學(xué)習(xí)；如果你能縮小自己的范圍，你就可以限制你試圖尋找的假設(shè)空間尋找。

LeCun關(guān)于卷積的開創(chuàng)性工作（LeCun，1989）事實上是對這一點的一個有力的實證證明，表明在數(shù)字識別任務(wù)中學(xué)習(xí)，在一個預(yù)連線的層次結(jié)構(gòu)配備了平移不變特征檢測器（使用卷積）的系統(tǒng)中，準(zhǔn)確度更好，相對于一個更簡單的體系結(jié)構(gòu)來說。唯一的先天優(yōu)勢，卷積，已經(jīng)被證明是非常有價值的。

然而（許多，并非所有）機器學(xué)習(xí)研究者反對在他們的系統(tǒng)中加入更多的固有約束，畫出一條看似任意的線，這樣網(wǎng)絡(luò)參數(shù)（有多少層，損失函數(shù)是什么，使用什么輸入節(jié)點編碼方案等等）對于先天性來說是公平的游戲，但大多數(shù)其他事情通常是公平的預(yù)計將被學(xué)習(xí)（馬庫斯，2020年）。有些人甚至認(rèn)為這是一個值得驕傲的地方；正如一位研究人員在一封電子郵件中告訴我的那樣，“如果你主要對理解‘學(xué)習(xí)’感興趣，那自然會導(dǎo)致你貶低‘手工編碼’。”

我在2019年12月與Yoshua Bengio的辯論同樣具有啟發(fā)性。他說，預(yù)先指定卷積是可以接受的，因為它只需要“三行代碼”，但擔(dān)心將先驗知識（先天/先驗知識的位）的集合遠(yuǎn)遠(yuǎn)擴展到卷積之外，特別是如果這些先驗知識需要指定多于幾位的信息

正如我在那里向他表達(dá)的那樣，我不會太擔(dān)心那些零碎的東西。超過90%的基因組在大腦發(fā)育過程中表達(dá)（Miller et al.，2014；Bakkenet al.，2016），其中相當(dāng)數(shù)量的基因在特定區(qū)域選擇性表達(dá)，從而產(chǎn)生詳細(xì)的初始結(jié)構(gòu)。有許多機制可以通過使用少量的基因來指定復(fù)雜的結(jié)構(gòu)；本質(zhì)上，基因組是以半自主的方式構(gòu)建結(jié)構(gòu)的壓縮方式（Marcus，2004）；沒有理由認(rèn)為生物大腦僅限于幾個“小”先驗。凱文·米切爾最近在辯論后的一次跟進(jìn)中很好地總結(jié)了形勢。

的確，基因組中沒有足夠的信息來說明神經(jīng)發(fā)育的確切結(jié)果，即大腦中每個神經(jīng)元的數(shù)量、位置和連通性?；蚪M只編碼一組無意識的生化規(guī)則，當(dāng)這些規(guī)則在發(fā)育中的胚胎的動態(tài)自組織系統(tǒng)中發(fā)揮作用時，會導(dǎo)致在自然選擇定義的操作參數(shù)范圍內(nèi)的結(jié)果。但這些操作參數(shù)有很大的空間，包括我們認(rèn)為是先天的各種因素。在許多物種中有大量證據(jù)表明，根據(jù)基因組中的指令，許多不同的先天前驅(qū)確實預(yù)先連接到神經(jīng)系統(tǒng)中。

如果基因組有足夠的先天先兆的空間，那么現(xiàn)代人工智能系統(tǒng)可能還有更大的空間；我們生活在一個計算機內(nèi)存以千兆字節(jié)和兆字節(jié)來衡量的時代，而不是以字節(jié)或千字節(jié)來衡量的時代。對于人工智能來說，真正的問題不應(yīng)該是，我們的先驗知識庫有多??？但是什么樣的先驗知識能最有效地為學(xué)習(xí)創(chuàng)造條件呢？就其本身而言，最小化比特數(shù)并不是目標(biāo)。

如果有三個關(guān)于先天性的建議反復(fù)出現(xiàn)，它們就是時間、空間和因果關(guān)系的框架。

例如，康德強調(diào)從時間、空間和因果關(guān)系的“流形”開始的價值。斯皮爾克長期以來一直認(rèn)為，一些基本的，核心的知識，對象，集合和地點可能是先決條件，以獲得其他知識。正如她所說（斯佩爾克，1994年）,

如果兒童天生具有感知物體、人、場景和地點的能力，那么他們可能會利用自己的感知經(jīng)驗來了解這些實體的屬性和行為……然而，如果他們不能在他們的環(huán)境中挑出那些實體。兒童如何才能了解某個領(lǐng)域中的實體，這還很不清楚.

戴維斯和我在我們對容器的分析（見上圖（Davis等人，2017））和我們最近的書（Marcus＆Davis，2019）中都同樣強調(diào)了先前的空間，時間和因果關(guān)系框架的價值。 ; 多年來，許多其他發(fā)展心理學(xué)家也指出了類似的方向（Landau，Gleitman和Landau，2009；Carey，2009；Leslie，1982；Mandler，1992）。

正如斯佩爾克（Spelke）和康德（Kant）都強調(diào)的那樣，一旦您了解了物體及其在時間中的傳播方式，就可以了。您可以開始填寫其屬性，并開始獲得環(huán)游世界所需的知識。

殘酷的事實是，相反的方法（從近乎空白的板塊開始，然后在海量數(shù)據(jù)集上對其進(jìn)行訓(xùn)練）到目前為止還沒有成功（Marcus 2020）。一些大型公司（例如Google，F(xiàn)acebook，Microsoft等）對由大數(shù)據(jù)集訓(xùn)練的相對空白的模型進(jìn)行了全面的測試，并提供了幾乎無限的時間，金錢，計算人員和研究人員，但他們?nèi)匀粺o法可靠地推理出時間，空間或因果關(guān)系。如果沒有這樣的能力，我們的系統(tǒng)將永遠(yuǎn)不會足夠強大以應(yīng)付現(xiàn)實世界的變化。

肯定是時候考慮一種更自然的方法了。

好消息是，盡管在深度學(xué)習(xí)社區(qū)中人們常常不贊成本土主義，但從歷史上看，越來越多的跡象表明對``先驗者\\\\\\'\\\\\\'更加開放（例如Burgess等人，2019年; Rabinowitz等人，2018年） ; Maier等人，2017）。

當(dāng)然，每個神經(jīng)網(wǎng)絡(luò)實際上都是先驗的，其形式是先天（即預(yù)先建立，而不是通過相關(guān)系統(tǒng)學(xué)習(xí)）對特定層數(shù)，特定學(xué)習(xí)規(guī)則，特定連通性模式，特定表示方案的承諾（例如輸入和輸出節(jié)點代表什么），等等。但是，這些先驗本質(zhì)上很少是概念性的。

真正的問題可能是關(guān)于可以代表什么樣的先驗，以及我們所需要的先驗是否可以自然地用我們已經(jīng)擁有的工具來代表，或者我們是否需要新的工具來代表更廣泛的先驗。深度學(xué)習(xí)社區(qū)似乎可以將卷積（自然適合神經(jīng)網(wǎng)絡(luò)框架）用作先驗，但是到目前為止，該社區(qū)對具有更復(fù)雜先驗的模型的關(guān)注程度大大降低，例如關(guān)于對事物永恒性的先天認(rèn)知【參見Marcus（2001），第5章中有關(guān)為什么估計對象的軌跡本身不足以進(jìn)行討論的討論】，或用于理解隨時間變化的事件的時間演算。

我們應(yīng)該問的不是我能去掉的的最起碼的內(nèi)在結(jié)構(gòu)是什么？而是我需要什么樣的先驗?zāi)?？以及我現(xiàn)有的體系結(jié)構(gòu)能否有效地將它們合并？我們是否可以建立一個更豐富的具有深層學(xué)習(xí)基礎(chǔ)的內(nèi)在基礎(chǔ)，或者在這個框架中可以方便地內(nèi)在地表達(dá)的東西是否有限制？我們是否需要顯式的符號操縱機制來表示其他類型的抽象，比如因果抽象？事實證明，深度學(xué)習(xí)擅長表達(dá)關(guān)于物體外觀的知識，但不太擅長獲取和表達(dá)關(guān)于物理世界如何運作的知識（Zhang，Wu，Zhang，F(xiàn)reeman&Tenenbaum，2016），關(guān)于人類如何相互作用，以及更普遍的因果關(guān)系。

其他方法，如概率規(guī)劃，允許顯式表示的符號約束，同時努力學(xué)習(xí)微妙的統(tǒng)計信息，值得認(rèn)真考慮。

退一步說，人類對世界的絕大多數(shù)了解都是從中學(xué)到的：

事實上，船只傾向于漂浮而不是沉沒

事實上，如果船只在水線以下形成洞，它們確實會下沉。

打火機比棉球更適合點火

破碎的瓶子會泄漏

一次又一次，幾乎沒完沒了。無論我們擁有什么樣的核心知識，都必須有大量的知識來補充。

認(rèn)為普通人可能知道（或立即承認(rèn)是真的）數(shù)百萬或數(shù)千萬這樣的事實并非沒有道理；其中絕大多數(shù)必須通過經(jīng)驗、明確的指示或其他方式來學(xué)習(xí)。重要的是，幾乎所有這些知識都可以付諸實踐，指導(dǎo)行動和決策（例如，如果我們發(fā)現(xiàn)船在水線以下有一個洞，我們會選擇不上船）。

但重要的是，我們所學(xué)到的知識中有相當(dāng)一部分是因果性和抽象性的，根據(jù)上一節(jié)的討論，這可能需要使用某種混合體系結(jié)構(gòu)。

同時，純粹的預(yù)先連線永遠(yuǎn)不夠，因為世界本身在不斷變化；例如，總會有新的因果原理與新的技術(shù)聯(lián)系在一起。如果有人介紹一個流行的新玩意兒叫花花公子，我們很快就會知道虛擬機是做什么的，如何打開和關(guān)閉它，以及如何讓它做自己的事情。正如Gopnik和Sobel（Gopnik和Sobel，2000）優(yōu)雅地展示的那樣，孩子們很自然地做到了這一點；我們需要能夠做到這一點的機器。

但是我們可能不能也不應(yīng)該僅僅從經(jīng)驗中學(xué)習(xí)我們所有的抽象和因果知識。當(dāng)這么多的知識已經(jīng)被編成法典的時候，這樣做將是極其低效的；例如，為什么要讓每個系統(tǒng)重新認(rèn)識到，即使物體被遮擋，它們?nèi)匀淮嬖谟诳臻g和時間中，而這是一個普遍的真理？此外，正如我們所看到的，例如在GPT-2的討論中，從無到有的學(xué)習(xí)到目前為止是不可靠的。如果沒有一些先驗知識，例如生理和心理推理的基礎(chǔ)知識，我們可以稱之為常識的東西幾乎都學(xué)不好。我們需要一些核心知識來指導(dǎo)剩下的學(xué)習(xí)。

妥協(xié)和創(chuàng)新的必要性再次顯現(xiàn)出來。我們顯然需要能夠獲得新的因果知識的系統(tǒng)（可能是神經(jīng)符號的雜種），但為了獲得這種知識，我們可能需要比我們迄今使用的更強大的先驗知識。

因此，我的第三個主要主張是：我們不應(yīng)該把每一個新的人工智能系統(tǒng)從零開始，當(dāng)作一張白板，對世界知之甚少，而應(yīng)該尋求建立從時間、空間和因果關(guān)系等領(lǐng)域的初始框架開始的學(xué)習(xí)系統(tǒng)，以加快學(xué)習(xí)速度并大量限制假設(shè)空間。

無論這些框架是用形式邏輯（la-Cyc）表示還是用其他方法表示，也許還沒有發(fā)明出來，我強烈懷疑它們是朝著健壯智能方向取得任何重大進(jìn)展的先決條件。再多的天賦也不能代替學(xué)習(xí)，但不專注的學(xué)習(xí)是不夠的。這個游戲的名字是找到一組先天的先驗知識，無論是小的還是大的，這將最有利于學(xué)習(xí)我們系統(tǒng)最終需要的巨大知識庫。

盡管如此，光靠知識是不夠的。這些知識必須用推理工具付諸實踐，在認(rèn)知模型的背景下，我接下來要談到的兩個主題。

2.3.推理

在一個著名的軼事，可能更好地在復(fù)述，但顯然是基于一個核心的真相，傳奇演員勞倫斯奧利弗是在現(xiàn)場與年輕的達(dá)斯汀霍夫曼，誰放棄了一些睡眠，以使他的角色可能會出現(xiàn)疲憊不堪。奧利弗對霍夫曼說：“親愛的孩子，你看起來真糟糕。你為什么不試著演戲呢？這樣容易多了?！?/p>

我對記憶和推理的看法是一樣的。目前的人工智能方法主要是試圖通過記憶（或至少是近似地記憶）整個世界的概率密度函數(shù)來應(yīng)對世界的復(fù)雜性，代價是無法滿足地需要越來越多的數(shù)據(jù)?？紤]到世界的指數(shù)級復(fù)雜性，這一策略不太可能奏效。

推理提供了另一種選擇；你不需要記住所有的東西，也不需要在你以前可能遇到的近鄰之間進(jìn)行插值，而是進(jìn)行推理。你沒有記住柏拉圖、亞里士多德、歐里庇得斯和我們前面的其他數(shù)十億人都是凡人的事實，而是學(xué)到了一個普遍的真理，所有的人都是凡人，并根據(jù)需要將這個普遍的真理應(yīng)用到這個范疇的具體實例中。

正如我們所看到的，神經(jīng)網(wǎng)絡(luò)，如Transformers（至少像目前通常使用的那樣，在端到端的方式中，與符號操作工具隔離）太不可靠，不適合合理的推理。它們可能在某些時候起作用，但不太可靠；只要有足夠的知識可用，符號操縱至少提供了朝著正確方向前進(jìn)的希望。

在經(jīng)典模型中，推理引擎的最佳例子是CYC（相當(dāng)于一個符號系統(tǒng)）能夠在最佳情況下執(zhí)行的那種推理。舉個例子，CYC的創(chuàng)始人Doug Lenat（Lenat，2019，#3132}，re Romeoand Juliet）最近的一次討論，在這里用兩個圖抽象出來，提供了故事的概要，一些與故事相關(guān)的知識，一些常識知識，以及CYC推理的一個例子（復(fù)雜推理者和大規(guī)模知識的結(jié)合）在最佳情況下可以得出

圖2羅密歐與朱麗葉，以及一些與故事相關(guān)的知識樣本，例如故事中的特定時刻和特定時間點的知識；摘自Lenat 2019。正如后面所討論的，中間和右邊的面板反映了CYC對情節(jié)的認(rèn)知模式的一部分。

圖3相關(guān)常識知識樣本，以及CYC得出的復(fù)雜推論；Lenat 2019

上圖中間和右面板的詳細(xì)程度——列出了時間點和在這些時間點上保持正確的陳述——是我將稱之為豐富認(rèn)知模型的一個例子。它是一個認(rèn)知模型，因為它是一個復(fù)雜場景的內(nèi)在升華，它的豐富之處在于它充滿了關(guān)于特定主人公在特定時間點做什么、知道什么、打算什么和期望什么的微妙信息。

同樣地，我們可以認(rèn)為下圖左半部分所示的常識知識相當(dāng)豐富，因為它所編碼的行為、后果和人類互動的信息錯綜復(fù)雜。其中一些知識可能被明確地表示出來（例如，飲用某種毒物的后果可能是立即死亡），一些可以想象的知識可能是從更一般的事實在網(wǎng)上衍生出來的。（例如，“如果一個人死了，他們就不必和任何人結(jié)婚”可能是從一個更普遍的觀察中得出的，即義務(wù)往往只適用于活著的人。）無論哪種方式，擁有如此廣泛的知識儲備的回報來自于可以得出的推論的復(fù)雜程度（下圖右側(cè)），以及在他們的可解釋性水平上，這兩者與迄今為止通過深度學(xué)習(xí)產(chǎn)生的任何東西都處于完全不同的水平。

一些觀察結(jié)果：

?如果不廣泛使用結(jié)構(gòu)化表示、變量操作和個人記錄，這種方法是不可能的。

?這是一個最好的概念證明，表明擁有豐富的認(rèn)知模型和豐富的生物學(xué)、心理理論等知識的潛在價值。

?然而，它在很大程度上依賴于知識工程師手工完成的大量前期工作，這些工程師已將《羅密歐與朱麗葉》手工翻譯成形式邏輯；一個能夠在可比水平上自動生成此類表示和推理的系統(tǒng)將是一個重大突破。

?推理本身不一定是通往強大人工智能的瓶頸；真正的瓶頸可能在于在現(xiàn)實世界推理的上下文中獲得正確的信息。

當(dāng)然，CYC遠(yuǎn)非完美。世界上有太少的東西是以充分的預(yù)先包裝的形式提供給CYC的。CYC沒有太多的自然語言前端，也沒有遠(yuǎn)見；要讓它變得合理，你需要把你的問題用邏輯的形式表示出來。由于很少有問題是以這種方式預(yù)先包裝的，因此直接的商業(yè)應(yīng)用相對較少。但是，在一個將大規(guī)模抽象知識與以各種形式邏輯實現(xiàn)的高階推理相結(jié)合的系統(tǒng)中，精細(xì)推理是可能的，這是一個存在的證明。

即便是CYC的推理能力，無疑也有很大的提升空間。它的表示主要是（或者完全是）高階邏輯的東西；不清楚它能在多大程度上表示不確定性，以及對統(tǒng)計分布的推理，等等。正如伯特蘭·羅素曾經(jīng)說過的，“人類所有的知識都是不確定的、不精確的和部分的”，現(xiàn)在還不清楚CYC能處理多少不確定性、不完整性和不精確性?！玖硪粋€問題是人類在推理中面臨的諸多限制，如確認(rèn)偏差、動機推理、語境效應(yīng)、連接謬誤等。在一個理想的世界里，我們會從人類做得好的事情中學(xué)到東西，但把這些異?，F(xiàn)象拋在腦后。關(guān)于為什么人類可能進(jìn)化出這種認(rèn)知效率低下的討論，即使這種認(rèn)知錯誤在功能上可能不是最優(yōu)的，參見Marcus（Marcus，2008）】

有人懷疑，就像經(jīng)典人工智能和神經(jīng)人工智能中的許多其他東西一樣，它很可能是脆弱的，高度依賴于數(shù)據(jù)庫中的特定知識以及復(fù)雜場景映射到其內(nèi)部邏輯的精確方式。

盡管如此，它——或者其他能夠做類似工作的東西，也許使用不同的方法——似乎是通往穩(wěn)健推理的必經(jīng)之路。一個不能理解羅密歐和朱麗葉的情節(jié)摘要的人工智能不太可能勝任現(xiàn)實世界的復(fù)雜性。一個人工智能，可以推理的動機交互人類作為復(fù)雜的事件，因為他們隨著時間的推移展開有戰(zhàn)斗的機會。

樂觀的可能性是，一旦混合架構(gòu)（architecture）知識的先決條件得到更好的發(fā)展，推理可能會自行解決；悲觀的可能性是，我們可能需要在推理本身方面進(jìn)行重大改進(jìn)，至少在可伸縮性和處理不完整知識的能力方面是如此。在我們把前兩個房子——建筑學(xué)和知識表示——整理好之前，我們可能真的無法分辨。

但我們已經(jīng)知道：由于世界的復(fù)雜性，我們需要這樣的東西。很明顯，我們需要新的基準(zhǔn)來推動我們的系統(tǒng)進(jìn)行羅密歐與朱麗葉場景所體現(xiàn)的那種復(fù)雜的推理。由于我們既不能預(yù)先對每一個場景進(jìn)行編碼，也不希望總是在已知的場景之間進(jìn)行插值，因此一個能夠有效地利用大規(guī)模背景知識的推理系統(tǒng)，即使在可用信息不完整的情況下，也是魯棒性的先決條件。

Minervini等人最近的研究（Minervini等人，2019年）給了我希望，一種神經(jīng)符號混合的方法可以開辟新的領(lǐng)域。Besold等人（Besold、Garcez、Stenning、van der Torre和van Lambalgen，2017）提供了另一個起點。人們在努力這一事實給了我更多的希望；如果我們要前進(jìn)，推理和知識需要成為一流的公民，看到人們在努力是件好事。

2.4認(rèn)知模型

一種特殊的知識是隨著時間的推移積累起來的關(guān)于特定事務(wù)狀態(tài)的知識，例如我們在談話過程中可能了解到的關(guān)于一個朋友的信息，在閱讀新聞過程中了解到的關(guān)于一個國家的信息，或者在讀一本書時了解到的關(guān)于一群人的信息。在認(rèn)知心理學(xué)中，我們稱這種累積表征為認(rèn)知模型。你的認(rèn)知模式可能和我的不同；你的可能更詳細(xì)，我的可能不太詳細(xì)，但我們都經(jīng)常使用它們。但最起碼，認(rèn)知模型可能包括一些實體的知識（例如，故事中的人物和他們擁有的物品），一些屬性的知識（例如，物品的大小和顏色，人物的目標(biāo)等），以及關(guān)于時間和事件的信息（角色x在什么時候遇到角色y，以及x在時間t知道什么）。

CYC/羅密歐和朱麗葉插圖中的命題和時間標(biāo)記，例如關(guān)于相信什么和什么時候相信的復(fù)雜事實的顯式表示，是豐富的認(rèn)知模型在人工智能系統(tǒng)中可能編碼的一個例子。人們還可以想到Johnson Laird（Johnson Laird，1983）關(guān)于心理模型的工作。如果我告訴你有一個空書架，然后解釋說我把兩本書放在書架上，你就構(gòu)建了一個包含兩本書的書架的內(nèi)部表示。如果我告訴你我在書架上又加了一本書，你就更新你的表示，這樣你就有了一個包含三本書的書架的內(nèi)部表示。理解事物在很大程度上就是推斷出它是什么的模型，并最終能夠推斷出它是如何運作的，以及接下來會發(fā)生什么。

這絕不是一個微不足道的過程。任何一個GOFAI研究者都可以描述，原則上，一個人如何手動構(gòu)建（一些）復(fù)雜的認(rèn)知模型，但在特定場合推斷正確的認(rèn)知模型可能是一個復(fù)雜的過程，在給定的情況下，往往有一個以上的似是而非的答案，而且目前還不可能自動化。

CYC的例子羅密歐和朱麗葉是令人信服的，因為系統(tǒng)得出的推論是復(fù)雜和明智的，但令人失望的是，基本模型是手工編碼的，而不是從劇本中歸納出來的。這使得該系統(tǒng)可以很好地用于演示目的，但在現(xiàn)實世界中，為了讓認(rèn)知模型為強大的人工智能鋪平道路，我們需要找到從數(shù)據(jù)流（如視頻或文本）中自動推斷它們的方法。

這是一個如此困難的問題（在下面討論的場景理解領(lǐng)域之外）大多數(shù)人轉(zhuǎn)而從事其他的工作，并在令人驚訝的程度上嘗試完全不使用認(rèn)知模型。

例如，DeepMind的Atari游戲系統(tǒng)DQN幾乎完全缺乏明確的認(rèn)知模型。當(dāng)DQN學(xué)會玩突圍游戲時，它并沒有將單個棋盤的位置抽象成表示單個棋盤的位置和范圍的場景圖；也沒有直接表示劃槳的位置、球的速度或游戲的基本物理，也沒有任何抽象的實現(xiàn)彈跳的動力使游戲如此引人入勝。在強化學(xué)習(xí)語言中，系統(tǒng)是無模型的?！绢^發(fā)分裂者（不知道怎么翻譯hair-splitters）可能會爭辯說，存在某種自我生成的內(nèi)部模型，指出系統(tǒng)的內(nèi)部狀態(tài)在某種程度上與經(jīng)典認(rèn)知狀態(tài)相關(guān)，而MuZero這樣的系統(tǒng)更是如此（Schrittwieser et al.，2019）。在我看來，這種系統(tǒng)轉(zhuǎn)移到新環(huán)境的能力有限（見正文）破壞了這類強有力的主張?！咳欢说某删鸵呀?jīng)實現(xiàn)了。（值得注意的是，在一些游戲中，如Pong，在已知的起始條件下是嚴(yán)格確定的，完全不看屏幕就可以成功地玩（Koul，Greydanus，F(xiàn)ern-arXiv預(yù)印本）附件十四：1811.12530, & 2018, ).

但是，像DQN這樣的系統(tǒng)的成功有什么教訓(xùn)呢？在我看來，這個領(lǐng)域過于籠統(tǒng)了。在像Breakout這樣的封閉領(lǐng)域中，只要有足夠的數(shù)據(jù)（通常遠(yuǎn)遠(yuǎn)超過人類在類似情況下所需的數(shù)據(jù)），無模型強化學(xué)習(xí)通常效果非常好。但這并不意味著無模型強化學(xué)習(xí)是解決智力問題的一個好方法。

問題在于，無模型解在誘導(dǎo)它們的精確環(huán)境之外，泛化能力很差。Kansky等人（Kansky等人，2017年）通過修補Breakout以令人信服的方式展示了這一點；即使是將撥片向上移動幾個像素之類的微小變化也會導(dǎo)致性能大幅下降。人類通過內(nèi)部認(rèn)知模型進(jìn)行工作，可以很快得到補償；無模型的深度強化學(xué)習(xí)系統(tǒng)往往無法做到這一點，相反，經(jīng)常需要大量的再培訓(xùn)，正是因為它們?nèi)狈ωS富的環(huán)境認(rèn)知模型。

GPT-2（見Marcus，2019，2020）等電流互感器在語言理解方面的失敗范圍反映了類似的情況：預(yù)測總體趨勢之間的分歧（如短語mom\\\\\\'s house出現(xiàn)在單詞附近的可能性，以及語料庫GPT-2中的短語drop、off、pick、up和clothing）以及表達(dá)、更新和操縱認(rèn)知模型的能力。當(dāng)BERT和GPT-2未能跟蹤干洗將在何處時，這直接反映了GPT和BERT不能代表單個實體隨時間演化的特性。如果沒有認(rèn)知模型，這樣的系統(tǒng)就會消失。

有時他們從統(tǒng)計學(xué)中得到好運，但是缺乏認(rèn)知模型，他們沒有可靠的基礎(chǔ)來推理。

認(rèn)知模型的缺乏對于任何希望使用Transformers作為下游推理系統(tǒng)輸入的人來說也是一個慘淡的消息。語言理解的全部本質(zhì)是從語篇中導(dǎo)出認(rèn)知模型；然后我們可以對我們導(dǎo)出的模型進(jìn)行推理。Transformers，至少在他們目前的形式，只是沒有做到預(yù)測詞類是令人印象深刻的，但就其本身而言，預(yù)測并不等于理解。

正如我們在第4.3節(jié)中看到的羅密歐和朱麗葉的例子，CYC是非常好的，因為它可以（至少在一些非瑣碎的程度上）超過認(rèn)知模型的推理（例如它的時間點列表和關(guān)于在不同時間點已知的人物和地點的事實，節(jié)選于圖2），與背景（常識知識）相關(guān)，但仍然存在著可悲的缺陷，因為它無法單獨推導(dǎo)出相關(guān)的認(rèn)知模型。任何一個系統(tǒng)，如果能夠?qū)⒆匀徽Z言維基百科的繪圖摘要（如圖2左面板中的一個）作為輸入，并自動導(dǎo)出自己的詳細(xì)認(rèn)知模型（類似于CYC的程序員手工構(gòu)建的模型），這樣下游的推理者就可以對其進(jìn)行推理，這將是相對于傳統(tǒng)推理的一個重大進(jìn)步當(dāng)前AI。

不幸的是，很少有人致力于從描述隨時間發(fā)展的事件的文本（更不用說視頻）中推導(dǎo)出豐富的認(rèn)知模型。Pasupat和Liang的一篇論文（Pasupat和Liang，2015）試圖將句子解析成可在表上運行的可編程查詢，但該系統(tǒng)并不試圖隨著時間積累模型。Facebook人工智能研究的一些論文，例如記憶網(wǎng)絡(luò)（Bordes，Usunier，Chopra，&Weston，2015）和循環(huán)實體網(wǎng)絡(luò)（Henaff，Weston，Szlam，Bordes，&LeCun，2016），可以將簡單的故事作為輸入并回答一些關(guān)于它們的基本問題。但是這些系統(tǒng)（a）需要大量的輸入，相對于他們回答的每個問題，（b）似乎范圍有限，很大程度上依賴于問答之間的語言重疊，（c）整合先前知識的能力非常有限。也許最重要的是，（d）他們沒有產(chǎn)生豐富的認(rèn)知模型，可以傳遞給推理者作為他們的輸出。彼得·諾維格（Peter Norvig）關(guān)于故事理解的論文（Norvig，1986）試圖在一個經(jīng)典的符號操縱框架中做類似的事情，就像沙克和阿貝爾森（Schank&Abelson，1977）的許多開創(chuàng)性工作一樣，但據(jù)我所知，故事理解不再是當(dāng)前研究的活躍領(lǐng)域。這是一個被拋棄而不是解決的重要問題。（沙克和阿貝爾森，1977年）

據(jù)我所知，最活躍的文獻(xiàn)是關(guān)于場景理解的研究，其最終目的不僅是解釋視覺場景中存在的對象，而且還解釋對象之間的關(guān)系，例如，不僅僅是識別一個玻璃杯和一張桌子，而是注意到一個特定的玻璃杯在桌子上，在一個特定的房間里玻璃杯靠近桌子邊緣，由桌子支撐，依此類推。這已經(jīng)超出了藝術(shù)的范疇【在我看來，目前的工作場景理解能力很差，部分原因是很多工作試圖將場景作為一個整體（“人做飯”）來識別，而不是根據(jù)一組個人（如人或物體）以及這些實體之間的關(guān)系來識別，部分原因是它的目的主要是在沒有推理的情況下進(jìn)行，推理有時對于構(gòu)建連貫的模型是必不可少的。因為可能性的數(shù)量是指數(shù)級的，適合于從有限的類別集合中對圖像進(jìn)行分類的技術(shù)不太可能滿足需要；相反，推理本身必須（與對象分類一起）有助于從場景中歸納認(rèn)知模型的過程。最近一個很有前途的概率生成模型GENESIS明確地建模了場景組件之間的依賴關(guān)系（Engelcke、Kosiorek、Jones和Posner，2019）。另見DeepMind的莫奈（Burgesset al.，2019）和梅林（Wayne et al.，2018）以及（Gregor et al.，2019）中的表達(dá)生成模型。e、 g.，inverse graphics papers by Vicarious（Kanskyet al.，2017；George et al.，2017）和Josh Tenenbaum的團(tuán)隊（Mao et al.，2019；Veerapaneniet al.，2019）?！?；最終，認(rèn)知模型歸納需要更進(jìn)一步；例如，我們還需要確定心理關(guān)系，這兩種關(guān)系都是在表面層面上的，例如，人1正在與人2交談，最終達(dá)到一個更復(fù)雜的水平（例如，人1與人2交談以欺騙人2，這樣人2就會給人1錢）。至少我們的一些符號必須以某種方式建立在我們的感知經(jīng)驗中，如果我們要用符號來解釋場景，我們必須有從輸入中推斷符號（以及符號之間的結(jié)構(gòu)化關(guān)系）的方法。建立適當(dāng)?shù)哪Ｐ瓦€需要能夠推斷時間邊界和時間關(guān)系的系統(tǒng)，等等。

場景理解只是一個更大問題的一個例子；每次我們理解一個故事或閱讀一篇文章時，我們都需要做同樣的事情，在這種情況下，是從文字而不是直接的視覺體驗。

在我們第一次對強大智能的探索中，我們不能期望制造出能理解莎士比亞的機器，但我們可以追求比我們所擁有的多得多的東西。我5.5歲和7歲的孩子可能不會自發(fā)地理解莎士比亞，但他們所擁有的智力在很大程度上是強大的；他們了解很多關(guān)于日常事物的物理相互作用的知識，以及足夠了解人類的目標(biāo)和動機，以理解大量的兒童書籍；已經(jīng)，早在小學(xué)階段，他們就掌握了欺騙、誤解和動機等概念，這些概念在《羅密歐與朱麗葉》的故事中非常關(guān)鍵。他們可以在各種各樣的操場上攀爬和機動，還可以談?wù)摳鞣N各樣的話題。

最終，推理和認(rèn)知模型可以以幾乎無限的方式結(jié)合起來。例如，假設(shè)在中午12點，一個孩子被單獨留在一個房間里，房間里有一個裝有餅干的封閉餅干罐。中午12:05，人們注意到罐子是關(guān)著的，但餅干卻不見蹤影。其間發(fā)生了什么？結(jié)合時間和空間推理，你可以很容易地推斷出（a）孩子打開了罐子（b）孩子拿走了餅干，（c）孩子吃了餅干，（d）孩子關(guān)上了罐子。對于加分，你可以推斷（b）一定發(fā)生在（c）和（d）之前，但是（c）和（d）的順序是未知的。結(jié)合生物學(xué)理論，你可以把孩子理解為一個容器，并意識到餅干現(xiàn)在被包含（部分消化）在里面，已經(jīng)從一個開口（一張嘴）進(jìn)入另一個容器（胃）。沒有任何理由認(rèn)為，如果沒有內(nèi)部的認(rèn)知模型和推理機制，人工智能將能夠有力地做出這種推論。沒有這一點，就不可能可靠地理解一個偵探小說，一個超越閑聊的對話，或者幾乎任何人類互動的敘述。

我有兩個猜想

?如果沒有混合體系結(jié)構(gòu)、豐富的先驗知識和復(fù)雜的推理技術(shù)，我們就無法以適當(dāng)、自動化的方式構(gòu)建豐富的認(rèn)知模型。舉一個例子，如果我們看到水體中的漣漪隱約讓人想起汽車，在一般情況下，我們應(yīng)該假設(shè)這些漣漪只是漣漪，例如，基于汽車不會漂浮的知識。但我們可能會在黑幫電影的背景下改變我們的前科，在這部電影中，汽車可能會被故意推入水中。場景理解最終不僅僅是標(biāo)記對象，而是使用最好的可用數(shù)據(jù)進(jìn)行連貫的解釋，這需要對數(shù)據(jù)進(jìn)行一定程度的推理，并結(jié)合先驗知識。任何單純依靠標(biāo)記圖像的自下而上方法都可能在各種異常情況下失敗，正如我們迄今所看到的，即使是在地圖清晰的公共道路上進(jìn)行自主駕駛的狹窄領(lǐng)域，盡管付出了巨大的努力和數(shù)十億美元的投資。

?如果沒有歸納和表現(xiàn)豐富認(rèn)知模型的能力，我們就無法獲得強健的智力。例如，閱讀在某種程度上可以被認(rèn)為是一種以句子為輸入，以產(chǎn)生為輸出（內(nèi)部）認(rèn)知模式的功能。當(dāng)我們發(fā)現(xiàn)羅密歐自殺時，基于對事實的誤解，我們更新了我們的模型。一旦我們更新了我們的模型，我們就會對它們進(jìn)行推理（考慮到朱麗葉的明顯死亡，羅密歐會自殺有意義嗎？）。我們的情緒反應(yīng)也來自于我們對所發(fā)生事情的內(nèi)部認(rèn)知模式的相對判斷。（角色剛才表演的動作是否合乎道德？安全嗎？愚蠢？悲??？）。純粹的共現(xiàn)統(tǒng)計并沒有可靠地得出這一點。Cyc有能力表示豐富的認(rèn)知模型，但由于它沒有感知成分，缺乏足夠的自然語言前端，因此不能從數(shù)據(jù)中歸納模型。Transformers，如果他們成功了，就跳過了歸納和表現(xiàn)豐富認(rèn)知模型的步驟，但這樣做是有風(fēng)險的，因為他們能夠做的推理因此是相當(dāng)有限的。同樣，家用機器人最終也會被限制在他們能夠安全參與的行動范圍內(nèi)，因為他們能夠通過豐富的認(rèn)知模型進(jìn)行歸納、表示和推理。

單靠更多的數(shù)據(jù)可能無法解決這個問題。在我編輯這篇手稿的時候，谷歌發(fā)布了Meena（Adiwardana et al.，2020），在341GB的海量語料庫上進(jìn)行訓(xùn)練，幾乎是GPT-2訓(xùn)練的10倍，相當(dāng)于大約341000本書，遠(yuǎn)遠(yuǎn)超過大多數(shù)人一輩子的閱讀量。

根據(jù)谷歌的博客“走向一個可以談?wù)摗魏问虑榈膶υ挻怼?，Meena“可以進(jìn)行比現(xiàn)有最先進(jìn)的聊天機器人更明智和具體的對話?！毕馟PT-2一樣，Meena創(chuàng)作的散文既非常流暢，也非常有主題性。它最好的對話是驚人的，該報報道說，它設(shè)置了一個新的藝術(shù)狀態(tài)，在新的衡量標(biāo)準(zhǔn)“感性和特異性”。但同樣的核心基礎(chǔ)——世界內(nèi)部認(rèn)知模式仍然缺失。

考慮一下這個片段

你最喜歡的樂隊是什么？Avengedsevenfold。

人類：哦，這是個好答案！你最不喜歡哪個樂隊？Avengedsevenfold。

哦，我以為你喜歡Avengedsevenfold？米娜：是的。那是我最喜歡的樂隊。

每個答案都是連貫的，但從一個答案到下一個答案卻沒有連貫性。Meena抓住了這樣一個事實，即某些短語，如樂隊名稱，往往與短語，如“最喜愛的樂隊”；但沒有持久的記錄，Meena的喜好，即使是一個簡短的對話長度，因此完全不一致。

在第77次對話中也可以看到大致相同的情況。Meena在自稱“學(xué)習(xí)”廣東話和已經(jīng)母語流利的廣東話之間搖擺不定：

人類：你的新年決心是什么？米娜：減掉60磅學(xué)廣東話學(xué)法語人類：你不覺得，那很牽強嗎？

米娜：不是真的。我現(xiàn)在瘦了35磅，我已經(jīng)能說廣東話到一個基本的水平，而且我已經(jīng)在學(xué)校學(xué)法語了。

人類：哇！真令人印象深刻！

米娜：我在一邊學(xué)法語，這對我來說真的很容易，因為我的母語是粵語。

沒有認(rèn)識到你不能學(xué)習(xí)一門你已經(jīng)知道的語言（缺少背景知識），也沒有內(nèi)在的模式來判斷米娜是否會說廣東話。一句一句的預(yù)測很突出；總體上是不連貫的。

當(dāng)我在修改這篇論文的初稿時，我開始用“貓在墊子上”這句話起草一個圖表。我的計劃是展示如何解釋這個句子，從語法到語義，再到可更新的認(rèn)知模型，跟蹤實體（如貓和墊子）及其屬性和彼此之間的關(guān)系；目標(biāo)是展示GPT-2是如何試圖縮短這條路徑，從而得到混合的結(jié)果。

我還沒來得及畫完這幅圖，我5.5歲和7歲的孩子們就從我身后望過去，咯咯地笑著大聲念著“貓在墊子上”這句話。我轉(zhuǎn)向年長的那個，問他：“你能把一頭大象放在墊子上嗎？”他回答說，這要看情況；如果這是一個真正的大墊子，你可以，如果這是一個小墊子，你不能。他立即形成了一個虛構(gòu)的世界和實體的模型，填充了這個世界，并應(yīng)用他的一般常識知識的理論世界，完全沒有標(biāo)簽的例子。

當(dāng)他離開房間時，我問了他妹妹，我5.5歲的女兒。她很好地理解了前面的談話，并對我的問題給出了一個同樣恰當(dāng)?shù)拇鸢?。?dāng)我問她一座房子是否能放在墊子上時，她證明了自己同樣擅長構(gòu)建一個模型，并對其未指明的參數(shù)進(jìn)行推理，從而得出合理的結(jié)論。

我們不可能建立可靠、健壯的人工智能系統(tǒng)，因為這些系統(tǒng)無法與小孩子通常做的基本推理和模型構(gòu)建相匹配。等待認(rèn)知模型和推理從越來越大的訓(xùn)練語料庫中神奇地出現(xiàn)，就像等待奇跡。

底線是：目前針對建立認(rèn)知模型系統(tǒng)的研究太少。強調(diào)端到端的學(xué)習(xí)和大量的訓(xùn)練集已經(jīng)從核心的更高層次的認(rèn)知轉(zhuǎn)移。大多數(shù)研究人員甚至沒有試圖構(gòu)建圍繞認(rèn)知模型的系統(tǒng)，而且（除了在像自動駕駛這樣的狹隘領(lǐng)域之外）越來越少的研究人員專注于發(fā)現(xiàn)相對于輸入流（如文本或視頻）導(dǎo)出和更新認(rèn)知模型的一般方法這一相關(guān)挑戰(zhàn)。很少有人把重點放在結(jié)合先前的常識來推理這些模型上，例如大象相對于貓的大小，以及這與各種大小的墊子的關(guān)系。

在我看來，構(gòu)建能夠?qū)⒄Z言和感知輸入映射到豐富的、不斷發(fā)展的認(rèn)知模型的系統(tǒng)應(yīng)該是該領(lǐng)域最優(yōu)先考慮的問題之一。

換言之，更緊迫的是，花在改進(jìn)大規(guī)模單詞級預(yù)測模型上的每一刻，即lagpt-2和Meena，都是一個可以更好地用于開發(fā)派生、更新和推理認(rèn)知模型的技術(shù)的時機。

如果我們想建立健壯的人工智能，我們就不能再等了。

3.討論

3.1.一種圍繞著持久的抽象知識的智慧

沒有我們，或者像我們這樣的生物，世界將繼續(xù)存在，但它將無法被描述、提煉或理解。鳥可以拍打翅膀，也可以帶著它飛行。有關(guān)聯(lián)，但沒有因果關(guān)系的描述。人類生活充滿了抽象和因果描述。我們的孩子大部分時間都在問為什么；科學(xué)家問這樣的問題是為了產(chǎn)生理論。我們的力量很大一部分來自于我們以科學(xué)、文化和技術(shù)的形式理解和描述世界的努力。

大部分的努力都以知識的形式達(dá)到高潮，有些是具體的，有些是一般的，有些是口頭的，有些不是。經(jīng)典人工智能的很大一部分目標(biāo)是以機器可解釋的形式提取這些知識；CYC是這方面最大的項目。

一路上的某個地方，人工智能領(lǐng)域走了一個不同的方向。大多數(shù)研究人員，如果他們了解CYC的話，會認(rèn)為這是一個失敗，而目前很少有研究人員會將他們的目標(biāo)描述為積累知識，就像Lenat所描述的那樣?！疽苍SGoogle知識圖（Google Knowledge Graph）最接近，但據(jù)我所知，知識圖的目標(biāo)是積累有助于消除搜索查詢歧義的具體事實，比如法國有一個叫巴黎的城市，而不是抽象的常識?！?/p>

像Transformers這樣的系統(tǒng)的部分成功導(dǎo)致了一種虛幻的感覺，即CYC規(guī)模的機器可解釋的人類知識表示是不必要的，但我認(rèn)為這是一個錯誤。然而，正如我們所看到的，盡管Transformers作為統(tǒng)計推斷引擎給人留下了深刻的印象，但它們離成為強大智能的堅實基礎(chǔ)還有很長的路要走。他們不可靠，他們的知識參差不齊。

他們的推理能力很差，而且隨著時間的推移，他們無法建立事件的認(rèn)知模型；沒有明顯的方法將它們與更復(fù)雜的推理和認(rèn)知模型建立系統(tǒng)聯(lián)系起來，也沒有辦法將它們用作可解釋、可調(diào)試的智能的框架。

這篇論文的重?fù)?dān)是主張研究重點的轉(zhuǎn)變，轉(zhuǎn)向構(gòu)建健壯人工智能的四個認(rèn)知前提：混合架構(gòu)，將大規(guī)模學(xué)習(xí)與符號操作的表征和計算能力相結(jié)合，大規(guī)模知識庫可能利用固有的框架，這些框架將符號知識與其他形式的知識結(jié)合起來，推理機制能夠以可處理的方式利用這些知識庫，豐富的認(rèn)知模型與這些機制和知識庫協(xié)同工作。

隨之而來的是對可能更加異構(gòu)的體系結(jié)構(gòu)的需求。到目前為止，許多機器學(xué)習(xí)都集中在相對同質(zhì)的體系結(jié)構(gòu)上，其中單個神經(jīng)元的能力僅限于求和和和集成，通常不超過少數(shù)預(yù)先指定的模塊。正如最近的研究所表明的，這是一種過分簡單化的說法；在宏觀層面上，僅大腦皮層就有數(shù)百個解剖和可能的功能區(qū)域（Van Essen、Donahue、Dierker和Glasser，2016）；在微觀層面上，如前所述，即使是單個神經(jīng)元的單個樹突室也可以計算XOR的非線性（Gidon等人，2020）。Adam Marblestone、Tom Dean和我認(rèn)為（Marcus et al.，2014），大腦皮層不太可能用一個標(biāo)準(zhǔn)電路來計算它的所有功能；神經(jīng)計算中可能存在一個重要的多樣性，這在計算神經(jīng)科學(xué)或人工智能中還沒有被捕捉到。

兩個數(shù)字以定性的方式反映了我認(rèn)為我們近年來一直在做的事情，以及我們應(yīng)該做的事情。這些數(shù)據(jù)的第一點也是最重要的一點很簡單：潛在的人工智能（和機器學(xué)習(xí)）模型的空間是巨大的，而且只有一小部分可能存在的東西被探索過。空白板巖經(jīng)驗主義模型已經(jīng)得到了很好的研究，并且得到了很好的資助，沉迷于人工智能早期難以想象的計算資源和數(shù)據(jù)庫；已經(jīng)有了一些真正的進(jìn)展，但如此多種形式的脆性仍然是一個嚴(yán)重的問題；是時候探索具有類似活力的其他方法了。

向前發(fā)展至少需要我們建立一個模型，原則上能夠代表和學(xué)習(xí)我們在語言和更高層次認(rèn)知方面所需要的各種東西。

目前大多數(shù)系統(tǒng)甚至都不在正確的范圍內(nèi)。至少，充分的知識框架要求我們能夠通過變量運算，以代數(shù)的方式表示和操作我們的知識的一部分；很可能這些知識的一些（大的）子集是按照結(jié)構(gòu)化表示進(jìn)行編碼和維護(hù)的，這些知識中的大部分必須與特定的個體有關(guān)，并允許對其進(jìn)行追蹤。

Transformer體系結(jié)構(gòu)有解決所有這些問題的方法，但如果不加以補充，最終不太可能成功；同時，我們絕對不能期望所有相關(guān)知識都是預(yù)先固定的。

本文的有力預(yù)測是，健壯的人工智能必然存在于圖4所示的交叉點。

圖4:Venn圖在廣闊的智能模型空間中勾勒出了一些模型和架構(gòu)，重點關(guān)注學(xué)習(xí)和符號操作的維度。代數(shù)思維的假設(shè)（馬庫斯，2001），以及目前猜想的核心是，成功的智力模型需要對變量、結(jié)構(gòu)表征和個體記錄進(jìn)行運算。NS-CL[第2.1.2節(jié)中提到的神經(jīng)符號概念學(xué)習(xí)者（Mao et al 2019）]代表了許多此類可能的混合模型之一，其中許多尚待發(fā)明。本文認(rèn)為，在新的十年里，這一交叉區(qū)域應(yīng)該成為通用智能研究的中心。

同時，這個交叉點內(nèi)可能模型的空間是巨大的，甚至可能是無限的；說正確的架構(gòu)是有一個開始，但只是一個開始，就像說一個網(wǎng)絡(luò)瀏覽器可能應(yīng)該用一種語言來編寫，那就是圖靈等價物。很好，很真實，而且。?！，F(xiàn)在怎么辦？擁有一套合適的基本體只是一個開始。

這里有一種方法來思考這個問題：有無限多的可能的計算機程序，其中只有一些例示應(yīng)用程序，如（例如）web瀏覽器或電子表格，并且只有一個子集表示健壯的web瀏覽器或電子表格。類似地，有無限多的系統(tǒng)包含結(jié)構(gòu)化表示、個人記錄、對變量的操作，所有這些都在允許學(xué)習(xí)的框架內(nèi)，但只有其中一些系統(tǒng)會實例化健壯的智能。如果本文的主旨是正確的，那么結(jié)合學(xué)習(xí)和符號操作的混合體系結(jié)構(gòu)對于健壯的智能是必要的，但還不夠。

例如，還需要正確的宏觀結(jié)構(gòu)，包括多個領(lǐng)域的豐富知識，如圖5所示：

圖5:Venn圖強調(diào)系統(tǒng)的需要，包括空間、物理、心理、時間和因果推理的機制。大多數(shù)當(dāng)前的神經(jīng)網(wǎng)絡(luò)缺乏明確的機制來進(jìn)行這些形式的推理，也缺乏對這些領(lǐng)域進(jìn)行表示和推理的自然方式（但參見Cranmer et al.，2019）

將這兩個數(shù)字的要點與當(dāng)前的趨勢相比較。大多數(shù)（并非全部）深度學(xué)習(xí)的當(dāng)前工作都回避了對變量、結(jié)構(gòu)化表示和個人記錄的操作；同樣地，深度學(xué)習(xí)在很大程度上沒有大規(guī)模抽象知識、豐富的認(rèn)知模型和明確的推理模塊。總的來說，關(guān)于合成認(rèn)知的原語應(yīng)該是什么的討論還不夠。深度學(xué)習(xí)在很大程度上取得了它所取得的成就，沒有了這種傳統(tǒng)的計算精確性，也沒有任何看起來像是物理推理、心理推理等明確模塊的東西。

但是，如果認(rèn)為在諸如語音識別和對象標(biāo)記等主要圍繞分類的領(lǐng)域中，效果相當(dāng)好的東西，必然會可靠地用于語言理解和更高層次的推理，這是一種謬誤?？梢钥隙ǖ氖?，一些語言基準(zhǔn)已經(jīng)被打破，但一些深刻的東西仍然缺失。當(dāng)前的深度學(xué)習(xí)系統(tǒng)可以學(xué)習(xí)任意一點信息之間無盡的關(guān)聯(lián)，但仍然無法深入；它們無法代表世界的豐富性，甚至根本不了解外部世界的存在。

那不是我們想去的地方。

在重新啟動人工智能即將結(jié)束時，我和歐內(nèi)斯特·戴維斯敦促

簡言之，我們實現(xiàn)常識和最終的一般智力的方法是：首先開發(fā)能夠代表人類知識核心框架的系統(tǒng)：時間、空間、因果關(guān)系、物理對象及其相互作用的基本知識、人類及其相互作用的基本知識。將這些嵌入到一個可以自由擴展到各種知識的體系結(jié)構(gòu)中，始終牢記抽象性、組合性和個體跟蹤的中心原則。

開發(fā)強大的推理技術(shù)，能夠處理復(fù)雜的知識，

不確定，不完整，可以自上而下和自下而上自由工作。將這些與感知、操縱和語言聯(lián)系起來。用這些來建立豐富的世界認(rèn)知模型。最后一個重點是：構(gòu)建一種人類啟發(fā)的學(xué)習(xí)系統(tǒng)，使用人工智能擁有的所有知識和認(rèn)知能力；將所學(xué)知識融入其先前的知識；像孩子一樣，貪婪地從各種可能的信息來源學(xué)習(xí)：與世界互動，與人互動，閱讀，看視頻，甚至被明確教導(dǎo)。把這些放在一起，你就可以得到深刻的理解。（馬庫斯和戴維斯，2019年）。

我們的結(jié)論是“這是一個很高的要求，但這是必須要做的。”即使在GPT-2這樣的Transformers在我們付印之后出現(xiàn)了戲劇性的增長，我認(rèn)為沒有理由改變我們的要求。

Weconcluded "It’s a tall order, but it’s what has to be done."Even after the dramatic rise of Transformers such GPT-2,which came out after we went to press, Isee no reason to change ourorder.

3.2我們還能做些什么嗎？

很顯然，是的。

3.2.1工程實踐

首先，實現(xiàn)穩(wěn)健性不僅僅是發(fā)展正確的認(rèn)知前提，也是發(fā)展正確的工程實踐。戴維斯和我在第十章“重新啟動人工智能”中簡要討論了這一點，而湯姆·迪特里希在他的AAAI Presidential Address 演講（迪特里希，2017）中有一個非常好的討論，我在《重新啟動人工智能》問世后才發(fā)現(xiàn)這一點。Davis和我強調(diào)了冗余和指定公差等技術(shù)，這些技術(shù)長期以來一直適用于其他形式的工程。Dieterich提出了八條建議，非常值得一讀，比如構(gòu)造對獎勵敏感的優(yōu)化函數(shù)和直接構(gòu)造檢測模型故障的機器；和我們一樣，他也強調(diào)了因果模型的必要性和冗余的價值。Joelle Pineau關(guān)于可復(fù)制性的觀點也很重要（Henderson et al.，2017）。

3.2.2.文化

還有一件事需要解決，既與認(rèn)知前提有關(guān)，也與良好的工程實踐無關(guān)，那就是文化：某些東西與深度學(xué)習(xí)社區(qū)的某些元素嚴(yán)重不符，不利于進(jìn)步。這是一個房間里的大象，必須承認(rèn)和解決，如果我們要向前邁進(jìn)。

尤其是外界的觀點，尤其是批評的觀點，往往被視為一種極端的侵略（雙方幾十年的敵對行動所導(dǎo)致的）【第二個文化問題，正如這篇手稿的一位讀者所指出的，是深度學(xué)習(xí)的倡導(dǎo)者經(jīng)常過于看重大數(shù)據(jù)，常常假設(shè)（有時是錯誤的）復(fù)雜問題的答案基本上可以在越來越大的數(shù)據(jù)集和越來越大的計算集群中找到。整個領(lǐng)域，如語言學(xué)，在很大程度上都被忽視了。這不可能是好事?！?，這種侵略不應(yīng)在知識論述中占有一席之地，特別是在一個幾乎肯定需要成為跨學(xué)科的領(lǐng)域，如果要取得進(jìn)展。

學(xué)生們并不是對這種動態(tài)視而不見，他們逐漸認(rèn)識到，公開宣稱符號操縱是人工智能的一個組成部分，可能會對他們的職業(yè)生涯造成損害。例如，在我與Bengio辯論之后，一位來自著名深度學(xué)習(xí)實驗室的年輕研究人員私下給我寫信，說“其實我兩年來一直想寫一些……關(guān)于符號人工智能的東西，每次都不想寫，因為擔(dān)心它會對我未來的職業(yè)道路產(chǎn)生這樣或那樣的影響。”

這是一種適得其反的狀態(tài)。正如辛頓本人曾經(jīng)說過的那樣，“馬克斯·普朗克說過，‘科學(xué)跨過此次葬禮而前進(jìn)。’未來取決于某個對我所說的一切深表懷疑的研究生?！边M(jìn)步往往取決于學(xué)生認(rèn)識到長輩理論的局限性；如果學(xué)生不敢說話，那就是一個嚴(yán)重的問題。

3.3.一點一點地看清整個大象（事物）

好消息是，如果我們能夠開始共同努力，進(jìn)展可能并不遙遠(yuǎn)。如果健壯智能的問題已經(jīng)解決了，就完全沒有必要寫這篇文章了。但是，也許，只是也許已經(jīng)足夠了，如果我們瞇著眼睛，看看周圍的碎片，如果我們把它們放在一起的話，我們也許能夠想象大象的樣子。

一些想法：

?深度學(xué)習(xí)向我們展示了從海量數(shù)據(jù)中可以學(xué)到多少。同現(xiàn)統(tǒng)計等可能只是可靠知識的影子，但確實有很多影子，只要我們敏銳地意識到它們的優(yōu)點和局限性，也許我們可以利用這些影子，使用更復(fù)雜的技術(shù)。

?在豐富的知識基礎(chǔ)和豐富的認(rèn)知模型存在的情況下，CYC顯示了復(fù)雜推理的潛在能力，即使它本身不能直接從語言或知覺輸入中推導(dǎo)出這些模型。

?像NS-CL（Mao等人，2019年）這樣的系統(tǒng)向我們表明，符號操縱和深度學(xué)習(xí)至少在原則上可以整合成一個無縫的整體，既能感知又能推理。

這樣的例子太多了。如果我們能夠打破僵局，停止60年來阻礙進(jìn)展的敵對行動，轉(zhuǎn)而集中精力，努力在這些世界之間架起橋梁，前景就是好的。稍微混合一些比喻，也許避開下一個可能的人工智能冬天的最好方法可能是讓我們的帳篷不是在一根柱子上休息，而是在許多柱子上休息。

3.4結(jié)論、前景和影響

沒有什么要求我們放棄深度學(xué)習(xí)，也不放棄正在進(jìn)行的專注于新硬件、學(xué)習(xí)規(guī)則、評估指標(biāo)和培訓(xùn)制度等主題的工作，但它促使我們從學(xué)習(xí)或多或少是唯一一等公民的觀點轉(zhuǎn)變?yōu)閷W(xué)習(xí)是更廣泛的聯(lián)盟的核心成員的觀點歡迎使用變量、先驗知識、推理和豐富的認(rèn)知模型。

我提倡一個四步計劃：首先開發(fā)混合的神經(jīng)-符號結(jié)構(gòu)，然后構(gòu)建豐富的、部分先天的認(rèn)知框架和大規(guī)模知識數(shù)據(jù)庫，然后進(jìn)一步開發(fā)對這些框架進(jìn)行抽象推理的工具，最終開發(fā)出更為復(fù)雜的認(rèn)知機制認(rèn)知模型的表征與歸納。綜上所述，朝著這四個先決條件取得進(jìn)展，可能會為比目前更豐富、更智能的系統(tǒng)提供基礎(chǔ)。最終，我認(rèn)為這將重新定義我們所說的學(xué)習(xí)的含義，導(dǎo)致一種（也許是新的）學(xué)習(xí)形式，它通過抽象的、類似語言的概括，從數(shù)據(jù)中，相對于知識和認(rèn)知模型，將推理作為學(xué)習(xí)過程的一部分。

如果我所描述的沒有一個是單獨的或者甚至是集體的，我相信，它至少足以讓我們更接近一個我們可以信任的人工智能框架。

把事情說得稍微不同一點：我呼吁的一種研究方法是，首先確定一組動機良好的初始原語（可能包括對變量的操作、注意機制等），然后學(xué)習(xí)如何在之后重新組合這些原語，考慮到這些原語，從本質(zhì)上說，學(xué)習(xí)什么是良好的實踐。直到后來，一旦這些優(yōu)秀軟件工程的原則被確定，我們才有可能進(jìn)入極其復(fù)雜的現(xiàn)實世界能力。大多數(shù)機器學(xué)習(xí)工作基本上都試圖跳過開頭的步驟，以經(jīng)驗的方式處理復(fù)雜的問題，而從未試圖建立一個關(guān)于語言和更高層次認(rèn)知真正需要什么初始原語的堅定理解。跳過這些最初的步驟，到目前為止還沒有使我們獲得語言理解和可靠的、可信賴的、能夠應(yīng)對意外情況的系統(tǒng)；現(xiàn)在是重新考慮的時候了。

在我看來，如果我們不改變方向，我們就不可能解決我們對人工智能最直接的擔(dān)憂。當(dāng)前的范式長期依賴數(shù)據(jù)，但缺乏知識、推理和認(rèn)知模型，根本無法讓我們獲得可以信任的人工智能（Marcus&Davis，2019）。無論我們想建造與我們一起生活在家中的通用機器人，還是在不可預(yù)知的地方駕駛我們四處走動的自動車輛，或是對罕見疾病和普通疾病同樣有效的醫(yī)療診斷系統(tǒng)，我們需要的系統(tǒng)不僅僅是挖掘大量數(shù)據(jù)集以獲得更微妙的關(guān)聯(lián)。為了做得更好，實現(xiàn)安全性和可靠性，我們需要對世界有豐富的因果理解的系統(tǒng)，這需要從更加注重如何用抽象的因果知識和詳細(xì)的內(nèi)部認(rèn)知模型來表示、獲取和推理開始。

羅馬不是一天建成的。孩子們有大量的常識，能夠推理，并學(xué)習(xí)復(fù)雜的知識，但他們?nèi)匀恍枰獢?shù)年的時間才能擁有（大多數(shù)）成年人的成熟度、廣度和能力。他們已經(jīng)開始獲得一些知識，具體的方面，在這里和現(xiàn)在，但仍然要學(xué)習(xí)，特別是有關(guān)微妙的領(lǐng)域，如政治，經(jīng)濟(jì)，社會學(xué)，生物學(xué)和日常人際交往。

通過利用混合體系結(jié)構(gòu)中的創(chuàng)新，弄清楚如何利用認(rèn)知模型和大規(guī)模背景知識可靠地構(gòu)建、表示和推理，如第2.1.2節(jié)所述，將是一個重要的步驟，并可能在未來十年中占據(jù)大部分時間，但不會是整個過程。

重要的是，這些關(guān)鍵認(rèn)知前提的進(jìn)步可能會使人工智能成為一個自給自足的學(xué)習(xí)者，就像一個聰明的學(xué)童一樣，但它們本身并不能保證產(chǎn)生一個完整的認(rèn)知存在。也就是說，它們可能會導(dǎo)致自我教育的機器，在某些方面就像一個孩子，對世界有著不完全的了解，但卻有著獲取新思想的強大天賦。這當(dāng)然只是一個開始，但它將使已經(jīng)發(fā)生的事情看起來只是序幕，一些我們還不能完全預(yù)見的新事物。

4.致謝

為了紀(jì)念雅克·梅勒，1936-2020，科學(xué)家，《認(rèn)知》雜志的創(chuàng)始人，跨學(xué)科認(rèn)知科學(xué)的偉大倡導(dǎo)者，我們需要將人工智能提升到一個新的水平。

這篇文章的一部分是對我與Yoshua Bengio于2019年12月23日在加拿大蒙特利爾，由蒙特利爾AI的Vince Boucher組織的AI辯論的反思。我感謝約書亞和文斯使這成為可能我也感謝迪恩阿比奧拉，道格貝米斯，艾米莉本德，文斯鮑徹，厄尼戴維斯，湯姆迪特里奇，佩德羅多明戈斯，查茲費爾斯通，阿圖爾達(dá)維拉加塞茲，丹尼爾卡尼曼，卡蒂婭卡彭科，克里斯蒂安克斯汀，路易斯蘭姆，亞當(dāng)馬布爾斯通，梅蘭妮米切爾，艾亞德納瓦爾，巴尼佩爾，Jean-Louis Villecroze和Brad Wyble，他們閱讀并評論了本手稿的早期草稿，Mohamed Amer和Dylan Bourgeous進(jìn)行了有益的討論。最重要的是，要特別感謝厄尼戴維斯，我在人工智能這么多的共鳴板；這篇論文很大程度上歸功于我們的對話，和我們的聯(lián)合研究。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴