9月20日,在新智元AI WORLD 2018世界人工智能峰會(huì)上,倫敦大學(xué)學(xué)院計(jì)算機(jī)系教授汪軍作了《論機(jī)器意識(shí)的可能和實(shí)現(xiàn)》的演講。汪軍教授的研究方向之一是多智體強(qiáng)化學(xué)習(xí),由于最近在研究“機(jī)器意識(shí)”這個(gè)課題,汪軍教授的演講也從“意識(shí)”講起,最后討論了機(jī)器是否也能擁有“意識(shí)”,如果答案是肯定的,那我們又該如何通過數(shù)學(xué)和計(jì)算機(jī)程序來實(shí)現(xiàn)這一點(diǎn)?
我們是誰?我們從哪里來?到哪里去?
這是一個(gè)永恒的問題。
9月20日,在新智元AI WORLD 2018世界人工智能峰會(huì)上,倫敦大學(xué)學(xué)院計(jì)算機(jī)系教授汪軍作了《論機(jī)器意識(shí)的可能和實(shí)現(xiàn)》的演講。
倫敦大學(xué)學(xué)院計(jì)算機(jī)系教授汪軍
汪軍教授的研究方向之一是多智體強(qiáng)化學(xué)習(xí),也就是有多個(gè)“agent”互動(dòng),包括溝通、協(xié)作與競爭。由于最近在研究“機(jī)器意識(shí)”這個(gè)課題,汪軍教授的演講也從“意識(shí)”講起,最后討論了機(jī)器是否也能擁有“意識(shí)”,如果答案是肯定的,那我們又該如何通過數(shù)學(xué)和計(jì)算機(jī)程序來實(shí)現(xiàn)這一點(diǎn)。
汪軍教授介紹了他們團(tuán)隊(duì)研究用AI打橋牌的例子。相比完全信息博弈的圍棋和不完全信息但只需要一對(duì)一的德州撲克,橋牌是一種不完全信息博弈,而且需要選手兩兩組隊(duì),相互合作與競爭。這個(gè)游戲更貼近于現(xiàn)實(shí)世界發(fā)生的情況。
研究結(jié)果表明,AI在打橋牌時(shí),能夠?qū)W會(huì)相互隱秘地溝通,最終取勝。也是這一點(diǎn),讓汪軍教授想到機(jī)器意識(shí)興起與實(shí)現(xiàn)的可能。
“很多原理實(shí)際上并沒有那么復(fù)雜,”汪軍教授說:“只要你去研究并做出來的話?!碑?dāng)然,現(xiàn)在還都是非常初步的探索,因?yàn)槭紫龋壳皩W(xué)界對(duì)“意識(shí)”還沒有統(tǒng)一的定義。
以下是汪軍教授在新智元AI WORLD 2018世界人工智能峰會(huì)上發(fā)表的演講實(shí)錄。
機(jī)器意識(shí)的興起和實(shí)現(xiàn)不是沒有可能
汪軍:我給大家放個(gè)好玩的視頻。
我想通過這個(gè)視頻引出我今天要講的話題:我們自己到底是誰?我們從哪里來?到哪里去?這個(gè)話題非常非常大。讓我們先看看哲學(xué)家的理解。
有一點(diǎn)是很有意思的:我們作為個(gè)體,我們自己會(huì)有感情,我們會(huì)有愛,有恨。當(dāng)我們聽到王菲的歌,會(huì)覺得是天籟之音;當(dāng)我們聽到搖滾樂,我們會(huì)非常興奮;當(dāng)我們閱讀一本書的時(shí)候,我們會(huì)隔空和作者進(jìn)行心靈上的溝通。
這一切就定義了我們?nèi)祟?,它其?shí)跟人的意識(shí)有關(guān)。關(guān)于意識(shí),17世紀(jì)的時(shí)候哲學(xué)家笛卡爾已經(jīng)做過一些系統(tǒng)的研究和學(xué)說。比如他提出“二元論”的理論,認(rèn)為人作為個(gè)體存在兩個(gè)世界,一個(gè)是靈魂世界,一個(gè)是肉體世界,通過大腦里一個(gè)叫松果體的部位進(jìn)行交互。通過這種交互,產(chǎn)生了人的各種各樣的行為。這個(gè)理論非常有局限性,無法解釋很多比較高級(jí)的認(rèn)知智能,所以最后也就流于唯心主義的理論了。
人的意識(shí)到底是什么?現(xiàn)在學(xué)術(shù)圈普遍認(rèn)同的一個(gè)定義是“主觀的經(jīng)驗(yàn)”,就是說意識(shí)和現(xiàn)實(shí)可能不一樣,是你自己主觀的感受。有一個(gè)好的評(píng)判方法是可以用某種方式去表達(dá),告訴別人。
例如,請(qǐng)看上面這張圖。如果大家聚焦視線,把注意力放在中間的+上,會(huì)發(fā)現(xiàn)邊上的圓圈會(huì)逐漸消失,當(dāng)把眼睛挪到別的地方,邊上的圓圈又出現(xiàn)了。說明你看到的東西并不代表就是真實(shí)的,它們之間有差別。通過大腦能給出一定的解釋。
意識(shí)作為科學(xué)的一個(gè)學(xué)科或作為科學(xué)的一個(gè)研究課題,其實(shí)也只是在上世紀(jì)90年代大家才開始非常嚴(yán)肅去研究。有兩位比較主要的貢獻(xiàn)者,一位是Francis Crick,他是英國的生物學(xué)家、物理學(xué)家和神經(jīng)科學(xué)家。他最大的成就是和他的同事James Watson發(fā)現(xiàn)了DNA的分子結(jié)構(gòu),并因此共同獲得了諾貝爾生理及醫(yī)學(xué)獎(jiǎng)。他們兩個(gè)一起提出了一系列實(shí)驗(yàn)方法去測量當(dāng)有意識(shí)時(shí),大腦里面的神經(jīng)活動(dòng)是怎樣形成關(guān)聯(lián)。這從某種意義上證明了意識(shí)是有一種機(jī)制存在于大腦中的。
之后其他研究人員繼續(xù)在這個(gè)范圍研究。法國有一位科學(xué)家研究發(fā)現(xiàn)在控制人的身體時(shí),其實(shí)有兩種不同的機(jī)制。做相同的動(dòng)作,可以是潛意識(shí)的,也可以是有意識(shí)的。他設(shè)計(jì)了一個(gè)比較巧妙的實(shí)驗(yàn)方法,可以把潛意識(shí)和有意識(shí)的動(dòng)作分開,然后用腦電波或大腦造影做測試,看大腦神經(jīng)元的激活狀態(tài)。他發(fā)現(xiàn)在有意識(shí)和無意識(shí)情況下,神經(jīng)元的激活是不一樣的。有意識(shí)時(shí)候,神經(jīng)元激活的位置是在大腦比較高級(jí)的部位,而且比較全面、多方面;潛意識(shí)的時(shí)候,神經(jīng)元激活的位置是在比較低級(jí)的地方。
另外一個(gè)很有意思的研究,科學(xué)家發(fā)現(xiàn)了條件反射的機(jī)制,提出其實(shí)這個(gè)機(jī)制跟計(jì)算機(jī)里的強(qiáng)化學(xué)習(xí)方法其實(shí)是一樣的,即通過一個(gè)多巴胺神經(jīng)元,預(yù)測到有一個(gè)錯(cuò)誤,對(duì)這個(gè)錯(cuò)誤不斷進(jìn)行更正。
人和機(jī)器其實(shí)都是信息處理系統(tǒng)。既然是信息處理系統(tǒng),可以從三個(gè)不同的層次去理解:
1. 計(jì)算理論是什么,到底需要計(jì)算什么。
2. 表征和具體算法。
3. 具體硬件實(shí)現(xiàn)。
我個(gè)人認(rèn)為前面兩點(diǎn),人和機(jī)器是非常相似的,甚至?xí)柾瑯拥膯栴}。只有到第三個(gè)層次,硬件的狀態(tài),人和機(jī)器是不太一樣的。
計(jì)算理論。意識(shí)到底是什么?目前還不是那么明晰,但是有一些不同的理論提出來,這里我講兩個(gè)可以接受的理論:
1.Global Neuronal Workspace,就是認(rèn)為意識(shí)是在大腦里進(jìn)行的全局的互相的信息共享,比如在工作臺(tái)上你可以拿出以前的記錄,比如內(nèi)存,可以去看一些低層次的視覺上的結(jié)果,有一些獎(jiǎng)勵(lì)機(jī)制。通過這些信息共享把大腦各個(gè)部門及時(shí)調(diào)動(dòng)起來,這時(shí)候就有意識(shí)了。
2.從信息集成度來解釋意識(shí)。集成信息理論是解釋大腦內(nèi)部信息之間交換的一個(gè)理論,也就是說如果這個(gè)系統(tǒng)在全局里的信息量大于任何內(nèi)部小子集的信息量,就可以認(rèn)為信息集成度高的有可能產(chǎn)生意識(shí)。
如果它們之間能夠交換,有空間跟時(shí)間上的關(guān)系,比如有內(nèi)存的話,比較簡單的模型有意識(shí)的可能是比較高的。
元世界模型:對(duì)世界建模
有了這個(gè)理論,看看現(xiàn)在機(jī)器學(xué)習(xí),特別是強(qiáng)化學(xué)習(xí)方面到底做了什么,我們有什么缺陷,再去提高理論和實(shí)際算法。
比如說,這是微信的跳一跳小游戲,我們將圖像作為輸入,用算法做判斷,機(jī)械臂點(diǎn)按屏幕來玩這個(gè)游戲。我買了這個(gè)機(jī)器臂,沒玩兩個(gè)星期就折了,我在微信里發(fā)了一下,一個(gè)深圳廠家說,汪老師你這個(gè)太爛了,我送你一個(gè)。然后就送我一個(gè),我玩了大概一個(gè)月左右又壞了。
這個(gè)小東西很有意思,可以理解神經(jīng)網(wǎng)絡(luò)從一個(gè)圖像進(jìn)去,最后一個(gè)決策出來,是怎么回事。圖上亮點(diǎn)的地方指示系統(tǒng)的注意力在哪里,左邊兩個(gè)圖是做正確的決策,取決于知道自己位置在哪里,知道前方目標(biāo)在哪里。而右邊兩個(gè)都是錯(cuò)誤決策,我們會(huì)看到方向判斷錯(cuò)了。比如第二幅圖目標(biāo)放到了相反的方向,所以最后按鍵計(jì)算就是錯(cuò)誤的,目標(biāo)也是錯(cuò)誤的。
當(dāng)計(jì)算出兩個(gè)目標(biāo)以后,神經(jīng)元激活了,激活以后,每個(gè)神經(jīng)元控制一個(gè)目標(biāo),這個(gè)目標(biāo)就是在它的范圍內(nèi)激活的,到最后一層時(shí),把信息結(jié)合起來,就能算出到底應(yīng)該按多長時(shí)間。
這跟我們做分類其實(shí)是一樣的,就是從輸入一直到輸出。用集成信息理論來講,它是不可能產(chǎn)生跟人一樣的智慧的,就算能夠做成ALphaGo,能夠超過人類,也是沒有人的意識(shí)的。
那么強(qiáng)化學(xué)習(xí)的弱點(diǎn)如何解決?我們的思路是Agent內(nèi)部算法有不同的層次,我們要潛意識(shí)拿一些統(tǒng)計(jì)數(shù)據(jù)過來,然后通過所謂的Global Neuronal Workspace把各個(gè)信息集成起來,再去決策。主要兩個(gè)部分,一是對(duì)周圍環(huán)境的建模,一是對(duì)敵人(對(duì)手)的建模。
人每天都經(jīng)歷不同的環(huán)境,環(huán)境世界是有個(gè)性的,我們就給單個(gè)Agent做了一個(gè)Meta-World Model,就是多個(gè)世界集合在一起,發(fā)現(xiàn)它的共性。當(dāng)我們學(xué)到Meta-World Model以后,Agent就可以想像了,可以做夢(mèng)了,可以在它的腦子里面去運(yùn)轉(zhuǎn)了。這個(gè)不是從外面采集的,是Agent在它的算法里面不斷玩這個(gè)游戲的狀態(tài),通過它,我們可以去做決策。
我們有一個(gè)很有意思的發(fā)現(xiàn),當(dāng)建立一個(gè)世界模型時(shí),特別是Meta-World Model,Agent就知道它在這個(gè)圖像里面處于哪個(gè)位置了。如果看以前任何玩游戲的模型,其實(shí)Agent不知道它是在圖像里哪個(gè)部位的,但我們用這個(gè)Meta-World Model就可以知道。
多智能體如何合作
我們知道BP算法是主流的深度學(xué)習(xí)算法,但用在多智能體時(shí),卻失敗了。例如,這是一個(gè)非常簡單的matrix game,左圖是用BP去計(jì)算的,認(rèn)為Agent之間是獨(dú)立的,是不可以收斂的。當(dāng)對(duì)其他對(duì)手建模時(shí),發(fā)現(xiàn)非常快就可以收斂到中間。我們建了對(duì)敵方建模的方法來玩多Agent的游戲。
我們讓Agent去打橋牌,這個(gè)任務(wù)很有意思,跟AlphaGo相比有兩個(gè)大的技術(shù)難點(diǎn):
1. Agent之間是合作關(guān)系,而圍棋只是一個(gè)Agent。
2. 不完全信息。在打牌時(shí),對(duì)方手上的牌你是不知道的,所以在建模時(shí),要不斷預(yù)測。
在這個(gè)環(huán)境下,如何去理解兩個(gè)Agent之間如何合作?
我們聚焦在叫牌這個(gè)階段,目前為止還沒有人可以解決。上圖左邊是專業(yè)選手在玩橋牌時(shí),兩個(gè)人會(huì)坐下來定一個(gè)規(guī)矩,比如出2紅心時(shí),告訴你我的牌是什么,出3黑桃時(shí),告訴我你的牌是什么,他們倆約定好,打牌時(shí)把信息就傳給對(duì)方。
我們讓Agent去學(xué)習(xí)時(shí),開始不知道,通過我們這個(gè)模型就學(xué)出來了它們自己不明晰的通訊方式,通過互相叫牌,把信息傳給對(duì)方,這是他們之間約定的一個(gè)Code,它是一個(gè)最優(yōu)的解。
例如,剛開始,北家的Agent是紅桃,當(dāng)兩者不停叫牌時(shí),最后通過通訊方式知道其實(shí)兩個(gè)加在一起時(shí),黑桃會(huì)更好,就改變了叫的花色。如果玩的是兩個(gè)Agent,Agent多的情況下怎么辦?我們把一個(gè)多Agent到上百萬轉(zhuǎn)換成兩個(gè)Agent,相當(dāng)于一個(gè)Agent和周圍其他人的平均值做一個(gè)交互。
最后講一下應(yīng)用。對(duì)其他Agent做一個(gè)模型,包括對(duì)世界建一個(gè)模型,從意識(shí)里更進(jìn)一步,并不代表它就有意識(shí)了。但是我們只往前走了一小步,實(shí)際應(yīng)用里有更多以前無法解決的場景可以解決,比如互聯(lián)網(wǎng)廣告里,廣告主去排名競價(jià)時(shí)會(huì)考慮到其他廣告主的行為。
我們現(xiàn)在正在探討多智能體在無人車領(lǐng)域的應(yīng)用。在某些特定場景,比如說過匝道時(shí),怎樣在擁擠的情況下對(duì)其他車輛進(jìn)行模擬,以及對(duì)匝道環(huán)境模擬,怎樣有效地在堵車情況下通過。另外一個(gè)應(yīng)用場景是在交通路口紅綠燈的時(shí)候,怎樣通過跟別人的交互,高效地通過交通路口。
-
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7168瀏覽量
87142 -
人工智能
+關(guān)注
關(guān)注
1787文章
46051瀏覽量
234943 -
機(jī)器
+關(guān)注
關(guān)注
0文章
772瀏覽量
40637
原文標(biāo)題:UCL汪軍:論機(jī)器意識(shí)的可能和實(shí)現(xiàn)
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論