編者按:如果有一天AI能征服世界,那近日OpenAI Five在Dota2國(guó)際邀請(qǐng)賽的表現(xiàn)一定會(huì)被釘在恥辱柱上:接連兩天,它們先是輸給了本屆大賽上最先出局的職業(yè)隊(duì)伍之一,之后又輸給了技術(shù)已不復(fù)當(dāng)年的退役選手。更凄涼的是,這不是勢(shì)均力敵的對(duì)抗,而是人類對(duì)機(jī)器的單方面調(diào)戲和虐殺……
近兩年,世界上最前沿的AI系統(tǒng)已經(jīng)開始拋棄人類經(jīng)驗(yàn),依靠自學(xué)從零開始逐漸成長(zhǎng),其中最典型的是DeepMind的AlphaZero,它能在短短8小時(shí)內(nèi)就從一無所知的“嬰兒”成長(zhǎng)為精通圍棋、將棋和國(guó)際象棋的頂級(jí)大師。
但研究人員還在努力,他們希望能把這個(gè)成果擴(kuò)展到游戲以外的領(lǐng)域。
游戲AI的前世今生
在DeepMind的圍棋AI出現(xiàn)以前,如果機(jī)器想打敗人類,它們至少還得尊重人類積累下的經(jīng)驗(yàn)。
1997年,為了擊敗當(dāng)時(shí)的國(guó)際象棋冠軍Garry Kasparov,IBM的工程師們準(zhǔn)備了幾個(gè)世紀(jì)的國(guó)際象棋資料,這也是超級(jí)計(jì)算機(jī)“深藍(lán)”能獲勝的主要原因。
但現(xiàn)在,這種窮舉法已經(jīng)過時(shí)了。研究人員正在重新思考用機(jī)器整合人類知識(shí)的方式,而目前的主流趨勢(shì)是:不要插手。
是的,人類選擇尊重AI的學(xué)習(xí)自主性。去年10月,DeepMind團(tuán)隊(duì)發(fā)布了一個(gè)新的棋類AI:AlphaGo Zero。它無需任何人類資料數(shù)據(jù),只要給出游戲規(guī)則,它就能自我博弈,不斷進(jìn)步。AlphaGo Zero的第一次嘗試是完全隨機(jī)的,在每場(chǎng)比賽結(jié)束后,它都會(huì)對(duì)所取得勝利和未取勝的新知識(shí)進(jìn)行總結(jié)。經(jīng)過訓(xùn)練,最后這個(gè)AI和曾擊敗過李世石的AlphaGo直接對(duì)決,以100比0拿下了徹底的勝利。
緊接著,在去年12月,精通三種棋類游戲的AlphaZero在比賽中擊敗AlphaGo Zero,把剛登上最佳圍棋AI寶座的后者趕了下去。之后,DeepMind宣布棋類項(xiàng)目正式終止,但這系列AI給社會(huì)帶來的巨大震動(dòng)卻遲遲無法平息。在AI咄咄逼人、別創(chuàng)一格的棋風(fēng)中,人類第一次對(duì)機(jī)械“智慧”感到驚奇。
2016年,李世石與AlphaGo的對(duì)決
除了圍棋,自學(xué)AI在***、Dota2上也開始嶄露頭角。以Dota2為例,去年,OpenAI的強(qiáng)化學(xué)習(xí)bot在中路solo中擊敗職業(yè)選手Dendi,贏得眾人矚目。而今年,他們又推出5人團(tuán)隊(duì)OpenAI Five,這些AI已經(jīng)可以在比賽中擊敗業(yè)余玩家,并且據(jù)稱天梯分在6000以上。雖然在Ti8上連輸兩局,提前“淘汰”,它們的進(jìn)步之大還是有目共睹的。
但游戲并不是這些實(shí)驗(yàn)室,以及實(shí)驗(yàn)室背后的投資機(jī)構(gòu)的唯一目標(biāo),他們有更大的野心。DeepMind希望把類似方法用于構(gòu)建室溫超導(dǎo)體、把蛋白質(zhì)折疊成藥物分子等現(xiàn)實(shí)問題。OpenAI也曾直言開發(fā)這類技術(shù)是出于現(xiàn)實(shí)場(chǎng)景需要,至于瓜分獎(jiǎng)金池里的2500萬美金,這在宏圖大志面前只是個(gè)微不足道的“小目標(biāo)”。
當(dāng)然,他們中也有一幫人只是想單純實(shí)現(xiàn)“人工智能”,讓機(jī)器人能像人一樣思考,并對(duì)不同類型的問題作出多種選擇——這個(gè)定義不明的目標(biāo)確實(shí)令人著迷。
機(jī)器學(xué)習(xí)領(lǐng)域是近年來的吸金熱門,盡管無數(shù)人在這些AI系統(tǒng)中進(jìn)行了投資,但我們目前還不清楚這種技術(shù)能走多遠(yuǎn)。按照華盛頓大學(xué)計(jì)算機(jī)科學(xué)家佩德羅·多明戈斯的說法:“我不確定這種想法是否能被推廣,游戲和現(xiàn)實(shí)是兩個(gè)世界?!?/p>
完美的目標(biāo),不完美的世界
許多游戲,比如國(guó)際象棋和圍棋,它們的一個(gè)共同特點(diǎn)是玩家隨時(shí)可以觀察棋盤上雙方棋子的位置,也就是玩家是站在全知視角的,他們掌握著游戲狀態(tài)的“完美信息”。在這種情況下,無論棋局多復(fù)雜,他們要做的就是結(jié)合看到的場(chǎng)景進(jìn)行思考。
但現(xiàn)實(shí)并非如此,大多數(shù)現(xiàn)實(shí)世界的戰(zhàn)略互動(dòng)都會(huì)涉及隱藏信息,比如用機(jī)器診斷疾病或進(jìn)行商務(wù)談判。
Dota2的視野是受限的。在游戲中,地圖本身是黑的,只能靠英雄、建筑和偵查守衛(wèi)提供一定視野,這就意味著AI要根據(jù)不完整的數(shù)據(jù)信息進(jìn)行推斷,同時(shí)預(yù)測(cè)雙方英雄的發(fā)育進(jìn)度。在這兩場(chǎng)比賽中,可以發(fā)現(xiàn)AI的發(fā)揮很大程度上需要依賴視野,當(dāng)敵方走進(jìn)樹林陰影后,它們不會(huì)預(yù)判對(duì)方走位,大多數(shù)時(shí)候都選擇放棄追殺。
而這種不完全信息在星際2里就更突出了。這是一款非??简?yàn)操作和戰(zhàn)略意識(shí)的游戲,玩家需要培養(yǎng)自己的部隊(duì)進(jìn)行作戰(zhàn),目標(biāo)是拆光敵方大本營(yíng)。但是,整片戰(zhàn)場(chǎng)從頭到尾會(huì)一直籠罩在陰影中,玩家只能依靠己方建筑和部隊(duì)獲得一定視野。加上地圖很大,即便只是派小兵去偵查,偵查結(jié)果也會(huì)充滿不確定性。
從DeepMind放出下一個(gè)目標(biāo)是星際2的豪言后,他們就再?zèng)]有公布任何突破性進(jìn)展。過大的動(dòng)作空間、過快的推進(jìn)節(jié)奏,每個(gè)玩家——無論是人類還是機(jī)器——在點(diǎn)下鼠標(biāo)的一剎那,都要擔(dān)憂未來的一系列可能性。
有明確目標(biāo)的任務(wù):訓(xùn)練小人在陌生環(huán)境中前進(jìn)
盡管面臨挑戰(zhàn),星際2還是有一個(gè)簡(jiǎn)單明確的目標(biāo):消滅你的敵人。這和圍棋、國(guó)際象棋、Dota2等游戲都一樣。因此從算法角度看,這類游戲就可以設(shè)置一個(gè)“目標(biāo)函數(shù)”,用它定義自己的目標(biāo)。
但現(xiàn)實(shí)生活中的情況并非如此簡(jiǎn)單。比如自動(dòng)駕駛汽車需要更細(xì)致的目標(biāo),它的目標(biāo)不僅是到達(dá)目的地,也不是規(guī)劃最佳路線,在行駛過程中,它的任務(wù)是多元的:把乘客送至正確地點(diǎn)、遵守交通法規(guī)、在意外情況下保障行人安全……
面對(duì)復(fù)雜問題如何設(shè)計(jì)目標(biāo)函數(shù),這是區(qū)別普通研究員和機(jī)器學(xué)習(xí)研究員的一個(gè)關(guān)鍵。
最大的敵人是自己
雖然世界一直在變,但有些事也一直沒有改變,比如現(xiàn)在主導(dǎo)游戲AI的算法,它們其實(shí)是幾十年前的產(chǎn)物。多倫多大學(xué)的計(jì)算機(jī)科學(xué)家大衛(wèi)杜文德認(rèn)為:“這基本上就是以往積累的一次大爆炸,讓過去的算法更廣為人知?!?/p>
無論是圍棋、國(guó)際象棋還是Dota2,AI的策略都依賴強(qiáng)化學(xué)習(xí),我們之前說過,這是一種“人類不干預(yù)”的方法,研究人員不會(huì)對(duì)具有詳細(xì)指令的算法進(jìn)行微觀管理,而是讓機(jī)器探索環(huán)境并通過反復(fù)試驗(yàn)來學(xué)習(xí)如何達(dá)到目標(biāo)。
事實(shí)上,在AlphaGo及其后代出現(xiàn)以前,DeepMind團(tuán)隊(duì)就已經(jīng)憑借雅達(dá)利游戲上過一次頭條。2013年,他們開發(fā)除了一個(gè)會(huì)玩7種雅達(dá)利游戲的AI,并證明它能在三個(gè)游戲上能擊敗人類頂級(jí)玩家。
這一研究進(jìn)展現(xiàn)在還在繼續(xù)。今年2月5日,DeepMind發(fā)布了IMPALA,一個(gè)可以學(xué)習(xí)57個(gè)雅達(dá)利2600游戲的AI系統(tǒng),其中還包括他們?cè)O(shè)置的30個(gè)等級(jí)。在這些游戲中,AI玩家們?cè)诓煌h(huán)境中漫游,完成開門、采蘑菇等目標(biāo)。這個(gè)系統(tǒng)的價(jià)值在于讓AI學(xué)會(huì)游戲與游戲之間的共同經(jīng)驗(yàn),從而減少學(xué)習(xí)用時(shí)。
然而,這種自我探索、自我博弈的想法可以追溯到幾十年前。在20世紀(jì)50年代,IBM工程師Arthur Samuel創(chuàng)建了一個(gè)跳棋游戲程序Checkers,它具備自學(xué)習(xí)和自適應(yīng)能力,能在下棋過程中不斷積累所獲得的經(jīng)驗(yàn)。在20世紀(jì)90年代,同樣是IBM,Gerald Tesauro將算法和其自身對(duì)立起來了,發(fā)現(xiàn)這樣做的效果能讓機(jī)器在游戲中超出人類水平。
它背后的核心思想就是由策略不同導(dǎo)致結(jié)果不同,從而為算法提供即時(shí)反饋?!盁o論什么時(shí)候你學(xué)到了東西,哪怕只是一小點(diǎn)經(jīng)驗(yàn),你的對(duì)手就會(huì)馬上用它來對(duì)付你?!边@是去年影魔和Dendi中路對(duì)線時(shí),OpenAI的研究主管Ilya Sutskever說過一句話。
在自我博弈游戲中,你永遠(yuǎn)不能休息,你必須一直改善。
但是,自我博弈只是當(dāng)今主流游戲AI的一個(gè)組成部分,它還需要一種方法將游戲體驗(yàn)轉(zhuǎn)化為更深層次的理解。比如在Dota2中,AI需要總結(jié)出使自己更易于獲勝的戰(zhàn)術(shù),它們可以和人類總結(jié)的經(jīng)驗(yàn)一致:每路都有英雄占線、抱團(tuán)推塔、gank、刷錢,掐點(diǎn)搶神符……也可以是區(qū)別于人類的一些東西:前期給輔助更多經(jīng)驗(yàn)和錢。
要做到這一點(diǎn),就不得不提這些年來熱度持續(xù)飆升的深層神經(jīng)網(wǎng)絡(luò)。它由一系列層組成,每層包含大量人造神經(jīng)元。當(dāng)信號(hào)觸發(fā)某一層中的神經(jīng)元時(shí),它們會(huì)把信號(hào)層層傳遞下去,直到最終生成輸出。而為了保證輸出的準(zhǔn)確性,網(wǎng)絡(luò)需要大量訓(xùn)練樣本。
這就是自我博弈能和它很好地融合在一起的原因。自我博弈可以產(chǎn)生大量的游戲數(shù)據(jù),為神經(jīng)網(wǎng)絡(luò)提供理論上無限量的自學(xué)樣本。反過來,深層神經(jīng)網(wǎng)絡(luò)提供了一種內(nèi)化經(jīng)驗(yàn)和模式的方法。
但這里還是有一個(gè)問題,這種由自我博弈生成的數(shù)據(jù),它們?cè)?a href="http://ttokpm.com/analog/" target="_blank">模擬環(huán)境中可能非常完美,但在現(xiàn)實(shí)場(chǎng)景下就不一定了。
比如OpenAI之前推出的五指機(jī)器人手Dactyl,這只手能用手指轉(zhuǎn)動(dòng)手中的方塊,最高記錄是保持連續(xù)轉(zhuǎn)動(dòng)50次不掉落。它之所以成為一個(gè)“重磅新聞”,是因?yàn)楝F(xiàn)在的機(jī)器人手往往在模擬時(shí)非常靈巧,但在現(xiàn)實(shí)中連基本抓握都很難實(shí)現(xiàn),更別提擰瓶蓋、使用螺絲刀這樣的操作了。
對(duì)于難以模擬的問題,自我博弈的用處并不大。按蒙特利爾大學(xué)深度學(xué)習(xí)的先驅(qū)Yoshua Bengio的話講,就是:“真正完美的環(huán)境模型與模型學(xué)到的東西之間存在巨大差異,尤其是在現(xiàn)實(shí)情況十分復(fù)雜的情況下?!?/p>
洗去“炒作”的鉛華
在上文中,我們已經(jīng)給出了為什么游戲AI在現(xiàn)實(shí)中一無所用的兩個(gè)原因:
游戲環(huán)境是完美的,現(xiàn)實(shí)環(huán)境是復(fù)雜多變、信息不完整的,它們非常不同。
自我博弈是一個(gè)無休無止的過程,而且它對(duì)于難以模擬的現(xiàn)實(shí)問題用處不大。
下面我們來談第三個(gè),也是最后一個(gè)。
這么多年來,機(jī)器已經(jīng)在很多領(lǐng)域展現(xiàn)出了可以媲美人類的“智能”,比如國(guó)際象棋的“深藍(lán)”,棋類游戲的AlphaZero,或是Dota2的OpenAI Five。但脫去炒作和吹噓后,它們對(duì)現(xiàn)實(shí)世界的實(shí)質(zhì)性作用是什么?
我們以在智力問答節(jié)目中“智商碾壓人類”的IBM Watson為例。這是AI中最貼近人類生活的,多年來它一直在醫(yī)療界默默奉獻(xiàn),針對(duì)病人研究和設(shè)計(jì)個(gè)性化的癌癥治療方法。但在IBM向世界各地的醫(yī)院推廣這個(gè)方案的三年后,全球采用這個(gè)系統(tǒng)的醫(yī)院只有幾十家,而且這種方法并沒有IBM預(yù)期的那么好用。
更有甚者,在上個(gè)月,Watson被爆出驚天丑聞,有醫(yī)療機(jī)構(gòu)稱AI給出的用藥建議會(huì)導(dǎo)致嚴(yán)重出血的癌癥病人出血更加嚴(yán)重??紤]到這個(gè)系統(tǒng)已經(jīng)輔助84000名患者治療,這樣的事件將嚴(yán)重打擊人們對(duì)AI的信任。
這是因?yàn)锳I作出判斷不需要太多常識(shí)性知識(shí),而培養(yǎng)一個(gè)醫(yī)生是建立在閱讀大量醫(yī)學(xué)文獻(xiàn)和進(jìn)行大量的基礎(chǔ)研究的基礎(chǔ)上的。
雖然基于強(qiáng)化學(xué)習(xí)的AI能搜索巨型空間,也可能在自然語言處理上作出一些突破。但如果我們的最終目標(biāo)是讓機(jī)器像人一樣“智能”,那么現(xiàn)如今的自我博弈AI還有很大的上升空間。
至少在我看來,目前AI展現(xiàn)出來的東西和真正的思維活動(dòng)、思想的創(chuàng)造性探索還存在巨大差距。人們期望的“智能”是存在的,但它主要在偉大的AI研究人員的腦海中?!狹IT認(rèn)知科學(xué)家Josh Tenenbaum
現(xiàn)在的AI還不足以稱之為AI,在現(xiàn)實(shí)場(chǎng)景下,一些非常簡(jiǎn)單、專業(yè)的工具可能實(shí)用性更強(qiáng)。
-
人工智能
+關(guān)注
關(guān)注
1789文章
46652瀏覽量
237073 -
機(jī)器
+關(guān)注
關(guān)注
0文章
777瀏覽量
40667
原文標(biāo)題:由Dota2 AI引起的思考:為什么自學(xué)成才的AI系統(tǒng)在現(xiàn)實(shí)世界一無所用
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論