人工智能在計算機(jī)兵棋推演領(lǐng)域的應(yīng)用
0 引言
1956 年達(dá)特茅斯會議上約翰?麥肯錫首次提出了人工智能(Artificial Intelligence,AI)的概念,當(dāng)初定義的基本范圍是“用計算機(jī)模擬人的邏輯思維”??梢钥闯?,這一定義并沒有包含人類的學(xué)習(xí)能力、歸納總結(jié)能力、決策能力等,可以認(rèn)為是狹義人工智能范疇。近些年來,隨著模糊邏輯和遺傳算法等技術(shù)的成熟,特別是神經(jīng)網(wǎng)絡(luò)的發(fā)展及深度學(xué)習(xí)的興起,人工智能更傾向于指依托計算機(jī)運(yùn)用數(shù)學(xué)算法模仿人類智力,讓機(jī)器“學(xué)會”人類的分析、推理、思維乃至決策的能力。
兵棋是一種用于戰(zhàn)爭研究和訓(xùn)練的工具,有著近 200 年的發(fā)展歷史。隨著計算機(jī)與信息技術(shù)的發(fā)展,早期的手工兵棋逐漸演化為現(xiàn)代的計算機(jī)兵棋。1980 年代后,計算機(jī)兵棋技術(shù)蓬勃發(fā)展,先后出現(xiàn)了多型軍用和民用的兵棋系統(tǒng),其中最為著名的當(dāng)屬美軍的聯(lián)合戰(zhàn)區(qū)級兵棋系統(tǒng)(JTLS)和聯(lián)合沖突戰(zhàn)術(shù)兵棋系統(tǒng)(JCATS)。兵棋推演可以在作戰(zhàn)方案優(yōu)化、訓(xùn)練教學(xué)支撐、作戰(zhàn)試驗評估等領(lǐng)域發(fā)揮出較好的作用。
2016 年,人工智能 AlphaGo[1-4]以 4∶1 的戰(zhàn)績戰(zhàn)勝世界圍棋冠軍李世乭;2017 年初,AlphaGo 化名 Master(大師)先后戰(zhàn)勝 15 名世界圍棋冠軍,實(shí)現(xiàn) 60 連勝;2017 年 5 月,AlphaGo 再次以 3∶0 的戰(zhàn)績戰(zhàn)勝當(dāng)今圍棋排名第一的柯潔。人機(jī)對抗,尤其在棋類領(lǐng)域的博弈,開始徹底倒向有人工智能支撐的計算機(jī),盡管兵棋非簡單等同于圍棋、象棋,但 AlphaGo 的連續(xù)成功,還是激起了我們將人工智能技術(shù)深度融合應(yīng)用于兵棋推演領(lǐng)域的強(qiáng)烈意愿。
1 兵棋特點(diǎn)
兵棋推演的實(shí)施過程主要如下:在導(dǎo)演部及導(dǎo)調(diào)機(jī)構(gòu)的導(dǎo)控下,由參演人員在想定的戰(zhàn)場環(huán)境下,與假定的藍(lán)軍部隊進(jìn)行指揮層面的對抗,完整實(shí)現(xiàn)演訓(xùn)準(zhǔn)備、組織實(shí)施和總結(jié)評估全流程。
1.1 兵棋是棋
與常規(guī)棋一樣,兵棋體現(xiàn)了兩個核心因素,(1)規(guī)則制定的客觀性;(2)行棋過程的自由性。兵棋系統(tǒng)的基本構(gòu)成要素主要有棋子、棋盤、規(guī)則、骰子(隨機(jī)數(shù)發(fā)生器)、回合以及裁決表。兵棋中的棋子、棋盤、裁決表等都是具象化、數(shù)字化、精確化棋的客觀特征體現(xiàn)。兵棋的核心是兵棋規(guī)則,包括規(guī)定棋子在地圖上如何移動的行棋規(guī)則和判定兩支部隊相遇時交戰(zhàn)結(jié)果的裁判規(guī)則。兵棋的行棋過程又稱為兵棋推演,推演者采取類似博弈的過程輪流行棋,另設(shè)裁判者依據(jù)裁判規(guī)則對場上局勢進(jìn)行裁定。此外,推演過程中還通過擲骰子模擬戰(zhàn)場上的隨機(jī)因素。
1.2 兵棋非“棋”
兵棋推演往往是要展現(xiàn)實(shí)際作戰(zhàn)過程,很難通過“下棋”中嚴(yán)格的“你來我往”的回合制來全面體現(xiàn)。兵棋推演需要通過以上六個基本要素之間的相互作用,充分體現(xiàn)了實(shí)際戰(zhàn)爭過程中的戰(zhàn)場復(fù)雜性、戰(zhàn)況緊迫性、戰(zhàn)情隨機(jī)性、戰(zhàn)果規(guī)律性等,需要能逼真地反映實(shí)際作戰(zhàn)過程,陸、海、空、火、天、網(wǎng)等聯(lián)合作戰(zhàn)的特點(diǎn),需要各方根據(jù)態(tài)勢發(fā)展進(jìn)行不斷地判斷和決策,從而模擬出實(shí)際的作戰(zhàn)流程及作戰(zhàn)效果[5-13]。戰(zhàn)爭還有一個顯著的特點(diǎn)就是不可重復(fù)性,同樣的基礎(chǔ)對抗條件,在不同的隨機(jī)因素影響下會產(chǎn)生完全不同的結(jié)果。由此可見,兵棋推演需要模擬的作戰(zhàn)要素繁多,關(guān)系錯綜復(fù)雜,態(tài)勢瞬息萬變,常規(guī)的“棋”很難涵蓋完整這么一個復(fù)雜系統(tǒng)。
1.3 計算機(jī)兵棋
兵棋推演本身對工具支撐并無太多要求,其流行之初也是以手工兵棋為主要手段。傳統(tǒng)手工兵一般以棋子進(jìn)攻、防御二值描述,采用的是力量對比方式,在增加隨機(jī)因素的基礎(chǔ)上,用表格的形式進(jìn)行裁決以得到交戰(zhàn)結(jié)果。
其后,為了節(jié)約人力和時間、提高推演效率,體現(xiàn)更復(fù)雜的聯(lián)合作戰(zhàn)行動模擬效果,開始出現(xiàn)了計算機(jī)兵棋。計算機(jī)兵棋推演體系采用完善的軍事地理系統(tǒng)軟件,提供規(guī)范化的作業(yè)平臺,軍事應(yīng)用人員可以更加聚焦于對抗推演本身,使兵棋推演過程和實(shí)際作戰(zhàn)指揮結(jié)合得更密切。隨著現(xiàn)代計算機(jī)兵棋理念的發(fā)展,支撐規(guī)模化指揮對抗模擬的復(fù)雜兵棋系統(tǒng),也開始逐步打破傳統(tǒng)兵棋回合制的推演過程,向?qū)崟r推演轉(zhuǎn)變。在計算機(jī)兵棋推演環(huán)境中,作戰(zhàn)兵力的動態(tài)性、作戰(zhàn)過程的隨機(jī)性、作戰(zhàn)決策的多樣性更能造就兵棋推演環(huán)境中的復(fù)雜性。
2 深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)
人工智能涉及的關(guān)鍵技術(shù)十分廣泛,其中神經(jīng)網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)技術(shù)是其重要的代表。
神經(jīng)網(wǎng)絡(luò)技術(shù)從信息處理角度對人腦神經(jīng)元網(wǎng)絡(luò)進(jìn)行抽象,建立某種簡單模型,按不同的連接方式組成不同的網(wǎng)絡(luò)。體現(xiàn)出了卓越的自我學(xué)習(xí)、反饋聯(lián)想、高效尋優(yōu)的能力特點(diǎn)。而在神經(jīng)網(wǎng)絡(luò)技術(shù)基礎(chǔ)上發(fā)展起來的深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)對人工智能技術(shù)的成熟和推廣起到了重要的作用。
具有感知能力的深度學(xué)習(xí)(deeplearning, DL)是基于神經(jīng)網(wǎng)絡(luò)上的一種再升級,是一種通過對大量有效樣本的學(xué)習(xí),形成對事物特征的提取、分類和解讀的方法。
深度學(xué)習(xí)通過建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),模仿人腦的機(jī)制來獲取、分析和解釋數(shù)據(jù),通過無監(jiān)督的預(yù)訓(xùn)練,有監(jiān)督的逐層訓(xùn)練、微調(diào)訓(xùn)練等過程,逐步提煉出事物內(nèi)在的關(guān)聯(lián)關(guān)系、結(jié)構(gòu)關(guān)系和邏輯關(guān)系等。
目前典型的深度學(xué)習(xí)模型包括:卷積神經(jīng)網(wǎng)絡(luò)、深度置信網(wǎng)絡(luò)(deep belief network, DBN)、堆棧自編碼網(wǎng)絡(luò)(stacked auto-encoder,SAE)和遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network,RNN)等。
具有決策能力的強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)充則分融入了試錯機(jī)制,并以此與環(huán)境進(jìn)行信息交互,通過有效累積獎賞的方式來學(xué)習(xí)到最優(yōu)策略,這幾乎就是生物有效適應(yīng)環(huán)境的途徑。強(qiáng)化學(xué)習(xí)系統(tǒng)通常由 4 個基本部分組成:狀態(tài) s,動作 a,狀態(tài)轉(zhuǎn)移概率 Pas,s′和獎賞信號 r。整個策略途徑 π:S→A 被定義為從狀態(tài)空間到動作空間的映射,智能算法依據(jù)上述策略途徑 π 選擇并執(zhí)行動作 a。以概率 Pas,s′從當(dāng)前狀態(tài) s 轉(zhuǎn)移到下一狀態(tài) s′,過程中與環(huán)境進(jìn)行信息交互,依據(jù)接收到的獎賞反饋信號 r,通過值函數(shù)估計當(dāng)前策略途徑π的優(yōu)劣程度,從而進(jìn)一步優(yōu)化調(diào)整策略,力求累積最大化的獎賞。目前常用的強(qiáng)化學(xué)習(xí)方法包括蒙特卡羅、SARSA 學(xué)習(xí)、策略梯度和自適應(yīng)動態(tài)規(guī)劃等。
深度學(xué)習(xí)具有較強(qiáng)的感知能力,使得從海量原始數(shù)據(jù)中提取高水平特征數(shù)據(jù)變成可能,但是缺乏一定的決策能力。而強(qiáng)化學(xué)習(xí)具有決策能力,又不擅長于感知問題。既然感知和決策是人工智能技術(shù)的核心能力體現(xiàn)。
因此,將兩者結(jié)合起來,形成優(yōu)勢互補(bǔ),就為提高復(fù)雜系統(tǒng)的感知決策能力提供了解決思路。這一思路同樣適用于復(fù)雜的計算機(jī)兵棋領(lǐng)域。
3 人工智能對兵棋推演的影響
人工智能的快速發(fā)展,將計算機(jī)兵棋的作用從節(jié)約人力和時間、提高推演效率、支撐復(fù)雜推演提升到了打造指揮對抗領(lǐng)域的智能藍(lán)軍和輔助參謀的高度。所謂智能藍(lán)軍,就是讓系統(tǒng)充當(dāng)既定假想“藍(lán)軍”“綠軍”參加演習(xí)。通過對有限樣本數(shù)據(jù)的不斷深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí),使得對手變得更加專業(yè)、更像假想藍(lán)軍,從而實(shí)現(xiàn)局部乃至全局的人機(jī)對抗。所謂輔助參謀,就是計算機(jī)系統(tǒng)充當(dāng)隱藏于幕后的我方部分指揮力量、參謀力量,實(shí)現(xiàn)識別態(tài)勢、發(fā)布計劃、自主決策、監(jiān)控行動、調(diào)整任務(wù)等功能,為我方指揮提供實(shí)時精準(zhǔn)參謀。
4 問題及解決途徑
人工智能迅猛發(fā)展,核心技術(shù)突飛猛進(jìn)。但人工智能技術(shù)在計算機(jī)兵棋領(lǐng)域的深入發(fā)展也存在以下的不確定性,其根源還在“棋”與“戰(zhàn)”固有的巨大差異,還在于如何將全面感知和精準(zhǔn)決策的根本目標(biāo)在兵棋領(lǐng)域?qū)崿F(xiàn)。
(1)有效樣本的獲取。目前戰(zhàn)術(shù)、戰(zhàn)役乃至戰(zhàn)略層級的計算機(jī)兵棋平臺百花齊放、層出不窮,先不論其自身的完善性、置信度,就目前基于上述平臺的推演數(shù)據(jù)而言,基本屬于量多質(zhì)低的情況。在未能深入、全面研究假想“藍(lán)軍”的情況下,其指揮環(huán)節(jié)的戰(zhàn)術(shù)戰(zhàn)法往往就發(fā)散為自由發(fā)揮的“紅軍”思想。同理,在無逼真“藍(lán)軍”模擬的情況下,“紅軍”的指揮思路也更無針對性可言,用于支撐深度學(xué)習(xí)的數(shù)據(jù)樣本的有效性和標(biāo)簽性均難以保證。所以,人工智能技術(shù)若想在計算機(jī)兵棋領(lǐng)域得以深入發(fā)展,需要確立可作為各類標(biāo)簽數(shù)據(jù)的基本標(biāo)準(zhǔn),參透并運(yùn)用好特定“藍(lán)軍”的戰(zhàn)術(shù)戰(zhàn)法,生產(chǎn)出涵蓋所需標(biāo)簽類別的足夠數(shù)量數(shù)據(jù),用以支撐深度學(xué)習(xí)。
(2)信息感知與研判。常規(guī)棋盤是透明的,是一種典型的開放式信息感知狀態(tài)下的博弈。當(dāng)前的棋面信息對于雙方棋手來說是完全公平和透明的,棋手每走一步,都可以根據(jù)當(dāng)前的盤面信息做出決策。
而戰(zhàn)爭過程并不是全透明的,甚至有時故意假亦真時真亦假,往往會釋放出戰(zhàn)爭迷霧,須要通過綜合情報偵察和分析來獲取有效、真實(shí)戰(zhàn)場信息,這決定了兵棋推演完全應(yīng)該是一種信息非對稱條件下的動態(tài)指揮博弈。兵棋推演過程若沒有情報探測、戰(zhàn)場感知等要素的支撐,就無法體現(xiàn)“交戰(zhàn)”雙方在感知層面的手段高低和能力差異。若無法通過強(qiáng)化學(xué)習(xí)手段讓人工智能逐步掌握剝離戰(zhàn)爭迷霧、獲取有用信息的研判和決策能力,人工智能技術(shù)也將無法進(jìn)一步發(fā)揮打造“智能藍(lán)軍”和“輔助參謀”的作用。
(3)規(guī)則的確定性。一般棋類博弈的規(guī)則是確定的、清晰的,規(guī)則對于雙方也都是同等的、公平的,對抗的初始條件也是對等的。而在兵棋推演領(lǐng)域,由于對抗雙方實(shí)力可能不對等、對抗初始態(tài)勢可能不對等,使得對抗的初始條件也不可能按對等來設(shè)置。指揮員處理推演過程復(fù)雜的實(shí)際戰(zhàn)場問題主要依賴于專業(yè)訓(xùn)練和指揮經(jīng)驗,而專業(yè)訓(xùn)練又依賴于軍事理論知識和戰(zhàn)爭推演經(jīng)驗的綜合積累。
兵棋自身的復(fù)雜性和這種互為因果的重復(fù)迭代性決定了兵棋在規(guī)則層面也在不斷自我完善,需要不斷將經(jīng)驗層面的乃至情感層面的積累進(jìn)一步提煉為可解讀、可執(zhí)行的推演規(guī)則。
推演規(guī)則的這種不斷再理解、再完善狀態(tài),會讓人工智能技術(shù)在某些特殊情況處理上無所適從,增加了深度強(qiáng)化學(xué)習(xí)的難度。
5 結(jié)語
人工智能技術(shù)的發(fā)展將計算機(jī)兵棋的作用向前進(jìn)了一大步,使之從條件支撐的角色轉(zhuǎn)變?yōu)樯疃葏⑴c的角色。但其中支撐強(qiáng)大感知和決策能力的深度強(qiáng)化學(xué)習(xí)技術(shù)也還處于不斷發(fā)展過程完善過程中??紤]到作戰(zhàn)推演的復(fù)雜性,人機(jī)結(jié)合可能是當(dāng)前一個比較穩(wěn)妥的過渡的方式,暫且將人的優(yōu)勢和機(jī)器優(yōu)勢相結(jié)合來解決推演的實(shí)際問題。通過不斷摸索、不斷學(xué)習(xí),相信在兵棋推演領(lǐng)域人工智能技術(shù)將與人的指揮水平形成共同進(jìn)步的雙贏局面。
-
人工智能
+關(guān)注
關(guān)注
1791文章
46701瀏覽量
237219 -
數(shù)字化
+關(guān)注
關(guān)注
8文章
8558瀏覽量
61589
原文標(biāo)題:人工智能在計算機(jī)兵棋推演領(lǐng)域的應(yīng)用
文章出處:【微信號:appic-cn,微信公眾號:集成電路應(yīng)用雜志】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論