0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

戰(zhàn)斗機(jī)嵌入式訓(xùn)練系統(tǒng)中的智能虛擬陪練

li1234567890123 ? 來源:li1234567890123 ? 作者:li1234567890123 ? 2022-02-16 10:16 ? 次閱讀

戰(zhàn)斗機(jī)嵌入式訓(xùn)練系統(tǒng)中的智能虛擬陪練

摘智能化“實虛”對抗是現(xiàn)代先進(jìn)戰(zhàn)斗機(jī)嵌入式訓(xùn)練系統(tǒng)的重要功能需求。自主空戰(zhàn)決策控制技術(shù)在未來空戰(zhàn)裝備發(fā)展中扮演關(guān)鍵角色。將當(dāng)前的功能需求和發(fā)展中的技術(shù)結(jié)合起來,得到了空戰(zhàn)智能虛擬陪練的概念。先進(jìn)控制決策技術(shù)的引入使得智能虛擬陪練能夠幫助飛行員完成復(fù)雜的戰(zhàn)術(shù)訓(xùn)練,而訓(xùn)練中真實的對抗場景為技術(shù)的驗證提供了理想的環(huán)境,大量的訓(xùn)練數(shù)據(jù)為技術(shù)的持續(xù)迭代優(yōu)化提供了保障。作為可學(xué)習(xí)和進(jìn)化的空戰(zhàn)戰(zhàn)術(shù)專家,智能陪練在人機(jī)對抗和自我對抗中不斷優(yōu)化,當(dāng)其具備與人相當(dāng)甚至超越人的戰(zhàn)術(shù)能力時,可應(yīng)用于未來的無人空戰(zhàn)系統(tǒng)。智能虛擬陪練需要具備4項基本能力:智能決策能力、知識學(xué)習(xí)能力、對抗自優(yōu)化能力和參數(shù)化表示能力。對其包含的關(guān)鍵技術(shù)進(jìn)行了分析,提出并實現(xiàn)了一個基于模糊推理、神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)的解決方案,展示了其各項基本能力及目前達(dá)到的空戰(zhàn)水平。未來更多的模型和算法可在智能虛擬陪練的框架中進(jìn)行驗證和優(yōu)化。

現(xiàn)代戰(zhàn)斗機(jī)裝備的嵌入式訓(xùn)練系統(tǒng)一般有“實對實”訓(xùn)練和“實對虛”訓(xùn)練2種模式[1]。其中“實對實”訓(xùn)練是最接近實戰(zhàn)的模式,但占用資源多,組織難度大,且存在“假想敵”扮演逼真度有限的問題?!皩崒μ摗庇?xùn)練通過計算機(jī)生成數(shù)字虛擬目標(biāo),可以對“假想敵”的平臺、武器和傳感器性能進(jìn)行模擬,能夠根據(jù)訓(xùn)練需要生成任意的交戰(zhàn)場景,從而有效提高空戰(zhàn)訓(xùn)練的針對性,擴(kuò)大訓(xùn)練覆蓋面,提升訓(xùn)練效率[2]。

空戰(zhàn)戰(zhàn)術(shù)訓(xùn)練要求虛擬目標(biāo)具備一定的智能水平[3]。通過建立空戰(zhàn)規(guī)則庫和戰(zhàn)術(shù)庫,賦予虛擬目標(biāo)基本的戰(zhàn)術(shù)響應(yīng)能力,使“實”、“虛”之間可以進(jìn)行簡單的對抗[4-5]。通過將空戰(zhàn)戰(zhàn)法分解為時序動作,可以實現(xiàn)對某些特定戰(zhàn)法的模擬[6]。進(jìn)一步提高虛擬目標(biāo)的智能水平,實現(xiàn)更復(fù)雜更有針對性的戰(zhàn)術(shù)演練,是嵌入式訓(xùn)練系統(tǒng)的客觀需求[7-8]。

拋開具體的訓(xùn)練場景,將虛擬目標(biāo)視作一個獨立的空戰(zhàn)智能體,虛擬目標(biāo)智能化所需解決的核心問題即為自主空戰(zhàn)的決策與控制。而以實現(xiàn)無人機(jī)自主空戰(zhàn)為目標(biāo),國內(nèi)外進(jìn)行了各類研究探索[9-11]。其中常用的模型包括影響圖[12-13]、矩陣博弈[14]、微分對策[15]、動態(tài)規(guī)劃[16-18]、模糊推理[19-23]、貝葉斯網(wǎng)絡(luò)[24-25]等。這些模型大體上可以分為2類,一類是通過建立各式各樣的“優(yōu)勢函數(shù)”,將空戰(zhàn)問題轉(zhuǎn)化為優(yōu)化問題求解;另一類則是模仿人類思維過程建立基于規(guī)則的模型?;凇皟?yōu)勢函數(shù)”的模型為保證其可解性,一般將空戰(zhàn)問題大幅簡化,采用的“優(yōu)勢函數(shù)”大多欠缺嚴(yán)格的物理依據(jù),或者忽略了空戰(zhàn)中的重要約束(如中距導(dǎo)彈的中制導(dǎo)過程),導(dǎo)致其實用價值有限?;谝?guī)則的模型在處理簡單戰(zhàn)術(shù)的時候較為合適,但隨著輸入?yún)?shù)和戰(zhàn)術(shù)選擇的增多,遭遇到維數(shù)爆炸問題。

隨著近年來深度學(xué)習(xí)引領(lǐng)的人工智能技術(shù)的又一次大爆發(fā)[26-27],自主空戰(zhàn)決策控制的研究有了新的突破方向?;谏窠?jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)的模型開始進(jìn)入研究人員的視線,在解決空戰(zhàn)機(jī)動決策[28-32]、路徑規(guī)劃[33]和目標(biāo)分配[34]等方面初步顯示了其能力。機(jī)器學(xué)習(xí)算法帶來了新的方向,同時也暴露了該領(lǐng)域研究存在的客觀問題。空戰(zhàn)對抗非零和的數(shù)學(xué)本質(zhì)決定了先驗知識對模型的重要性[35],機(jī)器學(xué)習(xí)算法本身也需要大量的數(shù)據(jù)作為基礎(chǔ),而先進(jìn)戰(zhàn)斗機(jī)之間的空戰(zhàn)對抗數(shù)據(jù)目前多產(chǎn)生于航空兵部隊的內(nèi)部訓(xùn)練中,研發(fā)人員不易接觸[36];基于各類機(jī)器學(xué)習(xí)技術(shù)的模型需要一個持續(xù)的迭代優(yōu)化過程,而機(jī)載軟件的安全性要求決定了其不能頻繁更換;在各類簡化環(huán)境下訓(xùn)練得到的模型在真實對抗中的性能有待檢驗。

結(jié)合虛擬目標(biāo)智能化提升和自主空戰(zhàn)技術(shù)發(fā)展2方面的需求,本文提出智能虛擬陪練的概念。智能虛擬陪練,是具備自主決策控制能力的空戰(zhàn)戰(zhàn)術(shù)訓(xùn)練虛擬對手,及其自主空戰(zhàn)能力學(xué)習(xí)進(jìn)化支持體系。其依托于機(jī)載嵌入式訓(xùn)練系統(tǒng),此外還有配套的維護(hù)和開發(fā)系統(tǒng)。不同于目前的虛擬目標(biāo),智能虛擬陪練不再是為完成某些特定訓(xùn)練情景任務(wù)而設(shè)計,而是具備完整獨立的空戰(zhàn)決策和控制能力,在幫助飛行員訓(xùn)練的同時自身也在不斷進(jìn)化。

通過引入自主空戰(zhàn)決策控制技術(shù),使智能虛擬陪練能夠滿足復(fù)雜空戰(zhàn)戰(zhàn)術(shù)演練的需求;通過賦予智能虛擬陪練監(jiān)督學(xué)習(xí)能力,使其能夠?qū)W習(xí)“假想敵”戰(zhàn)術(shù)特點,從而滿足針對性訓(xùn)練需要;通過對嵌入式訓(xùn)練系統(tǒng)記錄的對抗數(shù)據(jù)的整理分析,為模型的機(jī)器學(xué)習(xí)提供先驗知識和優(yōu)化訓(xùn)練樣本;通過賦予智能虛擬陪練對抗優(yōu)化能力,使其能夠在“人機(jī)”對抗和機(jī)器自對抗中不斷進(jìn)化;通過實現(xiàn)核心模型的便捷配置,為模型算法的快速迭代提供途徑。

智能虛擬陪練不僅是未來嵌入式訓(xùn)練系統(tǒng)“實虛對抗”功能(如圖1所示)的重要組成,還是自主空戰(zhàn)決策控制技術(shù)迭代優(yōu)化和實驗驗證的重要工具,是空戰(zhàn)訓(xùn)練和新技術(shù)研發(fā)耦合進(jìn)步的紐帶,為下一步從虛擬走向真實,從陪練走向主角打下基礎(chǔ)。

1 智能虛擬陪練的能力需求

智能虛擬陪練的運行場景如圖2所示。智能虛擬陪練不僅要實現(xiàn)嵌入式訓(xùn)練系統(tǒng)實虛對抗的智能化,還要實現(xiàn)其自主空戰(zhàn)能力的不斷進(jìn)化。智能虛擬陪練的基本能力要求包括以下3項。

1.1 智能戰(zhàn)術(shù)決策和控制

智能虛擬陪練能夠根據(jù)任務(wù)目標(biāo)(奪取制空權(quán)、要地防守、區(qū)域突襲等),綜合考慮交戰(zhàn)雙方的平臺性能(機(jī)動性能、滯空時間、隱身性能等)、武器性能(武器射程、導(dǎo)引頭截獲距離、命中概率等)和傳感器性能(探測距離范圍和角度范圍),對空中態(tài)勢做出快速合理的戰(zhàn)術(shù)響應(yīng)。其機(jī)動動作的控制應(yīng)為實現(xiàn)相應(yīng)機(jī)動目的的最優(yōu)或次優(yōu)解。

與專家經(jīng)驗和戰(zhàn)術(shù)資料不同,空戰(zhàn)對抗演習(xí)數(shù)據(jù)中沒有顯式的規(guī)則,需要用相應(yīng)的識別算法挖掘出其中的戰(zhàn)術(shù)決策知識。

1.2 空戰(zhàn)戰(zhàn)術(shù)對抗優(yōu)化

經(jīng)過對空戰(zhàn)先驗知識的學(xué)習(xí),智能虛擬陪練可以具備基本的空戰(zhàn)能力。人機(jī)對抗和機(jī)器自對抗可以進(jìn)一步優(yōu)化模型和提升戰(zhàn)術(shù)水平。人機(jī)對抗,既包括空戰(zhàn)專家在模擬器上與智能虛擬陪練的對抗,也包括飛行員在空中進(jìn)行的實虛對抗訓(xùn)練。對抗數(shù)據(jù)可存入數(shù)據(jù)庫用于模型的自動優(yōu)化。

機(jī)器自對抗是智能虛擬陪練自動優(yōu)化的重要手段。通過采用大規(guī)模并行計算等手段,機(jī)器自對抗可在較短時間內(nèi)積累大量的對抗數(shù)據(jù)。通過機(jī)器自對抗,不僅可以對監(jiān)督訓(xùn)練得到的戰(zhàn)術(shù)決策模型進(jìn)行調(diào)整優(yōu)化,還可以自動探索空戰(zhàn)戰(zhàn)術(shù),發(fā)現(xiàn)未被人發(fā)現(xiàn)和使用過的戰(zhàn)術(shù)。

1.3 核心模型參數(shù)化表示

智能虛擬陪練的核心決策控制模型實現(xiàn)參數(shù)化表示,可通過軟件配置文件加載,從而實現(xiàn)模型的便捷更換。對用戶來說,根據(jù)訓(xùn)練任務(wù)的不同,可以靈活選擇決策控制模型。對研發(fā)方來說,智能虛擬陪練的決策控制模型一直處于訓(xùn)練優(yōu)化的進(jìn)程中,在得到階段性成果后即可快速投入測試和使用。

2 智能虛擬陪練的關(guān)鍵技術(shù)

按照上述基本能力要求,可以得到智能虛擬陪練的基本功能邏輯,進(jìn)一步可以將智能虛擬陪練進(jìn)行詳細(xì)的功能劃分,如圖3所示。

智能虛擬陪練分為應(yīng)用端和開發(fā)維護(hù)端。應(yīng)用端由傳感器模擬、決策控制核心模型、武器接口模擬和飛機(jī)平臺模擬4個部分組成。決策控制核心模型包含態(tài)勢計算、決策計算和戰(zhàn)術(shù)控制計算3個模塊。開發(fā)和維護(hù)端包含先驗規(guī)則庫、基于規(guī)則的決策控制模型,參數(shù)化決策控制模型,以及對抗運行環(huán)境。

2.1 應(yīng)用端關(guān)鍵技術(shù)

2.1.1 態(tài)勢計算

態(tài)勢計算一直是空戰(zhàn)決策控制研究的重點問題,常用的模型包括指標(biāo)體系[37]、D-S證據(jù)理論[38]、貝葉斯網(wǎng)絡(luò)[39]等。近年來基于神經(jīng)網(wǎng)絡(luò)的態(tài)勢評估方法也不斷出現(xiàn)[40-41]。智能虛擬陪練的態(tài)勢計算要求必須考慮交戰(zhàn)雙方的平臺、武器和傳感器性能。目前常用的主觀構(gòu)建的各類優(yōu)勢函數(shù),普遍缺乏對性能因素的定量考慮。建立基于空戰(zhàn)物理規(guī)律的態(tài)勢評估模型,是實現(xiàn)空戰(zhàn)智能決策控制所需解決的首要問題。

2.1.2 決策計算

以空中敵我運動參數(shù),我方平臺狀態(tài)、武器狀態(tài)、傳感器狀態(tài),以及態(tài)勢計算得到的角色任務(wù)、目標(biāo)威脅度、我方導(dǎo)彈命中概率等參數(shù)為輸入,進(jìn)行戰(zhàn)術(shù)決策計算。

決策計算的實現(xiàn)有2種思路。一種是“推演”式?jīng)Q策。決策模型在決策過程中,需要同時模擬雙方的戰(zhàn)術(shù)響應(yīng)進(jìn)行多步推演,根據(jù)推演的結(jié)果進(jìn)行戰(zhàn)術(shù)選擇。AlfaGo等棋類人工智能使用的MCTS[42]算法即為典型的“推演”式?jīng)Q策;另一類則是“反應(yīng)式”決策,也即決策模型是決策輸入到輸出的直接映射,決策計算一步完成。本質(zhì)上“反應(yīng)式”決策模型是一個從態(tài)勢輸入到最優(yōu)響應(yīng)戰(zhàn)術(shù)的函數(shù)。目前空戰(zhàn)領(lǐng)域研究的多為“反應(yīng)式”決策模型?!巴蒲菔健睕Q策的理論研究是一個值得期待的方向。

在使用復(fù)雜機(jī)器學(xué)習(xí)算法時,需要考慮機(jī)載嵌入式環(huán)境的硬件資源限制。

2.1.3 戰(zhàn)術(shù)控制計算

戰(zhàn)術(shù)控制包括飛機(jī)平臺機(jī)動控制、武器控制和傳感器控制。現(xiàn)代先進(jìn)戰(zhàn)斗機(jī)配備放寬靜穩(wěn)定電傳飛控系統(tǒng)。為發(fā)揮飛機(jī)最大的機(jī)動性能,在飛控系統(tǒng)內(nèi)設(shè)計高級戰(zhàn)術(shù)機(jī)動動作庫,戰(zhàn)術(shù)決策輸出則為動作選擇。每一個戰(zhàn)術(shù)機(jī)動都設(shè)有其優(yōu)化目標(biāo)和限制條件,飛控系統(tǒng)基于此求解最優(yōu)控制策略。高級戰(zhàn)術(shù)機(jī)動包含的要素如表1所示。

傳感器的輻射狀態(tài)、工作模式和搜索區(qū)域是重要的戰(zhàn)術(shù)控制對象。武器則是發(fā)射流程和發(fā)射模式需要控制。

2.1.4 傳感器模擬

為了提高智能虛擬陪練的逼真度,各類傳感器的數(shù)字模型需要對其性能參數(shù)和工作邏輯進(jìn)行模擬。例如,雷達(dá)有搜索模式和跟蹤模式的區(qū)別,搜索范圍受框架角限制[43],存在速度過零現(xiàn)象等。

2.2 開發(fā)維護(hù)端關(guān)鍵技術(shù)

2.2.1 從專家經(jīng)驗、戰(zhàn)術(shù)資料中識別戰(zhàn)術(shù)規(guī)則

從專家和戰(zhàn)術(shù)資料的自然語言表述中,識別出決策模型適用的空戰(zhàn)戰(zhàn)術(shù)規(guī)則,一般即為“IF-THEN”形式。

2.2.2 從對抗數(shù)據(jù)中識別戰(zhàn)術(shù)規(guī)則

嵌入式訓(xùn)練系統(tǒng)記錄的對抗數(shù)據(jù),需要進(jìn)行時空對準(zhǔn)、航跡關(guān)聯(lián)等操作后,才能轉(zhuǎn)化為信息完備的空中交戰(zhàn)態(tài)勢。從交戰(zhàn)中飛行員駕駛飛機(jī)的運動參數(shù)和狀態(tài)變化,識別其采取了什么戰(zhàn)術(shù)(智能虛擬陪練則是直接記錄了戰(zhàn)術(shù)決策過程),這樣才能得到“IF-THEN”形式的規(guī)則。

2.2.3 基于規(guī)則的決策模型產(chǎn)生參數(shù)化決策模型

基于規(guī)則的模型便于建立,參數(shù)化模型則便于進(jìn)行自動優(yōu)化和模型配置。由規(guī)則模型訓(xùn)練參數(shù)化模型已證明可行[44]。另一種思路則是將規(guī)則模型本身參數(shù)化,如美國某公司提出的進(jìn)化模糊推理系統(tǒng)[23,45],其中對模糊推理系統(tǒng)的隸屬度函數(shù)和規(guī)則都進(jìn)行了參數(shù)化。

2.2.4 智能虛擬陪練自對抗優(yōu)化

近年來引起廣泛關(guān)注的AlfaGo[42]、AlfaGo Zero[46]、AlfaStar模型等展現(xiàn)了基于深度強(qiáng)化學(xué)習(xí)的智能體的強(qiáng)大的自對抗優(yōu)化能力。美國某公司則號稱其使用遺傳算法優(yōu)化模糊推理樹,實現(xiàn)了超越專家飛行員的空戰(zhàn)水平[23,45],其核心也是模型自對抗。智能虛擬陪練的自對抗優(yōu)化,不僅能實現(xiàn)對先驗知識的優(yōu)化,還可以充分挖掘既有戰(zhàn)術(shù)庫的潛能,甚至創(chuàng)造目前沒有的空戰(zhàn)策略。此外,通過自對抗優(yōu)化,智能虛擬陪練能夠自動適應(yīng)平臺、武器或傳感器性能的變化,使其具備高度的各向兼容性。

2.2.5 對抗運行環(huán)境

智能虛擬陪練自對抗需要在高速并行計算環(huán)境下運行,除了硬件平臺的支持,模型算法也需要適配[47-48]。

3 智能虛擬陪練的解決方案

3.1 解決方案

為驗證上述智能虛擬陪練功能邏輯合理性和相關(guān)關(guān)鍵技術(shù)的可行性,本文提出了一個初步解決方案并進(jìn)行了實驗驗證。下面介紹方案的關(guān)鍵技術(shù)和實驗驗證情況。圖4為這個方案的應(yīng)用端部分,其中決策計算部分包含模糊推理和神經(jīng)網(wǎng)絡(luò)2個模型,在不同的階段需要使用不同的模型。

3.1.1 傳感器和武器

傳感器層包括了紅外告警和雷達(dá)、雷達(dá)告警的仿真模型。各模型中除引入了各項性能限制外,還加入了重要的工作邏輯,如雷達(dá)搜索和跟蹤模式的切換等。武器為中距導(dǎo)彈。其仿真模型包括發(fā)動機(jī)推力模型、導(dǎo)彈氣動模型和導(dǎo)引頭模型。

3.1.2 態(tài)勢計算

在態(tài)勢計算方面,拋棄了傳統(tǒng)的基于主觀賦權(quán)或優(yōu)勢函數(shù)的態(tài)勢評估方法,以平臺、武器和傳感器性能為依據(jù),按照空戰(zhàn)物理原理建立了空戰(zhàn)態(tài)勢評估模型。態(tài)勢評估模型的典型輸出示例如表2所示。

在這個解決方案中,態(tài)勢計算模塊除對單機(jī)交戰(zhàn)態(tài)勢進(jìn)行評估計算,還可以完成編隊角色分配和目標(biāo)分配的計算工作。

3.1.3 空戰(zhàn)戰(zhàn)術(shù)庫和規(guī)則庫

以超視距空戰(zhàn)為研究對象,分析和整理了經(jīng)典的超視距空戰(zhàn)戰(zhàn)術(shù),構(gòu)建了戰(zhàn)術(shù)動作庫,如表3所示。以人工方式識別專家經(jīng)驗和戰(zhàn)術(shù)資料中的戰(zhàn)術(shù)規(guī)則,構(gòu)建了戰(zhàn)術(shù)規(guī)則庫。共得到10種戰(zhàn)術(shù)動作,60條 戰(zhàn)術(shù)規(guī)則。為每一個戰(zhàn)術(shù)動作設(shè)計相應(yīng)的控制律,將其封裝成高級戰(zhàn)術(shù)動作控制器。

3.1.4 模糊推理戰(zhàn)術(shù)決策模型

在規(guī)則庫和戰(zhàn)術(shù)庫的基礎(chǔ)上,建立一個模糊推理戰(zhàn)術(shù)決策模型[23]。對模糊推理模型進(jìn)行了參數(shù)化改造,使其推理規(guī)則、模糊隸屬度函數(shù)等均可以進(jìn)行參數(shù)化表示,如圖5所示(編碼“0”表示該項輸入/輸出未被引用)。將隸屬度函數(shù)的各個關(guān)鍵點用其坐標(biāo)來表示,調(diào)節(jié)關(guān)鍵點坐標(biāo)即可完成對隸屬度函數(shù)的調(diào)節(jié)。任意一條規(guī)則包含其引用的輸入和輸出,以及各項輸入輸出的語義值。將模糊推理系統(tǒng)涉及的所有輸入和輸出按序編碼,對語義也作編碼處理,就可以簡單的實現(xiàn)對規(guī)則的參數(shù)化表達(dá)。

通過調(diào)節(jié)推理規(guī)則和模糊隸屬度函數(shù)參數(shù),使決策模型的響應(yīng)與規(guī)則庫中的經(jīng)驗知識基本一致。

使用配置該模型的紅藍(lán)雙方進(jìn)行模擬對抗,對抗場景和雙方的武器配置隨機(jī)生成,記錄紅藍(lán)雙方各自的決策輸入和輸出。以實驗中的一次模型生成周期中的數(shù)據(jù)為例,紅藍(lán)對抗得到總計2 204場的對抗數(shù)據(jù),對應(yīng)4 408架次的模型決策序列。

3.1.5 神經(jīng)網(wǎng)路戰(zhàn)術(shù)決策模型

模糊推理模型相互對抗產(chǎn)生的數(shù)據(jù)為參數(shù)化模型的建立提供了初始樣本。建立了一個BP神經(jīng)網(wǎng)絡(luò)模型。網(wǎng)絡(luò)結(jié)構(gòu)為輸入30維,輸出10維,2隱層,網(wǎng)絡(luò)權(quán)值參數(shù)總量為1 541。用上述對抗數(shù)據(jù)對其進(jìn)行有監(jiān)督訓(xùn)練。隨后使用該模型組織紅藍(lán)模擬對抗,對抗裁決器根據(jù)交戰(zhàn)結(jié)果分別給予紅藍(lán)雙方獎勵或懲罰。神經(jīng)網(wǎng)絡(luò)決策模型使用記錄的對抗過程數(shù)據(jù)和最后的獎懲進(jìn)行強(qiáng)化學(xué)習(xí),實現(xiàn)模型優(yōu)化,決策模型生成過程如圖6所示。對抗優(yōu)化過程的實現(xiàn)參考文獻(xiàn)[47-48]中的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)(DQN)算法。這里沒有使用文獻(xiàn)[47-48]中的深度卷積神經(jīng)網(wǎng)絡(luò),這是由于在此問題中,決策輸入是由傳感器輸出和態(tài)勢計算輸出組成的一維狀態(tài)向量,而不是卷積神經(jīng)網(wǎng)絡(luò)擅長處理的二維圖像信息。

在DQN處理的棋類和電視游戲中,決策通常是從一個相對固定的初始狀態(tài)開始的。而在實際空戰(zhàn)中,交戰(zhàn)初始條件,包括雙方的初始態(tài)勢和初始武器配置,是在一定范圍內(nèi)隨機(jī)的。棋類游戲中雙方初始態(tài)勢為均衡,而空戰(zhàn)決策模型必須能夠處理初始態(tài)勢非均衡的交戰(zhàn)問題。這就使得初始條件對交戰(zhàn)結(jié)果的影響在對抗優(yōu)化中不可忽略。如圖7所示,初始已經(jīng)處于絕對劣勢的一方,無論作出何種戰(zhàn)術(shù)決策,都會被擊落。在這種情況下,仍直接按照勝獎敗懲的原理給予決策模型反饋,強(qiáng)化學(xué)習(xí)算法將難以收斂。

這里采取了一種“主-客”機(jī)制來解決這個問題:雙方完成一次對抗后,互換初始條件,綜合2場對抗的結(jié)果來進(jìn)行獎懲,以消除初始態(tài)勢的影響。在圖7中,假設(shè)擊落獎勵1,被擊落獎勵-1,否則獎勵0。采用2場獎勵平均的方法進(jìn)行綜合。那么在互換態(tài)勢前后,雙方相互擊落一次,因此各自得到獎勵為0。而如果有一方能夠在處于劣勢時不被擊落,那么綜合2場結(jié)果其將被獎勵0.5,對方則獎勵-0.5。

3.1.6 性能評估

選擇空戰(zhàn)交換比作為決策模型性能的評估標(biāo)準(zhǔn)。交換比定義為一方被擊落次數(shù)與擊落對方次數(shù)的比。

3.2 基本能力驗證

第1節(jié)所述4項基本能力中,參數(shù)化表示能力已由模型的本身特性確保,另外3項需要進(jìn)行實驗驗證。

3.2.1 先驗知識學(xué)習(xí)能力

神經(jīng)網(wǎng)絡(luò)模型在完成對2 204場對抗數(shù)據(jù)的學(xué)習(xí)后,其決策輸出與模糊推理模型輸出的對比如圖8所示。可以看出,神經(jīng)網(wǎng)絡(luò)輸出在保持其趨勢和模糊推理模型基本一致的基礎(chǔ)上,反復(fù)震蕩的現(xiàn)象明顯減少了。在完成有監(jiān)督訓(xùn)練后,神經(jīng)網(wǎng)絡(luò)模型對模糊推理模型的交換比為1∶1.16。這顯示了神經(jīng)網(wǎng)絡(luò)完全掌握了模糊推理規(guī)則庫中的先驗知識。同時由于其克服了模糊推理模型輸出震蕩的問題,性能略有提升。

進(jìn)一步的,在具體的仿真對抗場景下驗證智能虛擬陪練對戰(zhàn)術(shù)規(guī)則的掌握情況。對抗中紅藍(lán)雙方使用相同版本的決策模型。

1) 三代機(jī)對三代機(jī)基本戰(zhàn)術(shù)

圖9中紅藍(lán)雙方均為三代機(jī)平臺,傳感器武器配置相同。雙方初始態(tài)勢為均勢(同高度同速度),迎頭進(jìn)入空戰(zhàn)。雙方各自躲掉前2發(fā)導(dǎo)彈(第2發(fā)圖中未顯示),在此過程中雙方持續(xù)下降高度,武器射程縮短,雙方距離逐漸縮小。紅方最后掉頭時機(jī)不當(dāng)被擊落。紅藍(lán)雙方為同版本模型但決策出現(xiàn)差異的原因在于對抗中存在隨機(jī)擾動因素,包括傳感器探測誤差和決策模型的戰(zhàn)術(shù)隨機(jī)探索。從這里可以看出,在平臺、傳感器和武器性能相同且初始態(tài)勢一致的前提下,決定空戰(zhàn)勝負(fù)的即是決策的細(xì)微差異。圖10展示了雙方從第2次攻擊到對抗結(jié)束的決策輸出。在實際的三代機(jī)超視距空戰(zhàn)中,適時置尾規(guī)避敵機(jī)導(dǎo)彈,再回轉(zhuǎn)繼續(xù)攻擊,是常見且合理的戰(zhàn)術(shù)。

2) 三代機(jī)對四代機(jī)基本戰(zhàn)術(shù)

圖11中紅方為三代機(jī)平臺,藍(lán)方為四代機(jī)平臺。藍(lán)方具有隱身優(yōu)勢。雙方初始態(tài)勢為均勢,迎頭進(jìn)入空戰(zhàn)。藍(lán)方先發(fā)現(xiàn)紅方。紅方在收到雷達(dá)告警后,開始做切向機(jī)動,破壞藍(lán)方跟蹤的同時逼近藍(lán)方,成功規(guī)避藍(lán)方第1發(fā)導(dǎo)彈。最終紅方逼近到雷達(dá)可以發(fā)現(xiàn)藍(lán)方的距離,雙方相互攻擊,紅方因開火時間晚先被擊落,但其導(dǎo)彈已對藍(lán)方構(gòu)成致命威脅。圖12展示了雙方對抗全程的決策輸出。三代機(jī)利用雷達(dá)的過零現(xiàn)象逼近四代機(jī),是不多的可以取得一定效果的戰(zhàn)術(shù)選擇。

通過仿真對抗實驗可以看出,智能虛擬陪練掌握了不同平臺性能配置下的基本超視距空戰(zhàn)戰(zhàn)術(shù),其戰(zhàn)術(shù)響應(yīng)合理正確,與已知的空戰(zhàn)經(jīng)驗知識基本符合。

3.2.2 對抗自優(yōu)化能力

在神經(jīng)網(wǎng)絡(luò)完成第1輪1 291場對抗優(yōu)化后,對模糊推理模型的交換比提高到1∶2.73。在完成第2輪765場對抗優(yōu)化后,對模糊推理模型的交換比提高到1∶3.6。交換比的提高顯示了自對抗對神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化效果。

3.2.3 智能決策綜合能力

構(gòu)建復(fù)雜對抗場景,對解決方案中的態(tài)勢計算和決策模型進(jìn)行更全面的能力驗證。這里以雙機(jī)編隊和單機(jī)的對抗作為仿真實驗場景。

紅藍(lán)雙方均為三代機(jī)平臺,傳感器和武器配備相同。紅方為雙機(jī)編隊,1號機(jī)前突,2號 機(jī)掩護(hù)。紅方1號機(jī)和藍(lán)方飛機(jī)相互攻擊。在導(dǎo)彈逼近到危險距離后,雙方開始機(jī)動規(guī)避。此時紅方2號機(jī)加速前突進(jìn)行攻擊占位。紅方1號 機(jī)和藍(lán)方飛機(jī)各自成功規(guī)避導(dǎo)彈后開始掉頭。此時紅方1號機(jī)處于掩護(hù)位置,紅方2號機(jī)處于前突位置,紅方編隊完成了角色輪轉(zhuǎn)。藍(lán)方飛機(jī)掉頭后遭到紅方2號機(jī)導(dǎo)彈攻擊,不得不再次機(jī)動規(guī)避。此時紅方2號機(jī)繼續(xù)加速前突。在藍(lán)方規(guī)避掉導(dǎo)彈后,紅方2號機(jī)在超音速狀態(tài)下再次發(fā)射導(dǎo)彈。由于距離近,導(dǎo)彈初速高,藍(lán)方未能規(guī)避被擊落。此時紅方1號機(jī)也已到達(dá)攻擊發(fā)起位置,準(zhǔn)備下一輪攻擊。

在這個對抗過程中,態(tài)勢計算模塊進(jìn)行了正確合理的角色和任務(wù)分配,戰(zhàn)術(shù)決策模型在正確合理的時機(jī)選擇了導(dǎo)彈發(fā)射、置尾規(guī)避和回轉(zhuǎn)進(jìn)攻等戰(zhàn)術(shù)動作,顯示了智能虛擬陪練在復(fù)雜對抗場景下具備較好的戰(zhàn)術(shù)決策能力。

該解決方案驗證了前面提出的智能虛擬陪練的功能邏輯和開發(fā)維護(hù)流程的合理性,證明了其中主要關(guān)鍵技術(shù)的可行性。此驗證方案中使用的規(guī)則庫和戰(zhàn)術(shù)庫內(nèi)容較少,神經(jīng)網(wǎng)絡(luò)規(guī)模較小,未使用并行計算,未實現(xiàn)規(guī)則的自動識別。模型裝機(jī)后得到人機(jī)對抗數(shù)據(jù),其中智能虛擬陪練的決策記錄可直接供神經(jīng)網(wǎng)絡(luò)模型回放強(qiáng)化學(xué)習(xí),人的決策過程數(shù)據(jù)仍需要進(jìn)行人工識別。

智能虛擬陪練的核心,也即空戰(zhàn)戰(zhàn)術(shù)決策和控制,是一個在迅速發(fā)展的研究熱點,各類模型算法,只要符合前面提出的基本功能要求,都可以通過智能虛擬陪練進(jìn)行驗證和迭代。

4 從智能虛擬陪練到自主空戰(zhàn)

從智能虛擬陪練到自主空戰(zhàn)(如圖14所示),主要是從傳感器、武器和飛機(jī)平臺仿真模型,到真實的傳感器、武器和飛機(jī)平臺接口。智能虛擬陪練的決策和控制模型,則可以直接應(yīng)用到無人自主空戰(zhàn)系統(tǒng)中。無人自主空戰(zhàn)系統(tǒng),既可以在現(xiàn)有有人機(jī)平臺上改裝,也可以是專門研制的制空型無人機(jī)。智能虛擬陪練的自對抗優(yōu)化能力,使其能夠適應(yīng)平臺的變化。無論是哪一類平臺,智能虛擬陪練的意義在于,使這些無人自主空戰(zhàn)系統(tǒng)快速具備與人類飛行員相當(dāng)甚至更好的戰(zhàn)術(shù)決策和控制能力,使其綜合作戰(zhàn)效能得到提升。

5 結(jié) 論

本文提出的智能虛擬陪練,既是空戰(zhàn)訓(xùn)練發(fā)展的客觀需求,又是自主空戰(zhàn)技術(shù)實驗驗證的工具。拋開具體的有限的訓(xùn)練情景,把智能虛擬陪練視作具有完全自主能力的空戰(zhàn)智能體,分析了其基本能力要求,得到其4項基本能力,即智能決策能力、學(xué)習(xí)能力、對抗自優(yōu)化能力和參數(shù)化表示的能力。據(jù)此設(shè)計了智能虛擬陪練的功能邏輯,并識別出了其中的關(guān)鍵技術(shù)。其中,基于規(guī)則的決策模型可以用來訓(xùn)練參數(shù)化模型,而參數(shù)化模型進(jìn)行自對抗優(yōu)化。以模糊推理模型、神經(jīng)網(wǎng)絡(luò)模型和強(qiáng)化學(xué)習(xí)算法實現(xiàn)了一個初步的智能虛擬陪練解決方案,實驗表明其能夠滿足4項基本能力要求,在不同平臺配置和不同場景下均能進(jìn)行合理的戰(zhàn)術(shù)決策和控制。未來自主空戰(zhàn)領(lǐng)域的新模型、新算法,均可在智能虛擬陪練的框架下,按照4項基本能力的要求進(jìn)行實驗驗證和迭代優(yōu)化。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2541

    文章

    49957

    瀏覽量

    747466
  • 嵌入式
    +關(guān)注

    關(guān)注

    5045

    文章

    18817

    瀏覽量

    298484
  • 戰(zhàn)斗機(jī)
    +關(guān)注

    關(guān)注

    1

    文章

    134

    瀏覽量

    15617
收藏 人收藏

    評論

    相關(guān)推薦

    嵌入式系統(tǒng)的未來趨勢有哪些?

    嵌入式系統(tǒng)是指將我們的操作系統(tǒng)和功能軟件集成于計算機(jī)硬件系統(tǒng)之中,形成一個專用的計算機(jī)系統(tǒng)。那么嵌入式
    發(fā)表于 09-12 15:42

    開啟全新AI時代 智能嵌入式系統(tǒng)快速發(fā)展——“第六屆國產(chǎn)嵌入式操作系統(tǒng)技術(shù)與產(chǎn)業(yè)發(fā)展論壇”圓滿結(jié)束

    嵌入式系統(tǒng)是電子信息產(chǎn)業(yè)的基礎(chǔ),是智能系統(tǒng)的核心。大模型催生AI走入千家萬戶、喚醒端側(cè)AI的需求爆發(fā)。以機(jī)器人、無人駕駛和智能制造為代表的
    發(fā)表于 08-30 17:24

    嵌入式系統(tǒng)的實時操作系統(tǒng)

    嵌入式RTOS是嵌入式應(yīng)用程序運行、相互交互和與外界通信的底層軟件機(jī)制。在本節(jié),您將了解嵌入式軟件開發(fā)人員使用哪些流行RTOS以及它們運行的嵌入式
    的頭像 發(fā)表于 08-20 11:28 ?276次閱讀

    嵌入式熱門領(lǐng)域有哪些?

    通過物聯(lián)網(wǎng)連接各種物理設(shè)備和傳感器,促使它們之間實現(xiàn)信息的交換和數(shù)據(jù)的共享。從智能家居到智能城市,物聯(lián)網(wǎng)的應(yīng)用不斷擴(kuò)展,為嵌入式系統(tǒng)工程師帶來了廣泛的就業(yè)機(jī)會和發(fā)展前景。 自動駕駛
    發(fā)表于 07-16 09:23

    嵌入式系統(tǒng)怎么學(xué)?

    嵌入式系統(tǒng)怎么學(xué)? 隨著物聯(lián)網(wǎng)、智能制造等新技術(shù)的興起,嵌入式系統(tǒng)的應(yīng)用范圍更加廣泛。包括但不限于工業(yè)控制、汽車電子、醫(yī)療設(shè)備、
    發(fā)表于 07-02 10:10

    入門嵌入式系統(tǒng)這些知識你知道嗎?

    嵌入式系統(tǒng)是一種專用的計算機(jī)系統(tǒng),作為裝置或設(shè)備的一部分。通常,嵌入式系統(tǒng)是一個控制程序存儲在ROM
    發(fā)表于 05-03 09:54 ?391次閱讀

    嵌入式人工智能的就業(yè)方向有哪些?

    嵌入式人工智能的就業(yè)方向有哪些? 在新一輪科技革命與產(chǎn)業(yè)變革的時代背景下,嵌入式人工智能成為國家新型基礎(chǔ)建設(shè)與傳統(tǒng)產(chǎn)業(yè)升級的核心驅(qū)動力。同時在此背景驅(qū)動下,眾多名企也紛紛在
    發(fā)表于 02-26 10:17

    嵌入式系統(tǒng)發(fā)展前景?

    設(shè)備、健康監(jiān)測等領(lǐng)域有著廣泛的應(yīng)用前景。隨著人們對健康的重視程度不斷提高,嵌入式系統(tǒng)將更為深入地應(yīng)用于醫(yī)療設(shè)備和健康護(hù)理,實現(xiàn)個人健康管理的智能化和實時化。 汽車電子和自動駕駛是
    發(fā)表于 02-22 14:09

    嵌入式工控機(jī)性能特點 嵌入式工控機(jī)應(yīng)用場景

    嵌入式工控機(jī)性能特點 嵌入式工控機(jī)應(yīng)用場景 嵌入式工控機(jī)是一種專門設(shè)計用于工業(yè)控制
    的頭像 發(fā)表于 02-04 11:35 ?463次閱讀

    嵌入式學(xué)習(xí)步驟

    嵌入式行業(yè)是一個涉及廣泛領(lǐng)域的行業(yè),嵌入式、物聯(lián)網(wǎng)、人工智能、智能與科學(xué)、電子信息工程、通信工程、自動化工程、測控、計算機(jī)科學(xué)等專業(yè)在嵌入式
    發(fā)表于 02-02 15:24

    什么是嵌入式系統(tǒng)嵌入式系統(tǒng)的具體應(yīng)用

    嵌入式,一般是指嵌入式系統(tǒng)。用于控制、監(jiān)視或者輔助操作機(jī)器和設(shè)備的裝置。
    的頭像 發(fā)表于 12-20 13:33 ?2131次閱讀

    嵌入式系統(tǒng)的定義與發(fā)展歷史簡述

    。由于嵌入式系統(tǒng)應(yīng)用,對象系統(tǒng)的廣泛性與單片機(jī)的獨主發(fā)展道路,使嵌入式
    發(fā)表于 11-09 08:31 ?0次下載
    <b class='flag-5'>嵌入式</b><b class='flag-5'>系統(tǒng)</b>的定義與發(fā)展歷史簡述

    Linux系統(tǒng)嵌入式開發(fā)是什么

    嵌入式開發(fā)聽起來很高大上,但其實它就在我們身邊。   嵌入式開發(fā)是指將操作系統(tǒng)、應(yīng)用程序或數(shù)據(jù)存儲在嵌入式設(shè)備,如手機(jī)、平板電腦、
    的頭像 發(fā)表于 10-12 15:40 ?1522次閱讀

    什么是嵌入式Linux?

    之有運行程序的能力與作用。在很多智能家電開發(fā),智能產(chǎn)品的研究上有著主導(dǎo)的作用。(對個人、團(tuán)隊開發(fā)產(chǎn)品有興趣的朋友一定要看看嵌入式?。?linux的嵌入式
    發(fā)表于 10-11 13:47

    嵌入式的杯突試驗機(jī)測控系統(tǒng)設(shè)計

    電子發(fā)燒友網(wǎng)站提供《嵌入式的杯突試驗機(jī)測控系統(tǒng)設(shè)計.pdf》資料免費下載
    發(fā)表于 10-11 11:22 ?0次下載
    <b class='flag-5'>嵌入式</b>的杯突試驗<b class='flag-5'>機(jī)</b>測控<b class='flag-5'>系統(tǒng)</b>設(shè)計