元宇宙是人類社會(huì)網(wǎng)絡(luò)化和虛擬化,通過(guò)對(duì)實(shí)體對(duì)象對(duì)應(yīng)生成數(shù)字”智能體”來(lái)構(gòu)建一個(gè)人機(jī)共存的新社會(huì)形態(tài)。元宇宙去中心化+AI化+虛擬化的底層網(wǎng)絡(luò)融合架構(gòu),是當(dāng)前在萌芽中的下一代互聯(lián)網(wǎng)web3.0的社會(huì)實(shí)踐。
元宇宙零距離社會(huì)里的社會(huì)計(jì)算,是一種數(shù)據(jù)經(jīng)濟(jì)行為的計(jì)算,即通過(guò)區(qū)塊鏈的智能合約來(lái)構(gòu)建數(shù)字經(jīng)濟(jì)中的數(shù)據(jù)資產(chǎn),對(duì)于隱私數(shù)據(jù)存儲(chǔ)提供可信計(jì)算和高可信度服務(wù),借助數(shù)據(jù)交易和權(quán)益計(jì)算來(lái)產(chǎn)生經(jīng)濟(jì)效益,Web3的布局與發(fā)展預(yù)計(jì)將超過(guò)當(dāng)前邊緣地域政治的影響,可能會(huì)徹底顛覆全球經(jīng)濟(jì)次序。 對(duì)于自動(dòng)駕駛ADS行業(yè),我們也可以將其核心演進(jìn)趨勢(shì)定義為群體智能的社會(huì)計(jì)算,簡(jiǎn)單表述為,用NPU大算力和去中心化計(jì)算來(lái)虛擬化駕駛環(huán)境,通過(guò)數(shù)字化智能體(自動(dòng)駕駛車輛AV)的多模感知交互(社交)決策,以及車車協(xié)同,車路協(xié)同,車云協(xié)同,通過(guò)跨模數(shù)據(jù)融合、高清地圖重建、云端遠(yuǎn)程智駕等可信計(jì)算來(lái)構(gòu)建元宇宙中ADS的社會(huì)計(jì)算能力。
群體智能:多智能體間的社交決策
在真實(shí)的交通場(chǎng)景里,一個(gè)理性的人類司機(jī)在復(fù)雜的和擁擠的行駛場(chǎng)景里,通過(guò)與周圍環(huán)境的有效協(xié)商,包括揮手給其它行駛車輛讓路,設(shè)置轉(zhuǎn)向燈或閃燈來(lái)表達(dá)自己的意圖,來(lái)做出一個(gè)個(gè)有社交共識(shí)的合理決策。而這種基于交通規(guī)則+常識(shí)的動(dòng)態(tài)交互,可以在多樣化的社交/交互駕駛行為分析中,通過(guò)對(duì)第三方駕駛者行為和反應(yīng)的合理期望,來(lái)有效預(yù)測(cè)場(chǎng)景中動(dòng)態(tài)目標(biāo)的未來(lái)狀態(tài)。這也是設(shè)計(jì)智能車輛AV安全行駛算法的理論基礎(chǔ),即通過(guò)構(gòu)建多維感知+行為預(yù)測(cè)+運(yùn)動(dòng)規(guī)劃的算法能力來(lái)實(shí)現(xiàn)決策安全的目的。而會(huì)影響到車輛在交互中的決策控制的駕駛行為包括駕駛者(人或AV)的社會(huì)層面交互和場(chǎng)景的物理層面交互兩個(gè)方面:
社會(huì)層面交互:案例包括行駛車輛在并道、換道、或讓道時(shí)的合理決策控制,主車道車輛在了解其它車輛的意圖后自我調(diào)速,給需要并換道的車輛合理讓路來(lái)避免可能的沖突和危險(xiǎn)。
物理層面交互:案例包括靜態(tài)物理障礙(靜態(tài)停車車輛,道路可行駛的邊界,路面障礙物體)和動(dòng)態(tài)物理線索(交通標(biāo)識(shí),交通燈和實(shí)時(shí)狀態(tài)顯示,行人和運(yùn)動(dòng)目標(biāo))。
ADS群體智能的社會(huì)計(jì)算,對(duì)這種交互/社交行為,可以在通常的定義上擴(kuò)展,也就是道路使用者或者行駛車輛之間的社交/交往,即通過(guò)彼此間的信息交換、協(xié)同或者博弈,實(shí)現(xiàn)各自利益最大化和獲取最低成本,這一般包括三個(gè)屬性(Wang 2022):
動(dòng)態(tài)Dynamics:個(gè)體之間和個(gè)體與環(huán)境之間的閉環(huán)反饋(State,Action, Reward),駕駛?cè)?智能體AV對(duì)總體環(huán)境動(dòng)態(tài)做出貢獻(xiàn),也會(huì)被總體環(huán)境動(dòng)態(tài)所影響。
度量Measurement: 信息交換,包括跨模數(shù)據(jù)發(fā)布與共享,駕駛?cè)?智能體AV對(duì)道路使用者傳遞各自的社交線索和收集識(shí)別外部線索。
決策Decision: 利益/利用最大化,理性來(lái)說(shuō)道路使用者追求的多是個(gè)體的最大利益。
顯然,交通規(guī)則是不會(huì)完全規(guī)定和覆蓋所有駕駛行為的,其它方面可以通過(guò)個(gè)體之間的社交/交互來(lái)補(bǔ)充。人類司機(jī)總體來(lái)說(shuō)也不會(huì)嚴(yán)格遵守交通規(guī)則,類似案例包括黃燈初期加速通過(guò)路口,讓路時(shí)占用部分其它道路空間來(lái)減少等待時(shí)間等等。ADS通過(guò)對(duì)這類社會(huì)行為的收集、學(xué)習(xí)與理解,可以部分模仿和社會(huì)兼容,通過(guò)Social-Aware和Safety-Assured決策,避免過(guò)度保守決策,同時(shí)提供算法模型的可解釋性、安全性能和控制效率。具體實(shí)現(xiàn)來(lái)說(shuō),可以采用類似人類司機(jī)的做法,依據(jù)駕駛?cè)蝿?wù)的不同,使用環(huán)境中不同的關(guān)注區(qū)域ROI和關(guān)注時(shí)間點(diǎn),以及直接或間接的社交/交互,采用類似概率圖模型和消息傳遞等機(jī)制來(lái)建模。社交影響因子的度量,即在給定駕駛環(huán)境狀態(tài)x下,個(gè)體如何采取action a,一般有兩種思路(Wang 2022) :
基于模型驅(qū)動(dòng)的方法
模型參數(shù)多采用個(gè)體間物理距離和速度加速度等傳感信息。
基于利用率Utility-based的模型:將個(gè)體之間交互作為一個(gè)優(yōu)化問(wèn)題來(lái)考慮
案例:換道并道操作,目標(biāo)是保持理想的速度(徑向控制)下如何使側(cè)向路徑跟蹤誤差最小化(側(cè)向控制)
概率生成模型:采用貝葉斯網(wǎng)絡(luò)的條件概率分布或條件行為預(yù)測(cè)來(lái)評(píng)估
案例:導(dǎo)航,通過(guò)對(duì)周圍個(gè)體行為的概率預(yù)測(cè),并結(jié)合安全風(fēng)險(xiǎn)特征進(jìn)行逆優(yōu)化
基于風(fēng)險(xiǎn)的模型:將交通規(guī)則域知識(shí)與駕駛場(chǎng)景的背景嵌入到可解釋可學(xué)習(xí)的勢(shì)或能量函數(shù)中
問(wèn)題:基于相對(duì)距離的測(cè)量不能反映真實(shí)場(chǎng)景的物理約束,例如高速公路的分道桿幾乎與行駛車輛沒(méi)有交互。
社會(huì)認(rèn)知模型:
案例:類似心理學(xué)的讀心術(shù)來(lái)模仿個(gè)體的駕駛行為。
基于數(shù)據(jù)驅(qū)動(dòng)的方法
駕駛環(huán)境的虛擬化,即在圖模型中將環(huán)境中的隱含信息(圖節(jié)點(diǎn)和關(guān)系)用低維標(biāo)量或者向量(embedding)來(lái)表征。
DNN:
采用Autoencoder、Transformer或GAN來(lái)建模,通過(guò)CONV/RNN層將多傳感信息映射成低維向量。
GNN with Social Pooling:
GNN:
○可以將結(jié)構(gòu)化信息嵌入embedding來(lái)做為模型輸入。
○或?qū)⑸缃魂P(guān)系用特定圖邊的可學(xué)習(xí)的參數(shù)來(lái)量化,即weighted graph edges。
Social Pooling:
○ 可以獨(dú)立地將信息嵌入時(shí)間空間維度下的latent狀態(tài)。
拓?fù)淠P停?/p>
將個(gè)體間交互編碼成一個(gè)代數(shù)幾何的緊湊表征。
對(duì)單智能體而言,上述群體智能的社會(huì)計(jì)算表述,有一個(gè)典型的優(yōu)勢(shì)是,人類駕駛的社會(huì)關(guān)聯(lián)特性和超強(qiáng)駕駛模仿特性,可以在算法設(shè)計(jì)中采用關(guān)聯(lián)強(qiáng)化的reward函數(shù)來(lái)學(xué)習(xí)人類的這種社會(huì)群體跟隨特性。而人類群體對(duì)隱含場(chǎng)景的社會(huì)感知,可以更好地提高對(duì)環(huán)境遮擋的認(rèn)知理解和進(jìn)行不確定性的概率預(yù)測(cè)。
優(yōu)化建模與學(xué)習(xí)方法
ADS的一個(gè)最常見(jiàn)的交互場(chǎng)景是在城市和高速公路上的日常交通行為,包括車輛跟隨,車輛換道,主路輔路并道等。上述所表述的Utility-based的理性模型,采用的是基于目標(biāo)函數(shù)進(jìn)行優(yōu)化的模型,需要定義一個(gè)目標(biāo),例如在前行方向的車輛之間有一個(gè)可用的空閑空間。一種設(shè)計(jì)思路是假定人類駕駛行為基本上就是一個(gè)游戲理論問(wèn)題,存在著多智能體的互相耦合連續(xù)決策。這種交互或社交,可以用動(dòng)態(tài)Markov游戲來(lái)建模,單體之間通過(guò)合作或競(jìng)爭(zhēng)來(lái)完成任務(wù),即所謂的多智能體強(qiáng)化學(xué)習(xí)Multi-AgentReinforcement Learning(MARL),將環(huán)境定義為Markov決策過(guò)程(MDP)或者是部分可觀察的POMDP。解決的思路的引入下述的方法來(lái)摹擬交互過(guò)程中的決策控制:
游戲理論方法:包括強(qiáng)化學(xué)習(xí)RL,逆強(qiáng)化學(xué)習(xí)IRL和模仿學(xué)習(xí)IL等。
控制理論方法:模型預(yù)測(cè)控制MPC,線性二次元高斯控制LQGC等。
上述將將社交行為轉(zhuǎn)化成遞歸優(yōu)化問(wèn)題,對(duì)目標(biāo)個(gè)體而言,對(duì)其它智能體的角色和整體效果的定位,如圖1所示,可以有三種:
障礙Obstacles關(guān)系:基于對(duì)其它運(yùn)動(dòng)目標(biāo)的行為和運(yùn)動(dòng)預(yù)測(cè)來(lái)規(guī)劃個(gè)體自身,視預(yù)測(cè)不可更改,這種單向社交,在部分場(chǎng)景會(huì)導(dǎo)致目標(biāo)個(gè)體過(guò)度保守、困于僵局或有不安全行為。
理性跟隨者Rational Follower關(guān)系: 這種定義假定其它個(gè)體基于自身利用率進(jìn)行優(yōu)化決策,對(duì)目標(biāo)個(gè)體的行為沒(méi)有預(yù)判和響應(yīng),會(huì)導(dǎo)致目標(biāo)個(gè)體的動(dòng)作/響應(yīng)難以取得最優(yōu)解。
相互依賴群體關(guān)系:這種假定可以通過(guò)戰(zhàn)略和戰(zhàn)術(shù)規(guī)劃來(lái)實(shí)現(xiàn),戰(zhàn)略規(guī)劃可以建模成一個(gè)閉環(huán)的動(dòng)態(tài)游戲,戰(zhàn)術(shù)規(guī)劃可以建模成一個(gè)開(kāi)環(huán)的軌跡規(guī)劃與優(yōu)化?;蛘咄ㄟ^(guò)多智能體的同步游戲來(lái)捕獲動(dòng)態(tài)的交互依賴,解決沖突問(wèn)題。對(duì)目標(biāo)個(gè)體而言,可以只考慮局部鄰近個(gè)體,通過(guò)個(gè)體間通信可以減少所有關(guān)聯(lián)個(gè)體存在的類似同時(shí)減速或者同時(shí)停車讓路等算法陷阱問(wèn)題。
圖1 多智能體社交關(guān)系案例分析(Wang 2022) 顯然在ADS中直接引入游戲理論框架,可解釋性強(qiáng),但隨著參與交互的個(gè)體數(shù)目和場(chǎng)景復(fù)雜度增加,計(jì)算復(fù)雜度也會(huì)指數(shù)比例增加,工程實(shí)現(xiàn)會(huì)比較困難。 人類駕駛者可以通過(guò)獎(jiǎng)勵(lì)強(qiáng)化機(jī)制來(lái)與環(huán)境進(jìn)行安全交互。這種機(jī)制推動(dòng)了ADS行業(yè)采用游戲理論中強(qiáng)化學(xué)習(xí)方案,通過(guò)同步或者異步處理模式,來(lái)獲取個(gè)體間的交互。一種可行的方法將遞歸的政策Policy學(xué)習(xí)任務(wù)定義為單智能體的single-agent RL學(xué)習(xí)問(wèn)題,者涉及到states, actions, reward和動(dòng)態(tài)環(huán)境參數(shù)。異步實(shí)現(xiàn)的算法包括DeepQ-Learning (DQN),D3QN等,這種單體RL方案由于假定其它個(gè)體的戰(zhàn)略行為不變性,很容易導(dǎo)致不穩(wěn)定的控制政策,難以解決不安全行駛風(fēng)險(xiǎn)。而同步實(shí)現(xiàn)方案,環(huán)境狀態(tài)的進(jìn)化和激勵(lì)來(lái)自群體交互和聯(lián)合行動(dòng),每個(gè)智能體都視為MDP-based Agent,共同進(jìn)行多智能體強(qiáng)化學(xué)習(xí)MARL。同步實(shí)現(xiàn)的算法目前受限于有限的交通場(chǎng)景,個(gè)體間的社會(huì)特性都是預(yù)定義的,解決這個(gè)問(wèn)題的一個(gè)可行思路是采用課程學(xué)習(xí)的策略,從簡(jiǎn)單場(chǎng)景開(kāi)始來(lái)一步步來(lái)進(jìn)行深化學(xué)習(xí)。
在ADS中引入游戲理論框架的另外一個(gè)風(fēng)險(xiǎn)是環(huán)境信息的不完全性(部分可觀察),假定駕駛者都是理性的,每個(gè)駕駛者的意圖都能夠被第三方獲取。在實(shí)際交通環(huán)境中,信息獲取的不對(duì)稱性比比皆是。同時(shí)對(duì)于非理性的駕駛行為,如果在保證有安全保障的決策控制的前提下,一定程度的同情心或者同理心是非常有必要的。一種思路是引入一對(duì)社會(huì)參數(shù)(β, λ)來(lái)對(duì)道路上駕駛者的理性水平和角色,通過(guò)貝葉斯規(guī)則觀察進(jìn)行參數(shù)更新。
上述的討論分析,可以將駕駛者的決策過(guò)程,轉(zhuǎn)化為對(duì)部分可觀察環(huán)境虛擬化或參數(shù)化,同時(shí)對(duì)個(gè)體間社交選擇的偏愛(ài)進(jìn)行參數(shù)化,嵌入到價(jià)值函數(shù)中去,通過(guò)基于優(yōu)化的狀態(tài)反饋策略,尋求駕駛?cè)后w利益最大化問(wèn)題的最優(yōu)解。一個(gè)通常的解決思路是,將其它個(gè)體的獎(jiǎng)勵(lì)函數(shù)表征為當(dāng)前狀態(tài)的線性結(jié)構(gòu)化的加權(quán)特征,對(duì)應(yīng)的權(quán)值向量,可以通過(guò)逆最優(yōu)控制理論(例如IRL )來(lái)進(jìn)行學(xué)習(xí)估計(jì),IRL的目的是從人類駕駛演示的駕駛偏向中學(xué)習(xí)底層的目標(biāo)函數(shù),通過(guò)將IRL編碼的人類駕駛行為集成到AV的目標(biāo)函數(shù)中來(lái)構(gòu)建能夠社會(huì)性兼容的行駛控制。
在ADS動(dòng)態(tài)和不確定性的場(chǎng)景中,環(huán)境需要建模成部分可觀察的MDP即POMDP,為了降低計(jì)算復(fù)雜度,一般都選擇離散化空間或者部分連續(xù)空間來(lái)解決POMDP問(wèn)題。對(duì)不確定性信息評(píng)估的一種常用的做法是對(duì)當(dāng)前狀態(tài)進(jìn)行概率分布進(jìn)行構(gòu)建,得到一個(gè)置信(belief)狀態(tài),這種形態(tài)可以通過(guò)離線或者在線構(gòu)建。離線計(jì)算意味著,不是針對(duì)當(dāng)前狀態(tài),而是對(duì)所有可能的置信狀態(tài)的最可能的行為,在線計(jì)算意味著需要在精度和效率之間做權(quán)衡。 上述提到的將駕駛環(huán)境視為一個(gè)Markov決策過(guò)程MDP,一個(gè)設(shè)計(jì)思路是Q-Learning(DQN, D2QN, D3QN)算法,它屬于Single-AgentMDP方法,即將其它道路使用者視為穩(wěn)態(tài)環(huán)境的一部分。自體(ego agent)通過(guò)與環(huán)境的交互/社交來(lái)尋求關(guān)聯(lián)累計(jì)獎(jiǎng)勵(lì)a的最優(yōu)方案,即在一個(gè)固定時(shí)間窗T范圍內(nèi),在環(huán)境狀態(tài)s下policy政策π的價(jià)值函數(shù)優(yōu)化問(wèn)題 ADS的交互性決策控制,是一個(gè)典型的多目標(biāo)問(wèn)題,包括行駛的安全保證、整體效率和舒適體驗(yàn)。D2QN和D3QN的優(yōu)勢(shì)在Q函數(shù)值表達(dá)中引入了防止碰撞的思路,但學(xué)習(xí)效率和最終性能仍然低于應(yīng)用預(yù)期。一種設(shè)計(jì)思路是將模仿學(xué)習(xí)IL與RL 相結(jié)合(IRL)。IL有兩種學(xué)習(xí)模式:
行為克隆方法Behaviour Cloning:直接學(xué)習(xí)從觀察到行動(dòng)actions的映射關(guān)系,尋求目標(biāo)的似然函數(shù)最大化或者誤差最小化,需要有足夠的訓(xùn)練數(shù)據(jù)為前提,但在復(fù)雜的交互場(chǎng)景下的域自適應(yīng)能力表現(xiàn)不佳。
利用率重建 Utility Recovering: 這種IRL學(xué)習(xí)方法,非直接利用數(shù)據(jù)通過(guò)觀察來(lái)獲取獎(jiǎng)勵(lì)函數(shù),從而使規(guī)劃車輛的社交行為能夠近可能的摹擬演示效果。這種假設(shè)與人類駕駛行為非常接近,尤其是如何在不同類型的新場(chǎng)景下如何安全有效地與其它駕駛者的進(jìn)行交互。IRL的目的是通過(guò)摹擬自體的駕駛行為從數(shù)據(jù)中學(xué)習(xí)自體獎(jiǎng)勵(lì)函數(shù)。
總上所述,在動(dòng)態(tài)場(chǎng)景中,由于理性的人類駕駛行為是所有可能的解決方案中,最接近最優(yōu)的決策輸出,這種觀察可以將人類駕駛交互用計(jì)算可表達(dá)優(yōu)化模型來(lái)公式化。這種基于優(yōu)化的方法從分析角度來(lái)說(shuō)可解釋,數(shù)學(xué)上可證明,可以添加各種約束條件來(lái)避免碰撞,但如何降低復(fù)雜度來(lái)滿足計(jì)算性能是非常有挑戰(zhàn)的。
DNN-based模型
基于DNN模型的方法,是一種在數(shù)據(jù)充分的條件下,通過(guò)少量的人力投入就可以提供非常有力的設(shè)計(jì)表達(dá)。尤其是針對(duì)社交關(guān)系建模與推理來(lái)解決ADS中預(yù)測(cè)與規(guī)劃問(wèn)題,通過(guò)監(jiān)督和自監(jiān)督學(xué)習(xí)的方式,單獨(dú)或者聯(lián)合建模的方式,以及IL和RL的學(xué)習(xí)流程。交互建模的輸入來(lái)自車輛狀態(tài),包括定位信息,速度,加速度,角速度,車輛朝向等。端到端的DL-based方法通常直接通過(guò)卷積處理原始傳感數(shù)據(jù)(RGB圖像和點(diǎn)云),計(jì)算簡(jiǎn)潔但會(huì)損失弱的或者隱含的交互推理的內(nèi)容表達(dá)。如圖2所示,深度學(xué)習(xí)模型中的不同構(gòu)建模塊,是可以對(duì)多智能體的交互推理進(jìn)行有效建模和表達(dá)的,其中
(a)全連接FC層:又稱多層感知器MLP,其中所有輸入通過(guò)連接可以與輸出交互并對(duì)輸出做出貢獻(xiàn)。
(b)卷積CONV層:卷積層采用局部感知場(chǎng),所以每層的連接會(huì)比較稀疏,通常假定合適用來(lái)捕獲空間關(guān)系,最初的底層卷積層一般提取類似邊緣紋理類的信息,越接近頂層也偏語(yǔ)義特征。
(c)遞歸Recurrent層 :通常用來(lái)處理時(shí)間維度的數(shù)據(jù)序列,多用來(lái)捕獲時(shí)間關(guān)系。
(d)圖Graph層:典型的圖包括節(jié)點(diǎn)、邊(用來(lái)描述節(jié)點(diǎn)間關(guān)系)、和上下文全局屬性,通常用來(lái)捕獲圖結(jié)構(gòu)表征中顯性關(guān)系推理,與FC層和RNN層一個(gè)不同之處是輸入的先后次序不會(huì)影響結(jié)構(gòu),圖結(jié)構(gòu)還可以處理不同數(shù)目的個(gè)體,比較適合多個(gè)體的ADS環(huán)境。
圖2 DNN模塊對(duì)多智能體交互的建模案例(Wang 2022)
對(duì)于ADS中社交特征表征,常用的有空間時(shí)間狀態(tài)特征矢量,空間占用方格和圖區(qū)域動(dòng)態(tài)插入等方式??諘r(shí)狀態(tài)特征矢量比較難以定義,尤其是個(gè)體數(shù)量變化和有效時(shí)間步長(zhǎng)的不同,另外一個(gè)限制是依賴于個(gè)體插入的次序。所以一個(gè)常用的設(shè)計(jì)思路是采用占用方格地圖Occupancy Grid Map (OGM)來(lái)解決上述的兩個(gè)問(wèn)題。OGM是以本體ego agent為中心來(lái)構(gòu)建空間方格圖,可以處理ROI區(qū)域不同數(shù)目的智能體。OGM通常采用原始狀態(tài)(定位,速度,加速度)或者采用FC層來(lái)進(jìn)行狀態(tài)編碼,如果FC層隱層包括個(gè)體的歷史軌跡信息,可以同時(shí)捕獲空間時(shí)間信息。OGM的分辨率對(duì)計(jì)算性能影響比較大。
相對(duì)而言,圖網(wǎng)絡(luò)GNN可以通過(guò)動(dòng)態(tài)插入?yún)^(qū)域DIA抽取來(lái)更好地構(gòu)建空間時(shí)間交互圖關(guān)系,圖的類型可以基于個(gè)體(車輛,行人,機(jī)動(dòng)車等),也可以基于區(qū)域area,后者主要聚焦對(duì)車輛意圖(車道保持,換道并道,左拐右拐)的表征,這里DIA指的是可駕駛場(chǎng)景中空閑空隔。如圖3所示,DIA的優(yōu)勢(shì)在于對(duì)環(huán)境中靜態(tài)元素(道路拓?fù)?,類似stop道路標(biāo)志牌等)和動(dòng)態(tài)元素(行駛車輛)非常靈活,可以認(rèn)為是動(dòng)態(tài)環(huán)境的統(tǒng)一表征或者也可以叫做環(huán)境的虛擬化。所有時(shí)間地平線的DIAs可以用來(lái)構(gòu)建空間時(shí)間語(yǔ)義圖。
圖3 動(dòng)態(tài)插入?yún)^(qū)域抽取和場(chǎng)景語(yǔ)義圖 構(gòu)建案例(Wang 2022)
如圖2所示,群體智能的社會(huì)計(jì)算,其中的社交關(guān)系,可以采用不同的深度學(xué)習(xí)層來(lái)進(jìn)行交互建模和編碼:
FC層交互編碼:采用將不同個(gè)體的特征進(jìn)行拉平,拼接成一個(gè)向量。多用來(lái)對(duì)單體single agent進(jìn)行運(yùn)動(dòng)和意圖建模,很少用于multiple agent。
CONV層交互編碼:將空間時(shí)間特征(狀態(tài)特征張量)或占用方格地圖做為CNN輸入來(lái)進(jìn)行交互編碼。
Recurrent層交互編碼:多采用LSTM來(lái)進(jìn)行時(shí)間維度推理,編碼產(chǎn)生的embedding張量可以捕獲時(shí)間空間的交互信息。
Graph層交互編碼:對(duì)多智能體之間的關(guān)系采用節(jié)點(diǎn)之間的無(wú)向或者有向邊來(lái)表征,可以用消息傳遞機(jī)制來(lái)進(jìn)行交互學(xué)習(xí),每個(gè)節(jié)點(diǎn)通過(guò)聚集鄰近節(jié)點(diǎn)的特征來(lái)更新自身的屬性特征。
在實(shí)際設(shè)計(jì)中,多將Recurrent層和Graph層相結(jié)合,可以很好地處理時(shí)間信息。而注意力attention機(jī)制編碼可以更好地量化一個(gè)特征如何影響其它特征。人類司機(jī)會(huì)在交互場(chǎng)景中有選擇地選取其它個(gè)體來(lái)進(jìn)行關(guān)注,包括其過(guò)去現(xiàn)在的信息和未來(lái)的預(yù)判。所以注意力機(jī)制編碼可以基于時(shí)間域(短期的和長(zhǎng)期的)和空間域(本地的和偏遠(yuǎn)的),在上述方法中通過(guò)加權(quán)方案分別進(jìn)行應(yīng)用。對(duì)個(gè)體的注意力建模,可以采用基于距離的方法,這意味著其它個(gè)體越近,關(guān)注度也越高。 綜上所述,DL-based方法由于模塊化的設(shè)計(jì)和海量數(shù)據(jù)貢獻(xiàn),性能占優(yōu),但如何能夠提供安全能力和大規(guī)模部署,需要解決幾個(gè)挑戰(zhàn):在保證性能基礎(chǔ)上改善可解釋性;在不同的駕駛個(gè)體,場(chǎng)景和態(tài)勢(shì)下繼續(xù)增強(qiáng)模型的推廣能力。
審核編輯 :李倩
-
貝葉斯網(wǎng)絡(luò)
+關(guān)注
關(guān)注
0文章
24瀏覽量
8285 -
智能體
+關(guān)注
關(guān)注
1文章
126瀏覽量
10556 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
782文章
13633瀏覽量
165992
原文標(biāo)題:全社會(huì)性自動(dòng)駕駛重構(gòu)計(jì)算模型
文章出處:【微信號(hào):阿寶1990,微信公眾號(hào):阿寶1990】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論