0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

詳解E2E-MFD多模態(tài)融合檢測(cè)端到端算法

CVer ? 來(lái)源:量子位 ? 2024-10-28 13:52 ? 次閱讀

轉(zhuǎn)載自:量子位(QbitAI

惡劣天氣下,自動(dòng)駕駛汽車也能準(zhǔn)確識(shí)別周圍物體了?!

西安電子科大、上海AI Lab等提出多模態(tài)融合檢測(cè)算法E2E-MFD,將圖像融合和目標(biāo)檢測(cè)整合到一個(gè)單階段、端到端框架中,簡(jiǎn)化訓(xùn)練的同時(shí),提升目標(biāo)解析性能。

相關(guān)論文已入選頂會(huì)NeurlPS 2024 Oral,代碼、模型均已開(kāi)源。

其中圖像融合是指,把不同來(lái)源(比如可見(jiàn)光和紅外相機(jī))的圖像合并成一張,這樣就能在一張圖像中同時(shí)看到不同相機(jī)捕捉到的信息;目標(biāo)檢測(cè)即找出并識(shí)別圖像中的物體。

端到端意味著,E2E-MFD算法可以一次性處理這兩個(gè)任務(wù),簡(jiǎn)化訓(xùn)練過(guò)程。

而且,通過(guò)一種特殊的梯度矩陣任務(wù)對(duì)齊(GMTA)技術(shù),這兩個(gè)任務(wù)還能互幫互助,互相優(yōu)化。

最終實(shí)驗(yàn)結(jié)果顯示,E2E-MFD在信息傳遞、圖像質(zhì)量、訓(xùn)練時(shí)間和目標(biāo)檢測(cè)方面均優(yōu)于現(xiàn)有方法。

E2E-MFD:多模態(tài)融合檢測(cè)端到端算法

眾所周知,精確可靠的目標(biāo)解析在自動(dòng)駕駛和遙感監(jiān)測(cè)等領(lǐng)域至關(guān)重要。

僅依賴可見(jiàn)光傳感器可能會(huì)導(dǎo)致在惡劣天氣等復(fù)雜環(huán)境中的目標(biāo)識(shí)別不準(zhǔn)確。

可見(jiàn)光-紅外圖像融合作為一種典型的多模態(tài)融合(MF)任務(wù),通過(guò)利用不同模態(tài)的信息互補(bǔ)來(lái)解決這些挑戰(zhàn),從而促進(jìn)了多種多模態(tài)圖像融合技術(shù)的快速發(fā)展。

諸如CDDFuse和DIDFuse方法采用兩步流程:

首先訓(xùn)練多模態(tài)融合網(wǎng)絡(luò)(MF),然后再訓(xùn)練目標(biāo)檢測(cè)(OD)網(wǎng)絡(luò),用來(lái)分別評(píng)估融合效果。

盡管深度神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)跨模態(tài)表征能力上取得了顯著進(jìn)展,并帶來(lái)了多模態(tài)融合的良好結(jié)果,但大多數(shù)研究主要集中在生成視覺(jué)上吸引人的圖像,而往往忽略了改進(jìn)下游高級(jí)視覺(jué)任務(wù)的能力,如增強(qiáng)的目標(biāo)解析。

最近的研究開(kāi)始設(shè)計(jì)聯(lián)合學(xué)習(xí)方法,將融合網(wǎng)絡(luò)與目標(biāo)檢測(cè)和圖像分割等高級(jí)任務(wù)結(jié)合在一起。

其中,多模態(tài)融合檢測(cè)(MFD)方法中MF與OD的協(xié)同已成為一個(gè)活躍的研究領(lǐng)域。

這種協(xié)同作用使得MF能夠生成更豐富、更有信息量的圖像,從而提升OD的性能,而OD則為MF提供了有價(jià)值的目標(biāo)語(yǔ)義信息,從而準(zhǔn)確地定位和識(shí)別場(chǎng)景中的物體。

通常,MFD網(wǎng)絡(luò)采用一種級(jí)聯(lián)設(shè)計(jì),其中聯(lián)合優(yōu)化技術(shù)使用OD網(wǎng)絡(luò)來(lái)引導(dǎo)MF網(wǎng)絡(luò)創(chuàng)建便于目標(biāo)檢測(cè)的圖像。

但是依舊存在以下問(wèn)題:

1)當(dāng)前的優(yōu)化方法依賴于多步驟、漸進(jìn)的聯(lián)合方法,影響訓(xùn)練效率;

2)這些方法過(guò)于依賴目標(biāo)檢測(cè)(OD)信息來(lái)增強(qiáng)融合,導(dǎo)致參數(shù)平衡困難并易于陷入單個(gè)任務(wù)的局部最優(yōu)解。

3d2df3d6-94db-11ef-a511-92fbcf53809c.png

因此,尋求一個(gè)統(tǒng)一的特征集,同時(shí)滿足每個(gè)任務(wù)的需求,仍然是一項(xiàng)艱巨的任務(wù)。

為此,研究提出了一種名為E2E-MFD的端到端多模態(tài)融合檢測(cè)算法。

(1)這是一種高效同步聯(lián)合學(xué)習(xí)的方法,將圖像融合和目標(biāo)檢測(cè)創(chuàng)新性地整合到一個(gè)單階段、端到端的框架中,這種方法顯著提升了這兩項(xiàng)任務(wù)的成果。

(2)引入了一種新的GMTA技術(shù),用于評(píng)估和量化圖像融合與目標(biāo)檢測(cè)任務(wù)的影響,幫助優(yōu)化訓(xùn)練過(guò)程的穩(wěn)定性,并確保收斂到最佳的融合檢測(cè)權(quán)重配置。

(3)通過(guò)對(duì)圖像融合和目標(biāo)檢測(cè)的全面實(shí)驗(yàn)驗(yàn)證,展示了所提出方法的有效性和穩(wěn)健性。在水平目標(biāo)檢測(cè)數(shù)據(jù)集M3FD和有向目標(biāo)檢測(cè)數(shù)據(jù)集DroneVehicle上與最先進(jìn)的融合檢測(cè)算法相比,E2E-MFD表現(xiàn)出強(qiáng)大的競(jìng)爭(zhēng)力。

其整體架構(gòu)如下:

3d332e5a-94db-11ef-a511-92fbcf53809c.png

展開(kāi)來(lái)說(shuō),E2E-MFD通過(guò)同步聯(lián)合優(yōu)化,促進(jìn)來(lái)自兩個(gè)領(lǐng)域的內(nèi)在特征的交互,從而實(shí)現(xiàn)簡(jiǎn)化的單階段處理。

為了協(xié)調(diào)細(xì)粒度的細(xì)節(jié)與語(yǔ)義信息,又提出了一種全新的對(duì)象-區(qū)域-像素系統(tǒng)發(fā)育樹(shù)(ORPPT)概念,并結(jié)合粗到細(xì)擴(kuò)散處理(CFDP)機(jī)制。

該方法受視覺(jué)感知自然過(guò)程的啟發(fā),專為滿足多模態(tài)融合(MF)和目標(biāo)檢測(cè)(OD)的具體需求而設(shè)計(jì)。

此外,研究引入了梯度矩陣任務(wù)對(duì)齊(GMTA)技術(shù),以微調(diào)共享組件的優(yōu)化,減少傳統(tǒng)優(yōu)化過(guò)程中固有的挑戰(zhàn)。

這確保了融合檢測(cè)權(quán)重的最優(yōu)收斂,增強(qiáng)了多模態(tài)融合檢測(cè)任務(wù)的準(zhǔn)確性和有效性。

實(shí)驗(yàn)

實(shí)驗(yàn)細(xì)節(jié)

E2E-MFD在多個(gè)常用數(shù)據(jù)集(TNO、RoadScene、M3FD 和 DroneVehicle)上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)運(yùn)行在一張 GeForce RTX 3090 GPU上。

模型基于PyTorch框架實(shí)現(xiàn),部分代碼在M3FD數(shù)據(jù)集上使用了Detectron2框架,并通過(guò)預(yù)訓(xùn)練的DiffusionDet初始化目標(biāo)檢測(cè)網(wǎng)絡(luò)。

優(yōu)化器采用AdamW,批量大小為1,學(xué)習(xí)率設(shè)為2.5×10??,權(quán)重衰減為1e-4。

模型共訓(xùn)練了15,000次迭代。

在DroneVehicle數(shù)據(jù)集上,實(shí)驗(yàn)基于MMRotate 0.3.4框架,使用預(yù)訓(xùn)練的LSKNet模型進(jìn)行初始化,并通過(guò)12個(gè) epoch的微調(diào)進(jìn)行優(yōu)化,批量大小為4。

實(shí)驗(yàn)結(jié)果

研究提供了不同融合方法在TNO、RoadScene和M3FD數(shù)據(jù)集上的定量結(jié)果。

模型的訓(xùn)練(Tr.)和測(cè)試(Te.)時(shí)間均在NVIDIA GeForce RTX 3090上統(tǒng)計(jì)。

3d38400c-94db-11ef-a511-92fbcf53809c.png

可以看出,E2E-MFD在MI指標(biāo)上普遍獲得了最佳度量值,表明其在信息傳遞方面比其他方法從兩個(gè)源圖像中提取了更多有用的信息。

EN值進(jìn)一步顯示,E2E-MFD能夠生成包含清晰邊緣細(xì)節(jié)且對(duì)象與背景對(duì)比度最高的圖像。

較高的VIF值則表明,E2E-MFD的融合結(jié)果不僅具有高質(zhì)量的視覺(jué)效果,同時(shí)在失真度方面較低。

此外,該方法的訓(xùn)練時(shí)間最快,表明在新的數(shù)據(jù)集上能夠?qū)崿F(xiàn)更快速的迭代更新。

生成融合圖像的測(cè)試時(shí)間在所有方法中排名第三。

定性結(jié)果如下圖所示,所有融合方法均在一定程度上融合了紅外和可見(jiàn)光圖像的主要特征,但E2E-MFD具備兩個(gè)顯著優(yōu)勢(shì)。

首先,它能夠有效突出紅外圖像的顯著特征,例如在M3FD數(shù)據(jù)集中,E2E-MFD捕捉到了騎摩托車的人員。

與其他方法相比,E2E-MFD展示了更高的物體對(duì)比度和識(shí)別能力。

其次,它保留了可見(jiàn)圖像中的豐富細(xì)節(jié),包括顏色和紋理。

在M3FD數(shù)據(jù)集中,E2E-MFD的優(yōu)勢(shì)尤為明顯,比如能夠清晰顯示白色汽車的后部以及騎摩托車的人。

E2E-MFD在保留大量細(xì)節(jié)的同時(shí),保持了圖像的高分辨率,并且沒(méi)有引入模糊現(xiàn)象。而其他方法則未能同時(shí)實(shí)現(xiàn)這些優(yōu)勢(shì)。

為了更有效地評(píng)估融合圖像對(duì)下游檢測(cè)任務(wù)的影響,研究在M3FD數(shù)據(jù)集上使用了YOLOv5s檢測(cè)器對(duì)所有SOTA方法進(jìn)行了測(cè)試,結(jié)果如表所示。

3d657c70-94db-11ef-a511-92fbcf53809c.png

與單模態(tài)檢測(cè)相比,SOTA方法在融合圖像上的表現(xiàn)明顯提升,表明良好融合的圖像能夠有效地支持下游檢測(cè)任務(wù)。

E2E-MFD生成的融合圖像在YOLOv5s檢測(cè)器上表現(xiàn)最佳,同時(shí)在DiffusionDet檢測(cè)器上也取得了出色的成績(jī)。

即使與端到端目標(biāo)檢測(cè)方法(E2E-OD)相比,E2E-MFD的方法仍顯示出了顯著的性能提升,充分證明了其訓(xùn)練范式和方法的有效性。

檢測(cè)結(jié)果的可視化如下圖所示。

當(dāng)僅使用單模態(tài)圖像作為輸入時(shí),檢測(cè)結(jié)果較差,常常漏檢諸如摩托車和騎手等目標(biāo),尤其是在圖像右側(cè)靠近汽車和行人的區(qū)域。

幾乎所有的融合方法都通過(guò)融合兩種模態(tài)的信息,減少了漏檢現(xiàn)象并提升了檢測(cè)的置信度。

通過(guò)設(shè)計(jì)端到端的融合檢測(cè)同步優(yōu)化策略,E2E-MFD生成了在視覺(jué)上和檢測(cè)上都非常友好的融合圖像,尤其在處理遮擋和重疊的目標(biāo)時(shí)表現(xiàn)出色,比如圖像右側(cè)藍(lán)色橢圓中的摩托車和重疊的行人。

在DroneVehicle數(shù)據(jù)集上的目標(biāo)檢測(cè)定量結(jié)果多模態(tài)如表所示,E2E-MFD達(dá)到了最高的精度。

3d771b7e-94db-11ef-a511-92fbcf53809c.png

此外,使用生成的融合圖像在YOLOv5s-OBB和LSKNet上進(jìn)行檢測(cè)時(shí),較單一模態(tài)至少提高了5.7%和3.1%的AP值,驗(yàn)證了方法的魯棒性。

這證明了融合圖像的優(yōu)異質(zhì)量,表明它們不僅在視覺(jué)上令人滿意,還為檢測(cè)任務(wù)提供了豐富的信息。

小結(jié)

研究提出了多模態(tài)融合檢測(cè)算法E2E-MFD,僅以單步訓(xùn)練過(guò)程同時(shí)完成融合和檢測(cè)任務(wù)。

引入了一個(gè)系統(tǒng)發(fā)育樹(shù)結(jié)構(gòu)和粗到細(xì)擴(kuò)散處理機(jī)制,來(lái)模擬在不同任務(wù)需求下,不同視覺(jué)感知中需要完成的這兩項(xiàng)任務(wù)。

此外,研究對(duì)融合檢測(cè)聯(lián)合優(yōu)化系統(tǒng)中的任務(wù)梯度進(jìn)行了對(duì)齊,消除聯(lián)合優(yōu)化過(guò)程中兩個(gè)任務(wù)的梯度優(yōu)化沖突。

通過(guò)將模型展開(kāi)到一個(gè)設(shè)計(jì)良好的融合網(wǎng)絡(luò)和檢測(cè)網(wǎng)絡(luò),可以以高效的方式生成融合與目標(biāo)檢測(cè)的視覺(jué)友好結(jié)果,而無(wú)需繁瑣的訓(xùn)練步驟和固有的優(yōu)化障礙。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4587

    瀏覽量

    92478
  • 目標(biāo)檢測(cè)
    +關(guān)注

    關(guān)注

    0

    文章

    200

    瀏覽量

    15578
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    782

    文章

    13616

    瀏覽量

    165897

原文標(biāo)題:NeurlPS 2024 Oral | 多模態(tài)融合檢測(cè)端到端算法E2E-MFD來(lái)了!

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    姿態(tài)融合算法是什么

    2.數(shù)字濾波算法的選擇根據(jù)運(yùn)動(dòng)傳感器噪聲模型,一般以下濾波算法可供融合算法選擇: a)互補(bǔ)濾波算法 b)擴(kuò)展卡爾曼濾波
    發(fā)表于 07-19 06:47

    堅(jiān)果Pro PK 魅藍(lán)E2,誰(shuí)能制霸中機(jī)市場(chǎng)

      4月25日?qǐng)?jiān)果pro發(fā)布,4月26日魅藍(lán)E2發(fā)布,這兩款手機(jī)都不會(huì)超過(guò)2000元,都屬于中機(jī)型,那么兩款手機(jī)到底誰(shuí)更強(qiáng)悍了,又是誰(shuí)可以制霸中機(jī)市場(chǎng)呢?還是虛驚一場(chǎng)?
    發(fā)表于 04-18 08:50 ?1803次閱讀

    物聯(lián)網(wǎng)轉(zhuǎn)向E2E解決方案

    據(jù)外媒報(bào)道,物聯(lián)網(wǎng)連接解決方案已經(jīng)轉(zhuǎn)向E2E()了。 據(jù)分析師Mullooly預(yù)測(cè),物聯(lián)網(wǎng)據(jù)說(shuō)在未來(lái)數(shù)年內(nèi)從附加服務(wù)中將比接駁費(fèi)獲得更多的收益。預(yù)計(jì)這將額外超過(guò)非連接的M
    發(fā)表于 12-05 18:26 ?499次閱讀

    Zoom終于在其遠(yuǎn)程工作平臺(tái)上推出了加密

    加密(通常稱為“ E2EE”)是一種安全技術(shù),可對(duì)兩個(gè)或多個(gè)參與方之間的通信進(jìn)行加密,以確保只有發(fā)送者和接收者才能查看內(nèi)容。假設(shè)正確使用了該技術(shù),則第三方個(gè)人或組將無(wú)法解密和查看
    的頭像 發(fā)表于 10-19 15:19 ?1698次閱讀

    Cherry在O-RAN架構(gòu)組件的集成方面取得顯著進(jìn)步

    · Cherry在O-RAN架構(gòu)組件的集成方面取得顯著進(jìn)步 · 該軟件現(xiàn)在包含符合最新O-RAN規(guī)范的新功能,例如E2、A1或O1接口,以及新的SMO元素 2020年12月,O-
    的頭像 發(fā)表于 01-20 14:55 ?1783次閱讀
    Cherry在O-RAN架構(gòu)組件的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>集成方面取得顯著進(jìn)步

    ADPD4000/ADPD4001:模態(tài)傳感器數(shù)據(jù)Sheet

    ADPD4000/ADPD4001:模態(tài)傳感器數(shù)據(jù)Sheet
    發(fā)表于 05-11 11:24 ?3次下載
    ADPD4000/ADPD4001:<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>傳感器<b class='flag-5'>端</b>數(shù)據(jù)Sheet

    模態(tài)MR和特征融合的GBM自動(dòng)分割算法

    模態(tài)MR和特征融合的GBM自動(dòng)分割算法
    發(fā)表于 06-27 11:45 ?32次下載

    羅德與施瓦茨成功驗(yàn)證10Gbps(E2E)峰值下行鏈路IP數(shù)據(jù)吞吐量

    基于高通方案,羅德與施瓦茨使用R&S CMX500 5G無(wú)線綜測(cè)儀平臺(tái)驗(yàn)證了10 GbpsE2E) IP數(shù)據(jù)性能。
    發(fā)表于 10-27 16:28 ?1931次閱讀
    羅德與施瓦茨成功驗(yàn)證10Gbps<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>(<b class='flag-5'>E2E</b>)峰值下行鏈路IP數(shù)據(jù)吞吐量

    的無(wú)人機(jī)導(dǎo)航模擬演示

    借助現(xiàn)代人工智能算法旋翼無(wú)人機(jī)可以成為智能代理,在未知環(huán)境中導(dǎo)航。給定目的地,無(wú)人機(jī)可以控制環(huán)境,重建環(huán)境地圖并動(dòng)態(tài)規(guī)劃到目的地的軌跡。這項(xiàng)工作的目的是構(gòu)建一個(gè)
    的頭像 發(fā)表于 04-06 15:00 ?4490次閱讀

    E2EMail加密系統(tǒng)

    ./oschina_soft/e2email.zip
    發(fā)表于 05-20 09:27 ?0次下載
    <b class='flag-5'>E2</b>EMail<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>加密系統(tǒng)

    T3M系列寬帶自組網(wǎng)電臺(tái)速率測(cè)試

    自組網(wǎng)電臺(tái)速率測(cè)試
    的頭像 發(fā)表于 10-24 17:53 ?1258次閱讀
    T3M系列寬帶自組網(wǎng)電臺(tái)<b class='flag-5'>多</b>跳<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>速率測(cè)試

    Autosar E2E介紹及其實(shí)現(xiàn)

    E2E(End-to-End)保護(hù)存在于安全性較高的信號(hào),在信號(hào)傳遞的過(guò)程中,受軟硬件的影響,發(fā)送和接收的數(shù)據(jù)可能不一致,此時(shí)E2E的作用就體現(xiàn)出來(lái),系統(tǒng)可以快速
    的頭像 發(fā)表于 09-22 10:28 ?2859次閱讀
    Autosar <b class='flag-5'>E2E</b>介紹及其實(shí)現(xiàn)

    實(shí)現(xiàn)自動(dòng)駕駛,唯有?

    ,去年行業(yè)主流方案還是輕高精地圖城區(qū)智駕,今年大家的目標(biāo)都瞄到了(End-to-End, E2E)。
    的頭像 發(fā)表于 08-12 09:14 ?541次閱讀
    實(shí)現(xiàn)自動(dòng)駕駛,唯有<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>?

    InfiniBand網(wǎng)絡(luò)解決LLM訓(xùn)練瓶頸

    ChatGPT對(duì)技術(shù)的影響引發(fā)了對(duì)人工智能未來(lái)的預(yù)測(cè),尤其是模態(tài)技術(shù)的關(guān)注。OpenAI推出了具有突破性的模態(tài)模型GPT-4,使各個(gè)領(lǐng)域取得了顯著的發(fā)展。 這些AI進(jìn)步是通過(guò)大規(guī)模
    的頭像 發(fā)表于 10-23 11:26 ?225次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>InfiniBand網(wǎng)絡(luò)解決LLM訓(xùn)練瓶頸

    讓智駕強(qiáng)者愈強(qiáng)時(shí)代來(lái)臨?

    到來(lái),智能駕駛技術(shù)也成為眾多車企研究的重點(diǎn)方向。而在這個(gè)過(guò)程中,架構(gòu)(End-to-End, E2E)作為核心技術(shù),逐漸嶄露頭角,成為推動(dòng)智能駕駛的關(guān)鍵力量。 ? 汽車智能化:從
    的頭像 發(fā)表于 10-24 09:25 ?382次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>讓智駕強(qiáng)者愈強(qiáng)時(shí)代來(lái)臨?