0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何設(shè)定機(jī)器人語義地圖的細(xì)粒度級別

3D視覺工坊 ? 來源:3D視覺工坊 ? 2024-11-12 10:54 ? 次閱讀

0. 這篇文章干了啥?

機(jī)器人學(xué)中的一個基本問題是創(chuàng)建機(jī)器人觀察到的場景的有用地圖表示,其中有用性由機(jī)器人利用地圖完成感興趣的任務(wù)的能力來衡量。最近的研究,包括構(gòu)建語義度量三維地圖,通過檢測對象和區(qū)域與封閉的語義標(biāo)簽集對應(yīng)的工作。然而,封閉集檢測在能夠表示的概念集方面存在固有的限制,并且不能很好地處理自然語言的內(nèi)在歧義性和可變性。為了克服這些限制,一組新的方法開始利用視覺語言基礎(chǔ)模型進(jìn)行開放集語義理解。這些方法使用一個無類別分割網(wǎng)絡(luò)(SegmentAnything或SAM)生成圖像的細(xì)粒度段,然后應(yīng)用一個基礎(chǔ)模型得到描述每個段的開放集語義的嵌入向量。然后通過將段關(guān)聯(lián)起來構(gòu)造對象,只要它們的嵌入向量在預(yù)定義的相似度閾值內(nèi)。然而,這些方法把調(diào)整適當(dāng)?shù)拈撝档睦щy任務(wù)留給了用戶,以控制從場景中提取的段的數(shù)量,以及用于決定是否必須將兩個段聚類在一起的閾值。更重要的是,這些方法沒有捕捉到地圖中語義概念的選擇不僅僅受語義相似性驅(qū)動,而且是內(nèi)在于任務(wù)的。例如,考慮一個被指派移動鋼琴的機(jī)器人。機(jī)器人通過區(qū)分所有鍵和弦的位置幾乎不會增加價值,但可以通過將鋼琴視為一個大對象來完成任務(wù)。另一方面,被指派演奏鋼琴的機(jī)器人必須將鋼琴視為許多對象(即鍵)。被指派調(diào)音鋼琴的機(jī)器人必須將鋼琴視為更多的對象------考慮到弦、調(diào)音銷等。同樣,像一堆衣服應(yīng)該表示為一個單獨的堆還是單獨的衣服,或者一片森林應(yīng)該表示為一個單獨的地貌區(qū)域還是樹枝、葉子、樹干等,直到我們明確了表示必須支持的任務(wù),這些問題仍然沒有得到解決。人類不僅在決定要表示哪些對象以及如何表示時考慮任務(wù)(有意識或無意識),而且還能相應(yīng)地忽略與任務(wù)無關(guān)的場景部分。

下面一起來閱讀一下這項工作~

1. 論文信息

標(biāo)題:Clio: Real-time Task-Driven Open-Set 3D Scene Graphs

作者:Dominic Maggio, Yun Chang, Nathan Hughes, Matthew Trang, Dan Griffith, Carlyn Dougherty, Eric Cristofalo, Lukas Schmid, Luca Carlone

機(jī)構(gòu):MIT

原文鏈接:https://arxiv.org/abs/2404.13696

代碼鏈接:https://github.com/MIT-SPARK/Clio

2. 摘要

現(xiàn)代無關(guān)類別圖像分割工具(例如SegmentAnything)和開放集語義理解(例如CLIP)為機(jī)器人感知和地圖繪制提供了前所未有的機(jī)會。雖然傳統(tǒng)的封閉集度量語義地圖僅限于幾十個或幾百個語義類別,但現(xiàn)在我們可以建立包含大量對象和無數(shù)語義變體的地圖。這給我們留下了一個基本問題:機(jī)器人必須在其地圖表示中包含什么樣的對象(更一般地說,包含什么樣的語義概念)才是正確的粒度?雖然相關(guān)工作通過調(diào)整對象檢測的閾值來隱式選擇粒度級別,但我們認(rèn)為這樣的選擇本質(zhì)上取決于任務(wù)。本文的第一個貢獻(xiàn)是提出了一個任務(wù)驅(qū)動的3D場景理解問題,其中機(jī)器人被給定了一系列用自然語言描述的任務(wù),必須選擇足以完成任務(wù)的粒度和對象子集以及場景結(jié)構(gòu)并將其保留在其地圖中。我們表明,可以使用信息瓶頸(IB)這一已建立的信息論框架來自然地構(gòu)建這個問題。第二個貢獻(xiàn)是一種基于聚合式信息瓶頸方法的任務(wù)驅(qū)動的3D場景理解算法,能夠?qū)h(huán)境中的3D基元聚類成與任務(wù)相關(guān)的對象和區(qū)域,并逐步執(zhí)行。第三個貢獻(xiàn)是將我們的任務(wù)驅(qū)動聚類算法集成到一個名為Clio的實時流水線中,該流水線僅使用板載計算,隨著機(jī)器人探索環(huán)境,在線構(gòu)建環(huán)境的分層3D場景圖。我們的最終貢獻(xiàn)是進(jìn)行了大量實驗,表明Clio不僅可以實時構(gòu)建緊湊的開放集3D場景圖,而且通過將地圖限制在相關(guān)的語義概念上,還提高了任務(wù)執(zhí)行的準(zhǔn)確性。

3. 效果展示

我們提出了Clio,一種新穎的方法,用于在嵌入的開放集語義的情況下實時構(gòu)建任務(wù)驅(qū)動的3D場景圖。我們從經(jīng)典的信息瓶頸原理汲取靈感,根據(jù)一組自然語言任務(wù)------例如"閱讀棕色教科書"------形成與任務(wù)相關(guān)的對象基元的聚類,并通過將場景聚類為與任務(wù)相關(guān)的語義區(qū)域,如"小廚房"或"工作區(qū)"來進(jìn)行聚類。

ca30441e-905d-11ef-a511-92fbcf53809c.jpg

Clio使用Spot攜帶的筆記本電腦實時生成3D場景圖。我們展示了Spot能夠使用Clio的任務(wù)驅(qū)動3D場景圖執(zhí)行用自然語言表達(dá)的抓取命令。

ca5d93a6-905d-11ef-a511-92fbcf53809c.jpg

對地點聚類的定性示例。第一張圖顯示了通過類似房間類別標(biāo)簽的任務(wù)提示進(jìn)行聚類而產(chǎn)生的區(qū)域。第二張圖顯示了通過任務(wù)提示進(jìn)行聚類而產(chǎn)生的區(qū)域,這些任務(wù)提示是潛在房間和物體的混合。

ca8d9e7a-905d-11ef-a511-92fbcf53809c.jpg

4. 主要貢獻(xiàn)

我們的第一個貢獻(xiàn)是闡述任務(wù)驅(qū)動的三維場景理解問題,其中機(jī)器人被給定一組在自然語言中指定的任務(wù),并且需要構(gòu)建一個足以完成給定任務(wù)的最小地圖表示。更具體地說,我們假設(shè)機(jī)器人能夠感知環(huán)境中的任務(wù)無關(guān)基元,以一組三維對象段和三維無障礙區(qū)域的形式,并且必須將它們聚類成一個僅包含相關(guān)對象和區(qū)域(例如,房間)的任務(wù)相關(guān)壓縮表示。這個問題可以自然地使用經(jīng)典的信息瓶頸(IB)理論進(jìn)行公式化,該理論還提供了用于任務(wù)驅(qū)動聚類的算法方法。

我們的第二個貢獻(xiàn)是將來自任務(wù)驅(qū)動三維場景理解問題的凝聚IB算法應(yīng)用到問題中。具體而言,我們展示了如何使用CLIP嵌入獲取算法中所需的概率密度,并且表明由此產(chǎn)生的算法可以隨著機(jī)器人探索環(huán)境而逐步執(zhí)行,其計算復(fù)雜度不隨環(huán)境大小增加。

我們的第三個貢獻(xiàn)是將提出的任務(wù)驅(qū)動聚類算法納入一個實時系統(tǒng)中,稱為Clio。Clio在操作開始時接收一組在自然語言中指定的任務(wù)列表:例如,這些可以是機(jī)器人在其生命周期內(nèi)或當(dāng)前部署期間被設(shè)想執(zhí)行的任務(wù)。然后,隨著機(jī)器人的操作,Clio實時創(chuàng)建一個層次地圖,即環(huán)境的三維場景圖,其中表示僅保留相關(guān)對象和區(qū)域的任務(wù)。與當(dāng)前用于開放集三維場景圖構(gòu)建的方法相反,這些方法僅限于離線操作,當(dāng)查詢大型視覺語言模型(VLMs)和大型語言模型(LLMs)時,并且Clio在實時和板載上運行,僅依賴于輕量級基礎(chǔ)模型,例如CLIP。我們在Replica數(shù)據(jù)集和四個真實環(huán)境中演示了Clio------一個公寓,一個辦公室,一個隔間和一個大型建筑場景。我們還展示了在一臺波士頓動力Spot四足機(jī)器人上使用Clio進(jìn)行實時板載地圖制作。Clio不僅允許實時開放集三維場景圖構(gòu)建,而且通過限制地圖僅包含相關(guān)對象和區(qū)域來提高任務(wù)執(zhí)行的準(zhǔn)確性。我們在https://github.com/MIT-SPARK/Clio上開源了Clio,并附帶了我們的自定義數(shù)據(jù)集。

5. 基本原理是啥?

Clio的前端接收RGB-D傳感器數(shù)據(jù),并構(gòu)建物體基元的圖形,地點圖形以及背景的度量-語義3D網(wǎng)格。Clio的后端執(zhí)行增量聚合IB以根據(jù)用戶指定的任務(wù)列表對對象和區(qū)域進(jìn)行聚類。

cab403a8-905d-11ef-a511-92fbcf53809c.jpg

Cubicle數(shù)據(jù)集中需要任務(wù)提供對象定義糾正的部分示例。圖中展示了兩組任務(wù)的Clio聚類結(jié)果,分別列在(b)和(c)下;在聚類期間,任務(wù)列表中包含了14個額外的相同任務(wù),但為了清晰起見未顯示出來。

cae8f22a-905d-11ef-a511-92fbcf53809c.jpg

6. 實驗結(jié)果

首先,我們觀察到任務(wù)驅(qū)動的方法(表I中藍(lán)色填充的行)通常會在保留較少對象的同時獲得更好的性能指標(biāo)("Objs"列);這驗證了我們的論斷,即度量-語義映射需要以任務(wù)為驅(qū)動。具體來說,在某些情況下,與不考慮任務(wù)的基線相比,Clio 保留的對象數(shù)量要少一個數(shù)量級(與沒有信息瓶頸任務(wù)驅(qū)動聚類的 Clio-Prim 中的對象數(shù)量相比)。其次,我們觀察到 Clio 在各個數(shù)據(jù)集上的表現(xiàn)大多優(yōu)于基線,在除了 Office 數(shù)據(jù)集的 IOU 和 SAcc 指標(biāo)之外的所有情況下,Clio-batch 和 Clio-online 排名都位居前兩位。Office 數(shù)據(jù)集中的許多對象(例如訂書機(jī)、自行車頭盔)通常被檢測為孤立的基元,因此我們看到任務(wù)的知識對這個數(shù)據(jù)集的影響較小,但仍然能夠改善所有其他指標(biāo)的性能。第三,我們觀察到 Clio 能夠在幾分之一秒內(nèi)運行,比 ConceptGraphs 快約 6 倍;Khronos 和 Clio-Prim 也是實時運行的,但在其他指標(biāo)方面性能不佳。最后,Clio-batch 和 Clio-online 在大多數(shù)情況下表現(xiàn)相似。它們性能上的差異是因為 Clio-online 是實時執(zhí)行的,可能根據(jù)需要丟棄幀以跟上相機(jī)圖像流。這種差異有時有助于性能指標(biāo),有時則會妨礙性能指標(biāo)的提升。

cb2c4d68-905d-11ef-a511-92fbcf53809c.jpg

雖然 Clio 是為開放集檢測而設(shè)計的,但我們使用的評估方法在閉集 Replica 數(shù)據(jù)集上展示了我們的任務(wù)感知映射公式不會降低閉集映射任務(wù)的性能。在這里,我們的任務(wù)列表是每個 Replica 場景中存在的對象標(biāo)簽集,其中每個標(biāo)簽都被更改為"{類別}的圖像"。對于 Clio,在創(chuàng)建場景圖后,我們將每個檢測到的對象分配給與其余對象具有最高余弦相似度的標(biāo)簽。為了提高 CLIP 在 Replica 數(shù)據(jù)集的低紋理區(qū)域的可靠性,我們通過將稠密 CLIP 特征合并到 Clio 中,包含了全局上下文的 CLIP 向量。我們報告準(zhǔn)確率作為類平均召回(mAcc)和頻率加權(quán)的平均交并比(f-mIOU)。表II 顯示,Clio 達(dá)到了與領(lǐng)先的零樣本方法相當(dāng)?shù)男阅?,表明我們的任?wù)感知聚類不會降低閉集任務(wù)的性能。

cb7217e4-905d-11ef-a511-92fbcf53809c.jpg

由于手動標(biāo)記語義 3D 區(qū)域是一個高度主觀的任務(wù),我們通過一個代理閉集任務(wù)評估了 Clio 區(qū)域的性能,其中 Clio 獲得了場景的可能房間標(biāo)簽集作為任務(wù)。我們在三個數(shù)據(jù)集中標(biāo)記了房間:Office、Apartment 和 Building。我們不分析 Cubicle 或 Replica 數(shù)據(jù)集,因為它們只包含單個房間。我們將 α 設(shè)為 0,以禁用對空任務(wù)的分配,因為每個地點都與至少一個房間標(biāo)簽相關(guān)聯(lián),并且我們在所有場景中保持所有參數(shù)不變。

我們使用精度和召回率指標(biāo)來比較我們提出的 CLIP 嵌入向量關(guān)聯(lián)策略,Clio(平均),以及另一種更為樸素的策略,Clio(最近),后者使用從仍然可以從其中看到地點節(jié)點的最近圖像中獲取的嵌入向量。此外,我們使用 Hydra的純幾何房間分割方法作為閉集性能的比較點。這次比較的結(jié)果顯示在表III 中,該表還包括 F1 分?jǐn)?shù)作為摘要統(tǒng)計量。表III 中的結(jié)果是在 5 次試驗中平均的,并報告了所有指標(biāo)的標(biāo)準(zhǔn)偏差。我們注意到,我們選擇的關(guān)聯(lián)策略在 Office 和 Building 場景中優(yōu)于 Hydra的純幾何方法和更為樸素的 Clio(最近),但在 Apartment 方面的 F1 分?jǐn)?shù)方面表現(xiàn)相對較差。這是由于場景的性質(zhì);Office 和 Building 場景包含帶標(biāo)簽的開放平面房間,需要語義知識來檢測(例如 Office 場景中的小廚房或 Building 場景中的樓梯間)。Apartment 主要包含幾何上不同的房間,這些房間可以用[7]中的幾何方法進(jìn)行直接分割,而 Clio 則會過度分割,這可以從我們的方法的高精度但低召回中看出。另一方面,與 Office 中存在的連接的語義相似區(qū)域相比,導(dǎo)致了欠分割和較低的召回率。

cba14f8c-905d-11ef-a511-92fbcf53809c.jpg

7. 限制性

盡管實驗結(jié)果令人鼓舞,但我們的方法存在多個限制。首先,盡管我們的方法是zero-shot,并且不受任何特定基礎(chǔ)模型的限制,但在實施過程中確實繼承了一些基礎(chǔ)模型的限制,比如對提示調(diào)整的強(qiáng)烈敏感。例如,我們討論了不同CLIP模型對性能的影響。其次,我們目前在合并兩個基元時平均了CLIP向量,但考慮更具體的方法來結(jié)合它們的語義描述可能會更有趣。第三,如果兩個基元分別對同一任務(wù)具有相似的余弦相似度,但任務(wù)某種方式上需要將它們區(qū)分為單獨的對象時,Clio可能會過度聚類(例如,我們可能希望在擺放餐具時將叉子與刀子區(qū)分開來,盡管它們可能對任務(wù)有相似的相關(guān)性)。最后,我們目前考慮的是相對簡單的單步任務(wù)。然而,將所提出的框架擴(kuò)展到與一組高級復(fù)雜任務(wù)一起工作將是可取的。

8. 總結(jié)

我們提出了一種面向任務(wù)的三維度量語義映射的形式化方法,其中機(jī)器人被提供了一系列自然語言任務(wù),并且必須創(chuàng)建一個足以支持這些任務(wù)的地圖,其粒度和結(jié)構(gòu)是足夠的。我們已經(jīng)表明,這個問題可以用經(jīng)典的信息瓶頸來表達(dá),并且已經(jīng)開發(fā)了聚合信息瓶頸算法的增量版本作為解決策略。我們已將所得算法集成到實時系統(tǒng)Clio中,該系統(tǒng)在機(jī)器人探索環(huán)境時構(gòu)建一個三維場景圖,包括任務(wù)相關(guān)的對象和區(qū)域。我們還通過展示它可以在Spot機(jī)器人上實時執(zhí)行并支持拾取和放置移動操作任務(wù),證明了Clio對機(jī)器人學(xué)的相關(guān)性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2546

    文章

    50504

    瀏覽量

    751235
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    210

    文章

    28132

    瀏覽量

    205918

原文標(biāo)題:MIT最新開源!Clio:如何確定機(jī)器人語義地圖的細(xì)粒度?

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    機(jī)器人沒有度量信息如何導(dǎo)航

    機(jī)器人能否像人類一樣利用有限的度量和空間信息進(jìn)行導(dǎo)航呢?目前,大多數(shù)機(jī)器人的導(dǎo)航系統(tǒng)依賴于詳細(xì)的幾何地圖和精確的度量定位。然而,人類通常可以憑借著抽象的、不準(zhǔn)確的環(huán)境表示(例如手繪草圖或基于語言
    的頭像 發(fā)表于 11-13 10:51 ?188次閱讀
    <b class='flag-5'>機(jī)器人</b>沒有度量信息如何導(dǎo)航

    Perforce Helix Core通過ISO 26262認(rèn)證!為汽車軟件開發(fā)團(tuán)隊提供無限可擴(kuò)展性、細(xì)粒度安全性、文件快速訪問等

    News!Helix Core通過ISO 26262認(rèn)證,符合汽車系統(tǒng)開發(fā)所需的安全和可靠性標(biāo)準(zhǔn),助力汽車軟件安全合規(guī)!具備無限可擴(kuò)展性、細(xì)粒度安全性、文件快速訪問...是眾多汽車OEM和供應(yīng)商的首選版本控制工具。
    的頭像 發(fā)表于 11-12 14:41 ?375次閱讀
    Perforce Helix Core通過ISO 26262認(rèn)證!為汽車軟件開發(fā)團(tuán)隊提供無限可擴(kuò)展性、<b class='flag-5'>細(xì)粒度</b>安全性、文件快速訪問等

    機(jī)器人語言系統(tǒng)包括三個基本狀態(tài)

    機(jī)器人語言系統(tǒng)(有時也被稱為機(jī)器人語言操作系統(tǒng))確實包括三個基本狀態(tài),這些狀態(tài)是機(jī)器人程序運行和管理的核心組成部分。它們分別是: 監(jiān)控狀態(tài) :在此狀態(tài)下,系統(tǒng)負(fù)責(zé)對機(jī)器人的運行狀況進(jìn)行
    的頭像 發(fā)表于 09-04 09:24 ?305次閱讀

    圖像語義分割的實用性是什么

    圖像語義分割是一種重要的計算機(jī)視覺任務(wù),它旨在將圖像中的每個像素分配到相應(yīng)的語義類別中。這項技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用,如自動駕駛、醫(yī)學(xué)圖像分析、機(jī)器人導(dǎo)航等。 一、圖像語義分割的基
    的頭像 發(fā)表于 07-17 09:56 ?339次閱讀

    Al大模型機(jī)器人

    理解能力強(qiáng)大: AI大模型機(jī)器人可以理解和生成自然語言,能夠進(jìn)行復(fù)雜的對話和語言任務(wù)。它們能夠識別語言中的語義、語境和情感,并據(jù)此作出適當(dāng)?shù)幕貞?yīng)。廣泛的知識儲備: 這些模型基于大規(guī)模的數(shù)據(jù)集進(jìn)行訓(xùn)練,擁有
    發(fā)表于 07-05 08:52

    微信大模型擴(kuò)容并開源,推出首個中英雙語文生圖模型,參數(shù)規(guī)模達(dá)15億

    基于Diffusion Transformer的混元DiT是一種文本到圖像生成模塊,具備中英細(xì)粒度理解能力,能與用戶進(jìn)行多輪對話,根據(jù)上下文生成并完善圖像。
    的頭像 發(fā)表于 05-14 17:10 ?655次閱讀

    一微半導(dǎo)體“基于地圖輪廓的區(qū)域分界線搜索方法”專利公布

    此項創(chuàng)新技術(shù)利用地圖輪廓進(jìn)行準(zhǔn)確的區(qū)域邊界搜索。工作原理是:首先,機(jī)器人通過測距傳感器獲取室內(nèi)空間的輪廓點,然后依照目標(biāo)搜索的設(shè)定方向,逐次掃描所有可能涉及的目標(biāo)線。對于每一條目標(biāo)線,它會被分為兩個點間的線段
    的頭像 發(fā)表于 04-24 10:10 ?335次閱讀
    一微半導(dǎo)體“基于<b class='flag-5'>地圖</b>輪廓的區(qū)域分界線搜索方法”專利公布

    華為云攜手樂聚機(jī)器人,探索人形機(jī)器人大模型開發(fā)

    根據(jù)雙方約定,他們還將共同設(shè)計并打造一款通用的具身智能解決方案,以構(gòu)建互通互聯(lián)的“人形機(jī)器人+”開放生態(tài)系統(tǒng)。據(jù)悉,華為云的先行者——盤古大模型,擁有卓越的語義理解、動態(tài)規(guī)劃以及多模態(tài)信號理解等多項能力,為樂聚機(jī)器人大模型的研發(fā)
    的頭像 發(fā)表于 03-22 11:53 ?669次閱讀

    數(shù)倉中搭建細(xì)粒度容災(zāi)應(yīng)用的主要步驟

    對于MPPDB集群的容災(zāi)而言,目前業(yè)界的常見方案要么是部署兩套規(guī)格配置同等的集群,要么通過邏輯雙加載方式去實現(xiàn),這兩個方案缺點比較明顯,存在架構(gòu)復(fù)雜、建設(shè)成本高等問題,不僅使得災(zāi)備部署難度增大,還導(dǎo)致資源浪費。
    的頭像 發(fā)表于 02-22 11:19 ?378次閱讀
    數(shù)倉中搭建<b class='flag-5'>細(xì)粒度</b>容災(zāi)應(yīng)用的主要步驟

    助力移動機(jī)器人下游任務(wù)!Mobile-Seed用于聯(lián)合語義分割和邊界檢測

    精確、快速地劃定清晰的邊界和魯棒的語義對于許多下游機(jī)器人任務(wù)至關(guān)重要,例如機(jī)器人抓取和操作、實時語義建圖以及在邊緣計算單元上執(zhí)行的在線傳感器校準(zhǔn)。
    的頭像 發(fā)表于 02-20 10:30 ?806次閱讀
    助力移動<b class='flag-5'>機(jī)器人</b>下游任務(wù)!Mobile-Seed用于聯(lián)合<b class='flag-5'>語義</b>分割和邊界檢測

    ICLR 2024 清華/新國大/澳門大學(xué)提出一模通吃的多粒度圖文組合檢索MUG:通過不確定性建模,兩行代碼完成部署

    如上圖所示,不再采用嚴(yán)格的一對一匹配,而是促使模型專注于一對多匹配,即從細(xì)粒度過渡到粗粒度。因此,首先引入了一個用于噪聲增強(qiáng)的Augmenter來生成抖動,這個模塊直接作用于最終的特征空間。
    的頭像 發(fā)表于 01-25 16:53 ?558次閱讀
    ICLR 2024 清華/新國大/澳門大學(xué)提出一模通吃的多<b class='flag-5'>粒度</b>圖文組合檢索MUG:通過不確定性建模,兩行代碼完成部署

    探討生成式AI與機(jī)器人技術(shù)中的未來

    對于重復(fù)性的機(jī)器人動作,可以通過繁瑣的手動微調(diào)來避免奇點,確保機(jī)器人的連貫性運動。一旦設(shè)定好,這些動作可以持續(xù)準(zhǔn)確地重復(fù)執(zhí)行。然而,在機(jī)器人運動需求多樣化的新興領(lǐng)域,比如碼垛、抓取作業(yè)
    發(fā)表于 12-27 11:02 ?218次閱讀

    使用 NVIDIA Isaac 仿真并定位 Husky 機(jī)器人

    了 ZED 2 攝像頭。駕駛 Husky 機(jī)器人使用的是 Isaac ROS 2 的最新版本,其中包括用于機(jī)器人定位(NVIDIA Isaac ROS VSLAM)、地圖構(gòu)建(NVIDIA Isaac ROS NvBlox)和
    的頭像 發(fā)表于 12-26 18:05 ?1209次閱讀
    使用 NVIDIA Isaac 仿真并定位 Husky <b class='flag-5'>機(jī)器人</b>

    Kubernetes RBAC:掌握權(quán)限管理的精髓

    Kubernetes RBAC(Role-Based Access Control)是 Kubernetes 中一項關(guān)鍵的安全功能,它通過細(xì)粒度的權(quán)限控制機(jī)制,確保集群資源僅被授權(quán)的用戶或服務(wù)賬號訪問。
    的頭像 發(fā)表于 12-25 09:43 ?439次閱讀

    步進(jìn)電機(jī)的電流設(shè)定和細(xì)分設(shè)定

    步進(jìn)電機(jī)是一種常見的電機(jī)類型,廣泛應(yīng)用于工業(yè)自動化、機(jī)器人、3D打印等領(lǐng)域。步進(jìn)電機(jī)的電流設(shè)定和細(xì)分設(shè)定是調(diào)節(jié)步進(jìn)電機(jī)運行參數(shù)的重要方面。本文將詳盡、詳實、細(xì)致地介紹步進(jìn)電機(jī)的電流設(shè)定
    的頭像 發(fā)表于 12-15 11:16 ?4809次閱讀