0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度圖像和深度學(xué)習(xí)結(jié)合用于機(jī)器人抓取的Dex-Net、復(fù)雜目標(biāo)分割以及讓機(jī)器人整理床鋪

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-10-26 08:50 ? 次閱讀

編者按:關(guān)于訓(xùn)練機(jī)器人抓手的研究并不少,大多都是從計(jì)算機(jī)視覺的角度出發(fā),訓(xùn)練機(jī)器人“看得清”、“抓得準(zhǔn)”。本文同樣如此,不過與以往觀察彩色圖片不同,伯克利的研究者們借助“深度圖像”這個(gè)“利器”,提出了一種更加高效的方法,能讓機(jī)器人成功抓起此前并未見過的物體。

左:3D立方體。右:對(duì)應(yīng)深度圖像,距相機(jī)越近顏色越深。

早在AlexNet誕生的兩年前,微軟就為X-Box推出了Kinect。隨著深度學(xué)習(xí)加速了超參數(shù)函數(shù)的性能,這種低成本的深度感知器層出不窮,也使得深度學(xué)習(xí)在圖像分類、語音識(shí)別和語言翻譯中取得了驚人的效果。如今,深度學(xué)習(xí)在端到端的電子游戲、機(jī)器人操控等問題中也表現(xiàn)出大有前景的勢(shì)頭。

在機(jī)器人感知方面,類似于VGG或ResNet的卷積神經(jīng)網(wǎng)絡(luò)成為了主流選擇。在一些機(jī)器人或計(jì)算機(jī)視覺的任務(wù)中,常會(huì)用到這些框架,附帶有經(jīng)過與訓(xùn)練的權(quán)重,進(jìn)行遷移學(xué)習(xí)或?qū)唧w數(shù)據(jù)進(jìn)行微調(diào)。但是在某些任務(wù)中,只了解圖像的顏色是很有限的。當(dāng)你想訓(xùn)練機(jī)器人抓住一個(gè)陌生物體時(shí),更重要的是讓機(jī)器人了解周圍環(huán)境的幾何結(jié)構(gòu),而不僅僅是顏色和材質(zhì)。對(duì)目標(biāo)物體進(jìn)行控制時(shí)的物理過程,即通過力量控制一個(gè)或多個(gè)物體,取決于目標(biāo)的形狀、擺放位置和其他和顏色無關(guān)的因素。例如,當(dāng)你手中拿筆時(shí),不用看就能改變手中筆的位置。于是,這里有一個(gè)問題:這在彩色圖像上也能成立嗎?

與彩色圖像相對(duì)應(yīng)的是深度圖像,它是只有單個(gè)通道的灰度圖像,可以測(cè)量到相機(jī)的深度值,讓我們了解一幅圖像中目標(biāo)物體的除了顏色以外的特征。我們還可以用深度來“過濾”一定范圍之外的點(diǎn),這可以用來去除背景噪聲(如文中開頭的圖像示例)。

這篇文章中,我們將深度圖像和深度學(xué)習(xí)結(jié)合起來,用在伯克利AUTOLab三個(gè)正在進(jìn)行的項(xiàng)目中:用于機(jī)器人抓取的Dex-Net、復(fù)雜目標(biāo)分割以及讓機(jī)器人整理床鋪。

深度感知簡(jiǎn)介

深度圖像將物體表面到相機(jī)的距離進(jìn)行編碼,顯示出了特殊的視角。在文章開頭的案例圖片里,左邊的立方體3D結(jié)構(gòu)圖中有很多點(diǎn)都處于離相機(jī)不同的位置上。右邊的深度圖像中,顏色越深的地方表示距離相機(jī)越近。

深度感知最近的成果

在計(jì)算機(jī)視覺和深度學(xué)習(xí)不斷進(jìn)步的同時(shí),深度感知領(lǐng)域也出現(xiàn)了許多成果。

通常,深度感知會(huì)將兩個(gè)不同相機(jī)生成的RGB圖像結(jié)合在一起,然后利用生成的視差圖獲取物體在環(huán)境中的深度值。

目前常用的深度傳感器是結(jié)構(gòu)光傳感器,它可以用一種看不見的波長(zhǎng)將一直物體的形狀投射到某場(chǎng)景中,比如我們熟知的Kinect。另一種深度感知的方法就是LIDAR,這種技術(shù)此前常用于地形測(cè)繪,最近在一些自動(dòng)駕駛汽車上也出現(xiàn)了它的身影。LIDAR比Kinect生成的深度映射質(zhì)量更高,但是速度較慢、成本高昂,因?yàn)樗枰獟呙杓す馄鳌?/p>

總的來說,Kinect屬于消費(fèi)級(jí)RGB-D系統(tǒng),可以通過硬件直接捕捉到RGB圖像,以及每個(gè)像素的深度值,比此前的很多方法更快更便宜?,F(xiàn)在,很多用于研究或工業(yè)的機(jī)器人,例如AGV或人形輔助機(jī)器人,都含有類似的內(nèi)置深度感知相機(jī)。未來用于機(jī)器人的深度感知設(shè)備很可能會(huì)進(jìn)一步升級(jí)。

相關(guān)研究

針對(duì)機(jī)器人的深度感知,研究人員將這一技術(shù)用于實(shí)時(shí)導(dǎo)航、實(shí)時(shí)映射和追蹤以及對(duì)室內(nèi)環(huán)境的建模。由于深度感知能讓機(jī)器人知道它們距離障礙物有多遠(yuǎn),就能使其進(jìn)行定位,在導(dǎo)航時(shí)避免碰撞。除此之外,深度圖像還用于實(shí)時(shí)檢測(cè)、辨別、定位人的身體部位等研究中。

這都說明在某些任務(wù)中,深度圖像可以蘊(yùn)涵很多除了顏色之外的有用信息。接下來,我們研究了三種不同任務(wù)

案例一:機(jī)器人抓取

讓機(jī)器人抓取從未見過的物體是目前一個(gè)重要的難題。雖然很多研究者使用RGB圖像,但他們的系統(tǒng)需要讓機(jī)器人訓(xùn)練好幾個(gè)月的抓取動(dòng)作。利用3D目標(biāo)網(wǎng)格的關(guān)鍵有點(diǎn)就是,研究人員可以通過渲染技術(shù)精確地合成深度圖像。

我們的Dex-Net是AUTOLab正在進(jìn)行的研究項(xiàng)目,它包括訓(xùn)練機(jī)器人抓取策略的算法、代碼。以及用于訓(xùn)練抓取的數(shù)據(jù)集。Dex-Net提出在抓取狀態(tài)下的域隨機(jī)算法,目的是用簡(jiǎn)單的抓手抓取復(fù)雜目標(biāo)物體。在BAIR此前的博文中,我們介紹了含有670萬個(gè)樣本的數(shù)據(jù)集,我們用它來訓(xùn)練抓取模型。

數(shù)據(jù)集和深度圖像

上圖展示了Dex-Net的數(shù)據(jù)集生成過程。首先,我們從多個(gè)來源中得到大量目標(biāo)物的網(wǎng)格模型,并進(jìn)行強(qiáng)化。每個(gè)模型都會(huì)被機(jī)械手抓起來進(jìn)行采樣。有了網(wǎng)格模型和被抓起后的圖像,我們計(jì)算出它的魯棒性,并生成模擬深度圖像。通過計(jì)算擺放位置、摩擦力、質(zhì)量、外力(例如重力)和蒙特卡羅積分法,計(jì)算出抓取成功地概率,從而對(duì)魯棒性進(jìn)行估計(jì)。上圖右邊,我們展示了正采樣(抓取成功)和負(fù)采樣(抓取失?。┑睦印?/p>

訓(xùn)練GQ-CNN

有了模擬數(shù)據(jù)集后,它們將用來訓(xùn)練一個(gè)抓取質(zhì)量卷積神經(jīng)網(wǎng)絡(luò),來預(yù)測(cè)機(jī)器人抓取成功的概率。結(jié)構(gòu)如圖所示,一張圖像經(jīng)過處理后,調(diào)整了角度和抓取中心,同時(shí)對(duì)應(yīng)的96×96的深度圖像被當(dāng)做輸入,高度為z,用于預(yù)測(cè)抓取的成功概率。

下圖我們展示了Dex-Net用于在某個(gè)容器內(nèi),對(duì)多個(gè)目標(biāo)物體進(jìn)行抓取的模擬深度圖像:

上行:ABB Yumi機(jī)器人的攝像機(jī)捕捉到的真實(shí)深度圖像

下行:Dex-Net的模擬深度圖像,紅色表示抓取的位置

案例二:在箱子中分割物體

實(shí)例分割就是判斷圖像中的像素屬于哪個(gè)物體,同時(shí)也要將同一類別中的每個(gè)物體分開。實(shí)例分割在機(jī)器人感知中很常用。例如,想讓機(jī)器人從裝滿物體的紙箱中選擇目標(biāo)物體,首先就要對(duì)圖片進(jìn)行分割,定位到目標(biāo)物體,再進(jìn)行抓取。

先前的研究表明,Mask R-CNN可以用于訓(xùn)練對(duì)RGB圖像的目標(biāo)分割,但是這一訓(xùn)練需要大量經(jīng)過手動(dòng)標(biāo)記的RGB圖像數(shù)據(jù)集。除此之外,用于訓(xùn)練的圖像必須是自然場(chǎng)景下包含有限的目標(biāo)物體種類。所以,預(yù)訓(xùn)練Mask R-CNN網(wǎng)絡(luò)可能不適用于倉庫這種雜亂的場(chǎng)景。

數(shù)據(jù)集和深度圖像

上圖是數(shù)據(jù)集的生成過程。和Dex-Net類似,我們對(duì)3D目標(biāo)物體進(jìn)行采樣,然后通過模擬,將這些物體堆放在一個(gè)盒子中。生成對(duì)應(yīng)的深度圖像,以及用于訓(xùn)練的目標(biāo)物體掩碼和標(biāo)準(zhǔn)評(píng)估圖像。

對(duì)于基于幾何形狀的分割,我們可以用模擬和渲染技術(shù),自動(dòng)收集大量用于訓(xùn)練的數(shù)據(jù)集和經(jīng)過標(biāo)記的深度圖像。我們假設(shè),這些深度圖像可能含有足夠的用于分割的信息,因?yàn)楦魑矬w之間的像素邊界不連貫。最終我們收集了5萬張深度圖像組成了數(shù)據(jù)集,并通過PyBullet模擬器將它們匯聚到盒子里。利用這一數(shù)據(jù)集,我們訓(xùn)練了另一個(gè)版本的Mask R-CNN,我們稱之為SD Mask R-CNN。

實(shí)際分割結(jié)果

雖然沒有在真實(shí)圖像上訓(xùn)練,我們提出的SD Mask R-CNN的表現(xiàn)超過了點(diǎn)云分割和經(jīng)過改進(jìn)的Mask R-CNN。如上圖所示,我們的模型可以準(zhǔn)確進(jìn)行分割。更重要的是,用于創(chuàng)造手動(dòng)標(biāo)簽數(shù)據(jù)集的目標(biāo)物體并不是從SD Mask R-CNN的訓(xùn)練分布中選擇的,而是常見的家用物品,我們并沒有它們的3D模型。所以,SD Mask R-CNN可以預(yù)測(cè)此前從未見過的物體掩碼。

總的來說,我們的分割方法有三大優(yōu)點(diǎn):

深度信息在分離目標(biāo)或者背景時(shí),其中編碼了很多有用信息;

合成深度圖像可以快速生成,用它們訓(xùn)練可以高效地轉(zhuǎn)移到現(xiàn)實(shí)圖像中;

用深度圖像訓(xùn)練過的網(wǎng)絡(luò)對(duì)此前未見過的物體泛化結(jié)果更好

案例三:讓機(jī)器人整理床鋪

整理床鋪可以運(yùn)用于家庭機(jī)器人身上,因?yàn)樗鼪]有時(shí)間限制,并且可以允許出現(xiàn)小差錯(cuò)。在此前的文章中,我們研究了用RGB圖像,將其看作是序列決策問題,實(shí)現(xiàn)更好的模擬學(xué)習(xí)。

數(shù)據(jù)集和深度圖像

我們將整理床鋪的任務(wù)看作是檢測(cè)毯子的四個(gè)角,家庭機(jī)器人需要抓起毯子,并且把它的角和床對(duì)齊。我們最初的假設(shè)是深度圖像含有足夠的有關(guān)毯子的幾何形狀的信息。

為了手機(jī)訓(xùn)練數(shù)據(jù),我們使用的是白色的毯子,將四個(gè)角用紅色標(biāo)記,如上圖所示。重復(fù)幾次將毯子隨意仍在床上,然后從機(jī)器人內(nèi)置的RGB-D傳感器中采集RGB圖像和深度圖像。

接下來,我們訓(xùn)練一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò),只從深度圖像中檢測(cè)它的四個(gè)角。我們希望網(wǎng)絡(luò)可以泛化到能檢測(cè)出不同毯子的四角。我們的深度網(wǎng)絡(luò)使用了YOLO中的與訓(xùn)練權(quán)重,之后添加了幾個(gè)圖層。結(jié)果表明,利用預(yù)訓(xùn)練權(quán)重是非常有效果的。

毯子檢測(cè)結(jié)果

我們將訓(xùn)練策略實(shí)施之后,模型表現(xiàn)出了優(yōu)秀的結(jié)果,超越了無學(xué)習(xí)的基準(zhǔn)策略,幾乎和人類完成的效果相當(dāng)。雖然我們這里檢測(cè)的標(biāo)準(zhǔn)是毯子是否最大程度地覆蓋了床,不過這也說明,只有完成了精準(zhǔn)的檢測(cè),才能實(shí)現(xiàn)高度覆蓋。

結(jié)語

通過這三個(gè)項(xiàng)目的實(shí)踐,我們的結(jié)果表明深度圖像在進(jìn)行物體抓取、圖像分割和不規(guī)則物體頂點(diǎn)檢測(cè)三方面,包含了許多有用的線索。我們認(rèn)為,隨著深度相機(jī)質(zhì)量的提高,深度圖像對(duì)機(jī)器人的應(yīng)用越來越重要。有了深度圖像,訓(xùn)練樣本的合成更加簡(jiǎn)單,背景噪音也能更容易地過濾掉。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2545

    文章

    50430

    瀏覽量

    750876
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    210

    文章

    28079

    瀏覽量

    205779
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5461

    瀏覽量

    120866

原文標(biāo)題:深度感知+深度學(xué)習(xí),伯克利的機(jī)器人面對(duì)陌生目標(biāo)也能成功取物

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    醫(yī)療機(jī)器人有哪些_醫(yī)療機(jī)器人有哪些應(yīng)用

    醫(yī)療機(jī)器人是醫(yī)用機(jī)器人工程的重要應(yīng)用,結(jié)合了各個(gè)學(xué)科最新研究和發(fā)展的成果,并廣泛應(yīng)用于醫(yī)學(xué)診療、康復(fù)等醫(yī)學(xué)領(lǐng)域。醫(yī)療機(jī)器人的類型多種多樣,以
    的頭像 發(fā)表于 10-21 15:16 ?491次閱讀

    開源項(xiàng)目!用ESP32做一個(gè)可愛的無用機(jī)器人

    巧妙設(shè)計(jì)的杠桿將開關(guān)推回“關(guān)”位置。這種玩具很常見,許多人已經(jīng)制作并上傳到Y(jié)ouTube上。 作者每年都會(huì)挑戰(zhàn)自己制作一個(gè)技術(shù)產(chǎn)品,今年他決定制作這個(gè)復(fù)雜的項(xiàng)目——可愛無用機(jī)器人。這個(gè)機(jī)器人參考了日本
    發(fā)表于 09-03 09:34

    碼垛機(jī)器人應(yīng)用行業(yè)前景

    機(jī)器人的需求也會(huì)不斷增加。?? 技術(shù)革新的推動(dòng):?隨著人工智能、?機(jī)器視覺、?深度學(xué)習(xí)等技術(shù)的飛速發(fā)展,?碼垛機(jī)器人正逐步實(shí)現(xiàn)智能化升級(jí),?
    的頭像 發(fā)表于 08-14 16:59 ?341次閱讀
    碼垛<b class='flag-5'>機(jī)器人</b>應(yīng)用行業(yè)前景

    ROS機(jī)器人開發(fā)更便捷,基于RK3568J+Debian系統(tǒng)發(fā)布!

    本帖最后由 Tronlong創(chuàng)龍科技 于 2024-7-19 17:18 編輯 ROS系統(tǒng)是什么 ROS(Robot Operating System)是一個(gè)適用于機(jī)器人的開源的元操作系統(tǒng)。它
    發(fā)表于 07-09 11:38

    機(jī)器人視覺技術(shù)中常見的圖像分割方法

    機(jī)器人視覺技術(shù)中的圖像分割方法是一個(gè)廣泛且深入的研究領(lǐng)域。圖像分割是將圖像劃分為多個(gè)區(qū)域或?qū)ο蟮?/div>
    的頭像 發(fā)表于 07-09 09:31 ?380次閱讀

    Al大模型機(jī)器人

    理解能力強(qiáng)大: AI大模型機(jī)器人可以理解和生成自然語言,能夠進(jìn)行復(fù)雜的對(duì)話和語言任務(wù)。它們能夠識(shí)別語言中的語義、語境和情感,并據(jù)此作出適當(dāng)?shù)幕貞?yīng)。廣泛的知識(shí)儲(chǔ)備: 這些模型基于大規(guī)模的數(shù)據(jù)集進(jìn)行訓(xùn)練,擁有
    發(fā)表于 07-05 08:52

    碼垛機(jī)器人的組成和工作原理

    幾個(gè)部分組成: ?1、機(jī)身:碼垛機(jī)器人的機(jī)身通常由機(jī)械臂、底座、控制系統(tǒng)等部件組成,用于支撐和移動(dòng)物品。 ?2、抓取機(jī)構(gòu):碼垛機(jī)器人抓取機(jī)
    的頭像 發(fā)表于 07-04 15:58 ?347次閱讀

    機(jī)器人視覺技術(shù)中圖像分割方法有哪些

    機(jī)器人視覺技術(shù)是人工智能領(lǐng)域的一個(gè)重要分支,它涉及到圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)等多個(gè)學(xué)科。圖像分割
    的頭像 發(fā)表于 07-04 11:34 ?660次閱讀

    基于FPGA EtherCAT的六自由度機(jī)器人視覺伺服控制設(shè)計(jì)

    和增強(qiáng)系統(tǒng)處理圖像的實(shí)時(shí)性,本文提出了一種伊瑟特的六自由度機(jī)器人視覺伺服控制系統(tǒng),將攝像頭集成到基于 Zynq的伊瑟特主站上,提高了視覺伺服的實(shí)時(shí)性.經(jīng)測(cè)試,該平臺(tái)能夠?qū)σ曈X檢測(cè)目標(biāo)的變化做出及時(shí)的反應(yīng)
    發(fā)表于 05-29 16:17

    華為云在人形機(jī)器人領(lǐng)域展開合作

    華為云與人形機(jī)器人領(lǐng)域的創(chuàng)新企業(yè)樂聚機(jī)器人近日達(dá)成合作,共同致力于探索“華為盤古大模型+夸父人形機(jī)器人”的全新應(yīng)用場(chǎng)景。這是華為云首次與人形機(jī)器人企業(yè)展開
    的頭像 發(fā)表于 03-25 10:49 ?554次閱讀

    富唯智能機(jī)器人集成了協(xié)作機(jī)器人、移動(dòng)機(jī)器人和視覺引導(dǎo)技術(shù)

    智能機(jī)器人還集成了協(xié)作機(jī)器人、移動(dòng)機(jī)器人和視覺引導(dǎo)技術(shù),具有物料高精度抓取或放置功能,可滿足各種復(fù)雜場(chǎng)景的協(xié)作搬運(yùn)需求。
    的頭像 發(fā)表于 01-17 11:58 ?371次閱讀

    LabVIEW的六軸工業(yè)機(jī)器人運(yùn)動(dòng)控制系統(tǒng)

    。LabVIEW的可視化編程環(huán)境和強(qiáng)大的數(shù)據(jù)處理能力,使得復(fù)雜的運(yùn)動(dòng)學(xué)算法和軌跡規(guī)劃得以順利實(shí)現(xiàn),顯著提高了工業(yè)機(jī)器人的控制精度和效率。 ? 這是LabVIEW的一個(gè)功能介紹,更多的使用方法與開發(fā)案例,歡迎登錄官網(wǎng),了解更多信息。有需要LabVIEW項(xiàng)目合作開發(fā),請(qǐng)與我們
    發(fā)表于 12-21 20:03

    基于視覺的自主導(dǎo)航移動(dòng)抓取機(jī)器人搭建方案

    經(jīng)過以上對(duì)移動(dòng)抓取機(jī)器人系統(tǒng)詳細(xì)的剖析,我們可以知道移動(dòng)抓取機(jī)器人系統(tǒng)并不是簡(jiǎn)單的“堆料”,而是以移動(dòng)底盤的智能路徑規(guī)劃、視覺識(shí)別、移動(dòng)底盤與抓取
    發(fā)表于 12-19 15:09 ?648次閱讀
    基于視覺的自主導(dǎo)航移動(dòng)<b class='flag-5'>抓取</b><b class='flag-5'>機(jī)器人</b>搭建方案

    機(jī)器人實(shí)現(xiàn)開發(fā)自由,探索精密工藝的機(jī)器人關(guān)節(jié)模組

    機(jī)器人關(guān)節(jié)是作為機(jī)器人各個(gè)部件之間相互連接的節(jié)點(diǎn),提供了必要的運(yùn)動(dòng)自由度。關(guān)節(jié)模組用其精確度和可靠性,確保了機(jī)器人在各個(gè)領(lǐng)域的高效率和高質(zhì)量表現(xiàn)。一體化關(guān)節(jié)使得機(jī)器人能夠模擬人類肢體的
    的頭像 發(fā)表于 12-08 15:35 ?458次閱讀

    ROS機(jī)器人開發(fā)更便捷,基于RK3568J+Debian系統(tǒng)發(fā)布!

    ,以及包管理。它也提供用于獲取、編譯、編寫、和跨計(jì)算機(jī)運(yùn)行代碼所需的工具和庫函數(shù)。圖1 隨著工業(yè)智能化的快速發(fā)展,智能機(jī)器人設(shè)備已成為工業(yè)自動(dòng)化體系的佼佼者,而智能機(jī)器人設(shè)備核心—RO
    發(fā)表于 11-30 16:01