0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

基于帶約束強化學習的高效能在線碼垛機器人

電子設計 ? 來源:機器之心 ? 作者:機器之心 ? 2021-01-13 15:22 ? 次閱讀

國防科技大學、克萊姆森大學和視比特機器人的研究人員合作使用深度強化學習求解在線裝箱問題,該方法的性能表現(xiàn)優(yōu)于現(xiàn)有的啟發(fā)式算法。用戶研究顯示,該算法達到甚至超越了人類的在線碼垛水平。作者團隊還將訓練模型部署到了工業(yè)機器人上,實現(xiàn)了業(yè)界首個高效能(連續(xù)碼放 50 個以上隨機尺寸箱子,空間利用率大于 70%)無序混合碼垛機器人。

在物流倉儲場景中,無序混合紙箱碼垛機器人有著大量的應用需求。對于亂序到來的、多種尺寸規(guī)格的箱子,如何用機器人實現(xiàn)自動、高效的碼垛,節(jié)省人力的同時提升物流周轉(zhuǎn)效率,是物流倉儲自動化的一個難點問題。其核心是求解裝箱問題(Bin Packing Problem,BPP)這一經(jīng)典的 NP 難題,即為每一個紙箱規(guī)劃在容器中的擺放位置,以最大化容器的空間利用率。求解 BPP 問題的傳統(tǒng)方法大多是基于啟發(fā)式規(guī)則的搜索。

在實際應用場景中,機器人往往無法預先看到傳送帶上即將到來的所有箱子,因而無法對整個箱子序列進行全局最優(yōu)規(guī)劃。因而現(xiàn)有的 BPP 方法無法被直接用于真實物流場景。

事實上,人可以根據(jù)即將到來的幾個箱子的形狀尺寸,很快地做出決策,并不需要、也無法做到對整個箱子序列的全局規(guī)劃。這種僅僅看到部分箱子序列的裝箱問題,稱為在線裝箱問題(Online BPP)。物流輸送線邊上的箱子碼垛任務一般都可以描述為 Online BPP 問題。因此,該問題的求解對于開發(fā)真正實用的智能碼垛機器人有重要意義。

在 Online BPP 問題中,機器人僅能觀察到即將到來的 k 個箱子的尺寸信息(即前瞻 k 個箱子),我們稱其為 BPP-k 問題。對按序到來的箱子,機器人必須立即完成規(guī)劃和擺放,不允許對已經(jīng)擺放的箱子進行調(diào)整,同時要滿足箱子避障和放置穩(wěn)定性的要求,最終目標是最大化容器的空間利用率。Online BPP 問題的復雜度由箱子規(guī)格、容器大小、箱子序列的分布情況、前瞻數(shù)量等因素共同決定。由于僅知道部分箱子序列的有限信息,以往的組合優(yōu)化方法難以勝任。

近日,國防科技大學、克萊姆森大學和視比特機器人的研究人員合作提出了使用深度強化學習求解這一問題。該算法性能優(yōu)異,實現(xiàn)簡單,可適用于任意多個前瞻箱子的情形,擺放空間利用率達到甚至超過人類水平。同時,該團隊結(jié)合 3D 視覺技術(shù),實現(xiàn)了業(yè)界首個高效能無序混合碼垛機器人。論文已被人工智能頂會 AAAI 2021 大會接收。

o4YBAF_-np6AUEspAAF2MPhDmpg560.png

方法介紹

作者使用帶約束的深度強化學習求解 BPP-1 問題,即只能前瞻一個箱子的情形。然后基于蒙特卡洛樹搜索實現(xiàn)了從 BPP-1 到 BPP-k 的拓展。下圖 1 給出了 BPP-1 和 BPP-k 問題的場景示意。

pIYBAF_-nq2AUqm0AAOS8OFeF2Y384.png

圖 1(上):BPP-1的場景示意,綠色箱子為前瞻箱子。

pIYBAF_-nrqAdBHNAAMqlip7b1Y267.png

圖1(下):BPP-k 問題的場景示意,綠色箱子為前瞻箱子。

基于帶約束強化學習的 BPP-1 求解

強化學習是一種通過自我演繹并從經(jīng)驗中學習執(zhí)行策略的算法,很適合求解 Online BPP 這種基于動態(tài)變化觀察的序列決策問題。同時,堆箱子過程的模擬仿真非常「廉價」,因而強化學習算法可以在模擬環(huán)境中大量執(zhí)行,并從經(jīng)驗中學習碼垛策略。

然而,將強化學習算法應用到 Online BPP 上面臨幾個方面的挑戰(zhàn):首先,如果將水平放置面劃分成均勻網(wǎng)格,BPP 的動作空間會非常大,而樣本效率低下的強化學習算法并不擅長應對大動作空間的問題;此外,如何讓強化學習算法更加魯棒、高效地學習箱子放置過程中的物理約束(如碰撞避免、穩(wěn)定支持等),也是需要專門設計的。

為了提升算法的學習效率,同時保證碼放的物理可行性和穩(wěn)定性,作者在 Actor-Critic 框架基礎上引入了一種「預測 - 投影」的動作監(jiān)督機制(圖 2)。該方法在學習 Actor 的策略網(wǎng)絡和 Critic 的 Q 值(未來獎勵的期望)網(wǎng)絡之外,還讓智能體「預測」當前狀態(tài)下的可行動作空間(可行掩碼,feasibility mask)。在訓練過程中,依據(jù)預測得到的可行掩碼將探索動作「投影」到可行動作空間內(nèi),再進行動作采樣。這樣的有監(jiān)督可行性預測方法,一方面可以讓強化學習算法快速學習到物理約束,另一方面也盡可能避免了訓練中箱子放置到不可行位置而提前終止序列,從而顯著提升訓練效率。

pIYBAF_-nsiAPUnpAAFdyUloQBc936.png

圖 2:基于「預測 - 投影」的動作監(jiān)督機制實現(xiàn)帶約束的深度強化學習。

基于蒙特卡洛樹搜索的 BPP-k 擴展

pIYBAF_-nteAV_8nAAF8W4iD0zE192.png

圖 3:本文算法的空間利用率與前瞻箱子個數(shù)正相關(guān)。

如果算法能夠在碼放當前箱子的同時考慮之后到來的箱子尺寸,可能會得到更好的碼放效果(如圖 3 所示)。對于前瞻 k(k》1)個箱子的情況,一種方法是直接學習前瞻多個箱子的碼放策略。但是,這種策略往往難以在任意前瞻箱子數(shù)目上很好地泛化。針對不同的 k 單獨訓練一種策略顯然是不夠聰明的做法。

對此,本文的處理方法是基于 BPP-1 這一基礎策略,通過排序樹搜索的方法拓展到 BPP-k 的情況。事實上,前瞻多個箱子的基本思想,就是在擺放當前箱子時,為后續(xù)箱子「預留」合適的空間,以使得這些箱子的整體擺放空間利用率更高?!割A留」暗含了對于 k 個前瞻箱子的不同排序。因此,我們只需要搜索 k 個前瞻箱子的不同排序(圖 4),找出一種空間利用率最高的排序,該序列所對應的當前箱子的擺放位置,即為當前箱子的最佳擺放位置。這樣的處理方式,等同于在當前箱子的擺放過程中考慮了后來的箱子。不過,需要注意的是,在這些虛擬的擺放序列中,實際順序中先到的箱子不能擺在后到的上面。

o4YBAF_-nuGAfU0FAADPj1B_bkU008.png

圖 4:箱子的真實順序(左上)和虛擬重排順序(左下,實際順序靠前的箱子不能放在實際順序靠后箱子的上面),右邊展示了不同序列的排序樹。

顯然,考慮所有的排序可能很快帶來組合爆炸問題。為此,作者使用蒙特卡洛樹搜索(MCTS)來減小搜索空間。作者基于 critic 網(wǎng)絡輸出的 Q 值,對從當前狀態(tài)之后可能得到的獎勵進行估計。在排序樹搜索過程中,優(yōu)先選擇可能得到更高獎勵的節(jié)點進行展開。這樣可將搜索復雜度控制在線性級別。

此外,作者還介紹了處理箱子水平旋轉(zhuǎn)和多容器碼放的擴展情況。如果碼放過程中允許箱子水平旋轉(zhuǎn),則只需將 BPP-1 模型中的動作空間和可行掩碼同時復制,分別處理兩種朝向。針對多容器碼放,算法需要對箱子放入每個容器所帶來的 Q 值變化進行量化:作者使用 critic 網(wǎng)絡對箱子碼放到某個容器前后的 Q 值進行評估,每次都將箱子放入 Q 值下降最小的容器內(nèi)。

實驗結(jié)果

在 BPP-1 上,作者將本文方法和其他啟發(fā)式算法進行了對比(圖 5)。在三種不同數(shù)據(jù)集上,基于深度強化學習算法的性能顯著優(yōu)于人為設計啟發(fā)式規(guī)則(尤其是面向 Online BPP 的)。

pIYBAF_-nuyAamRNAADFxWRVpUc183.png

圖 5:深度強化學習算法和啟發(fā)式算法在 BPP-1 問題上的性能(擺放箱子數(shù)目和空間利用率)對比。

同樣在 BPP-1 問題上,作者針對不同的約束項進行了消融實驗(圖 6):MP - 可行掩碼預測;MC - 可行掩碼投影;FE - 動作熵(多樣性)最大化。實驗結(jié)果表明,在訓練過程中加入可行動作約束對訓練效果有顯著提升。

pIYBAF_-nwuAHhY3AAIoNhFxjPo492.png

圖 6:本文算法在 BPP-1 問題上的消融實驗

作者在 BPP-k 上驗證了排序樹搜索可以使空間利用率隨著前瞻數(shù)量 k 的提升而提升(圖 7b),而使用蒙特卡洛樹搜索可以在不明顯影響性能的前提下,顯著降低排序樹搜索的時間開銷(圖 7a)。此外,作者針對 BPP-1 進行了用戶研究,比較本文 BPP-1 算法和人擺放的空間利用率。如圖 7c 所示,本文方法超越了人類擺放的性能:在總共 1851 個高難度隨機箱子序列中,人類獲勝的次數(shù)是 406 次,平均性能表現(xiàn)是 52.1%,而強化學習獲勝的次數(shù)是 1339 次,平均性能表現(xiàn)是 68.9%。

pIYBAF_-nxWAfAcJAADoeHV_tcE163.png

圖 7 (a):窮舉排序數(shù)搜索和 MCTS 算法的時間開銷對比;(b):窮舉排序數(shù)搜索和 MCTS 算法的時間開銷對比;(c):本文算法、啟發(fā)式算法 BPH 和人類用戶的碼放性能對比。

對于不同的前瞻箱子數(shù),本文方法和啟發(fā)式算法 BPH 的性能對比情況如圖 8 所示。盡管 BPH 算法允許對前瞻箱子的順序進行任意調(diào)整而本文方法不允許,但本文方法仍然能取得更好的性能。

o4YBAF_-nyCAJFCjAAC6EQFyyW4851.png

圖 8:在三個數(shù)據(jù)集上的 BPP-k 任務中,深度強化學習算法與啟發(fā)式算法的性能對比。

為驗證本文算法的有效性,作者團隊將模型部署到工業(yè)機器人上,實現(xiàn)了一個智能碼垛機器人(圖 9,查看完整視頻)。將仿真環(huán)境訓練的策略應用到真實環(huán)境,涉及從虛擬到真實環(huán)境的策略遷移(Sim2Real)問題。為此,作者基于「Real2Sim」的思路,采用 3D 視覺算法,實時檢測容器上箱子的真實擺放情況,并轉(zhuǎn)換為與虛擬世界對應的理想 box 表示,作為強化學習模型的輸入。對于亂序到來的隨機尺寸箱子,該機器人能夠連續(xù)、穩(wěn)定、快速碼放數(shù)十個箱子,容器空間利用率達到 70% 以上,性能遠超現(xiàn)有同類型機器人。

圖9: 基于深度強化學習的高效能無序混合碼垛機器人。
編輯:hfy

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    210

    文章

    27838

    瀏覽量

    204592
  • 工業(yè)機器人
    +關(guān)注

    關(guān)注

    91

    文章

    3338

    瀏覽量

    92358
收藏 人收藏

    評論

    相關(guān)推薦

    碼垛機器人的優(yōu)點詳細介紹

      在這個以智能化為標志的時代,在生產(chǎn)作業(yè)過程中使用機器人已經(jīng)是越來越普遍的現(xiàn)象了。對于紡織企業(yè)來說,碼垛機器人恰巧可以幫助他們解決包裝、搬運、碼垛、裝車、入庫等實際問題,讓他們在生產(chǎn)
    發(fā)表于 01-20 14:09

    搬運碼垛機器人

    教育機器人搬運碼垛套件采用Openduino龍寶貝機械手完成不同色塊的搬運碼垛任務。Openduino龍寶貝機械人手由兩輪差動移動平臺和
    發(fā)表于 03-29 10:22

    搬運碼垛教育機器人-鷗鵬科技

    `小型搬運碼垛機器人是專門為實現(xiàn)小型柱狀物料搬運及碼垛的移動機械手,能夠完成中國教育機器人。大賽的搬運碼垛競賽任務。
    發(fā)表于 04-01 14:18

    電銷機器人的優(yōu)點

    而言較低,每月花費僅千元你就可以獲得一位高效能、低成本、永不疲憊、永不離職的電銷精英!且大數(shù)訊智能電話機器人每天可撥打電話2000通左右,還能在通話過程中根據(jù)客戶的意向?qū)⒖蛻舴譃閺腁到E五類。可以針對
    發(fā)表于 06-12 10:27

    碼垛機器人夾抓可以實現(xiàn)多少種用途

    ``力泰科技資訊:碼垛機械手作為工業(yè)碼垛機器人的重要組成部分之一,可根據(jù)不同的產(chǎn)品,設計不同類型的機械夾抓,從而讓碼垛機器人具備效率高、質(zhì)量
    發(fā)表于 08-15 09:55

    碼垛機器人都有哪些特點

    用較大的庫房面積。同時碼垛機器人可以設置在狹窄的空間里?! ?.耗低。通常機械式的碼垛機的功率在26KW左右,而碼垛機器人的功率為5KW左右
    發(fā)表于 02-23 17:10

    一種工業(yè)機器人碼垛實操工作站

    ZNL-MD06型 工業(yè)機器人碼垛實操工作站一、概述ZNL-MD06型 工業(yè)機器人碼垛實操工作站設備主要開展碼垛技術(shù)的培訓,可滿足學生動手能
    發(fā)表于 07-01 13:32

    機器人搬運碼垛工作站介紹

    ZNRGZ-4機器人搬運碼垛工作站一、產(chǎn)品概述ZNRGZ-4機器人搬運碼垛工作站以工業(yè)機器人機器
    發(fā)表于 07-01 08:20

    ZN-980B機器人搬運碼垛工作站介紹

    ZN-980B機器人搬運碼垛工作站一、產(chǎn)品概述ZN-980B機器人搬運碼垛工作站以工業(yè)機器人機器
    發(fā)表于 07-01 12:48

    四足機器人的機構(gòu)設計

    四足機器人屬于復雜機電系統(tǒng),需要綜合生物、機械、電子、控制等學科內(nèi)容,具體涉及仿生機構(gòu)設計、靈巧運動機構(gòu)設計、高性能驅(qū)動器制造,行走穩(wěn)定性控制、強化學習等在內(nèi)的多個研究方向。其中,機構(gòu)設計是保障四足
    發(fā)表于 09-15 06:54

    基于LCS和LS-SVM的多機器人強化學習

    本文提出了一種LCS和LS-SVM相結(jié)合的多機器人強化學習方法,LS-SVM獲得的最優(yōu)學習策略作為LCS的初始規(guī)則集。LCS通過與環(huán)境的交互,能更快發(fā)現(xiàn)指導多機器人
    發(fā)表于 01-09 14:43 ?0次下載

    機器人的應用日漸廣泛 對工業(yè)生產(chǎn)與提高效能有重要作用

    機器人的應用日漸廣泛,對工業(yè)生產(chǎn)與提高效能有重要作用。工業(yè)機器人主要利用伺服電機進行運動控制,從而實現(xiàn)移動和抓取工具。本文將詳細討論伺服電機的特點以及不同類型伺服電機相應的控制原理。
    的頭像 發(fā)表于 05-19 10:23 ?3889次閱讀

    一文詳談機器學習強化學習

    強化學習屬于機器學習中的一個子集,它使代理能夠理解在特定環(huán)境中執(zhí)行特定操作的相應結(jié)果。目前,相當一部分機器人就在使用強化學習掌握種種新能力。
    發(fā)表于 11-06 15:33 ?1676次閱讀

    機器人遇見強化學習,會碰出怎樣的火花?

    機器人遇見強化學習,會碰出怎樣的火花? 一名叫 Cassie 的機器人,給出了生動演繹。 最近,24 歲的中國南昌小伙李鐘毓和其所在團隊,用強化學習教 Cassie 走路 ,目前它已
    的頭像 發(fā)表于 04-13 09:35 ?2339次閱讀
    當<b class='flag-5'>機器人</b>遇見<b class='flag-5'>強化學習</b>,會碰出怎樣的火花?

    碼垛機器人的結(jié)構(gòu)組成

    碼垛機器人是由哪些結(jié)構(gòu)組成的?隨著工業(yè)自動化的不斷發(fā)展,越來越多的企業(yè)實現(xiàn)了碼垛自動化,為了更好地使用碼垛機器人,需要對
    的頭像 發(fā)表于 02-06 09:47 ?2517次閱讀