国产18禁黄网站免费观看,中文有码无码人妻在线,欧美老熟乱妇43p

穿衣服是我們每天都會做的動作，對人類來說非常容易，比如在穿襯衫時，我們一手打開襯衫，另一只手會穿到袖子中，連同整個手臂穿入袖子，再換另一只手穿好另一邊的袖子。整個過程中，我們都會依靠觸覺，保證動作不會破壞衣服。但是目前還沒有能讓智能體自己穿衣的機器學習案例，想將人物和衣服之間這樣復雜的交互動作制作成動畫，依然是很大的挑戰(zhàn)。

最近，佐治亞理工學院的研究人員們提出了一種模型，可以讓強化學習智能體像人類一樣穿短袖、襯衫等衣服。以下是論智對原論文做的大致介紹：

為了用動畫模擬人們穿衣的動作，我們用到了物理模擬和機器學習，我們使用了一個物理引擎模擬人物和衣服的動作。為了生成任務動作，我們用強化學習訓練了一個神經(jīng)網(wǎng)絡，執(zhí)行人物控制衣服的策略。

由于每個人在穿衣服時的控制策略不同，每個策略的動作都是由任務和環(huán)境的狀態(tài)決定的。和其他運動或控制動作不同，穿衣服的動作并不遵循特定的運動軌跡，同時環(huán)境狀態(tài)也在高度變換，難以表示。所以我們用無模型的深度強化學習方法，用深度網(wǎng)絡自動探索穿衣控制策略。

深度強化學習最近受到很大關注，因為它可以大大減少降維需求，也無需選擇狀態(tài)空間和動作空間的特征。但是，直接在高維空間中學習、輸入狀態(tài)空間，對穿衣問題來說比較棘手，因為在這種場景下的計算成本非常大。所以，直接生成“穿衣策略”會嚴重影響獎勵函數(shù)、狀態(tài)和動作的設計，使得端到端學習方法變得不切實際。在這篇論文中，我們首次證明了，利用合適的輸入狀態(tài)空間和獎勵函數(shù)，是可以將模擬衣物嵌入到強化學習框架中的，從而學習一種穩(wěn)定的穿衣控制策略的。

觸覺感知

雖然穿衣的過程類似“移動”和“抓取”任務，但是與常見的操控任務不同的是，穿衣過程是依靠觸覺判斷任務的進行的。智能體需要學習用觸覺完成兩個相反的任務：施加力量將身體套在衣服上，同時還要避免力量過大損壞衣服。

在這一過程中，我們提出了一種可以表示觸覺信息的方法，用來指引穿衣過程。輸入到控制策略中的一部分環(huán)境狀態(tài)是一張觸覺地圖（haptic map），它可以測量智能體和模擬衣物之間接觸部分的力度。我們在智能體身上安置了一系列觸覺感應器，然后收集身體和衣服之間的接觸力量。感應器分布如下所示：

分辨正反

人們在穿衣時，會讓身體和衣服的內(nèi)側接觸，也就是說人類能很容易地分辨衣服的正反面，這對不具備視覺感應器的機器人來說也是個難題。為此，我們對每個觸覺感應器提供了相應的策略，可以區(qū)分衣物的內(nèi)側和外側。

如果感應器上的接觸力與該位置上面向外的頂點法線相反，那么就是-1，反之則為1.如果最后感應器收集的值為正數(shù)，那么我們就認為與感應器接觸的是衣服的內(nèi)里，反之則是外側。

除此之外，訓練期間的獎勵函數(shù)會根據(jù)觸覺狀態(tài)和采取的動作提供學習信號。例如，如果模型檢測到衣服發(fā)生變形，就會用獎勵函數(shù)進行懲罰。

策略程序算法

另一個遇到的挑戰(zhàn)就是，智能體在穿衣服時需要做一系列動作，例如先抓起襯衫，將手對準袖口，再將手穿過去。想讓單一的控制策略學習每一個步驟，并且一氣呵成是不可能的，原因仍然與計算成本有關。于是，我們將一整套穿衣流程分解成不同的子任務，對每個任務學習控制策略。每個穿衣動作的子任務都被設計成部分可觀測的馬爾可夫決策過程（POMDP），每個POMDP的解決方法都是隨機控制策略：π：O × A →[0, 1]。一個馬爾可夫決策過程是（S, A, r, ρ, Psas’, γ）的組合，其中S表示狀態(tài)空間，A表示動作空間，r是獎勵函數(shù)，ρ表示初始狀態(tài)s0的分布，Psas’是過渡概率，γ是折扣因子。我們的目標是優(yōu)化表示神經(jīng)網(wǎng)絡的策略π，讓積累的獎勵達到最大。

為了保證任務效果不會因為策略的改變而改變，我們提出了一種策略程序（Policy sequencing）算法，它可以將一種子任務中的輸出狀態(tài)分布與下一個子任務的輸入分布按順序相匹配。

要為一個子任務生成成功策略需要數(shù)小時的模擬和優(yōu)化。高計算成本也有好處，這樣一來，最終結果就不是單一的動畫，而是智能體的控制策略，可以處理多種情況，比如不同的衣服位置和人物動作，如果過程中有干擾，會利用控制策略進行修正。

結果

模擬小人穿t-shirt

模擬小人穿對開式衣服

模擬小人在輔助工具下穿衣

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

智能體

智能體

+關注

關注
1

文章
119

瀏覽量
10537
強化學習

強化學習

+關注

關注
4

文章
263

瀏覽量
11158

原文標題：效果驚艷！強化學習讓智能體像人類一樣穿衣服

文章出處：【微信號：jqr_AI，微信公眾號：論智】歡迎添加關注！文章轉載請注明出處。

什么是深度強化學習?深度強化學習算法應用分析

什么是深度強化學習? 眾所周知，人類擅長解決各種挑戰(zhàn)性的問題，從低級的運動控制(如：步行、跑步、打網(wǎng)球)到高級的認知任務。

發(fā)表于 07-01 10:29 ?1331次閱讀

什么是深度<b class='flag-5'>強化學習</b>?深度<b class='flag-5'>強化學習</b>算法應用分析

深度強化學習實戰(zhàn)

測試)三、主講內(nèi)容1:課程一、強化學習簡介課程二、強化學習基礎課程三、深度強化學習基礎課程四、多智能體

發(fā)表于 01-10 13:42

將深度學習和強化學習相結合的深度強化學習DRL

深度強化學習DRL自提出以來，已在理論和應用方面均取得了顯著的成果。尤其是谷歌DeepMind團隊基于深度強化學習DRL研發(fā)的AlphaGo，將深度強化學習DRL成推上新的熱點和高度，成為人工

發(fā)表于 06-29 18:36 ?2.8w次閱讀

高明！OpenAI提出HER算法，人工智能可像人類一樣認識錯誤汲取教訓

OpenAI的研究人員集中精力于構建具有更強的學習能力的人工智能。得益于他們的增強學習系統(tǒng)OpenAI baselines，機器學習算法可以進行自主

發(fā)表于 05-01 16:35 ?4050次閱讀

機器能像嬰兒一樣通過眼睛學習世界？

在Facebook人工智能實驗室負責人楊樂昆（Yann LeCun）看來，人類既然已經(jīng)教會機器辨別圖片，甚至能做到人臉識別，那么機器也能識別視頻。而教會機器學習視頻的方法與嬰兒學習相似

發(fā)表于 05-17 19:21 ?563次閱讀

人工智能機器學習之強化學習

強化學習是智能系統(tǒng)從環(huán)境到行為映射的學習，以使獎勵信號（強化信號）函數(shù)值最大，強化學習不同于連接主義學習

發(fā)表于 05-30 06:53 ?1358次閱讀

什么是強化學習？純強化學習有意義嗎？強化學習有什么的致命缺陷？

強化學習是人工智能基本的子領域之一，在強化學習的框架中，智能體通過與環(huán)境互動，來

發(fā)表于 07-15 10:56 ?1.7w次閱讀

強化學習環(huán)境研究，智能體玩游戲為什么厲害

強化學習作為一種常用的訓練智能體的方法，能夠完成很多復雜的任務。在強化學習中，智能

發(fā)表于 08-18 11:38 ?3534次閱讀

基于強化學習的MADDPG算法原理及實現(xiàn)

之前接觸的強化學習算法都是單個智能體的強化學習算法，但是也有很多重要的應用場景牽涉到多個智能體之

發(fā)表于 11-02 16:18 ?2.2w次閱讀

如何測試強化學習智能體適應性

強化學習（RL）能通過獎勵或懲罰使智能體實現(xiàn)目標，并將它們學習到的經(jīng)驗轉移到新環(huán)境中。

發(fā)表于 12-24 09:29 ?3148次閱讀

深度強化學習能讓機器人擁有人一樣的意識

一種人工智能系統(tǒng)，即通過深度強化學習來學習走路，簡單來說，就是教“一個四足機器人來穿越熟悉和不熟悉的地形”。

發(fā)表于 01-03 09:50 ?3374次閱讀

DeepMind發(fā)布強化學習庫RLax

RLax（發(fā)音為“ relax”）是建立在JAX之上的庫，它公開了用于實施強化學習智能體的有用構建塊。。報道：深度強化學習實驗室作者：DeepRL ...

發(fā)表于 12-10 18:43 ?638次閱讀

一種新型的多智能體深度強化學習算法

一種新型的多智能體深度強化學習算法

發(fā)表于 06-23 10:42 ?36次下載

語言模型做先驗，統(tǒng)一強化學習智能體，DeepMind選擇走這條通用AI之路

在智能體的開發(fā)中，強化學習與大語言模型、視覺語言模型等基礎模型的進一步融合究竟能擦出怎樣的火花？谷歌 DeepMind 給了我們新的答案。

發(fā)表于 07-24 16:55 ?460次閱讀

什么是強化學習

的AlphaStar，他們都是強化學習模型。諸如此類的模型還有 AlphaGo Zero 等。 強化學習的原理非常簡單，它非常像心理學中新行為主義派的斯金納發(fā)現(xiàn)的操作性條件反射。操作

發(fā)表于 10-30 11:36 ?3469次閱讀

搜索歷史

讓強化學習智能體像人類一樣穿短袖、襯衫等衣服

評論

什么是深度強化學習?深度強化學習算法應用分析

深度強化學習實戰(zhàn)

將深度學習和強化學習相結合的深度強化學習DRL

高明！OpenAI提出HER算法，人工智能可像人類一樣認識錯誤汲取教訓

機器能像嬰兒一樣通過眼睛學習世界？

人工智能機器學習之強化學習

什么是強化學習？純強化學習有意義嗎？強化學習有什么的致命缺陷？

強化學習環(huán)境研究，智能體玩游戲為什么厲害

基于強化學習的MADDPG算法原理及實現(xiàn)

如何測試強化學習智能體適應性

深度強化學習能讓機器人擁有人一樣的意識

DeepMind發(fā)布強化學習庫RLax

一種新型的多智能體深度強化學習算法

語言模型做先驗，統(tǒng)一強化學習智能體，DeepMind選擇走這條通用AI之路

什么是強化學習

搜索歷史

讓強化學習智能體像人類一樣穿短袖、襯衫等衣服

評論

讓強化學習智能體像人類一樣穿短袖、襯衫等衣服