0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一個(gè)基于TF2.0的強(qiáng)化學(xué)習(xí)訓(xùn)練工具

電子工程師 ? 來(lái)源:lq ? 2019-02-25 09:28 ? 次閱讀

近日,Github 一位開(kāi)發(fā)者 danaugrs 開(kāi)源了一個(gè)新項(xiàng)目——Huskarl,一個(gè)專注研究和快速原型的深度強(qiáng)化學(xué)習(xí)框架。

此框架基于 TensorFlow 2.0 構(gòu)建,使用了 tf.keras API,保證了其簡(jiǎn)潔性和可讀性。Huskarl 可以使多環(huán)境的并行計(jì)算變得很容易,這將對(duì)加速策略學(xué)習(xí)算法(比如 A2C 和 PPO)非常有用。此外,Huskarl 還可以與 OpenAI Gym 環(huán)境無(wú)縫結(jié)合,并將計(jì)劃支持多代理環(huán)境和 Unity3D 環(huán)境。

OpenAI Gym:2016 年 OpenAI 發(fā)布的一個(gè)可以開(kāi)發(fā)、對(duì)比強(qiáng)化學(xué)習(xí)算法的工具包,提供了各種環(huán)境、模擬任務(wù)等,任何人都可以在上面訓(xùn)練自己的算法。

Unity3D:一個(gè)全面整合的專業(yè)游戲引擎,由 Unity Technologies 開(kāi)發(fā)的一款可以讓玩家輕松創(chuàng)建三維視頻游戲、實(shí)時(shí)三維動(dòng)畫(huà)等類型互動(dòng)內(nèi)容的多平臺(tái)綜合型游戲開(kāi)發(fā)工具。

目前,Huskarl 已經(jīng)支持了 DQN(Deep Q-Learning Network)、Multi-step DQN、Double DQN、A2C(Advantage Actor-Critic)等算法,還有 DDPG(Deep Deterministic Policy Gradient)、PPO(Proximal Policy Optimization)、Curiosity-Driven Exploration 等算法在計(jì)劃中。

最重要的是,TF 2.0 的 nightly 已經(jīng)發(fā)布,這個(gè)開(kāi)源工具也是基于 TF2.0 開(kāi)發(fā)的,所以大家要先安裝一下 tf 2.0 nighty 版本。除此之外,還需要安裝以下工具和環(huán)境:

這個(gè)工具還是新鮮出爐燙手的呢,大家趕緊來(lái)嘗鮮試一下~

地址:

https://github.com/danaugrs/huskarl

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    263

    瀏覽量

    11158
  • tensorflow
    +關(guān)注

    關(guān)注

    13

    文章

    327

    瀏覽量

    60413
  • 開(kāi)源工具
    +關(guān)注

    關(guān)注

    0

    文章

    27

    瀏覽量

    4430

原文標(biāo)題:新鮮開(kāi)源:基于TF2.0的深度強(qiáng)化學(xué)習(xí)平臺(tái)

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

    預(yù)訓(xùn)練和遷移學(xué)習(xí)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的兩個(gè)重要概念,它們?cè)谔岣吣P托阅?、減少訓(xùn)練時(shí)間和降低
    的頭像 發(fā)表于 07-11 10:12 ?361次閱讀

    MATLAB如何使用訓(xùn)練好的網(wǎng)絡(luò)

    引言 在本文中,我們將探討如何在MATLAB中使用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是種強(qiáng)大的機(jī)器學(xué)習(xí)技術(shù),廣泛應(yīng)用于圖像識(shí)別、自然語(yǔ)言處理、預(yù)測(cè)建模等領(lǐng)域。MATLAB提供了豐富的工具箱,
    的頭像 發(fā)表于 07-03 10:06 ?622次閱讀

    深度學(xué)習(xí)模型訓(xùn)練過(guò)程詳解

    深度學(xué)習(xí)模型訓(xùn)練個(gè)復(fù)雜且關(guān)鍵的過(guò)程,它涉及大量的數(shù)據(jù)、計(jì)算資源和精心設(shè)計(jì)的算法。訓(xùn)練
    的頭像 發(fā)表于 07-01 16:13 ?488次閱讀

    通過(guò)強(qiáng)化學(xué)習(xí)策略進(jìn)行特征選擇

    更快更好地學(xué)習(xí)。我們的想法是找到最優(yōu)數(shù)量的特征和最有意義的特征。在本文中,我們將介紹并實(shí)現(xiàn)種新的通過(guò)強(qiáng)化學(xué)習(xí)策略的特征選擇。我們先討論強(qiáng)化學(xué)習(xí),尤其是馬爾可夫決策
    的頭像 發(fā)表于 06-05 08:27 ?224次閱讀
    通過(guò)<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>策略進(jìn)行特征選擇

    名單公布!【書(shū)籍評(píng)測(cè)活動(dòng)NO.30】大規(guī)模語(yǔ)言模型:從理論到實(shí)踐

    個(gè)文本質(zhì)量對(duì)比模型,用于對(duì)有監(jiān)督微調(diào)模型對(duì)于同一個(gè)提示詞給出的多個(gè)不同輸出結(jié)果進(jìn)行質(zhì)量排序。這階段的難點(diǎn)在于如何限定獎(jiǎng)勵(lì)模型的應(yīng)用范圍及如何構(gòu)建訓(xùn)練數(shù)據(jù)。
    發(fā)表于 03-11 15:16

    文詳解Transformer神經(jīng)網(wǎng)絡(luò)模型

    Transformer模型在強(qiáng)化學(xué)習(xí)領(lǐng)域的應(yīng)用主要是應(yīng)用于策略學(xué)習(xí)和值函數(shù)近似。強(qiáng)化學(xué)習(xí)是指讓機(jī)器在與環(huán)境互動(dòng)的過(guò)程中,通過(guò)試錯(cuò)來(lái)學(xué)習(xí)最優(yōu)的行為策略。
    發(fā)表于 02-20 09:55 ?1.1w次閱讀
    <b class='flag-5'>一</b>文詳解Transformer神經(jīng)網(wǎng)絡(luò)模型

    如何使用Python進(jìn)行圖像識(shí)別的自動(dòng)學(xué)習(xí)自動(dòng)訓(xùn)練?

    如何使用Python進(jìn)行圖像識(shí)別的自動(dòng)學(xué)習(xí)自動(dòng)訓(xùn)練? 使用Python進(jìn)行圖像識(shí)別的自動(dòng)學(xué)習(xí)和自動(dòng)訓(xùn)練需要掌握些重要的概念和技術(shù)。在本文中
    的頭像 發(fā)表于 01-12 16:06 ?446次閱讀

    Kaggle知識(shí)點(diǎn):訓(xùn)練神經(jīng)網(wǎng)絡(luò)的7個(gè)技巧

    科學(xué)神經(jīng)網(wǎng)絡(luò)模型使用隨機(jī)梯度下降進(jìn)行訓(xùn)練,模型權(quán)重使用反向傳播算法進(jìn)行更新。通過(guò)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型解決的優(yōu)化問(wèn)題非常具有挑戰(zhàn)性,盡管這些算法在實(shí)踐中表現(xiàn)出色,但不能保證它們會(huì)及時(shí)收斂到個(gè)
    的頭像 發(fā)表于 12-30 08:27 ?544次閱讀
    Kaggle知識(shí)點(diǎn):<b class='flag-5'>訓(xùn)練</b>神經(jīng)網(wǎng)絡(luò)的7<b class='flag-5'>個(gè)</b>技巧

    如何基于深度學(xué)習(xí)模型訓(xùn)練實(shí)現(xiàn)工件切割點(diǎn)位置預(yù)測(cè)

    Hello大家好,今天給大家分享下如何基于深度學(xué)習(xí)模型訓(xùn)練實(shí)現(xiàn)工件切割點(diǎn)位置預(yù)測(cè),主要是通過(guò)對(duì)YOLOv8姿態(tài)評(píng)估模型在自定義的數(shù)據(jù)集上訓(xùn)練,生成
    的頭像 發(fā)表于 12-22 11:07 ?606次閱讀
    如何基于深度<b class='flag-5'>學(xué)習(xí)</b>模型<b class='flag-5'>訓(xùn)練</b>實(shí)現(xiàn)工件切割點(diǎn)位置預(yù)測(cè)

    如何基于深度學(xué)習(xí)模型訓(xùn)練實(shí)現(xiàn)圓檢測(cè)與圓心位置預(yù)測(cè)

    Hello大家好,今天給大家分享下如何基于深度學(xué)習(xí)模型訓(xùn)練實(shí)現(xiàn)圓檢測(cè)與圓心位置預(yù)測(cè),主要是通過(guò)對(duì)YOLOv8姿態(tài)評(píng)估模型在自定義的數(shù)據(jù)集上訓(xùn)練,生成
    的頭像 發(fā)表于 12-21 10:50 ?1397次閱讀
    如何基于深度<b class='flag-5'>學(xué)習(xí)</b>模型<b class='flag-5'>訓(xùn)練</b>實(shí)現(xiàn)圓檢測(cè)與圓心位置預(yù)測(cè)

    拆解大語(yǔ)言模型RLHF中的PPO算法

    由于本文以大語(yǔ)言模型 RLHF 的 PPO 算法為主,所以希望你在閱讀前先弄明白大語(yǔ)言模型 RLHF 的前兩步,即 SFT Model 和 Reward Model 的訓(xùn)練過(guò)程。另外因?yàn)楸疚牟皇羌冎v強(qiáng)化學(xué)習(xí)的文章,所以我在敘述的時(shí)候不會(huì)假設(shè)你已經(jīng)非常了解
    的頭像 發(fā)表于 12-11 18:30 ?1837次閱讀
    拆解大語(yǔ)言模型RLHF中的PPO算法

    深度學(xué)習(xí)如何訓(xùn)練出好的模型

    算法工程、數(shù)據(jù)派THU深度學(xué)習(xí)在近年來(lái)得到了廣泛的應(yīng)用,從圖像識(shí)別、語(yǔ)音識(shí)別到自然語(yǔ)言處理等領(lǐng)域都有了卓越的表現(xiàn)。但是,要訓(xùn)練個(gè)高效準(zhǔn)確的深度學(xué)
    的頭像 發(fā)表于 12-07 12:38 ?947次閱讀
    深度<b class='flag-5'>學(xué)習(xí)</b>如何<b class='flag-5'>訓(xùn)練</b>出好的模型

    機(jī)器人和自動(dòng)化學(xué)習(xí)機(jī)會(huì)

    Hine Automation和ROOTS Education在合作創(chuàng)造主題更加相關(guān)、更易獲得的機(jī)器人和自動(dòng)化學(xué)習(xí)機(jī)會(huì)。此次合作是項(xiàng)積極舉措,旨在確保半導(dǎo)體行業(yè)擁有所需的訓(xùn)練有素的勞動(dòng)力,以解決技能短缺問(wèn)題并在未來(lái)幾年蓬勃發(fā)展
    的頭像 發(fā)表于 11-07 16:08 ?269次閱讀

    什么是強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的方式之,它與監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)并列,是三種機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 10-30 11:36 ?3470次閱讀
    什么是<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>

    NeurIPS 2023 | 擴(kuò)散模型解決多任務(wù)強(qiáng)化學(xué)習(xí)問(wèn)題

    擴(kuò)散模型(diffusion model)在 CV 領(lǐng)域甚至 NLP 領(lǐng)域都已經(jīng)有了令人印象深刻的表現(xiàn)。最近的些工作開(kāi)始將 diffusion model 用于強(qiáng)化學(xué)習(xí)(RL)中來(lái)解決序列決策問(wèn)題
    的頭像 發(fā)表于 10-02 10:45 ?656次閱讀
    NeurIPS 2023 | 擴(kuò)散模型解決多任務(wù)<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>問(wèn)題