综合日本亚洲国产欧美,日韩性爱无码高清视频,久久久无码人妻精品无码

強(qiáng)化學(xué)習(xí)是一種非常重要 AI 技術(shù)，它能使用獎(jiǎng)勵(lì)（或懲罰）來驅(qū)動(dòng)智能體（agents）朝著特定目標(biāo)前進(jìn)，比如它訓(xùn)練的 AI 系統(tǒng) AlphaGo 擊敗了頂尖圍棋選手，它也是 DeepMind 的深度 Q 網(wǎng)絡(luò)（DQN）的核心部分，它可以在多個(gè) workers 之間分步學(xué)習(xí)，例如，在 Atari 2600 游戲中實(shí)現(xiàn)“超人”性能。

麻煩的是，強(qiáng)化學(xué)習(xí)框架需要花費(fèi)大量時(shí)間來掌握一個(gè)目標(biāo)，而且框架往往是不靈活和不總是穩(wěn)定的。

但不用擔(dān)心，Google 近日發(fā)布了一個(gè)替代方案：基于 TensorFlow 的開源強(qiáng)化學(xué)習(xí)框架 Dopamine（多巴胺）。

Google 的博文中提到，這個(gè)基于 Tensorflow 的強(qiáng)化學(xué)習(xí)框架，旨在為 RL 的研究人員提供靈活性，穩(wěn)定性和可重復(fù)性的研究。受到大腦中獎(jiǎng)勵(lì)動(dòng)機(jī)行為的主要成分的啟發(fā)，以及反映神經(jīng)科學(xué)與強(qiáng)化學(xué)習(xí)研究之間強(qiáng)烈的歷史聯(lián)系，該平臺(tái)旨在實(shí)現(xiàn)可推動(dòng)激進(jìn)發(fā)現(xiàn)的思辨研究（speculative research）。此版本還包括一組闡明如何使用整個(gè)框架的 colabs。

除了強(qiáng)化學(xué)習(xí)框架的發(fā)布，谷歌還推出了一個(gè)網(wǎng)站（https://google.github.io/dopamine/baselines/plots.html），允許開發(fā)人員快速可視化多個(gè)智能體的訓(xùn)練運(yùn)行情況。他們希望，這一框架的靈活性和易用性將使研究人員能積極嘗試新的想法，不管是漸進(jìn)式還是激進(jìn)式的想法。

引入靈活和可重復(fù)的強(qiáng)化學(xué)習(xí)研究的新框架

強(qiáng)化學(xué)習(xí)（RL）研究在過去幾年中取得了許多重大進(jìn)展。這些進(jìn)步使得智能體可以以超人類級(jí)別的能力玩游戲。比如 Atari 游戲中 DeepMind 的 DQN ，AlphaGo ，AlphaGo Zero 以及 Open AI Five。

具體而言，在 DQN 中引入 replay memories 可以利用以前的智能體經(jīng)驗(yàn)，大規(guī)模的分布式訓(xùn)練可以在多個(gè) workers 之間分配學(xué)習(xí)過程，分布式方法允許智能體模擬完整的分布過程，而不僅僅是模擬它們期望值，以學(xué)習(xí)更完整的圖景。這種類型的進(jìn)展很重要，因?yàn)槌霈F(xiàn)這些進(jìn)步的算法還適用于其他領(lǐng)域，例如機(jī)器人技術(shù)。

通常，這種進(jìn)步都來自于快速迭代設(shè)計(jì)（通常沒有明確的方向），以及顛覆既定方法的結(jié)構(gòu)。然而，大多數(shù)現(xiàn)有的 RL 框架并沒有結(jié)合靈活性和穩(wěn)定性以及使研究人員能夠有效地迭代 RL 方法，并因此探索可能沒有直接明顯益處的新研究方向。此外，從現(xiàn)有框架再現(xiàn)結(jié)果通常太耗時(shí)，這可能導(dǎo)致科學(xué)的再現(xiàn)性問題。

今天，我們推出了一個(gè)新的基于 Tensorflow 的框架，旨在為 RL 的研究人員提供靈活性、穩(wěn)定性和可重復(fù)性。受到大腦中獎(jiǎng)勵(lì)動(dòng)機(jī)行為的主要成分的啟發(fā)，以及反映神經(jīng)科學(xué)與強(qiáng)化學(xué)習(xí)研究之間強(qiáng)烈的歷史聯(lián)系，該平臺(tái)旨在實(shí)現(xiàn)可推動(dòng)激進(jìn)發(fā)現(xiàn)的思辨研究（speculative research）。此版本還包括一組闡明如何使用整個(gè)框架的 colabs。

易用性

清晰和簡潔是該框架設(shè)計(jì)中要考慮的兩個(gè)關(guān)鍵因素。我們提供更精簡的代碼（大約 15 個(gè)Python 文件），并且有詳細(xì)記錄。這是通過專注于 Arcade 學(xué)習(xí)環(huán)境（一個(gè)成熟的，易于理解的基準(zhǔn)）和四個(gè)基于 value 的智能體來實(shí)現(xiàn)的：DQN，C51，一個(gè)精心策劃的 Rainbow 智能體的簡化版本，以及隱式分位數(shù)網(wǎng)絡(luò)（Implicit Quantile Network）智能體，這已在上個(gè)月的 ICML 大會(huì)上已經(jīng)發(fā)表。我們希望這種簡潔性使研究人員能夠輕松了解智能體內(nèi)部的運(yùn)作狀況，并積極嘗試新的想法。

可重復(fù)性

我們對(duì)重復(fù)性在強(qiáng)化學(xué)習(xí)研究中的重要性特別敏感。為此，我們?yōu)榇a提供完整的測試覆蓋率，這些測試也可作為其他文檔形式。此外，我們的實(shí)驗(yàn)框架遵循 Machado 等人給出的關(guān)于使用 Arcade 學(xué)習(xí)環(huán)境標(biāo)準(zhǔn)化經(jīng)驗(yàn)評(píng)估的建議。

基準(zhǔn)測試

對(duì)于新的研究人員來說，能夠根據(jù)既定方法快速對(duì)其想法進(jìn)行基準(zhǔn)測試非常重要。因此，我們?yōu)?Arcade 學(xué)習(xí)環(huán)境支持的 60 個(gè)游戲提供四個(gè)智能體的完整培訓(xùn)數(shù)據(jù)，可用作 Python pickle 文件（用于使用我們框架訓(xùn)練的智能體）和 JSON 數(shù)據(jù)文件（用于與受過其他框架訓(xùn)練的智能體進(jìn)行比較）；我們還提供了一個(gè)網(wǎng)站，你可以在其中快速查看 60 個(gè)游戲中所有智能體的訓(xùn)練運(yùn)行情況。

下面展示我們?cè)?Seaquest 上的 4 個(gè)代理的訓(xùn)練情況，這是由 Arcade 學(xué)習(xí)環(huán)境支持的一種 Atari 2600 游戲。

在 Seaquest 上的 4 名智能體參加了訓(xùn)練。x 軸表示迭代，其中每次迭代是 100 萬個(gè)游戲幀（4.5 小時(shí)的實(shí)時(shí)游戲）；y 軸是每場比賽獲得的平均分?jǐn)?shù)。陰影區(qū)域顯示的是來自 5 次獨(dú)立運(yùn)行的置信區(qū)間。

我們還提供已經(jīng)訓(xùn)練好的深度網(wǎng)絡(luò)，原始統(tǒng)計(jì)日志以及用 Tensorboard 繪圖的 Tensorflow 事件文件。這些都可以在網(wǎng)站的下載部分找到。

希望我們框架的靈活性和易用性將使研究人員敢于嘗試新的想法，包括漸進(jìn)式和激進(jìn)式的想法。我們已經(jīng)積極地將它用于我們的研究，并發(fā)現(xiàn)它能夠靈活且快速迭代許多想法。我們很高興可以為更大的社區(qū)做些貢獻(xiàn)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

Google

Google

+關(guān)注

關(guān)注
5

文章
1748

瀏覽量
57181
AI

AI

+關(guān)注

關(guān)注
87

文章
28875

瀏覽量
266195

原文標(biāo)題：Google發(fā)布“多巴胺”開源強(qiáng)化學(xué)習(xí)框架，三大特性全滿足

文章出處：【微信號(hào)：CAAI-1981，微信公眾號(hào)：中國人工智能學(xué)會(huì)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

PGA280的MUX配置是要選擇哪路信號(hào)？

我找遍PDF也不知道MUX配置是要選擇哪路信號(hào)。比如說3'b000是選通哪兩路？？

發(fā)表于 09-12 07:08

NVIDIA推出全新深度學(xué)習(xí)框架fVDB

在 SIGGRAPH 上推出的全新深度學(xué)習(xí)框架可用于打造自動(dòng)駕駛汽車、氣候科學(xué)和智慧城市的 AI 就緒型虛擬表示。

發(fā)表于 08-01 14:31 ?406次閱讀

TensorFlow與PyTorch深度學(xué)習(xí)框架的比較與選擇

學(xué)習(xí)框架，它們各自擁有獨(dú)特的特點(diǎn)和優(yōu)勢。本文將從背景介紹、核心特性、操作步驟、性能對(duì)比以及選擇指南等方面對(duì)TensorFlow和PyTorch進(jìn)行詳細(xì)比較，以幫助讀者了解這兩個(gè)框架的優(yōu)

發(fā)表于 07-02 14:04 ?574次閱讀

使用google-translate和wwe合并后無法使用google-tts怎么解決？

我打算使用lyrat-mini做一個(gè)使用喚醒詞喚醒然后后續(xù)通過google-sr和google-tts進(jìn)行交流的聊天機(jī)器人，但是當(dāng)我合并了adf的例子中的wwe和google-translate之后

發(fā)表于 06-28 06:05

通過強(qiáng)化學(xué)習(xí)策略進(jìn)行特征選擇

更快更好地學(xué)習(xí)。我們的想法是找到最優(yōu)數(shù)量的特征和最有意義的特征。在本文中，我們將介紹并實(shí)現(xiàn)一種新的通過強(qiáng)化學(xué)習(xí)策略的特征選擇。我們先討論強(qiáng)化學(xué)習(xí)，尤其是馬爾可夫決策

發(fā)表于 06-05 08:27 ?224次閱讀

通過<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>策略進(jìn)行特征選擇

谷歌模型框架是什么軟件？谷歌模型框架怎么用？

谷歌模型框架通常指的是谷歌開發(fā)的用于機(jī)器學(xué)習(xí)和人工智能的軟件框架，其中最著名的是TensorFlow。TensorFlow是一個(gè)開源的機(jī)器學(xué)習(xí)框架

發(fā)表于 03-01 16:25 ?642次閱讀

谷歌模型框架是什么？有哪些功能和應(yīng)用？

谷歌模型框架（Google Model Framework）并不是一個(gè)特定的框架，而是指谷歌開發(fā)的一系列軟件框架，用于支持機(jī)器學(xué)習(xí)和人工智能

發(fā)表于 02-29 18:11 ?1222次閱讀

一文詳解Transformer神經(jīng)網(wǎng)絡(luò)模型

Transformer模型在強(qiáng)化學(xué)習(xí)領(lǐng)域的應(yīng)用主要是應(yīng)用于策略學(xué)習(xí)和值函數(shù)近似。強(qiáng)化學(xué)習(xí)是指讓機(jī)器在與環(huán)境互動(dòng)的過程中，通過試錯(cuò)來學(xué)習(xí)最優(yōu)的行為策略。

發(fā)表于 02-20 09:55 ?1.1w次閱讀

Python Web框架Django 5.0新特性

根據(jù) JetBrains 公布的 2022 Python 開發(fā)者調(diào)查結(jié)果，Python Web 框架的三巨頭依舊是 Flask、Django 和 FastAPI。Django 和 Flask 的使用率排名并列第一。

發(fā)表于 12-06 13:37 ?967次閱讀

javaweb的三大框架有哪些

在JavaWeb開發(fā)中，有許多流行的框架可供選擇。這些框架旨在提高開發(fā)效率、簡化開發(fā)過程，并為開發(fā)人員提供更強(qiáng)大的功能和靈活性。下面是三個(gè)在JavaWeb開發(fā)中廣泛使用的主要框架。 S

發(fā)表于 12-03 11:47 ?1684次閱讀

什么是強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的方式之一，它與監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)并列，是三種機(jī)器學(xué)習(xí)訓(xùn)練方法之一。在圍棋

發(fā)表于 10-30 11:36 ?3460次閱讀

深度學(xué)習(xí)框架DeepSpeed使用指南

最常見的深度學(xué)習(xí)框架應(yīng)該是TensorFlow、Pytorch、Keras，但是這些框架在面向大規(guī)模模型的時(shí)候都不是很方便。比如Pytorch的分布式并行計(jì)算框架（Distribut

發(fā)表于 10-30 10:09 ?2508次閱讀

NeurIPS 2023 | 擴(kuò)散模型解決多任務(wù)強(qiáng)化學(xué)習(xí)問題

擴(kuò)散模型（diffusion model）在 CV 領(lǐng)域甚至 NLP 領(lǐng)域都已經(jīng)有了令人印象深刻的表現(xiàn)。最近的一些工作開始將 diffusion model 用于強(qiáng)化學(xué)習(xí)（RL）中來解決序列決策問題

發(fā)表于 10-02 10:45 ?656次閱讀

視覺深度學(xué)習(xí)遷移學(xué)習(xí)訓(xùn)練框架Torchvision介紹

Torchvision是基于Pytorch的視覺深度學(xué)習(xí)遷移學(xué)習(xí)訓(xùn)練框架，當(dāng)前支持的圖像分類、對(duì)象檢測、實(shí)例分割、語義分割、姿態(tài)評(píng)估模型的遷移學(xué)習(xí)訓(xùn)練與評(píng)估。支持對(duì)數(shù)據(jù)集的合成、變換、

發(fā)表于 09-22 09:49 ?747次閱讀

電力MOSFET輸出特性曲線分為哪三個(gè)區(qū)？

電力MOSFET輸出特性曲線分為哪三個(gè)區(qū)？? 電力MOSFET是一種晶體管，用于控制電壓和電流。它們被廣泛應(yīng)用于電子設(shè)備、電機(jī)控制、照明系統(tǒng)和各種其他工業(yè)和商業(yè)應(yīng)用。電力MOSFET的輸出特性

發(fā)表于 09-21 16:09 ?3797次閱讀