0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

無需權重更新、微調,Transformer在試錯中自主改進!

CVer ? 來源:機器之心 ? 作者:機器之心 ? 2022-11-02 13:33 ? 次閱讀

DeepMind 表示,他們提出的算法蒸餾(AD)是首個通過對具有模仿?lián)p失的離線數(shù)據(jù)進行順序建模以展示上下文強化學習的方法。同時基于觀察結果開啟了一種可能,即任何 RL 算法都可以通過模仿學習蒸餾成足夠強大的序列模型如 transformer,并將這些模型轉換為上下文 RL 算法。

目前,Transformers 已經(jīng)成為序列建模的強大神經(jīng)網(wǎng)絡架構。預訓練 transformer 的一個顯著特性是它們有能力通過提示 conditioning 或上下文學習來適應下游任務。經(jīng)過大型離線數(shù)據(jù)集上的預訓練之后,大規(guī)模 transformers 已被證明可以高效地泛化到文本補全、語言理解和圖像生成方面的下游任務。

最近的工作表明,transformers 還可以通過將離線強化學習(RL)視作順序預測問題,進而從離線數(shù)據(jù)中學習策略。Chen et al. (2021)的工作表明,transformers 可以通過模仿學習從離線 RL 數(shù)據(jù)中學習單任務策略,隨后的工作表明 transformers 可以在同領域和跨領域設置中提取多任務策略。這些工作都展示了提取通用多任務策略的范式,即首先收集大規(guī)模和多樣化的環(huán)境交互數(shù)據(jù)集,然后通過順序建模從數(shù)據(jù)中提取策略。這類通過模仿學習從離線 RL 數(shù)據(jù)中學習策略的方法被稱為離線策略蒸餾(Offline Policy Distillation)或策略蒸餾(Policy Distillation, PD)。

PD 具有簡單性和可擴展性,但它的一大缺點是生成的策略不會在與環(huán)境的額外交互中逐步改進。舉例而言,谷歌的通才智能體 Multi-Game Decision Transformers 學習了一個可以玩很多 Atari 游戲的返回條件式(return-conditioned)策略,而 DeepMind 的通才智能體 Gato 通過上下文任務推理來學習一個解決多樣化環(huán)境中任務的策略。遺憾的是,這兩個智能體都不能通過試錯來提升上下文中的策略。因此 PD 方法學習的是策略而不是強化學習算法。

在近日 DeepMind 的一篇論文中,研究者假設 PD 沒能通過試錯得到改進的原因是它訓練用的數(shù)據(jù)無法顯示學習進度。當前方法要么從不含學習的數(shù)據(jù)中學習策略(例如通過蒸餾固定專家策略),要么從包含學習的數(shù)據(jù)中學習策略(例如 RL 智能體的重放緩沖區(qū)),但后者的上下文大?。ㄌ。o法捕獲策略改進。

09a7e5e2-5a56-11ed-a3b6-dac502259ad0.png

論文地址:https://arxiv.org/pdf/2210.14215.pdf

研究者的主要觀察結果是,RL 算法訓練中學習的順序性在原則上可以將強化學習本身建模為一個因果序列預測問題。具體地,如果一個 transformer 的上下文足夠長,包含了由學習更新帶來的策略改進,那么它不僅應該可以表示一個固定策略,而且能夠通過關注之前 episodes 的狀態(tài)、動作和獎勵來表示一個策略改進算子。這樣開啟了一種可能性,即任何 RL 算法都可以通過模仿學習蒸餾成足夠強大的序列模型如 transformer,并將這些模型轉換為上下文 RL 算法。

研究者提出了算法蒸餾(Algorithm Distillation, AD),這是一種通過優(yōu)化 RL 算法學習歷史中因果序列預測損失來學習上下文策略改進算子的方法。如下圖 1 所示,AD 由兩部分組成。首先通過保存 RL 算法在大量單獨任務上的訓練歷史來生成大型多任務數(shù)據(jù)集,然后 transformer 模型通過將前面的學習歷史用作其上下文來對動作進行因果建模。由于策略在源 RL 算法的訓練過程中持續(xù)改進,因此 AD 不得不學習改進算子以便準確地建模訓練歷史中任何給定點的動作。至關重要的一點是,transformer 上下文必須足夠大(即 across-episodic)才能捕獲訓練數(shù)據(jù)的改進。

09d0f98c-5a56-11ed-a3b6-dac502259ad0.png

研究者表示,通過使用足夠大上下文的因果 transformer 來模仿基于梯度的 RL 算法,AD 完全可以在上下文中強化新任務學習。研究者在很多需要探索的部分可觀察環(huán)境中評估了 AD,包括來自 DMLab 的基于像素的 Watermaze,結果表明 AD 能夠進行上下文探索、時序信度分配和泛化。此外,AD 學習到的算法比生成 transformer 訓練源數(shù)據(jù)的算法更加高效。

最后值得關注的是,AD 是首個通過對具有模仿?lián)p失的離線數(shù)據(jù)進行順序建模以展示上下文強化學習的方法。

09e3bf54-5a56-11ed-a3b6-dac502259ad0.gif

方法

在生命周期內,強化學習智能體需要在執(zhí)行復雜的動作方面表現(xiàn)良好。對智能體而言,不管它所處的環(huán)境、內部結構和執(zhí)行情況如何,都可以被視為是在過去經(jīng)驗的基礎上完成的??捎萌缦滦问奖硎荆?/p>

0a0e04e4-5a56-11ed-a3b6-dac502259ad0.png

研究者同時將「長期歷史條件, long history-conditioned」策略看作一種算法,得出:

0a19ed36-5a56-11ed-a3b6-dac502259ad0.png

其中?(A)表示動作空間 A 上的概率分布空間。公式 (3) 表明,該算法可以在環(huán)境中展開,以生成觀察、獎勵和動作序列。為了簡單起見,該研究將算法用 P 表示,將環(huán)境(即任務)用0a25de7a-5a56-11ed-a3b6-dac502259ad0.png的學習歷史都是由算法0a25de7a-5a56-11ed-a3b6-dac502259ad0.png表示,這樣對于任何給定任務0a3c7676-5a56-11ed-a3b6-dac502259ad0.png生成的。可以得到

0a42dab6-5a56-11ed-a3b6-dac502259ad0.png

研究者用大寫拉丁字母表示隨機變量,例如 O、A、R 及其對應的小寫形式 o,α,r。通過將算法視為長期歷史條件策略,他們假設任何生成學習歷史的算法都可以通過對動作執(zhí)行行為克隆來轉換成神經(jīng)網(wǎng)絡。接下來,該研究提出了一種方法,該方法提供了智能體在生命周期內學習具有行為克隆的序列模型,以將長期歷史映射到動作分布。

實際執(zhí)行

在實踐中,該研究將算法蒸餾過程 ( algorithm distillation ,AD)實現(xiàn)為一個兩步過程。首先,通過在許多不同的任務上運行單獨的基于梯度的 RL 算法來收集學習歷史數(shù)據(jù)集。接下來,訓練具有多情節(jié)上下文的序列模型來預測歷史中的動作。具體算法如下所示:

0a4cd642-5a56-11ed-a3b6-dac502259ad0.png

實驗

實驗要求所使用的環(huán)境都支持許多任務,而這些任務不能從觀察中輕易的進行推斷,并且情節(jié)(episodes)足夠短,可以有效地訓練跨情節(jié)因果 transformers。這項工作的主要目的是調查相對于先前工作,AD 強化在多大程度上是在上下文中學習的。實驗將 AD、 ED( Expert Distillation) 、RL^2 等進行了比較。

評估 AD、ED、 RL^2 結果如圖 3 所示。該研究發(fā)現(xiàn) AD 和 RL^2 都可以在上下文中學習從訓練分布中采樣的任務,而 ED 則不能,盡管 ED 在分布內評估時確實比隨機猜測做得更好。

0a6819e8-5a56-11ed-a3b6-dac502259ad0.png

圍繞下圖 4,研究者回答了一系列問題。AD 是否表現(xiàn)出上下文強化學習?結果表明 AD 上下文強化學習在所有環(huán)境中都能學習,相比之下,ED 在大多數(shù)情況下都無法在上下文中探索和學習。

AD 能從基于像素的觀察中學習嗎?結果表明 AD 通過上下文 RL 最大化了情景回歸,而 ED 則不能學習。

AD 是否可以學習一種比生成源數(shù)據(jù)的算法更有效的 RL 算法?結果表明 AD 的數(shù)據(jù)效率明顯高于源算法(A3C 和 DQN)。

0a7f2692-5a56-11ed-a3b6-dac502259ad0.png

是否可以通過演示來加速 AD?為了回答這個問題,該研究保留測試集數(shù)據(jù)中沿源算法歷史的不同點采樣策略,然后,使用此策略數(shù)據(jù)預先填充 AD 和 ED 的上下文,并在 Dark Room 的環(huán)境中運行這兩種方法,將結果繪制在圖 5 中。雖然 ED 保持了輸入策略的性能,AD 在上下文中改進每個策略,直到它接近最優(yōu)。重要的是,輸入策略越優(yōu)化,AD 改進它的速度就越快,直到達到最優(yōu)。

0aa88f6e-5a56-11ed-a3b6-dac502259ad0.png

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:DeepMind新作!無需權重更新、微調,Transformer在試錯中自主改進!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    高速ADC通過校準改進SFDR

    電子發(fā)燒友網(wǎng)站提供《高速ADC通過校準改進SFDR.pdf》資料免費下載
    發(fā)表于 08-30 10:59 ?0次下載
    <b class='flag-5'>在</b>高速ADC<b class='flag-5'>中</b>通過校準<b class='flag-5'>改進</b>SFDR

    示波器探頭補償微調旋鈕的作用

    示波器探頭補償微調旋鈕是一種用于調整示波器探頭性能的重要組件。 一、示波器探頭補償微調旋鈕的作用 校準探頭性能 示波器探頭補償微調旋鈕的主要作用是校準探頭的性能。由于探頭在生產(chǎn)過程
    的頭像 發(fā)表于 08-09 11:31 ?488次閱讀

    Transformer語言模型簡介與實現(xiàn)過程

    自然語言處理(NLP)領域,Transformer模型以其卓越的性能和廣泛的應用前景,成為了近年來最引人注目的技術之一。Transformer模型由谷歌2017年提出,并首次應用于
    的頭像 發(fā)表于 07-10 11:48 ?1117次閱讀

    大模型為什么要微調?大模型微調的原理

    難以達到最佳性能。為了提升模型特定任務上的表現(xiàn),微調(Fine-tuning)成為了一個關鍵步驟。本文將詳細探討大模型為什么要進行微調以及微調的原理,并附上相關的代碼示例。
    的頭像 發(fā)表于 07-10 10:43 ?3244次閱讀

    Transformer架構自然語言處理的應用

    隨著人工智能技術的飛速發(fā)展,自然語言處理(NLP)領域取得了顯著的進步。其中,Transformer架構的提出,為NLP領域帶來了革命性的變革。本文將深入探討Transformer架構的核心思想、組成部分以及自然語言處理領域的
    的頭像 發(fā)表于 07-09 11:42 ?667次閱讀

    深度學習的模型權重

    深度學習這一充滿無限可能性的領域中,模型權重(Weights)作為其核心組成部分,扮演著至關重要的角色。它們不僅是模型學習的基石,更是模型智能的源泉。本文將從模型權重的定義、作用、優(yōu)化、管理以及應用等多個方面,深入探討深度學習
    的頭像 發(fā)表于 07-04 11:49 ?817次閱讀

    Transformer模型語音識別和語音生成的應用優(yōu)勢

    自然語言處理、語音識別、語音生成等多個領域展現(xiàn)出強大的潛力和廣泛的應用前景。本文將從Transformer模型的基本原理出發(fā),深入探討其語音識別和語音生成的應用優(yōu)勢,并展望其未來發(fā)展趨勢。
    的頭像 發(fā)表于 07-03 18:24 ?923次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問世以來,自然語言處理(NLP)領域取得了巨大的成功,并成為了許多先進模型(如BERT、GPT等)的基礎。本文將深入解讀如何使用PyTorch框架搭建Transformer模型,包括模型的結構、訓
    的頭像 發(fā)表于 07-02 11:41 ?1411次閱讀

    基于Transformer模型的壓縮方法

    基于Transformer架構的大型模型人工智能領域中發(fā)揮著日益重要的作用,特別是自然語言處理(NLP)和計算機視覺(CV)領域。
    的頭像 發(fā)表于 02-22 16:27 ?594次閱讀
    基于<b class='flag-5'>Transformer</b>模型的壓縮方法

    一文詳解Transformer神經(jīng)網(wǎng)絡模型

    Transformer模型強化學習領域的應用主要是應用于策略學習和值函數(shù)近似。強化學習是指讓機器與環(huán)境互動的過程,通過試錯來學習最優(yōu)的
    發(fā)表于 02-20 09:55 ?1.2w次閱讀
    一文詳解<b class='flag-5'>Transformer</b>神經(jīng)網(wǎng)絡模型

    四種微調大模型的方法介紹

    微調(Full Fine-tuning):全微調是指對整個預訓練模型進行微調,包括所有的模型參數(shù)。在這種方法,預訓練模型的所有層和參數(shù)都會被更新
    發(fā)表于 01-03 10:57 ?2.3w次閱讀
    四種<b class='flag-5'>微調</b>大模型的方法介紹

    更深層的理解視覺Transformer, 對視覺Transformer的剖析

    最后是ADE20K val上的LeaderBoard,通過榜單也可以看出,榜單的前幾名,Transformer結構依舊占據(jù)是當前的主力軍。
    的頭像 發(fā)表于 12-07 09:39 ?721次閱讀
    更深層的理解視覺<b class='flag-5'>Transformer</b>, 對視覺<b class='flag-5'>Transformer</b>的剖析

    一種新穎的大型語言模型知識更新微調范式

    我們使用LLAMA2-7B作為實驗的基礎模型。我們主要評估將舊知識更新為新知識的能力,因此模型將首先在舊知識上進行為期3個時期的微調。表1F-Learning設置的超參數(shù)λ分別取值
    發(fā)表于 12-01 15:10 ?414次閱讀
    一種新穎的大型語言模型知識<b class='flag-5'>更新</b><b class='flag-5'>微調</b>范式

    快速渡過新手期!華為云服務器讓小程序開發(fā)的試錯成本更低

    隨著微信小程序成為中小企業(yè)業(yè)務經(jīng)營和企業(yè)宣傳重要途徑,小程序開發(fā)逐漸變成規(guī)?;南到y(tǒng)工作。為此,小程序開發(fā)也有磨合試錯的問題,很多中小企業(yè)小程序開發(fā)時候會遇到各種各樣的問題,有些問題會讓企業(yè)
    的頭像 發(fā)表于 11-28 11:43 ?293次閱讀
    快速渡過新手期!華為云服務器讓小程序開發(fā)的<b class='flag-5'>試錯</b>成本更低

    求助,AD8132諧波測試電路transformer有沒有推薦型號?

    AD8132諧波測試電路transformer有沒有推薦型號?
    發(fā)表于 11-16 06:15