91久久精品视频,久久伊人自慰精品无码视频,久99久热只有精品国产15

作者：周舒暢，AI 工程師

OpenAI 宮斗告一段落，現(xiàn)在到處都在猜 Q* 是什么。本文沒有 Q* 的新料，但是會探討一下 Q-Learning 在 Agent 方面的可能應(yīng)用。

有趣的分享！LLMs時代下，幻覺、對話、對齊、CoT、Agent和事實性評估等領(lǐng)域的前沿研究

實現(xiàn) tool 自動選擇和參數(shù)配置

經(jīng)典文字模型

經(jīng)典的文字模型我們已經(jīng)很熟悉了：訓(xùn)練時，模型不停的預(yù)測下一個 token 并與真實語料比較，直到模型的輸出分布非常接近于真實分布。

因為語言模型的局限性（比如搞不定大數(shù)計算），所以多家大模型公司走上了語言模型 + 工具的道路。比如 GPT4-turbo 就可以靈活調(diào)用網(wǎng)絡(luò)搜索、Analysis（某種 Python）這些 tools，來生成 tool response（即網(wǎng)絡(luò)搜索結(jié)果、Python 執(zhí)行結(jié)果），來幫助回答文字問題。

這就引入了一個決策問題，對于一個用戶表達（utterance），到底要不要做網(wǎng)絡(luò)搜索或者調(diào)用 Python 來幫助回答呢？如果決策錯誤，則結(jié)果不最優(yōu)：

?工具的響應(yīng)結(jié)果（tool response）可能無濟于事甚至產(chǎn)生誤導(dǎo)。比如有一些網(wǎng)絡(luò)上的玩梗會影響模型對一些基本概念的知識。?工具的調(diào)用引入了額外的時間消耗。

因此，好好搞一些標(biāo)注，訓(xùn)一個“動作決策”模型，能拿到第一波好處。這是有監(jiān)督學(xué)習(xí)的思路。這里動作決策模型的輸出，是具體的含參數(shù)的動作，比如調(diào)用網(wǎng)絡(luò)搜索時，需要給出“是否搜索”和“搜索關(guān)鍵字”兩部分信息。因此動作決策模型最好也是個大模型。這么搞的問題，是上限不高，受制于“動作決策模型”的標(biāo)注質(zhì)量，并且并沒有直接優(yōu)化“模型輸出”，需要人絞盡腦汁來針對模型調(diào)整“動作決策模型”的標(biāo)注來達到最優(yōu)。比如對于網(wǎng)絡(luò)搜索，當(dāng)搜索引擎不同時，需要為“動作決策模型”使用不同的搜索關(guān)鍵字作為標(biāo)注。

但從另一個角度，虛線框內(nèi)的部分，仍然是一個文字進文字出的"模型"，所以理論上可以用降低輸出結(jié)果的困惑度的方法，按強化學(xué)習(xí)（RL）去訓(xùn)練這個復(fù)合了工具的“語言模型”。這里因為“動作的決策”不可微，所以來自“模型輸出”的梯度只能用 RL 往回傳。使用 RL 的具體步驟為：

?利用標(biāo)注訓(xùn)練“動作決策模型”，使得整體有一定效果，即完成行為克隆（behavior cloning）這一啟動步。?用強化學(xué)習(xí)繼續(xù)訓(xùn)練整體，即復(fù)合了工具的“語言模型”。

Reward 由幾項組成：

?利用<用戶輸入、模型輸出>這樣的成對數(shù)據(jù)（格式上接近 SFT 數(shù)據(jù)），計算困惑度?如果有用戶偏好數(shù)據(jù)，也可以仿照 DPO 構(gòu)造不同動作間的對比數(shù)據(jù)項。?把調(diào)用工具的時間和成本代價，折算進 Reward

實際，以上相當(dāng)于使用了 Q-learning 的一個簡單變體 DDPG，即假設(shè)存在函數(shù)映射μ使得μ(當(dāng)前狀態(tài)) = 最優(yōu)工具調(diào)用動作與參數(shù) 如果不做這個假設(shè)，還是使用 Q(s, a) 的形式，則更接近 Reward Model 的搞法。

這里一個附送的好處，是可以做層級強化學(xué)習(xí)（hierarchical RL），就是說可以在工具調(diào)用中嵌套工具調(diào)用，比如一個網(wǎng)絡(luò)搜索中嵌套網(wǎng)絡(luò)搜索。因為上面在 Reward 里計入了“調(diào)用工具的時間和成本代價”，所以優(yōu)化后的模型不太會出現(xiàn)盲目使用工具的情況。同時 RL 天然能處理多步?jīng)Q策，所以不特別需要研究“多輪交互時的動作決策模型標(biāo)注“。

引入動態(tài)拆分任務(wù)

以上的 tool 調(diào)用，特別是網(wǎng)絡(luò)搜索和 Python 執(zhí)行，主要是為模型輸出產(chǎn)生一些參考，因此本質(zhì)上沒有互斥性，就是說各個動作間沒有強依賴。我們下面考慮一個動作間有強烈互相影響的場景：“任務(wù)拆分”。

當(dāng)用戶輸入復(fù)雜到一定程度，我們需要引入拆分。靜態(tài)拆分不需要特殊處理，但是如果希望子任務(wù)是跟據(jù)動態(tài)執(zhí)行時獲得的信息動態(tài)調(diào)整的，則要引入一個任務(wù)棧來進行管理。之前 AutoGPT 即引入了動態(tài)拆分子任務(wù)，基于語言模型實現(xiàn)了一定的 Agent 能力。但是一直以來 AutoGPT 并沒有通過“訓(xùn)練”來加強能力的方法。下面，我們先把 AutoGPT 搬到 RL 里，一個搞法是借助 MCTS（蒙特卡洛搜索樹）。

根結(jié)點是當(dāng)前任務(wù)。各個葉子結(jié)點有 expandable 和 terminal 兩個屬性，其中 expandable 結(jié)點可以進一步被展開成子任務(wù)。注意

?MCTS 里 sibling 結(jié)點之間是或關(guān)系，選一即可。?MCTS 的 Policy Network 對應(yīng)上文中的“動作決策”模型。?MCTS 里的 Value Network 可以用一大模型實現(xiàn)，描述當(dāng)前結(jié)點的價值。比如發(fā)現(xiàn)當(dāng)前子任務(wù)是死胡同時（如發(fā)現(xiàn)模型在用窮舉法證明“偶數(shù)加偶數(shù)還是偶數(shù)”時）可以喊停。?上文的工具調(diào)用“模型”可以自然地嵌入到這里使用

子任務(wù)拆分沒什么可用的數(shù)據(jù)，可以先靠語言模型天賦能力開始。訓(xùn)練數(shù)據(jù)可以選有明確答案的題，以答對為 Reward。MCTS 的形式特別適用需要回溯的任務(wù)（把某種任務(wù)分解推倒重來），比如數(shù)學(xué)計算。

(到這，我們得到了一個用 Q-learning 整體驅(qū)動的，自動學(xué)習(xí)如何拆任務(wù)調(diào)工具的框架，似乎和 Q* 公開的一些線索對上了一些。)

審核編輯：黃飛

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

Agent

Agent

+關(guān)注

關(guān)注
0

文章
102

瀏覽量
26638
Q-Learning

Q-Learning

+關(guān)注

關(guān)注
0

文章
5

瀏覽量
8093
python

python

+關(guān)注

關(guān)注
53

文章
4753

瀏覽量
84077

原文標(biāo)題：Q-Learning 在 Agent 的應(yīng)用

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

Q-Learning算法(2)#人工智能

人工智能

jf_49750429

發(fā)布于 :2022年11月29日 00:19:24

輕量級Agent平臺怎么測試？

跨平臺的語言成功應(yīng)用于嵌入式設(shè)備中，同時也方便了嵌入式環(huán)境下的輕量Agent（Lightweight Agent）的實現(xiàn)。本文在ARM嵌入式環(huán)境下測試輕量級Agent平臺。

發(fā)表于 09-27 06:26

樹莓派如何開發(fā)Agent

，配置了JADE(基于java的Agent開發(fā)框架)。各項測試都正常，但是使用兩臺樹莓派（都配置了JADE）進行遠程Agent之間的通信測試時，一直提示通信失敗。在嘗試了各種辦法（包括更改樹莓派主機名、固定IP地址、禁用IPV6

發(fā)表于 05-18 05:56

Multi-Agent在工控系統(tǒng)中的應(yīng)用研究

近幾年來，Agent 和Multi-Agent 理論和現(xiàn)場總線技術(shù)有著快速的發(fā)展。本文對Agent 和Multi-Agent 理論和現(xiàn)場總線技術(shù)進行簡單介紹。并結(jié)合Multi-

發(fā)表于 09-12 16:45 ?16次下載

基于Q-Learning的認知無線電系統(tǒng)感知管理算法

認知無線電系統(tǒng)不僅是一個自適應(yīng)系統(tǒng)，更應(yīng)該是一個智能系統(tǒng)。該文將智能控制中的Q-Learning 思想引入到認知無線電系統(tǒng)中，用于解決感知任務(wù)在認知用戶之間的分配問題，給出了

發(fā)表于 03-06 10:46 ?9次下載

基于LCS多機器人的算法介紹

在各種增強式學(xué)習(xí)中，Q-learning 或改進的Q-learning 應(yīng)用的最多。JonathanH.Connell 和Sridhar Mahadevan 在Robot

發(fā)表于 10-17 17:43 ?15次下載

基于Q-learning的碼率控制算法

近年來，各界對多媒體內(nèi)容傳輸特別是視頻流服務(wù)越來越重視。在盡力交付的互聯(lián)網(wǎng)上支持可靠視頻流傳輸，基于HTTP的自適應(yīng)流（HAS，HTTP adaptive streaming）已經(jīng)成為視頻業(yè)務(wù)技術(shù)

發(fā)表于 01-10 10:29 ?0次下載

基于<b class='flag-5'>Q-learning</b>的碼率控制算法

強化學(xué)習(xí)究竟是什么？它與機器學(xué)習(xí)技術(shù)有什么聯(lián)系？

Q-learning和SARSA是兩種最常見的不理解環(huán)境強化學(xué)習(xí)算法，這兩者的探索原理不同，但是開發(fā)原理是相似的。Q-learning是一種離線學(xué)習(xí)算法，智能體需要從另一項方案中學(xué)習(xí)到行為a*的價值

發(fā)表于 04-15 10:32 ?1.4w次閱讀

Q Learning算法學(xué)習(xí)

Q Learning算法是由Watkins于1989年在其博士論文中提出，是強化學(xué)習(xí)發(fā)展的里程碑，也是目前應(yīng)用最為廣泛的強化學(xué)習(xí)算法。

發(fā)表于 07-05 14:10 ?3581次閱讀

淺談Q-Learning和SARSA時序差分算法

Q-Learning這一篇對應(yīng)Sutton書的第六章部分和UCL強化學(xué)習(xí)課程的第五講部分。 1. Q-Learning算法的引入 Q-Learning算法是一種使用時序差分求解強化學(xué)習(xí)控制問題的方法

發(fā)表于 11-04 14:05 ?2752次閱讀

基于雙估計器的Speedy Q-learning算法

Q-learning算法是一種經(jīng)典的強化學(xué)習(xí)算法，更新策略由于保守和過估計的原因，存在收斂速度慢的問題。 SpeedyQ-learning算法和 Double Q-learning算法

發(fā)表于 05-18 15:51 ?2次下載

《自動化學(xué)報》—多Agent深度強化學(xué)習(xí)綜述

多Agent 深度強化學(xué)習(xí)綜述來源：《自動化學(xué)報》，作者梁星星等摘要?近年來,深度強化學(xué)習(xí)(Deep reinforcement learning,DRL) 在諸多復(fù)雜序貫決策問題中取得巨大

發(fā)表于 01-18 10:08 ?1470次閱讀

《自動化學(xué)報》—多<b class='flag-5'>Agent</b>深度強化學(xué)習(xí)綜述

怎樣使用Bevy和dfdx解決經(jīng)典的Cart Pole問題呢

解決經(jīng)典的 Cart Pole 問題有很多種, 作者這里借用 dfdx 這個深度學(xué)習(xí)的庫, 使用 Deep Q-Learning 的方法來解決。

發(fā)表于 10-26 09:39 ?588次閱讀

7個流行的強化學(xué)習(xí)算法及代碼實現(xiàn)

已被用于在游戲、機器人和決策制定等各種應(yīng)用中，并且這些流行的算法還在不斷發(fā)展和改進，本文我們將對其做一個簡單的介紹。 1、Q-learning Q-learning：Q-learning

發(fā)表于 02-03 20:15 ?1000次閱讀

7個流行的強化學(xué)習(xí)算法及代碼實現(xiàn)

作者：SiddharthaPramanik來源：DeepHubIMBA目前流行的強化學(xué)習(xí)算法包括Q-learning、SARSA、DDPG、A2C、PPO、DQN和TRPO。這些算法已被用于在游戲

發(fā)表于 02-06 15:06 ?1327次閱讀

搜索歷史

淺談Q-Learning在Agent的應(yīng)用

評論

Q-Learning算法(2)#人工智能

輕量級Agent平臺怎么測試？

樹莓派如何開發(fā)Agent

Multi-Agent在工控系統(tǒng)中的應(yīng)用研究

基于Q-Learning的認知無線電系統(tǒng)感知管理算法

基于LCS多機器人的算法介紹

基于Q-learning的碼率控制算法

強化學(xué)習(xí)究竟是什么？它與機器學(xué)習(xí)技術(shù)有什么聯(lián)系？

Q Learning算法學(xué)習(xí)

淺談Q-Learning和SARSA時序差分算法

基于雙估計器的Speedy Q-learning算法

《自動化學(xué)報》—多Agent深度強化學(xué)習(xí)綜述

怎樣使用Bevy和dfdx解決經(jīng)典的Cart Pole問題呢

7個流行的強化學(xué)習(xí)算法及代碼實現(xiàn)

7個流行的強化學(xué)習(xí)算法及代碼實現(xiàn)