久久精品国产亚洲欧美,久久久久久精品国产免费观看

為了實現(xiàn)日常目標(biāo)，人們通常會根據(jù)逐步指令來計劃自己的行動。這些指令被發(fā)現(xiàn)是目標(biāo)導(dǎo)向的腳本，包括一組達成目標(biāo)的原型事件序列。為了實現(xiàn)目標(biāo)（例如制作蛋糕），通常需要按照某些指令步驟進行，例如收集材料，預(yù)熱烤箱等。這種逐步腳本的規(guī)劃會朝著復(fù)雜目標(biāo)的推理鏈條進行。因此，規(guī)劃自動化意味著在各個領(lǐng)域中實現(xiàn)更智能和合理的人工智能系統(tǒng)，例如可執(zhí)行的機器人系統(tǒng)和用于問題解決的推理系統(tǒng)。

最近的研究表明，語言模型（LMs）可以用于計劃腳本。先前的工作已經(jīng)表明，大型語言模型（LLMs），例如GPT-3、InstructGPT和PaLM，可以以零/少量示例的方式有效地將目標(biāo)分解為過程步驟。為了訓(xùn)練專業(yè)模型，研究人員提出了自動理解和生成腳本知識的數(shù)據(jù)集。但是，先前的工作主要關(guān)注于針對典型活動的抽象目標(biāo)進行規(guī)劃。針對具有特定約束條件（例如糖尿病患者）目標(biāo)的規(guī)劃仍然未得到充分研究。

本文介紹了復(fù)旦大學(xué)知識工場實驗室的最新研究論文《Distilling Script Knowledge from Large Language Models for Constrained Language Planning》，該文已經(jīng)被自然語言處理頂會ACL 2023作為主會長文錄用。本文工作關(guān)注約束語言規(guī)劃的問題，將語言規(guī)劃推向了更具體的目標(biāo)。論文作者評估了LLMs的少量示例約束語言規(guī)劃能力，并為LLMs開發(fā)了一種超生成然后過濾的方法，使準(zhǔn)確性提高了26%?；诒疚牡姆椒?，作者還使用LLMs生成了一個約束語言規(guī)劃的高質(zhì)量腳本數(shù)據(jù)集（CoScript）。利用CoScript，可為專業(yè)化和小型模型提供具有約束語言規(guī)劃能力的能力，其性能可媲美LLMs。

一、研究背景

圖1：InstructGPT生成了一系列“為糖尿病患者做蛋糕”的目標(biāo)規(guī)劃步驟

最近的研究表明，語言模型（LMs）可以用于計劃腳本。先前的工作已經(jīng)表明，大型語言模型（LLMs），例如GPT-3、InstructGPT和PaLM，可以以零/少量示例的方式有效地將目標(biāo)分解為過程步驟。為了訓(xùn)練專業(yè)模型，研究人員提出了自動理解和生成腳本知識的數(shù)據(jù)集。但是，先前的工作主要關(guān)注于針對典型活動的抽象目標(biāo)進行規(guī)劃。針對具有特定約束條件（例如糖尿病患者）的目標(biāo)的規(guī)劃仍然未得到充分研究。

二、基于大規(guī)模語言模型的限制約束語言規(guī)劃

在本文中，作者定義了約束語言規(guī)劃問題，該問題對規(guī)劃目標(biāo)施加不同的約束。例如，抽象目標(biāo)（制作蛋糕）可以由具有多方面約束的不同現(xiàn)實特定目標(biāo)所繼承。蛋糕可以用1）不同的配料（例如巧克力或香草）；2）各種工具（例如使用微波爐或烤箱）；或3）不同的用途（例如用于婚禮或生日派對）來制作。

表1：促進特定目標(biāo)新實例生成的三種約束類型及其定義

一個好的規(guī)劃者應(yīng)編寫合理并忠實于約束的腳本。為此，作者探究了LLMs是否會忠實于約束地進行規(guī)劃。由于沒有特定目標(biāo)的數(shù)據(jù)集支持本文的研究，必須首先獲取這些目標(biāo)。如表1所述，作者使用InstructGPT對抽象目標(biāo)進行了多方面約束的人在環(huán)數(shù)據(jù)采集進行擴展。首先，作者手動準(zhǔn)備了一個示例池，從中使用約束從抽象目標(biāo)中推導(dǎo)出具體目標(biāo)。每個示例都附帶有一個約束類型（即修飾符、方法或意圖），并包含多個約束和特定目標(biāo)，以便InstructGPT為一個抽象目標(biāo)生成多個具體目標(biāo)。

接下來，作者枚舉wikiHow的每個抽象目標(biāo)，以確保數(shù)據(jù)多樣性。然后，從池中隨機抽取約束類型的多個示例。最后，將任務(wù)提示、示例和抽象目標(biāo)輸入InstructGPT中，以完成具體目標(biāo)。表2（I）中的一個示例顯示了InstructGPT針對抽象目標(biāo)（“制作蛋糕”）和約束類型修飾符以及一些示例生成了約束“巧克力”和“香草”，并完成了特定目標(biāo)（“制作巧克力蛋糕”和“制作香草蛋糕”）。獲取帶有約束的具體目標(biāo)后，可以測試LLM實現(xiàn)這些目標(biāo)的能力。

表2: InstructGPT的提示示例，用于通過上下文學(xué)習(xí)生成特定目標(biāo)和腳本。生成的文本已經(jīng)被突出顯示

表3報告了結(jié)果的整體準(zhǔn)確度，從中可以發(fā)現(xiàn)：1）總體而言，所有基準(zhǔn)模型在特定目標(biāo)的規(guī)劃上都取得了不令人滿意的結(jié)果，其中InstructGPT表現(xiàn)最佳?！白屛覀円徊揭徊剿伎肌辈⒉荒軒椭啵?）從wikiHow檢索不會導(dǎo)致所需的腳本。

表3：不同約束類型的生成腳本準(zhǔn)確率（%），通過人工評估得出。

為了回應(yīng)本文方法的動機，作者進行了詳細(xì)的分析，以研究為何LLM會失敗。圖3的結(jié)果表明：1）生成的腳本的語義完整性是可以接受的，但約束的忠實度無法保證；2）本文的方法在語義完整性和約束忠實度方面都極大地提高了規(guī)劃質(zhì)量。

圖2：通過人工評估生成的腳本的錯誤

因此，作者采用了過度生成然后過濾的思路來提高生成質(zhì)量。正如圖3所示，作者從InstructGPT中過度生成K個樣本，然后開發(fā)一個過濾模型來選擇忠實的腳本。由于語言表達方式多樣，作者依賴于目標(biāo)和腳本之間的語義相似性進行過濾，而不是規(guī)則和模式（即，必須在腳本中出現(xiàn)約束詞）。

作者首先收集了一組目標(biāo)，包括所求目標(biāo)作為正樣本以及從相同的抽象目標(biāo)生成的其他目標(biāo)作為負(fù)樣本。然后，將腳本和目標(biāo)轉(zhuǎn)換為InstructGPT嵌入，并計算余弦相似性作為相似性分?jǐn)?shù)來衡量語義相似性。此外，作者獎勵明確包含目標(biāo)約束關(guān)鍵字的腳本，只有所求目標(biāo)在目標(biāo)集合得分最高時才會保留該腳本。

圖3：使用InstructGPT生成具體目標(biāo)并使用超生成-過濾框架進行目標(biāo)規(guī)劃的工作流程。

結(jié)果如表3所示。使用本文的方法，InstructGPT可以大幅提高腳本的質(zhì)量。將相似度函數(shù)替換為來自其他預(yù)訓(xùn)練模型的嵌入會導(dǎo)致性能下降。

三、從大模型中獲取腳本知識

LLMs成本高，需為更小、專業(yè)化模型添加語言規(guī)劃能力。為實現(xiàn)此目標(biāo)，創(chuàng)建數(shù)據(jù)集是必要步驟，但以前的數(shù)據(jù)集不支持特定目標(biāo)的規(guī)劃，手動注釋成本高。為此，作者使用符號知識蒸餾從LLMs中提取受限制的語言規(guī)劃數(shù)據(jù)集。作者使用超生成-過濾框架為受限制的語言規(guī)劃腳本數(shù)據(jù)集CoScript構(gòu)建了高質(zhì)量的具體目標(biāo)和腳本，總共生成了55,000個具體目標(biāo)和相應(yīng)的腳本。

作者還隨機選擇2,000個數(shù)據(jù)作為驗證集，3,000個數(shù)據(jù)作為測試集。為確保驗證集和測試集的質(zhì)量，作者要求眾包工作者查找和修正不正確的樣本。通過收集這5,000個樣本的注釋數(shù)據(jù)進行錯誤識別，估計出具體目標(biāo)的準(zhǔn)確率為97.80％，受限腳本生成的準(zhǔn)確率為94.98％，與表3中的結(jié)果一致。

表4：Coscript和之前數(shù)據(jù)集的對比

并與其他數(shù)據(jù)集進行了比較，如表4所示，發(fā)現(xiàn)CoScript比proScript規(guī)模更大，具有更多的腳本和更高的每個腳本步驟數(shù)，并且CoScript具有高度的詞匯多樣性。

圖4：CoScript的約束分布

圖4顯示了CoScript的約束分布，發(fā)現(xiàn)CoScript在生成的具體目標(biāo)中顯示出高度的異質(zhì)性和多元化。有趣的是，InstructGPT傾向于以“if”或“when”這樣的詞語開始假設(shè)性約束（例如，“如果有人對乳糖不耐受，則制作蛋糕”），這表明未來在語言規(guī)劃中進行反事實推理的研究潛力。

四、小模型的約束規(guī)劃能力

有了CoScript，可以為受限制的語言規(guī)劃訓(xùn)練更小但更專業(yè)化的模型。表5顯示了在wikiHow和CoScript上訓(xùn)練的模型的比較。一般而言，CoScript訓(xùn)練的LMs表現(xiàn)優(yōu)于wikiHow。T5在忠實度上優(yōu)于GPT-2，可能是由于其編碼器-解碼器框架更擅長處理輸入信息。然而，在其他文本生成指標(biāo)上，GPT-2優(yōu)于T5。這可能是因為CoScript是從InstructGPT蒸餾而來，導(dǎo)致數(shù)據(jù)分布存在偏差，偏向于僅解碼的因果語言模型，例如GPT系列。而且我們發(fā)現(xiàn)使用檢索示例來增強模型可以提高語義完整性。

表5：不同訓(xùn)練集上模型的總體腳本生成性能。請注意，所有模型的測試集相同。

作者進一步在CoScript和wikiHow上微調(diào)T5（3B），以生成§4.4中保留在訓(xùn)練集之外的具體目標(biāo)的腳本。表7顯示，使用檢索增強微調(diào)的T5可以生成比表3中大多數(shù)LLMs質(zhì)量更高的腳本，這表明當(dāng)適當(dāng)?shù)卦谶m當(dāng)?shù)臄?shù)據(jù)集上進行訓(xùn)練時，較小的模型也可以超越較大的模型。

表6：不同模型生成的腳本準(zhǔn)確率（％）。我們在wikiHow和CoScript上微調(diào)了T5（3B），同時通過少樣本上下文學(xué)習(xí)來部署LLMs。

五、總結(jié)

本文旨在定義在特定約束條件下朝著特定目標(biāo)進行規(guī)劃。本文作者提出了一種更好的提示方法，用以改進LLMs的受約束語言規(guī)劃能力，并從LLMs中提煉出了一個新的數(shù)據(jù)集（CoScript）。實驗表明，本文的方法提高了LLMs針對特定目標(biāo)的規(guī)劃質(zhì)量，而在CoScript上訓(xùn)練的較小模型甚至優(yōu)于LLMs。希望CoScript數(shù)據(jù)集能成為推進更加復(fù)雜和多樣化目標(biāo)和約束條件下的語言規(guī)劃研究的寶貴資源。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

機器人

機器人

+關(guān)注

關(guān)注
210

文章
27839

瀏覽量
204596
人工智能

人工智能

+關(guān)注

關(guān)注
1787

文章
46061

瀏覽量
235018
過濾器

過濾器

+關(guān)注

關(guān)注
1

文章
419

瀏覽量
19384
GPT

GPT

+關(guān)注

關(guān)注
0

文章
347

瀏覽量
15182

原文標(biāo)題：從大模型中蒸餾腳本知識用于約束語言規(guī)劃

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一文詳解知識增強的語言預(yù)訓(xùn)練模型

隨著預(yù)訓(xùn)練語言模型(PLMs)的不斷發(fā)展，各種NLP任務(wù)設(shè)置上都取得了不俗的性能。盡管PLMs可以從大量語料庫中學(xué)習(xí)一定的知識，但仍舊存在很多問題，如

發(fā)表于 04-02 17:21 ?9378次閱讀

【大語言模型：原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

就無法修改，因此難以靈活應(yīng)用于下游文本的挖掘中。詞嵌入表示：將每個詞映射為一個低維稠密的實值向量。不同的是，基于預(yù)訓(xùn)練的詞嵌入表示先在語料庫中利用某種語言

發(fā)表于 05-05 12:17

【大語言模型：原理與工程實踐】大語言模型的應(yīng)用

實際應(yīng)用前需解決的挑戰(zhàn)。為提升大語言模型的性能，高級的提示詞技術(shù)可以促進大語言模型與環(huán)境進行動態(tài)交互，引導(dǎo)其生成和推理規(guī)劃。檢索增強生成

發(fā)表于 05-07 17:21

【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

的表達方式和生成能力。通過預(yù)測文本中缺失的部分或下一個詞，模型逐漸掌握語言的規(guī)律和特征。常用的模型結(jié)構(gòu) Transformer架構(gòu)：大語言

發(fā)表于 08-02 11:03

有用于調(diào)試的MCU Xpresso IDE調(diào)試腳本語言嗎？

我們有用于調(diào)試的 MCUXpresso IDE 調(diào)試腳本語言嗎？我檢查了 LinkServer 腳本，這不足以滿足我們的需求。我正在尋找類似德州儀器 Code composer studio 中使

發(fā)表于 04-20 09:11

深度學(xué)習(xí)：知識蒸餾的全過程

。? 0. 寫在前面有人說過：“神經(jīng)網(wǎng)絡(luò)用剩的logits不要扔，沾上雞蛋液，裹上面包糠...” 這兩天對知識蒸餾(Knowledge Distillation)萌生了一點興趣，正好寫一篇文章分享一下。這篇文章姑且算是一篇小科普。 1.

發(fā)表于 01-07 14:36 ?5943次閱讀

如何向大規(guī)模預(yù)訓(xùn)練語言模型中融入知識？

本文關(guān)注于向大規(guī)模預(yù)訓(xùn)練語言模型（如RoBERTa、BERT等）中融入知識。

發(fā)表于 06-23 15:07 ?4038次閱讀

若干蒸餾方法之間的細(xì)節(jié)以及差異

以往的知識蒸餾雖然可以有效的壓縮模型尺寸，但很難將teacher模型的能力蒸餾到一個更小詞表的student

發(fā)表于 05-12 11:39 ?1334次閱讀

關(guān)于快速知識蒸餾的視覺框架

知識蒸餾框架包含了一個預(yù)訓(xùn)練好的 teacher 模型（蒸餾過程權(quán)重固定），和一個待學(xué)習(xí)的 student 模型, teacher 用來產(chǎn)生

發(fā)表于 08-31 10:13 ?812次閱讀

用于NAT的選擇性知識蒸餾框架

盡管NAT在擁有許多潛在的優(yōu)勢，目前的工作中這類模型仍然在很大程度上依賴于句子級別的知識蒸餾（sequence-level knowledge distillation, KD）[2]

發(fā)表于 12-06 14:44 ?623次閱讀

如何度量知識蒸餾中不同數(shù)據(jù)增強方法的好壞？

知識蒸餾（knowledge distillation，KD）是一種通用神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法，它使用大的teacher模型來 “教” student模型，在各種AI任務(wù)上有著廣泛應(yīng)用。

發(fā)表于 02-25 15:41 ?776次閱讀

如何將ChatGPT的能力蒸餾到另一個大模型

Language Model》提出了一個將知識從一個復(fù)雜的、閉源的大型語言模型（LLM）轉(zhuǎn)移到一個緊湊的、開源的LLM的做法，其中加入了數(shù)據(jù)反饋的

發(fā)表于 06-12 15:06 ?742次閱讀

TPAMI 2023 | 用于視覺識別的相互對比學(xué)習(xí)在線知識蒸餾

本次文章介紹我們于 TPAMI-2023 發(fā)表的一項用于視覺識別的相互對比學(xué)習(xí)在線知識蒸餾（Online Knowledge Distillation via Mutual Contrastive

發(fā)表于 09-19 10:00 ?604次閱讀

任意模型都能蒸餾！華為諾亞提出異構(gòu)模型的知識蒸餾方法

相比于僅使用logits的蒸餾方法，同步使用模型中間層特征進行蒸餾的方法通常能取得更好的性能。然而在異構(gòu)模型的情況下，由于不同架構(gòu)模型對特征

發(fā)表于 11-01 16:18 ?781次閱讀

腳本語言和編程語言的區(qū)別

腳本語言和編程語言是計算機語言的兩個主要分類。盡管兩者都是用于編寫計算機程序的工具，但它們在設(shè)計和運行方式上存在一些顯著的區(qū)別。下面將詳細(xì)探討腳本語

發(fā)表于 11-22 14:33 ?2520次閱讀