开心激情婷婷,久久免费视频播放平台,国产对白AV无码观看

引言

目前，大規(guī)模語言模型（LLM）在自然語言處理領(lǐng)域表現(xiàn)出了驚人的性能，能夠完成前所未有的任務(wù)，為更多的人機(jī)交互形式打開了大門，ChatGPT是一個最好的例子。然而，LLM在大規(guī)模推廣中受到了一些限制，其中一些限制源于其單參數(shù)模型和有限的上下文（N個token）等基本缺陷。隨著硬件和軟件技術(shù)的不斷發(fā)展，LLM需要更長的上下文來展現(xiàn)其更強(qiáng)大的能力，但在實(shí)踐中，大多數(shù)LLM仍然只能使用較小的上下文尺寸。為了解決這些問題，出現(xiàn)了增強(qiáng)語言模型（ALM），它是一種利用外部信息來增強(qiáng)語言模型的方法。ALM包括推理、工具和行為三個方面，通過這些方面的增強(qiáng)，語言模型可以調(diào)用其他工具來解決更加復(fù)雜的任務(wù)，并對虛擬或真實(shí)世界產(chǎn)生影響并觀察結(jié)果。本文介紹2種最近出現(xiàn)的增強(qiáng)式語言模型去完成各種模態(tài)的交互式任務(wù)：1）VisualChatGPT；2）Toolformer。

文章概覽

Visual-ChatGPT

微軟最近的一個開源項(xiàng)目：Visual ChatGPT，讓用戶能夠用交互的形式與大規(guī)模語言模型完成圖片操作的任務(wù)。以此為 ChatGPT 提供了新的玩法。

論文：https://arxiv.org/abs/2303.04671

論文細(xì)節(jié)

介紹

Visual ChatGPT 是一種智能交互系統(tǒng)，它將不同的視覺基礎(chǔ)模型與 ChatGPT 相結(jié)合，使得用戶可以通過發(fā)送語言和圖像與 AI 系統(tǒng)進(jìn)行交互。與傳統(tǒng)的 ChatGPT 僅支持文字交互不同，Visual ChatGPT 可以支持文字+圖片的交互方式。除了可以進(jìn)行簡單的對話外，Visual ChatGPT 還可以接收復(fù)雜的視覺問題或視覺編輯指令，并要求多個 AI 模型之間進(jìn)行協(xié)作和多步驟操作。用戶還可以給出反饋，并要求修改結(jié)果，從而實(shí)現(xiàn)更加智能化、人性化的交互體驗(yàn)。簡而言之，Visual ChatGPT 使用戶可以以一種更加豐富、直觀和自然的方式與 AI 系統(tǒng)進(jìn)行交互。

用戶可以發(fā)送以下幾種指令進(jìn)行交互：

發(fā)送和接收不僅是語言而且是圖像

提供復(fù)雜的視覺問題或視覺編輯指令，需要多個 AI 模型之間的協(xié)作和多步驟操作

提供反饋并要求修改結(jié)果,并且它能夠根據(jù)用戶反饋修改結(jié)果

方法

文中作者讓ChatGPT與其他視覺模型進(jìn)行交互，下游模型稱作VFM，是 Visual Foundation Model（視覺基礎(chǔ)模型）縮寫，其中Stable Diffusion、ControlNet、BLIP 等圖像處理類模型。作者還提出了提示管理器(Prompt Manger)作為 ChatGPT 和 VFM 之間的橋梁。提示管理器(Prompt Manger)明確告知 ChatGPT 每個 VFM 的功能并指定必要的輸入輸出格式; 它將各種類型的視覺信息（例如 png 圖像、深度圖像和遮罩矩陣）轉(zhuǎn)換為語言格式以幫助 ChatGPT 理解。同時管理不同 VFM 的歷史記錄、優(yōu)先級和沖突; 通過使用提示管理器，ChatGPT 可以有效地利用 VFM 并以迭代的方式接收他們的反饋，直到滿足用戶的要求或達(dá)到結(jié)束條件。

詳細(xì)的整體結(jié)構(gòu)如下：

從左到右分為了三個部分，中間部分詳細(xì)展示了模型接收到提問（Query）后，會判斷是否需要使用 VFM 進(jìn)行處理，如果需要則會調(diào)用下游的VFM相應(yīng)的模型為這個指令進(jìn)行回答。

Visual-ChatGPT特點(diǎn)

Visual ChatGPT 擴(kuò)展了聊天機(jī)器人的輸入和輸出范圍，超越了傳統(tǒng)的基于文本的通信。它可以處理文本和圖像信息，并根據(jù)用戶需求生成各種格式的回復(fù)。

Visual ChatGPT 提高了聊天機(jī)器人的智能水平。傳統(tǒng)的聊天機(jī)器人只能在單一領(lǐng)域或任務(wù)上表現(xiàn)出智能行為，而 Visual ChatGPT 可以在多個領(lǐng)域或任務(wù)上表現(xiàn)出智能行為，并且可以根據(jù)上下文切換不同模式。

Visual ChatGPT 增加了聊天機(jī)器人的趣味性和互動性。與傳統(tǒng)的聊天機(jī)器人只能進(jìn)行簡單而枯燥的對話不同，Visual ChatGPT 可以進(jìn)行富有創(chuàng)意和想象力的對話，并且可以根據(jù)用戶喜好調(diào)整風(fēng)格。

文章概覽

Toolformer

論文地址：https://arxiv.org/pdf/2302.04761v1.pdf

論文細(xì)節(jié)

介紹

大型語言模型存在一些局限性，例如無法獲取最新信息、可能會產(chǎn)生“信息幻覺”、難以理解低資源語言以及缺乏進(jìn)行精確計(jì)算的數(shù)學(xué)技能等。為了解決這些問題，一種簡單的方法是為模型提供外部工具，例如搜索引擎、計(jì)算器或日歷。然而，現(xiàn)有方法通常需要大量的人工注釋或?qū)⒐ぞ叩氖褂孟拗圃谔囟ㄈ蝿?wù)設(shè)置下，這使得語言模型與外部工具的結(jié)合使用難以推廣。為了克服這種瓶頸，Meta AI 最近提出了一種名為 Toolformer 的新方法，該方法使得語言模型能夠?qū)W會“使用”各種外部工具。

Toolformer滿足了以下實(shí)際需求：

大型語言模型應(yīng)該在自監(jiān)督的方式下學(xué)習(xí)工具的使用，而不需要大量的人工注釋。人工注釋的成本很高，而且人類認(rèn)為有用的東西可能與模型認(rèn)為有用的東西不同。

語言模型需要更全面地使用不受特定任務(wù)約束的工具。Toolformer打破了大語言模型的瓶頸。接下來我們將詳細(xì)介紹Toolformer的方法

方法

Toolformer基于帶有in-context learning（ICL）的大型語言模型從頭開始生成數(shù)據(jù)集。這種方法只需要提供少量人類使用API的樣本，就可以讓語言模型用潛在的API調(diào)用標(biāo)注一個巨大的語言建模數(shù)據(jù)集。然后，使用自監(jiān)督損失函數(shù)來確定哪些API調(diào)用實(shí)際上有助于模型預(yù)測未來的token，并根據(jù)對LM本身有用的API調(diào)用進(jìn)行微調(diào)。由于Toolformer與所使用的數(shù)據(jù)集無關(guān)，因此可以將其用于與模型預(yù)訓(xùn)練完全相同的數(shù)據(jù)集，這確保了模型不會失去任何通用性和語言建模能力。具體來說，該研究旨在讓語言模型具備一種能力——通過API調(diào)用使用各種工具。為了實(shí)現(xiàn)這個目標(biāo)，每個API的輸入和輸出都可以表征為文本序列。這允許將API調(diào)用無縫插入到任何給定文本中，并使用特殊的token來標(biāo)記每個此類調(diào)用的開始和結(jié)束。

該工作把每個API調(diào)用建模為一個元祖，如下所示：

其中是 API 的名稱, 是相應(yīng)的輸入。給定一個API調(diào)用c和一個對應(yīng)的結(jié)果r，上面的式子表示不帶有結(jié)果的API調(diào)用，下面的式子表示帶有API調(diào)用的結(jié)果的線性化序列。其中,和→是特殊的 token。這種方法讓 LM 學(xué)會了控制各種工具，并為自己選擇在何時以及如何使用哪種工具。

給定一個只含有普通文本的數(shù)據(jù)集

作者首先將這個數(shù)據(jù)集轉(zhuǎn)換成一個增加了 API 調(diào)用表示的數(shù)據(jù)集 C*。這個操作分為三步如下圖所示

1）首先，該研究利用 LM 的 in-context learning 能力對大量潛在的 API 調(diào)用進(jìn)行采樣

2）然后執(zhí)行這些 API 調(diào)用

3）再檢查獲得的響應(yīng)是否有助于預(yù)測未來的 token，以用作篩選標(biāo)準(zhǔn)。

4）篩選之后，該研究合并對不同工具的 API 調(diào)用，最終生成數(shù)據(jù)集 C*，并在此數(shù)據(jù)集上微調(diào) LM 本身。

Toolformer結(jié)合了一系列的工具，包括一個計(jì)算器、一個Q/A系統(tǒng)、兩個不同的搜索引擎、一個翻譯系統(tǒng)和一個日歷。Toolformer在各種下游任務(wù)中實(shí)現(xiàn)了大幅提高的零樣本性能，通常與更大的模型競爭，而不犧牲其核心語言建模能力。

總結(jié)

本文介紹了兩種增強(qiáng)式大語言模型（Visual-ChatGPT，Toolformer），使得大語言模型能夠通過調(diào)用其他基礎(chǔ)視覺模型，來通過交互讓用戶能夠與大規(guī)模語言模型進(jìn)行多模態(tài)任務(wù)的溝通；并且，通過構(gòu)建API數(shù)據(jù)集的方式微調(diào)，讓大規(guī)模語言模型學(xué)會利用調(diào)用API來執(zhí)行各種任務(wù)。在當(dāng)今火爆的大語言模型的浪潮下，增強(qiáng)式語言模型的范式為我們前往通用人工智能提供了有力的支持。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴