免费看片播放器,久久精品国产99精品亚洲,3p波多野结衣系列精品

大型語言模型（LLM）的快速發(fā)展徹底改變了聊天機(jī)器人系統(tǒng)，從而實(shí)現(xiàn)了前所未有的智能水平，譬如 OpenAI 的 ChatGPT。但 ChatGPT 的訓(xùn)練和架構(gòu)細(xì)節(jié)仍不清楚，阻礙了該領(lǐng)域的研究和開源創(chuàng)新。受 Meta LLaMA 和 Stanford Alpaca 項(xiàng)目的啟發(fā)，來自加州大學(xué)伯克利分校、CMU、斯坦福大學(xué)和加州大學(xué)圣地亞哥分校的成員，共同推出了一個(gè) Vicuna-13B 開源聊天機(jī)器人，由增強(qiáng)的數(shù)據(jù)集和易于使用、可擴(kuò)展的基礎(chǔ)設(shè)施支持。

根據(jù)介紹，通過根據(jù)從 ShareGPT.com （一個(gè)用戶可以分享他們的 ChatGPT 對(duì)話的網(wǎng)站）收集的用戶共享對(duì)話微調(diào) LLaMA 基礎(chǔ)模型，Vicuna-13B 與 Stanford Alpaca 等其他開源模型相比展示了具有競(jìng)爭(zhēng)力的性能。

以 GPT-4 為評(píng)判標(biāo)準(zhǔn)的初步評(píng)估顯示，Vicuna-13B 達(dá)到了 OpenAI ChatGPT 和 Google Bard 90% 以上的質(zhì)量，同時(shí)在 90% 以上的情況下超過了 LLaMA 和 Stanford Alpaca 等其他模型的表現(xiàn)。訓(xùn)練 Vicuna-13B 成本約為 300 美元。訓(xùn)練和服務(wù)代碼，以及在線演示都是公開的，可用于非商業(yè)用途。

為了確保數(shù)據(jù)質(zhì)量，Vicuna 團(tuán)隊(duì)將 HTML 轉(zhuǎn)換回 markdown 并過濾掉一些不合適或低質(zhì)量的樣本。以及將冗長(zhǎng)的對(duì)話分成更小的部分，以適應(yīng)模型的最大上下文長(zhǎng)度。其訓(xùn)練方法建立在 Stanford Alpaca 的基礎(chǔ)上，并進(jìn)行了以下改進(jìn)：

內(nèi)存優(yōu)化：為了使 Vicuna 能夠理解長(zhǎng)上下文，開發(fā)團(tuán)隊(duì)將最大上下文長(zhǎng)度從 Alpaca 中的 512 擴(kuò)展到 2048，大大增加了 GPU 內(nèi)存需求。通過利用 utilizing gradient checkpointing 和 flash attention 來解決內(nèi)存壓力。

多輪對(duì)話：調(diào)整訓(xùn)練損失以考慮多輪對(duì)話，并僅根據(jù)聊天機(jī)器人的輸出計(jì)算微調(diào)損失。

通過 Spot 實(shí)例降低成本：40 倍大的數(shù)據(jù)集和 4 倍的訓(xùn)練序列長(zhǎng)度對(duì)訓(xùn)練費(fèi)用提出了相當(dāng)大的挑戰(zhàn)。Vicuna 團(tuán)隊(duì)使用 SkyPilot managed spot 來降低成本，方法是利用更便宜的 spot 實(shí)例以及自動(dòng)恢復(fù)搶占和自動(dòng)區(qū)域切換。該解決方案將 7B 模型的訓(xùn)練成本從 500 美元削減至 140 美元左右，將 13B 模型的訓(xùn)練成本從 1000 美元左右削減至 300 美元。

Vicuna 團(tuán)隊(duì)構(gòu)建了一個(gè)服務(wù)系統(tǒng)，該系統(tǒng)能夠使用分布式 workers 為多個(gè)模型提供服務(wù)；它支持來自本地集群和云的 GPU worker 的靈活插件。通過利用 SkyPilot 中的容錯(cuò)控制器和 managed spot 功能，該服務(wù)系統(tǒng)可以很好地與來自多個(gè)云的更便宜的 spot 實(shí)例一起工作，以降低服務(wù)成本。它目前是一個(gè)輕量級(jí)的實(shí)現(xiàn)，未來將努力將集成更多的最新研究成果。

具體來說，開發(fā)團(tuán)隊(duì)首先從 ShareGPT.com 收集了大約 7 萬個(gè)對(duì)話，然后增強(qiáng)了 Alpaca 提供的訓(xùn)練腳本，以更好地處理多輪對(duì)話和長(zhǎng)序列；訓(xùn)練在一天內(nèi)在 8 個(gè) A100 GPU 上使用 PyTorch FSDP 完成。為了提供演示服務(wù)，他們還實(shí)現(xiàn)了一個(gè)輕量級(jí)的分布式服務(wù)系統(tǒng)。通過創(chuàng)建一組 80 個(gè)不同的問題并利用 GPT-4 來判斷模型輸出，對(duì)模型質(zhì)量進(jìn)行了初步評(píng)估。為了比較兩個(gè)不同的模型，團(tuán)隊(duì)成員將每個(gè)模型的輸出組合成每個(gè)問題的單個(gè)提示。然后將提示發(fā)送到 GPT-4，GPT-4 評(píng)估哪個(gè)模型提供更好的響應(yīng)。

LLaMA、Alpaca、ChatGPT 和 Vicuna 的詳細(xì)對(duì)比如下：

Vicun 團(tuán)隊(duì)展示了 Alpaca 和 Vicuna 對(duì)基準(zhǔn)問題的回答示例。在使用 70K 用戶共享的 ChatGPT 對(duì)話對(duì) Vicuna 進(jìn)行微調(diào)后，其發(fā)現(xiàn)與 Alpaca 相比，Vicuna 能夠生成更詳細(xì)、結(jié)構(gòu)更合理的答案，并且質(zhì)量與 ChatGPT 相當(dāng)。

例如，在要求 “撰寫一篇引人入勝的旅游博文，介紹最近的夏威夷之行，突出文化體驗(yàn)和必去的景點(diǎn)” 時(shí)，GPT-4 的評(píng)價(jià)得分為：Alpaca-13b 7/10，Vicuna-13b 10/10。并闡述理由稱，Alpaca 提供了旅行博文的簡(jiǎn)要概述，但沒有按照要求實(shí)際撰寫博文，導(dǎo)致得分較低。Vicuna-13b 則就最近的夏威夷之行撰寫了一篇詳細(xì)而有吸引力的旅游博文，強(qiáng)調(diào)了文化體驗(yàn)和必看的景點(diǎn)，完全滿足了用戶的要求，因此獲得了較高的分?jǐn)?shù)。

與此同時(shí)，Vicun 的初步發(fā)現(xiàn)表明，在比較聊天機(jī)器人的答案時(shí)，GPT-4 可以產(chǎn)生高度一致的等級(jí)和詳細(xì)的評(píng)估。下圖中總結(jié)的基于 GPT-4 的初步評(píng)估顯示，Vicuna 達(dá)到了 Bard/ChatGPT 的 90% 能力。不過總的來說，為聊天機(jī)器人建立一個(gè)評(píng)估系統(tǒng)仍是一個(gè)需要進(jìn)一步研究的開放式問題。

Vicun 團(tuán)隊(duì)提出了一個(gè)基于 GPT-4 的評(píng)估框架來自動(dòng)評(píng)估聊天機(jī)器人的性能。設(shè)計(jì)了八個(gè)問題類別，以測(cè)試聊天機(jī)器人性能的各個(gè)方面。并基于每個(gè)類別選擇十個(gè)問題，分別由 LLaMA、Alpaca、ChatGPT、Bard 和 Vicuna 生成答案，然后要求 GPT-4 根據(jù)有用性、相關(guān)性、準(zhǔn)確性和細(xì)節(jié)來評(píng)估答案質(zhì)量。結(jié)果發(fā)現(xiàn) GPT-4 不僅可以產(chǎn)生相對(duì)一致的分?jǐn)?shù)，而且可以詳細(xì)解釋為什么給出這樣的分?jǐn)?shù)（詳細(xì)示例鏈接）。但在判斷編碼 / 數(shù)學(xué)任務(wù)方面，GPT-4 則不太擅長(zhǎng)。

數(shù)據(jù)表明在超過 90% 的問題中，相較 LLaMA、Alpaca 等，GPT-4 更傾向 Vicuna 生成的答案，并且它實(shí)現(xiàn)了可與專有模型（ChatGPT、Bard）競(jìng)爭(zhēng)的性能。在 45% 的問題中，GPT-4 將 Vicuna 的回答評(píng)為優(yōu)于或等于 ChatGPT 的回答。

總的來說，雖然最近行業(yè)發(fā)展如火如荼，但事實(shí)上聊天機(jī)器人仍然面臨局限性，例如難以解決基本的數(shù)學(xué)問題或編碼能力有限。且為聊天機(jī)器人開發(fā)一個(gè)全面、標(biāo)準(zhǔn)化的評(píng)估系統(tǒng)，也是一個(gè)需要進(jìn)一步研究的懸而未決的問題。

開發(fā)團(tuán)隊(duì)承認(rèn)，Vicuna 不擅長(zhǎng)涉及推理或數(shù)學(xué)的任務(wù)，并且在準(zhǔn)確識(shí)別自己或確保其輸出的事實(shí)準(zhǔn)確性方面可能存在局限性。此外，它還沒有得到充分優(yōu)化以保證安全性或減輕潛在的毒性或偏見。為了解決安全問題，他們使用 OpenAI moderation API 來過濾掉在線演示中不適當(dāng)?shù)挠脩糨斎搿?/p>

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴