亚洲国产精品无码java,亚洲日韩在线91一区

大型語(yǔ)言模型能力驚人，但在部署過(guò)程中往往由于規(guī)模而消耗巨大的成本。華盛頓大學(xué)聯(lián)合谷歌云計(jì)算人工智能研究院、谷歌研究院針對(duì)該問(wèn)題進(jìn)行了進(jìn)一步解決，提出了逐步蒸餾（Distilling Step-by-Step）范式幫助模型訓(xùn)練。該方法在訓(xùn)練用于特定任務(wù)的小型模型方面優(yōu)于 LLM，訓(xùn)練數(shù)據(jù)遠(yuǎn)少于傳統(tǒng)的微調(diào)和蒸餾。他們的 770M T5 模型在一個(gè)基準(zhǔn)任務(wù)上表現(xiàn)優(yōu)于 540B PaLM 模型。令人印象深刻的是，他們的模型只使用了可用數(shù)據(jù)的 80%。

雖然大型語(yǔ)言模型（LLMs）展現(xiàn)了令人印象深刻的少樣本學(xué)習(xí)能力，但將這樣大規(guī)模的模型部署在現(xiàn)實(shí)應(yīng)用中是很難的。為 1750 億參數(shù)規(guī)模的 LLM 提供服務(wù)的專(zhuān)門(mén)基礎(chǔ)設(shè)施，至少需要 350GB 的 GPU 內(nèi)存。更甚者，現(xiàn)今最先進(jìn)的 LLM 是由超過(guò) 5000 億的參數(shù)組成的，這意味著它需要更多的內(nèi)存和計(jì)算資源。這樣的計(jì)算要求對(duì)于大多數(shù)生產(chǎn)商來(lái)說(shuō)都是難以企及的，更何況是要求低延遲的應(yīng)用了。

為了解決大型模型的這個(gè)問(wèn)題，部署者往往采用小一些的特定模型來(lái)替代。這些小一點(diǎn)的模型用常見(jiàn)范式 —— 微調(diào)或是蒸餾來(lái)進(jìn)行訓(xùn)練。微調(diào)使用下游的人類(lèi)注釋數(shù)據(jù)升級(jí)一個(gè)預(yù)訓(xùn)練過(guò)的小模型。蒸餾用較大的 LLM 產(chǎn)生的標(biāo)簽訓(xùn)練同樣較小的模型。但是很遺憾，這些范式在縮小模型規(guī)模的同時(shí)也付出了代價(jià)：為了達(dá)到與 LLM 相當(dāng)?shù)男阅?，微調(diào)需要昂貴的人類(lèi)標(biāo)簽，而蒸餾需要大量很難獲得的無(wú)標(biāo)簽數(shù)據(jù)。

在一篇題為「Distilling Step-by-Step! Outperf orming Larger Language Models with Less Training Data and Smaller Model Sizes」的論文中，來(lái)自華盛頓大學(xué)、谷歌的研究者引入了一種新的簡(jiǎn)單機(jī)制 —— 逐步蒸餾（Distilling step-bystep），用于使用更少的訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練更小的模型。這種機(jī)制減少了微調(diào)和蒸餾 LLM 所需的訓(xùn)練數(shù)據(jù)量，使之有更小的模型規(guī)模。

論文鏈接：https://arxiv.org/pdf/2305.02301v1.pdf

該機(jī)制的核心是換一種角度，將 LLM 看作是可以推理的 agent，而不是噪聲標(biāo)簽的來(lái)源。LLM 可以產(chǎn)生自然語(yǔ)言的理由（rationale），這些理由可以用來(lái)解釋和支持模型所預(yù)測(cè)的標(biāo)簽。例如，當(dāng)被問(wèn)及「一位先生攜帶著打高爾夫球的設(shè)備，他可能有什么？(a) 球桿，(b) 禮堂，(c) 冥想中心，(d) 會(huì)議，(e) 教堂」，LLM 可以通過(guò)思維鏈（CoT）推理回答出「（a）球桿」，并通過(guò)說(shuō)明「答案一定是用來(lái)打高爾夫球的東西」來(lái)合理化這個(gè)標(biāo)簽。在上述選擇中，只有球桿是用來(lái)打高爾夫的。研究者使用這些理由作為額外更豐富的信息在多任務(wù)訓(xùn)練設(shè)置中訓(xùn)練較小的模型，并進(jìn)行標(biāo)簽預(yù)測(cè)和理由預(yù)測(cè)。

如圖 1 所示，逐步蒸餾可以學(xué)習(xí)特定任務(wù)的小模型，這些模型的參數(shù)量還不到 LLM 的 1/500。與傳統(tǒng)的微調(diào)或蒸餾相比，逐步蒸餾使用的訓(xùn)練示例要也少得多。

實(shí)驗(yàn)結(jié)果顯示，在 4 個(gè) NLP 基準(zhǔn)中，有三個(gè)有希望的實(shí)驗(yàn)結(jié)論。

第一，相對(duì)于微調(diào)和蒸餾，逐步蒸餾模型在各數(shù)據(jù)集上實(shí)現(xiàn)了更好的性能，平均減少了 50% 以上的訓(xùn)練實(shí)例（最多可減少 85% 以上）。

第二，我們的模型在模型尺寸更小的情況下表現(xiàn)優(yōu)于 LLM（最多可以小到 2000 倍），極大地降低了模型部署所需的計(jì)算成本。

第三，該研究在縮減模型尺寸的同時(shí)，也減少了超越 LLM 所需要的數(shù)據(jù)量。研究者使用一個(gè) 770M 的 T5 模型超越了 540B 參數(shù)的 LLM 的性能。這個(gè)較小的模型只使用了現(xiàn)有微調(diào)方法 80% 的標(biāo)記數(shù)據(jù)集。

當(dāng)只有未標(biāo)記的數(shù)據(jù)時(shí)，小模型的表現(xiàn)相比 LLM 而言仍然有過(guò)之而無(wú)不及 —— 只用一個(gè) 11B 的 T5 模型就超過(guò)了 540B 的 PaLM 的性能。

該研究進(jìn)一步表明，當(dāng)一個(gè)較小的模型表現(xiàn)比 LLM 差時(shí)，與標(biāo)準(zhǔn)的蒸餾方法相比，逐步蒸餾可以更有效地利用額外的無(wú)標(biāo)簽數(shù)據(jù)來(lái)使較小的模型媲美 LLM 的性能。

逐步蒸餾

研究者提出了逐步蒸餾這個(gè)新范式，是利用 LLM 對(duì)其預(yù)測(cè)的推理能力，以數(shù)據(jù)高效率的方式訓(xùn)練更小的模型。整體框架如圖 2 所示。

該范式有兩個(gè)簡(jiǎn)單的步驟：首先，給定一個(gè) LLM 和一個(gè)無(wú)標(biāo)簽的數(shù)據(jù)集，提示 LLM 生成輸出標(biāo)簽以及證明該標(biāo)簽成立的理由。理由用自然語(yǔ)言解釋?zhuān)瑸槟Ｐ皖A(yù)測(cè)的標(biāo)簽提供支持（見(jiàn)圖 2）。理由是當(dāng)前自監(jiān)督 LLM 的一個(gè)涌現(xiàn)的行為屬性。

然后，除了任務(wù)標(biāo)簽之外，利用這些理由來(lái)訓(xùn)練更小的下游模型。說(shuō)白了，理由能提供了更豐富、更詳細(xì)的信息，來(lái)說(shuō)明一個(gè)輸入為什么被映射到一個(gè)特定的輸出標(biāo)簽。

實(shí)驗(yàn)結(jié)果

研究者在實(shí)驗(yàn)中驗(yàn)證了逐步蒸餾的有效性。首先，與標(biāo)準(zhǔn)的微調(diào)和任務(wù)蒸餾方法相比，逐步蒸餾有助于實(shí)現(xiàn)更好的性能，訓(xùn)練實(shí)例的數(shù)量少得多，大幅提高了學(xué)習(xí)小型特定任務(wù)模型的數(shù)據(jù)效率。

其次，研究表明，逐步蒸餾方法以更小的模型大小超越了 LLM 的性能，與 llm 相比，大大降低了部署成本。

最后，研究者調(diào)查了逐步蒸餾方法在超過(guò) LLM 的性能方面所需的最低資源，包括訓(xùn)練示例數(shù)量和模型大小。他們展示了逐步蒸餾方法通過(guò)使用更少的數(shù)據(jù)和更小的模型，同時(shí)提高了數(shù)據(jù)效率和部署效率。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1791

文章
46698

瀏覽量
237195
語(yǔ)言模型

語(yǔ)言模型

+關(guān)注

關(guān)注
0

文章
502

瀏覽量
10237
自然語(yǔ)言

自然語(yǔ)言

+關(guān)注

關(guān)注
1

文章
286

瀏覽量
13321

原文標(biāo)題：蒸餾也能Step-by-Step：新方法讓小模型也能媲美2000倍體量大模型

文章出處：【微信號(hào)：tyutcsplab，微信公眾號(hào)：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

C語(yǔ)言step-by-step

C語(yǔ)言step-by-step！

發(fā)表于 12-27 09:59

Altium19 3D STEP模型的導(dǎo)出

我們的3D模型一般是提供給專(zhuān)業(yè)的3D軟件進(jìn)行一個(gè)結(jié)構(gòu)核對(duì)，那么Altium Designer 提供導(dǎo)出3D STEP模型的這個(gè)功能，結(jié)構(gòu)工程師可以直接導(dǎo)出進(jìn)行結(jié)構(gòu)核對(duì)。接下來(lái)以AD19進(jìn)行講解。1. 首先，我們?cè)贏D19中，在F

發(fā)表于 11-22 10:07

Kicad6.0導(dǎo)出step模型遇到無(wú)法導(dǎo)出元件的問(wèn)題

RT，kicad6.0版本導(dǎo)出PCB的step文件中，只有pcb的板子模型，而沒(méi)有上面元件，有時(shí)想確認(rèn)pcb是否與設(shè)計(jì)結(jié)構(gòu)相干涉，望大家解答。

發(fā)表于 12-16 15:39

STEP與WRL 3D模型的區(qū)別

“ KiCad 7支持兩種格式的3D模型：STEP和WRL。本文簡(jiǎn)述了STEP與WRL的區(qū)別，以及這兩種格式在哪些場(chǎng)合應(yīng)用更合理。 ” 簡(jiǎn)介這兩種格式在本質(zhì)上是不同的。wrl格式是一種細(xì)分的表面

發(fā)表于 06-16 11:26

keras順序模型與函數(shù)式模型

Sequential，所以順序模型也可看做是函數(shù)式模型的一種特殊情況。還有另外一種Model子類(lèi)的搭建方法，這是利用python call方法

發(fā)表于 08-18 06:01

提高軟件可靠性模型精度的新方法

本內(nèi)容介紹了提高軟件可靠性模型精度的新方法，希望對(duì)大家學(xué)習(xí)上有所幫助

發(fā)表于 05-26 15:50 ?0次下載

如何使用STEP-BY-STEP在KEIL5中建立TM4C1294項(xiàng)目

本文檔的主要內(nèi)容詳細(xì)介紹的是如何使用STEP-BY-STEP在KEIL5中建立TM4C1294項(xiàng)目。

發(fā)表于 05-20 17:37 ?23次下載

ADL6012三維模型(*.step文件)

ADL6012三維模型(*.step文件)

發(fā)表于 03-22 22:51 ?5次下載

ADIS16460 3-D模型(.step文件)

ADIS16460 3-D模型(.step文件)

發(fā)表于 06-01 11:16 ?6次下載

STM32 Step-by-Step如何加快開(kāi)發(fā)速度

STM32 Step-by-Step 的另一個(gè)基本方面是我們的新社區(qū)。多年來(lái)，許多成員都表達(dá)了學(xué)習(xí)如何在我們的平臺(tái)上開(kāi)始編程的愿望，而這一新舉措為他們提供了專(zhuān)業(yè)知識(shí)。

發(fā)表于 05-16 16:23 ?1317次閱讀

Altium Designer導(dǎo)出3D STEP模型的方法

3D STEP 模型一般是提供給專(zhuān)業(yè)的3D軟件進(jìn)行結(jié)構(gòu)核對(duì)，如Pro/Engineer。Altium Designer 提供導(dǎo)出3D STEP模型的功能，結(jié)構(gòu)工程師可以直接導(dǎo)出進(jìn)行結(jié)構(gòu)

發(fā)表于 10-12 09:22 ?4.2w次閱讀

南開(kāi)/南理工/曠視提出CTKD：動(dòng)態(tài)溫度超參蒸餾新方法

一直保持靜態(tài)固定的溫度超參對(duì)學(xué)生模型來(lái)說(shuō)不是最優(yōu)的。基于課程學(xué)習(xí)的思想，人類(lèi)在學(xué)習(xí)過(guò)程中都是由簡(jiǎn)單到困難的學(xué)習(xí)知識(shí)。那么在蒸餾的過(guò)程中，我們也會(huì)希望模型一開(kāi)始

發(fā)表于 01-04 14:49 ?788次閱讀

基于一步步蒸餾（Distilling step-by-step）機(jī)制

為優(yōu)化LLM為“小模型/少數(shù)據(jù)/好效果”，提供了一種新思路：”一步步蒸餾”（Distilling step-by-step）

發(fā)表于 05-16 10:24 ?1119次閱讀

任意模型都能蒸餾！華為諾亞提出異構(gòu)模型的知識(shí)蒸餾方法

相比于僅使用logits的蒸餾方法，同步使用模型中間層特征進(jìn)行蒸餾的方法通常能取得更好的性能。然而在異構(gòu)

發(fā)表于 11-01 16:18 ?942次閱讀

大模型應(yīng)用Step-By-Step

導(dǎo)讀：本文主要介紹：智能聊天、PPT生成、與PDF文件智能對(duì)話(huà)、數(shù)字人創(chuàng)作、藝術(shù)創(chuàng)作。作者：王禹展部門(mén)：京東健康-技術(shù)產(chǎn)品部-供應(yīng)鏈研發(fā)部-B2B研發(fā)組一、大模型應(yīng)用分享 1 Monica

發(fā)表于 07-01 18:03 ?301次閱讀