0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Hugging Face大語言模型優(yōu)化技術(shù)

jf_WZTOguxH ? 來源:AI前線 ? 2023-10-09 16:25 ? 次閱讀

大語言模型的生產(chǎn)部署存在兩個(gè)主要的挑戰(zhàn),一個(gè)是需要大量的參數(shù),一個(gè)是需要處理非常長的用于表示上下文信息的輸入序列。Hugging Face 基于他們提供大模型服務(wù)的經(jīng)驗(yàn)分享了一些克服這些障礙的技術(shù)。

Patrick von Platen 在文中介紹的 Hugging Face 研究的三種技術(shù)是降低數(shù)值精度、使用一種叫作 Flash Attention 的注意力算法,以及使用專門的推理架構(gòu)。

大語言模型需要大量的 VRAM 來加載,從幾十 (bigcode/starcoder) 到數(shù)百 GB (Llama、Bloom、GPT3)。第一個(gè)優(yōu)化手段是從 float32 切換到 bfloat16 精度:

現(xiàn)在幾乎所有的模型都是基于 bfloat16 訓(xùn)練的,如果你的 GPU 支持 bfloat16,就沒有理由基于全 float32 精度運(yùn)行模型。float32 不會給出比訓(xùn)練模型所使用的精度更好的推理結(jié)果。

這可以使總體內(nèi)存消耗減少一半,但可惜的是,在許多情況下仍然需要很大的內(nèi)存。一種更激進(jìn)的方法是將模型權(quán)重量化為 8 位或 4 位,這已經(jīng)被證明不會導(dǎo)致顯著的性能下降。

量化對于文本生成來說特別有效,因?yàn)槲覀兯P(guān)心的是選擇最有可能的下一個(gè)標(biāo)記集合,而不是下一個(gè)標(biāo)記 Logit 分布的確切值。

這將進(jìn)一步減少所需的內(nèi)存,使得在只有 16GB VRAM 的 GPU 上運(yùn)行較小的模型成為可能,盡管代價(jià)是推理時(shí)間稍長。

von Platen 寫道,使用 Flash Attention 是另一相關(guān)鍵的優(yōu)化,它是大語言模型用來理解輸入標(biāo)記上下文關(guān)系的自注意力層的一種算法,有可能打破輸入標(biāo)記數(shù)量的二次增長。

因?yàn)樵撍惴ㄌ^復(fù)雜,無法在這里描述,但可以這么說,它利用了 softmax 規(guī)范化統(tǒng)計(jì)數(shù)據(jù)和一些數(shù)學(xué)手段,在只需要隨輸入標(biāo)記線性增長的內(nèi)存的情況下提供相同的輸出。推理性能也得益于算法使用了更快的 SRAM 而不是更慢的 GPU VRAM。

在實(shí)踐中,目前絕對沒有理由不使用 Flash Attention。該算法在數(shù)學(xué)層面給出了相同的輸出,并且速度更快,內(nèi)存效率更高。

Here recent research can help to make the right choice with two components that quickly become bottlenecks, says von Platen,positional embeddingsand thekey-value cache.

在生產(chǎn)環(huán)境中部署大語言模型的第三項(xiàng)優(yōu)化措施是選擇正確的架構(gòu),讓它們能夠有效地處理長文本輸入。von Platen 寫道,最近的研究有助于我們?nèi)绾螌蓚€(gè)很快成為瓶頸的組件做出選擇——一個(gè)是 _ 位置嵌入 (positional embeddings)_,一個(gè)是 _ 鍵值緩存 _。

位置嵌入通過將每個(gè)標(biāo)記的位置編碼為數(shù)字表示來幫助語言大模型理解序列順序。對于需要處理大型文本輸入任務(wù)的大語言模型,應(yīng)該使用 RoPE 和 ALiBi 等相對位置嵌入技術(shù)進(jìn)行訓(xùn)練。

RoPE 和 ALiBi 位置編碼都可以外推到訓(xùn)練期間未遇到過的輸入長度,而事實(shí)證明,與 RoPE 相比,外推對于開箱即用的 ALiBi 的效果要好得多。

目前的許多大語言模型中已經(jīng)在使用這兩種算法。

鍵值緩存可以作為對對話上下文進(jìn)行編碼的一種方法。鍵值緩存在發(fā)生每個(gè)新交互時(shí)增加一個(gè)元素,這比為每個(gè)請求編碼 / 解碼上下文的方法要有效得多。von Platen 詳細(xì)介紹了兩類鍵值緩存,即 Multi-Query-Attention (MQA) 和 Grouped-Query-Attention(GQA) 。

von Platen 的文章所涵蓋的內(nèi)容不只有本文所概述的這些,他的文章中還提供了實(shí)際的例子來證明他的觀點(diǎn),所以請不要錯(cuò)過他的文章。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4673

    瀏覽量

    128593
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    501

    瀏覽量

    10236
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2274

    瀏覽量

    2357

原文標(biāo)題:Hugging Face 大語言模型優(yōu)化技術(shù)

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    Hugging Face科技公司推出SmolLM系列語言模型

    7月22日最新資訊,Hugging Face科技公司在語言模型領(lǐng)域再創(chuàng)新高,正式推出了SmolLM系列——一款專為適應(yīng)多樣計(jì)算資源而設(shè)計(jì)的緊湊型語言
    的頭像 發(fā)表于 07-23 16:35 ?261次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 俯瞰全書

    的大語言模型設(shè)計(jì)技術(shù)人員閱讀,主要包括大語言模型優(yōu)化方法、Agent系統(tǒng)調(diào)優(yōu)以及
    發(fā)表于 07-21 13:35

    亞馬遜云攜手AI新創(chuàng)企業(yè)Hugging Face,提升AI模型在定制芯片計(jì)算性能

    Hugging Face作為一家估值為45億美元的公司現(xiàn)已成為了眾多AI研究員和開發(fā)者分享Chatbot和相關(guān)軟件的核心平臺,受到亞馬遜、谷歌、英偉達(dá)等巨頭的青睞。
    的頭像 發(fā)表于 05-23 14:24 ?368次閱讀

    Hugging Face提供1000萬美元免費(fèi)共享GPU

    全球最大的開源AI社區(qū)Hugging Face近日宣布,將提供價(jià)值1000萬美元的免費(fèi)共享GPU資源,以支持開發(fā)者創(chuàng)造新的AI技術(shù)。這一舉措旨在幫助小型開發(fā)者、研究人員和初創(chuàng)公司,對抗大型AI公司的市場壟斷,推動(dòng)AI領(lǐng)域的公平競
    的頭像 發(fā)表于 05-20 09:40 ?589次閱讀

    語言模型:原理與工程時(shí)間+小白初識大語言模型

    開拓深度學(xué)習(xí)的思路。對于新涌現(xiàn)的大語言模型的能力,主要是表現(xiàn)在學(xué)習(xí)能力的提升、語言理解和生成能力、創(chuàng)新和探索的能力。 基礎(chǔ)技術(shù) 詞表示技術(shù)
    發(fā)表于 05-12 23:57

    Hugging Face推出開源機(jī)器人代碼庫LeRobot

    AI領(lǐng)域的佼佼者Hugging Face近日宣布重磅推出并全面開源其機(jī)器人工具包——LeRobot。這一創(chuàng)新工具包基于史上最大規(guī)模的眾包機(jī)器人數(shù)據(jù)集,為開發(fā)者提供了一個(gè)前所未有的平臺。
    的頭像 發(fā)表于 05-09 10:32 ?535次閱讀

    【大語言模型:原理與工程實(shí)踐】大語言模型的應(yīng)用

    實(shí)際應(yīng)用前需解決的挑戰(zhàn)。為提升大語言模型的性能,高級的提示詞技術(shù)可以促進(jìn)大語言模型與環(huán)境進(jìn)行動(dòng)態(tài)交互,引導(dǎo)其生成和推理規(guī)劃。 檢索增強(qiáng)生成
    發(fā)表于 05-07 17:21

    【大語言模型:原理與工程實(shí)踐】大語言模型的評測

    的不同語言種類以及在每種語言上的表現(xiàn)。 代碼類評測任務(wù):是衡量大語言模型性能的核心指標(biāo)之一,其不僅具有廣泛的技術(shù)應(yīng)用潛力,還是區(qū)分不同大
    發(fā)表于 05-07 17:12

    【大語言模型:原理與工程實(shí)踐】探索《大語言模型原理與工程實(shí)踐》2.0

    讀者更好地把握大語言模型的應(yīng)用場景和潛在價(jià)值。盡管涉及復(fù)雜的技術(shù)內(nèi)容,作者盡力以通俗易懂的語言解釋概念,使得非專業(yè)背景的讀者也能夠跟上節(jié)奏。圖表和示例的運(yùn)用進(jìn)一步增強(qiáng)了書籍的可讀性。本
    發(fā)表于 05-07 10:30

    【大語言模型:原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

    全面剖析大語言模型的核心技術(shù)與基礎(chǔ)知識。首先,概述自然語言的基本表示,這是理解大語言模型
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實(shí)踐】核心技術(shù)綜述

    我也不打算把網(wǎng)上相關(guān)的信息在總結(jié)一下,這樣的話,工作量很大。 我主要看了-大語言模型基礎(chǔ)技術(shù)這節(jié) 大語言模型(Large Language
    發(fā)表于 05-05 10:56

    【大語言模型:原理與工程實(shí)踐】揭開大語言模型的面紗

    語言模型(LLM)是人工智能領(lǐng)域的尖端技術(shù),憑借龐大的參數(shù)量和卓越的語言理解能力贏得了廣泛關(guān)注。它基于深度學(xué)習(xí),利用神經(jīng)網(wǎng)絡(luò)框架來理解和生成自然
    發(fā)表于 05-04 23:55

    【大語言模型:原理與工程實(shí)踐】探索《大語言模型原理與工程實(shí)踐》

    《大語言模型》是一本深入探討人工智能領(lǐng)域中語言模型的著作。作者通過對語言模型的基本概念、基礎(chǔ)
    發(fā)表于 04-30 15:35

    ServiceNow、Hugging Face 和 NVIDIA 發(fā)布全新開放獲取 LLM,助力開發(fā)者運(yùn)用生成式 AI 構(gòu)建企業(yè)應(yīng)用

    2024 年 2 月 28 日 - ServiceNow(NYSE:NOW)、Hugging Face 和 NVIDIA 于今日發(fā)布 StarCoder2,其為一系列用于代碼生成的開放獲取大語言
    發(fā)表于 02-29 11:12 ?229次閱讀
    ServiceNow、<b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b> 和 NVIDIA 發(fā)布全新開放獲取 LLM,助力開發(fā)者運(yùn)用生成式 AI 構(gòu)建企業(yè)應(yīng)用

    2023 LLM技術(shù)報(bào)告—— LLM的工具和平臺

    、運(yùn)行和優(yōu)化這些模型,Hugging Face、Replicate 以及 Gitee AI 均為 MaaS 平臺。
    的頭像 發(fā)表于 01-29 15:59 ?763次閱讀
    2023 LLM<b class='flag-5'>技術(shù)</b>報(bào)告—— LLM的工具和平臺