對比解碼在LLM上的應(yīng)用

深度學習自然語言處理原創(chuàng)

作者：wkk

為了改進LLM的推理能力，University of California聯(lián)合Meta AI實驗室提出將Contrastive Decoding應(yīng)用于多種任務(wù)的LLM方法。實驗表明，所提方法能有效改進LLM的推理能力。讓我們走進論文一探究竟吧！

對比解碼(Contrastive Decoding)

在走進論文之前首先介紹一下什么是對比解碼，其是由Li等人在2022年提出的一種文本生成方法，具有簡單、計算量小、訓練自由等特點。它通過查找到最大化強模型和弱模型之間可能性差異的字符串來生成文本，從而產(chǎn)生更多且更高質(zhì)量的文本。在對比解碼中，弱模型可以是常規(guī)的貪心解碼方法，如一些簡單的采樣方法，強模型可以是經(jīng)過訓練的大型語言模型。對比解碼可以在很多推理任務(wù)上表現(xiàn)出色，包括算術(shù)推理和多項選擇排名任務(wù)，可以提高語言模型的準確率。

本文創(chuàng)新點：探索對比解碼在LLM上的應(yīng)用。具體地，通過最大化專家模型和較弱的業(yè)余模型之間存在的可能性誤差(如下圖所示)來搜索字符串，避免了專家模型中的不良影響和貪婪解碼會出現(xiàn)的采樣誤差問題。

實驗結(jié)論：通過在多種任務(wù)上的測試，本文證明了對比解碼可以提高大型語言模型在推理和文本生成問題上的性能，這是第一種同時在推理和文本生成問題上實現(xiàn)最先進結(jié)果的生成算法。此外，還分析了對比解碼的改進原因，并探討了該方法在常識推理和事實檢索方面的適用性。

實驗

實驗設(shè)置

模型：實驗采用LLaMA家族的原始模型，其中專家模型為LLaMA-65B，業(yè)余模型為具有1.5B的LLaMA模型。此外，在消融實驗中，本文還對FLAN-T5家族的模型進行實驗分析。

解碼參數(shù)：α=0.1，為原始論文中相同的超參數(shù)：專家模型分配的最大概率的比例，任何標記都分配了較低的概率被屏蔽掉。β=0.5是對應(yīng)于業(yè)余懲罰強度的超參數(shù)。將前導 (1 + β) 系數(shù)包含在專家 logits 中，以將對比懲罰的強度與輸出 logits 的預期尺度解耦，描述了用于采樣的溫度的對比權(quán)衡之間的對比權(quán)衡。

prompt：對于生成任務(wù)使用8-shot的CoT。

數(shù)據(jù)集：聚焦代數(shù)問題的AQuA、ASDiv、GSM8K、SVAMP和MATH數(shù)據(jù)集，針對常識推理的CommonsenseQA、StrategyQA數(shù)據(jù)集以及AI2 Reasoning Challenge、BooIQ、HellaSwag、MMLU、PIQA、SIQA和WinoGrande等基準數(shù)據(jù)集。

實驗結(jié)果

在GSM8K上的實驗表明，β=0.5能獲得更好的結(jié)果同時業(yè)余模型對于性能的提升可能大于專家模型。

對比解碼往往有助于全面完成具有CoT提示的算術(shù)推理任務(wù)。其中一個例外是MATH數(shù)據(jù)集，它被證明對標準解碼和對比解碼都具有挑戰(zhàn)性。作者推測因為對比解碼放大了專家比業(yè)余模型學得更好的技能，所以它對遠遠超出專家模型的任務(wù)沒有幫助。

在CommonsenseQA和StrategyQA數(shù)據(jù)集上實驗發(fā)現(xiàn)對比解碼會損害較小模型的性能。

對比解碼的影響

本文還進行了一系列附加實驗，研究表明，對比解碼可以在大型語言模型中提高推理能力。在算術(shù)推理和多項選擇排名任務(wù)上，包括LLaMA-65B這樣的大型模型，都有普遍的改進，這表明對比解碼可以使更大的模型受益。通過分析對比解碼改進的原因。實證表明，與貪婪解碼相比，對比解碼從提示中復制的表面層次較少，錯過的推理步驟也較少。這一結(jié)果表明，對比解碼通過減少模型分布中的短、重復或其他不良模式來起作用。

結(jié)論

使用對比解碼（Contrastive Decoding）方法可以顯著提高大型語言模型在一系列推理任務(wù)中的準確性，這種方法不僅在生成文本方面表現(xiàn)優(yōu)異，還可以在推理問題方面超越當前現(xiàn)有的各種模型。同時，該方法能夠減少模型分布中的短、重復或其他不良模式，從而提高模型的推理能力。然而，該方法在常識推理任務(wù)中表現(xiàn)良莠不齊，需要進一步研究和改進?？偟膩碚f，對比解碼方法在改善語言模型的生成和推理能力上具有廣泛的應(yīng)用前景。

審核編輯：湯梓紅

閱讀全文

解碼(27094) 解碼(27094)
AI(263628) AI(263628)
深度學習(119798) 深度學習(119798)
自然語言處理(13090) 自然語言處理(13090)
LLM(229) LLM(229)

【比特熊充電?！繉崙?zhàn)演練構(gòu)建LLM對話引擎

大模型時代，安全問題不容小覷。但如果把大模型比作孫悟空，那 NVIDIA NeMo Guardrails 就是“安全護欄”，可以輕松的為基于 LLM 的對話系統(tǒng)添加可編程護欄，來避免大語言模型輸出

2023-09-19 13:40:04

717

突破邊界：高性能計算引領(lǐng)LLM駛向通用人工智能AGI的創(chuàng)新紀元

ChatGPT的成功帶動整個AIGC產(chǎn)業(yè)的發(fā)展，尤其是LLM（大型語言模型，大語言模型）、NLP、高性能計算和深度學習等領(lǐng)域。LLM的發(fā)展將為全球和中國AI芯片、AI服務(wù)器市場的增長提供強勁動力，據(jù)估算，LLM將為全球和中國AI服務(wù)器帶來約891.2億美元和338.2億美元的市場空間。

2023-06-25 14:31:15

575

TensorRT-LLM初探（一）運行l(wèi)lama

TensorRT-LLM正式出來有半個月了，一直沒有時間玩，周末趁著有時間跑一下。

2023-11-16 17:39:34

772

基于ICL范式的LLM的最高置信度預測方案

本文假設(shè)不同的ICL為LLM提供了關(guān)于任務(wù)的不同知識，導致對相同數(shù)據(jù)的不同理解和預測。因此，一個直接的研究問題出現(xiàn)了:llm能否用多個ICL提示輸入來增強，以提供最可信的預測？為解決這個問題，本文提出上下文采樣(ICS)。ICS遵循三步流程:采樣、增強和驗證，如圖1所示。

2023-11-24 11:20:46

863

低比特量化技術(shù)如何幫助LLM提升性能

針對大語言模型 (LLM) 在部署過程中的性能需求，低比特量化技術(shù)一直是優(yōu)化效果最佳的方案之一，本文將探討低比特量化技術(shù)如何幫助 LLM 提升性能，以及新版 OpenVINO 對于低比特量化技術(shù)的支持。

2023-12-08 15:26:45

554

使用基于Transformers的API在CPU上實現(xiàn)LLM高效推理

英特爾 Extension for Transformers是英特爾推出的一個創(chuàng)新工具包，可基于英特爾架構(gòu)平臺，尤其是第四代英特爾至強可擴展處理器（代號 SapphireRapids，SPR）顯著加速基于Transformers的大語言模型( LargeLanguageModel,LLM)。

2024-01-22 11:11:06

1823

LLM3225

LLM3225 - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R15H

LLM3225-R15H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R18H

LLM3225-R18H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R33H

LLM3225-R33H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R56H

LLM3225-R56H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R68H

LLM3225-R68H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

在AT32微控制器上實現(xiàn)基于Zbar解碼庫的QR Decode應(yīng)用程序

本應(yīng)用筆記的目的是提供在AT32微控制器上實現(xiàn)基于Zbar解碼庫的QR Decode應(yīng)用程序的一般方法。

2023-10-26 08:07:21

在FPGA上h.264視頻編解碼的實現(xiàn)

想在DE2-115的開發(fā)板上完成h.264視頻編解碼，自己的想法是在已有的tpad_camer代碼上加一軟核，但一直失敗，希望有相關(guān)經(jīng)驗的高手指點下？

2014-03-05 16:24:19

在RK3288主板Debian 9.13系統(tǒng)上如何調(diào)用CPU硬解進行網(wǎng)絡(luò)攝像頭視頻流解碼？

2022-03-03 06:47:08

在TMS320C6657器件上輕松運行經(jīng)TI 優(yōu)化的Opus編碼器/解碼器

適用于語音通信、聯(lián)網(wǎng)音頻甚至高性能音頻處理應(yīng)用。較之 ARM 等通用處理器，此設(shè)計還通過在 DSP 上實現(xiàn) Opus 編解碼器來提升性能。根據(jù)通用處理器上所運行代碼的優(yōu)化級別，通過在 C66x TI

2022-09-22 06:32:42

AMBA解碼器產(chǎn)品手冊

以作為一個簡單的保護單元，防止試圖訪問存儲器映射的非法或受保護區(qū)域。提供了該解碼器的兩種實現(xiàn)： ·帶譯碼周期的譯碼。這是默認型號。此實現(xiàn)會自動插入一個解碼周期： -在非順序傳輸開始時-在斷言BLAST時在順序傳輸上-當達到1KB內(nèi)存邊界時

2023-08-22 06:26:05

AVS與其他主要主要編解碼技術(shù)對比

AVS與其他主要主要編解碼技術(shù)對比編碼工具AVSH.264MPEG2幀內(nèi)預測基于8*8塊，5種亮度預測模式，4種色度預測模塊基于4*4塊，9種亮度預測模式，4種色度預測模式只有頻域內(nèi)進行DC系數(shù)差分

2011-02-13 20:34:47

Blast Extreme會卸載端點GPU上的解碼嗎？

大家好，我對Horizo??n 7的好處感到非常興奮 -Blast Extreme能夠?qū)⒕幋a卸載到GPU上。這是否也允許將解碼卸載到端點上的GPU？或者解碼仍然發(fā)生在CPU中？謝謝！理查德以上

2018-09-30 10:45:06

CH32V103的AB相編碼器正交解碼，數(shù)據(jù)少一半是為什么？

如題，我將CH32V103的正交解碼功能引腳與光柵尺的AB相輸出相連（例如TIM3的PC6 PC7引腳）并編程開啟正交解碼功能，通過串口發(fā)送至PC查看數(shù)據(jù)。AB相正交解碼應(yīng)該是在AB兩相的四個信號

2022-06-09 07:37:19

DM8168在DVRRDK上的應(yīng)用咨詢

、在第3、4點的基礎(chǔ)上，如果輸入是兩路H.264碼流，能否實現(xiàn)這兩路信號的任意混疊后再輸出。 6、使用兩個DM8168分別解碼一個DM8168編碼后的碼流，這兩個解碼DM8168輸出的圖像能否做到同步

2018-05-31 08:59:04

FPGA對比STM32在解碼方面有什么優(yōu)勢？

為什么FPGA在解碼方面用的更多

2023-10-30 08:52:22

GM7150 視頻解碼芯片國騰電子

源選擇、A/D 轉(zhuǎn)換、自動鉗位、自動增益控制（AGC）、時鐘發(fā)生（CGC）、多制式解碼、亮度/對比度/飽和度控制（BCS）。在噪點處理上比TVP5150效果更好，軍工工藝，性價比更高。

2013-12-16 13:30:47

H264解碼器h264hpvdec修改為實時解碼,請問應(yīng)該從何處修改？

insufficient to decode a picture)的錯誤，即解碼第二個P幀時沒有將SPS包、PPS包和I幀的數(shù)據(jù)用起，TI的解碼器庫是否具有在解碼新的一幀時利用解碼上一幀用到的H264碼流的特性？

2018-08-03 08:43:02

MP3解碼芯片

中人們?nèi)匀涣晳T性地稱它們?yōu)椤?b class="flag-6" style="color: red">解碼芯片”。2 MP3解碼芯片作用　　MP3解碼芯片的作用顧名思義就是將存儲在介質(zhì)上的MP3文件解碼。它是MP3工作中最重要的一環(huán)，很大程度上影響最終的音質(zhì)表現(xiàn)。MP3

2016-12-14 14:16:35

MP3解碼芯片的原理是什么？

MP3解碼芯片的作用顧名思義就是將存儲在介質(zhì)上的MP3文件解碼。它是MP3工作中最重要的一環(huán)，很大程度上影響最終的音質(zhì)表現(xiàn)。MP3是一種有損壓縮的格式，如果MP3播放器擁有優(yōu)秀的解碼芯片就能夠更好

2019-10-25 09:13:36

MTK解碼芯片對比表

MTK解碼芯片對比表General Features For Amoi OnlyChip Version 79 89B 89C 89D 89E 89HDVideo compression MPEG

2008-08-05 12:46:31

PAL制解碼電路及系統(tǒng)

, 到達解碼矩陣的時間就不相同而使重現(xiàn)的圖像出現(xiàn)彩色鑲邊現(xiàn)象。為此, 應(yīng)在亮度通道中設(shè)置延時電路。   第四, 視頻全電視信號若失去直流分量, 在黑白電視機中僅改變

2010-10-01 17:10:34

STM32的音頻編碼與在PC端的解碼簡介

STM32的音頻編碼與在PC端的解碼簡介STM32F4移植編碼PC移植解碼結(jié)尾簡介能看到這篇文章的基本上都是有迫切需求的人，話不多說，切入正題編解碼庫：Speex編碼硬件平臺：STM32F411

2021-08-12 07:45:40

TDA8376解碼集成電路資料推薦

TDA8376是飛利蒲公司生產(chǎn)的解碼集成電路，內(nèi)部包括：P/N制式色度解碼、亮度處理、同步處理、RGB控制、偏轉(zhuǎn)控制。在TCL 3498GH機型上測定序號符號功能。

2021-05-07 06:52:38

mp3軟件音頻解碼實現(xiàn)語音播報功能

最近做了一個無人機的語音播放項目，查了一下網(wǎng)上大部分都是硬件解碼，成本相對比較高，而為了節(jié)約成本，我們采用了stm32f446 RET6作為主控+tas5720作為dac功放，實現(xiàn)mp3軟件音頻解碼

2021-08-12 07:56:45

【原創(chuàng)】對bmp格式2位黑白圖片解碼并顯示在12864液晶上

` 本帖最后由 gtbestom 于 2014-4-15 10:58 編輯最近移植成功了fat32文件系統(tǒng)，還認真學習了bmp文件格式，對bmp文件進行了解碼，黑白12864液晶屏只能到這樣的顯示效果了，只對黑白兩色位圖進行解碼，還算成功~^_^新手請大家多多包涵。`

2014-04-07 16:49:03

關(guān)于嵌入式DSP上的視頻編解碼的知識點總結(jié)的太棒了

2021-06-08 06:49:22

可配置兼容多標準的視頻解碼器片上系統(tǒng)

可配置兼容多標準的視頻解碼器片上系統(tǒng)世界視頻設(shè)備市場已經(jīng)進入從模擬設(shè)備向數(shù)字設(shè)備的轉(zhuǎn)型期,這個為期十年的歷史性轉(zhuǎn)折將引發(fā)巨大的市場需求。與模擬技術(shù)相比，視頻的數(shù)字化技術(shù)可以提高圖像的清晰度和質(zhì)量，并

2009-10-06 09:58:54

如何基于ffmpeg在ubuntu系統(tǒng)上添加硬解支持

firefly-rk3288 linux上H264、H265解碼一直都是軟解，下面將介紹如何基于ffmpeg，在ubuntu系統(tǒng)上添加硬解支持，首先安裝硬解驅(qū)動庫。這里使用的是國外友人mac_l1

2022-06-14 09:30:16

應(yīng)用AM3358，請問怎樣在硬件設(shè)計上外部連接解碼器芯片，實現(xiàn)對圖像數(shù)據(jù)的解碼？

本帖最后由一只耳朵怪于 2018-6-5 14:46 編輯圖像數(shù)據(jù)由網(wǎng)口發(fā)送給AM3358，需要解碼，現(xiàn)在想通過外部連接解碼器芯片來實現(xiàn)，可是看了下手冊，不太清楚ARM由哪些端口可以連接解碼器芯片，請高手指教一下，謝謝

2018-06-04 15:35:57

開博爾q30plus音頻解碼再進一步

紀念版q10plus基礎(chǔ)上做了眾多升級。從用戶反饋意見和綜合口碑來看，開博爾q10plus已經(jīng)是極其成熟的旗艦播放器，無論在UHD畫質(zhì)還是在無損音樂解碼上都達到了行業(yè)頂尖水平。而開博爾官方似乎并不滿足現(xiàn)狀，本月鄭重

2018-08-29 20:45:23

怎么在硬件上實現(xiàn)紅外信號解碼器

能在硬件上實現(xiàn)紅外信號解碼器嗎？或者我應(yīng)該只產(chǎn)生一個中斷信號的下降沿，然后解碼所有的軟件嗎？我已經(jīng)在不同的項目做了好幾次，而使用傳統(tǒng)的微處理器和軟件做這一切。我主要只是計數(shù)增量（信號保持高或低的時間

2019-02-14 14:35:23

振南真正實現(xiàn)ADPCM音頻解碼與播放【為了邊解碼邊播放的流暢度，振南提出了“追隨策略”！】

到PC，存為WAV文件，通過播放器軟件來播放。總之，不論是使用VS1003去回放它，還是用PC上的播放器軟件來播放WAV文件，都是使用外部的解碼器（硬件或者軟件）對ADPCM進行解碼的。但是在實際

2016-06-17 14:40:28

電路雙口網(wǎng)絡(luò)的參數(shù)矩陣實測值和理論值怎樣進行對比？對比的重點在哪里？

在實際測量得到的雙口網(wǎng)絡(luò)的T參數(shù)，和理論上的T參數(shù)矩陣，該怎樣進行對比。兩者均為2*2矩陣。求解。

2016-12-22 18:11:46

示波器全內(nèi)存解碼的奧秘

我們知道，協(xié)議解碼是協(xié)議分析中一個很重要的功能，它的實用程度取決于解碼的準確性、解碼范圍和解碼速度，其中解碼范圍和解碼速度是一對矛盾，二者很難兼得。在以往的解碼方案中，我們將解碼范圍限制在一定寬度

2016-11-27 22:31:23

紅外解碼在電腦上顯示

請大家看看為什么在電腦上不能顯示呢？想法是這樣的：按下紅外遙控器的按鈕后，其碼值顯示到電腦上#include#define uchar unsigned char#define uint

2013-10-28 19:07:03

紅外遙控解碼

紅外要控解碼 1602上顯示紅外遙控編碼

2012-08-13 18:00:11

紅外遙控解碼程序問題

話很不理解：IRCOM[j]=IRCOM[j] >> 1; //高位補0按照程序的思路，解碼后的值就存儲在 IRCOM[2] 里面，然后跟鍵碼表RecvData[] 進行對比：for(j=0

2017-06-10 16:42:53

請問TC9012紅外解碼的值如何確定？

在好多TC9012紅外解碼的程序中，有看到0x0C 對應(yīng)遙控器上的 0；0X18對應(yīng)遙控器上的 1，我想知道這個0x0C 0X18 等解碼后的值是怎么確定的呢？、

2019-06-05 04:35:39

請問TI有提供可以在6437上直接調(diào)用的MPEG2,MPEG4或者H.264視頻編解碼庫嗎？

本帖最后由一只耳朵怪于 2018-6-25 14:21 編輯各位專家：我想知道TI是否有提供可以在6437上直接調(diào)用的MPEG2,MPEG4或者H.264視頻編解碼庫，如果有的話，如何獲取，沒有的話，是否有第三方提供？

2018-06-25 07:28:30

請問dm365可以實現(xiàn)接收網(wǎng)絡(luò)上的數(shù)據(jù)流在本地解碼嗎？

本帖最后由一只耳朵怪于 2018-5-25 15:21 編輯 dm365可以實現(xiàn)接收網(wǎng)絡(luò)上的數(shù)據(jù)流在dm365上解碼嗎，貌似demo的decode程序只能解碼TI編碼的h264或mpeg4

2018-05-25 00:46:28

請問如何控制解碼器解碼的速度呢

請問如何控制解碼解碼的速度，我發(fā)現(xiàn)在解碼過程中添加延時會導致解碼器錯誤線程A 往mpp解碼器送數(shù)據(jù) 調(diào)用函數(shù)decode_put_packet（ffmpeg 拉流）線程B 解碼數(shù)據(jù) 調(diào)用函數(shù)

2022-09-15 16:05:48

超級電容與電池對比具有哪些明顯的特性？

超級電容與電池對比具有哪些明顯的特性？超級電容在智能電表上的應(yīng)用是什么？

2021-10-13 08:05:23

為什么需要視頻編碼，它的原理又是什么？第二集#視頻編解碼 #視頻編解碼

解碼編解碼視頻技術(shù)

面包車發(fā)布于 2022-07-29 15:12:56

這款模塊不帶解碼芯片使用需要配合編碼芯片和解碼芯片才可以正常使用?。。?#硬聲創(chuàng)作季

fpga芯片解碼解碼芯片

Hello,World!發(fā)布于 2022-09-28 10:32:31

LH3565彩色解碼電路的應(yīng)用電路圖

LH3565是一塊單片PAL彩色解碼集成電路,它能產(chǎn)生R,G,B三種信號直接輸出,并能控制亮度,對比度和色飽和度.應(yīng)用實例

2010-10-10 10:16:41

2763

音頻解碼

橙群微電子發(fā)布于 2023-03-16 10:00:34

IPTV視頻編解碼標準的對比與選擇

關(guān)鍵詞：IPTV , 編解碼 , 視頻 1、引言 IPTV業(yè)務(wù)是指基于寬帶互聯(lián)網(wǎng)與寬帶接入，以機頂盒或其它具有視頻編解碼能力的數(shù)字化設(shè)備作為終端，通過聚合SP的各種流媒體服務(wù)內(nèi)容和增值應(yīng)用，為用戶

2019-01-03 17:04:01

910

如何利用LLM做多模態(tài)任務(wù)？

大型語言模型LLM（Large Language Model）具有很強的通用知識理解以及較強的邏輯推理能力，但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力，但目前還未開放多模態(tài)輸入接口并且不會透露任何模型上技術(shù)細節(jié)。因此，現(xiàn)階段，如何利用LLM做一些多模態(tài)任務(wù)還是有一定的研究價值的。

2023-05-11 17:09:16

648

如何利用LLM做一些多模態(tài)任務(wù)

本文整理了近兩年來基于LLM做vision-lanuage任務(wù)的一些工作，并將其劃分為4個類別：

2023-05-17 15:02:35

575

邱錫鵬團隊提出具有內(nèi)生跨模態(tài)能力的SpeechGPT，為多模態(tài)LLM指明方向

大型語言模型（LLM）在各種自然語言處理任務(wù)上表現(xiàn)出驚人的能力。與此同時，多模態(tài)大型語言模型，如 GPT-4、PALM-E 和 LLaVA，已經(jīng)探索了 LLM 理解多模態(tài)信息的能力。然而，當前

2023-05-22 14:38:06

417

LLM性能的主要因素

現(xiàn)在是2023年5月，截止目前，網(wǎng)絡(luò)上已經(jīng)開源了眾多的LLM，如何用較低的成本，判斷LLM的基礎(chǔ)性能，選到適合自己任務(wù)的LLM，成為一個關(guān)鍵。本文會涉及以下幾個問題：影響LLM性能的主要因素

2023-05-22 15:26:20

1148

如何利用LLM做多模態(tài)任務(wù)？

大型語言模型LLM（Large Language Model）具有很強的通用知識理解以及較強的邏輯推理能力，但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力，但目前還未開放多模態(tài)輸入接口

2023-05-22 15:57:33

466

如何最好地使用所有可用的 LLM 工具

鑒于價格和質(zhì)量的廣泛差異，從業(yè)者可能很難決定如何最好地使用所有可用的 LLM 工具。此外，如果服務(wù)中斷，則依賴單個 API 提供者是不可靠的，這可能發(fā)生在意外高需求的情況下。

2023-05-23 17:22:30

525

LLM在各種情感分析任務(wù)中的表現(xiàn)如何

? 最近幾年，GPT-3、PaLM和GPT-4等LLM刷爆了各種NLP任務(wù)，特別是在zero-shot和few-shot方面表現(xiàn)出它們強大的性能。因此，情感分析(SA)領(lǐng)域也必然少不了LLM的影子

2023-05-29 17:24:41

1379

大型語言模型（LLM）的自定義訓練：包含代碼示例的詳細指南

近年來，像 GPT-4 這樣的大型語言模型（LLM）因其在自然語言理解和生成方面的驚人能力而受到廣泛關(guān)注。但是，要根據(jù)特定任務(wù)或領(lǐng)域定制LLM，定制培訓是必要的。本文提供了有關(guān)自定義訓練 LLM 的詳細分步指南，其中包含代碼示例和示例。

2023-06-12 09:35:43

1782

Macaw-LLM：具有圖像、音頻、視頻和文本集成的多模態(tài)語言建模

盡管指令調(diào)整的大型語言模型 (LLM) 在各種 NLP 任務(wù)中表現(xiàn)出卓越的能力，但它們在文本以外的其他數(shù)據(jù)模式上的有效性尚未得到充分研究。在這項工作中，我們提出了 Macaw-LLM，一種新穎的多模式 LLM，它無縫集成了視覺、音頻和文本信息。

2023-06-19 10:35:33

876

基于Transformer的大型語言模型（LLM）的內(nèi)部機制

本文旨在更好地理解基于 Transformer 的大型語言模型（LLM）的內(nèi)部機制，以提高它們的可靠性和可解釋性。隨著大型語言模型（LLM）在使用和部署方面的不斷增加，打開黑箱并了解它們的內(nèi)部

2023-06-25 15:08:49

991

基于一個完整的 LLM 訓練流程

? ? 在這篇文章中，我們將盡可能詳細地梳理一個完整的 LLM 訓練流程。包括模型預訓練（Pretrain）、Tokenizer 訓練、指令微調(diào)（Instruction Tuning）等環(huán)節(jié)。文末

2023-06-29 10:08:59

1202

最新綜述！當大型語言模型（LLM）遇上知識圖譜：兩大技術(shù)優(yōu)勢互補

LLM 是黑箱模型，缺乏可解釋性，因此備受批評。LLM 通過參數(shù)隱含地表示知識。因此，我們難以解釋和驗證 LLM 獲得的知識。此外，LLM 是通過概率模型執(zhí)行推理，而這是一個非決斷性的過程。對于 LLM 用以得出預測結(jié)果和決策的具體模式和功能，人類難以直接獲得詳情和解釋。

2023-07-10 11:35:00

1354

適用于各種NLP任務(wù)的開源LLM的finetune教程~

ChatGLM2-6b是清華開源的小尺寸LLM，只需要一塊普通的顯卡(32G較穩(wěn)妥)即可推理和微調(diào)，是目前社區(qū)非?；钴S的一個開源LLM。

2023-07-24 09:04:22

1311

LLM對程序員的沖擊和影響

LLM 對軟件研發(fā)的單點提效，我之前錄制過一段視頻，大家可以直接觀看，里面有詳細的演示，我在這里就不再贅述了。

2023-07-24 15:39:06

766

LLM的長度外推淺談

蘇神最早提出的擴展LLM的context方法，基于bayes啟發(fā)得到的公式

2023-07-28 17:37:43

1484

MLC-LLM的編譯部署流程

MLC-LLM部署在各種硬件平臺的需求，然后我就開始了解MLC-LLM的編譯部署流程和RWKV World模型相比于MLC-LLM已經(jīng)支持的Raven系列模型的特殊之處。 MLC-LLM的編譯部署流程

2023-09-04 09:22:46

1569

檢索增強LLM的方案全面的介紹

分分享了 ChatGPT 這類模型是如何一步一步訓練的，后半部分主要分享了 LLM 模型的一些應(yīng)用方向，其中就對檢索增強 LLM 這個應(yīng)用方向做了簡單介紹。

2023-09-08 16:39:55

799

mlc-llm對大模型推理的流程及優(yōu)化方案

在 MLC-LLM 部署RWKV World系列模型實戰(zhàn)（3B模型Mac M2解碼可達26tokens/s）中提到要使用mlc-llm部署模型首先需要一個編譯過程，將原始的基于Realx搭建的模型

2023-09-26 12:25:55

383

Continuous Batching：解鎖LLM潛力！讓LLM推斷速度飆升23倍，降低延遲！

本文介紹一篇 LLM 推理加速技術(shù) 相關(guān)的文章，值得讀一讀。 LLMs 在現(xiàn)實應(yīng)用中的計算成本主要由服務(wù)成本所主導，但是傳統(tǒng)的批處理策略存在低效性。在這篇文章中，我們將告訴

2023-10-15 20:25:02

292

在線研討會 | 基于 Jetson 邊緣計算平臺構(gòu)建 Azure OpenAI LLM 安全護欄

NVIDIANeMo Guardrails 是一個開源工具庫，致力于使 LLM 大語言模型的使用更加合法合規(guī)。它可以輕松地為基于 LLM 的對話系統(tǒng)添加可編程護欄，用以避免大語言模型輸出違法違規(guī)內(nèi)容

2023-10-21 16:35:03

215

Hugging Face LLM部署大語言模型到亞馬遜云科技Amazon SageMaker推理示例

?本篇文章主要介紹如何使用新的Hugging Face LLM推理容器將開源LLMs，比如BLOOM大型語言模型部署到亞馬遜云科技Amazon SageMaker進行推理的示例。我們將部署12B

2023-11-01 17:48:42

422

LLM的Transformer是否可以直接處理視覺Token？

多種LLM Transformer都可以提升Visual Encoding。例如用LLaMA和OPT的不同Transformer層都會有提升，而且不同層之間也會體現(xiàn)不同的規(guī)律。

2023-11-03 14:10:15

181

LLM的幻覺問題最新綜述

幻覺被描述為無意義或不忠實于所提供源內(nèi)容的生成內(nèi)容。根據(jù)與源內(nèi)容的矛盾，這些幻覺又進一步分為內(nèi)在幻覺和外在幻覺。在LLMs中，幻覺的范圍包含了一個更廣泛、更全面的概念，主要集中在事實錯誤上。本文重新定義了幻覺的分類，為LLM應(yīng)用程序提供了一個更定制的框架。

2023-11-22 17:40:41

467