0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種針對(duì)LLMs簡(jiǎn)單有效的思維鏈解毒方法

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 2023-08-21 15:02 ? 次閱讀

研究背景

近年來(lái),隨著大語(yǔ)言模型(Large Language Model, LLM)在自然語(yǔ)言處理任務(wù)上展現(xiàn)出優(yōu)秀表現(xiàn),大模型的安全問(wèn)題應(yīng)該得到重視。近期的工作表明[1][2][3]。LLM在生成過(guò)成中有概率輸出包含毒性的文本,包括冒犯的,充滿仇恨的,以及有偏見(jiàn)的內(nèi)容,這對(duì)用戶的使用是有風(fēng)險(xiǎn)的。毒性是LLM的一種固有屬性,因?yàn)樵谟?xùn)練過(guò)程中,LLM不可避免會(huì)學(xué)習(xí)到一些有毒的內(nèi)容。誠(chéng)然,對(duì)大模型的解毒(detoxification)是困難的,因?yàn)椴粌H需要語(yǔ)言模型保留原始的生成能力,還需要模型避免生成一些“特定的”內(nèi)容。同時(shí),傳統(tǒng)的解毒方法通常對(duì)模型生成的內(nèi)容進(jìn)行編輯[4][5],或?qū)δP驮黾右欢ǖ钠肹6][7],這些方法往往把解毒任務(wù)當(dāng)成一種特定的下游任務(wù)看待,損害了大語(yǔ)言模型最本質(zhì)的能力——生成能力,導(dǎo)致解毒過(guò)后模型生成的結(jié)果不盡人意。

本篇工作將解毒任務(wù)和傳統(tǒng)的生成任務(wù)(例如開(kāi)放域生成)通過(guò)思維鏈結(jié)合到一起,使得模型可以根據(jù)不同的情景選擇是否解毒以及解毒的粒度,同時(shí),模型會(huì)根據(jù)解毒過(guò)后的文本進(jìn)行生成,盡可能保證輸出高質(zhì)量的內(nèi)容。

相關(guān)工作

我們首先對(duì)目前大模型的解毒工作進(jìn)行分類(lèi)。

06e16c60-3fd5-11ee-ac96-dac502259ad0.png

圖1:已有解毒方法分類(lèi)

考慮到強(qiáng)化學(xué)習(xí)[10]訓(xùn)練大語(yǔ)言模型的困難性,我們從語(yǔ)言建模的角度對(duì)大語(yǔ)言模型進(jìn)行解毒。已有工作將解毒視為單一的任務(wù),可以實(shí)現(xiàn)從有毒內(nèi)容到無(wú)毒內(nèi)容的直接轉(zhuǎn)換。根據(jù)方法不同,具體可以分為后訓(xùn)練、修改生成概率分布、風(fēng)格轉(zhuǎn)換。

然而前期結(jié)果結(jié)果顯示這種一步到位的方法會(huì)影響模型的生成質(zhì)量,比如影響生成內(nèi)容的流暢性和一致性[8]。我們分析這是由于解毒目標(biāo)和模型的生成目標(biāo)之間存在不一致性,即語(yǔ)言模型會(huì)沿著有毒的提示繼續(xù)生成而解毒方法又迫使模型朝著相反的方向生成(防止模型生成有毒內(nèi)容),從而導(dǎo)致生成的內(nèi)容要么和前文不一致,要么流暢性降低(圖2 d)。所以我們從語(yǔ)言模型生成范式的角度思考,首先將輸入進(jìn)行手動(dòng)解毒,然后利用解毒后的提示引導(dǎo)模型生成,實(shí)驗(yàn)結(jié)果表明這種方法不僅能提升解毒的效果,還能使得生成的文本質(zhì)量提升。

0708bfd6-3fd5-11ee-ac96-dac502259ad0.png

圖2:初期實(shí)驗(yàn)

可惜的是,盡管上述的做法理論可行,目前的大語(yǔ)言模型缺失對(duì)有毒引導(dǎo)文本的解毒能力,包括毒性檢測(cè)和風(fēng)格轉(zhuǎn)換的能力(表1)。

072c9898-3fd5-11ee-ac96-dac502259ad0.png

表1:大模型解毒任務(wù)表現(xiàn)

方法技術(shù)

基于此上述的發(fā)現(xiàn),我們首先對(duì)解毒任務(wù)進(jìn)行分解,使其與其他生成任務(wù)更好的結(jié)合在一起,并且設(shè)計(jì)了如下(圖3)的思維鏈(又稱(chēng)為Detox-Chain)去激發(fā)模型的在解毒過(guò)程中的不同能力,包括輸入端毒性檢測(cè)、風(fēng)格轉(zhuǎn)換、根據(jù)解毒文本繼續(xù)生成的能力。我們提供了兩種構(gòu)造數(shù)據(jù)的方法,分別是利用多個(gè)開(kāi)源模型進(jìn)行生成和利用prompt engineering引導(dǎo)ChatGPT生成。

07532d5a-3fd5-11ee-ac96-dac502259ad0.png

圖3:Detox-Chain概述

3.1 毒性片段檢測(cè)

使用現(xiàn)成的API能讓我們很方便地檢測(cè)文本中的有毒內(nèi)容。然而,當(dāng)我們處理大量數(shù)據(jù)時(shí),使用這些API可能會(huì)花費(fèi)更多的時(shí)間(需要對(duì)原始數(shù)據(jù)進(jìn)行切片處理操作)。因此,我們訓(xùn)練了一個(gè) Span-CNN 模型 (圖4)可以自動(dòng)評(píng)估文本中每個(gè)n-gram的毒性。其中,全局特征提取器獲取句子級(jí)的毒性分?jǐn)?shù),1-D CNN 模型[9]以及一個(gè)局部特征提取器 可以獲取片段級(jí)的毒性分?jǐn)?shù) 。訓(xùn)練時(shí),給定一條包含n個(gè)片段的文本 ,以及卷積核,損失函數(shù)可以定義為:

077a097a-3fd5-11ee-ac96-dac502259ad0.png

對(duì)于標(biāo)簽和,我們均使用Perspective API計(jì)算毒性分?jǐn)?shù)。同時(shí),為了解決訓(xùn)練時(shí)有毒片段過(guò)少和無(wú)毒片段過(guò)多導(dǎo)致的數(shù)據(jù)不均衡的問(wèn)題,我們通過(guò)數(shù)據(jù)增強(qiáng)以及提高有毒片段的懲罰系數(shù)來(lái)提升片段毒性預(yù)測(cè)的準(zhǔn)確度。

最終的片段級(jí)毒性分?jǐn)?shù)s可以表示為

078ac274-3fd5-11ee-ac96-dac502259ad0.png

07a1cf50-3fd5-11ee-ac96-dac502259ad0.png

圖4:Span-CNN模型結(jié)構(gòu)

3.2 毒性片段重構(gòu)

為了解毒prompt中的有毒部分,我們引入毒性片段重構(gòu),具體可以分為Span Masking和Span Fulfilling兩個(gè)步驟。

(1)Span Masking:使用特殊標(biāo)簽“”替換檢測(cè)出的有毒片段。

(2)Span Fulfilling:使用現(xiàn)成的mask-filling模型,將mask后的prompt還原為無(wú)毒的prompt,盡可能地保留原來(lái)的語(yǔ)義信息。由于mask-filling模型可能會(huì)生成有毒的內(nèi)容,我們采取迭代生成(圖5)的方法確保生成的內(nèi)容無(wú)毒。

07da43d0-3fd5-11ee-ac96-dac502259ad0.png

圖5:迭代生成過(guò)程

3.3 文本續(xù)寫(xiě)

我們使用現(xiàn)成的模型對(duì)改寫(xiě)后的無(wú)毒prompt進(jìn)行續(xù)寫(xiě)操作,并采用了迭代生成的方法確保續(xù)寫(xiě)的內(nèi)容無(wú)毒。為了避免上述步驟替換過(guò)多原始內(nèi)容而導(dǎo)致的語(yǔ)義不一致性,我們根據(jù)相似度和困惑度分?jǐn)?shù)過(guò)濾生成的結(jié)果。具體來(lái)說(shuō),我們認(rèn)為那些相似度分?jǐn)?shù)較低或者困惑度分?jǐn)?shù)較高的輸出是不相關(guān)內(nèi)容,使用特殊文本替代模型輸出。

3.4 ChatGPT構(gòu)造解毒思維鏈

此外,我們還使用OpenAI的模型[10]。在上述每步中,通過(guò)設(shè)計(jì)prompt引導(dǎo)模型生成對(duì)應(yīng)步驟的內(nèi)容,具體構(gòu)建過(guò)程可以參考我們的論文。

實(shí)驗(yàn)結(jié)果

我們選取RealToxicityPrompts(RTP)和WrittingPrompt(WP)的測(cè)試集來(lái)評(píng)估模型的表現(xiàn)(表2,3),在Expected Maximum Toxicity Probability,SIM,Edit和PPL上均取得SOAT的表現(xiàn)。

07fc2a36-3fd5-11ee-ac96-dac502259ad0.png

表2:RealToxicityPrompts數(shù)據(jù)集上各模型表現(xiàn)

0829b32a-3fd5-11ee-ac96-dac502259ad0.png

表3:WrittingPrompts數(shù)據(jù)集上各模型表現(xiàn)

4.1 模型參數(shù)量的影響

相比模型大小,模型的毒性生成概率與訓(xùn)練數(shù)據(jù)更相關(guān),這也與之前工作的結(jié)論一致(cite)。此外,通過(guò)研究7B、13B和33B的LLaMA模型的表現(xiàn),我們發(fā)現(xiàn)更大的模型受到有毒prompt的誘導(dǎo)時(shí)傾向于生成更有毒的內(nèi)容。

4.2 指令微調(diào)大模型的改善

Alpaca-7B模型最大毒性分?jǐn)?shù)(Expected Maximum Toxicity)和毒性生成概率(Toxicity Probability)都比LLaMA-7B更小,說(shuō)明指令微調(diào)后的模型解毒能力更強(qiáng)[11]。

4.3 不同模型結(jié)構(gòu)的泛化

除了像GPT2和LLaMA這種decoder-only的模型,我們發(fā)現(xiàn)Detox-Chain也能泛化到encoder-decoder的結(jié)構(gòu),比如Flan-T5,而且Flan-T5-XL在毒性生成概率(Toxicity probability)的提升最大,分別在RTP數(shù)據(jù)集上達(dá)到了90.44%和在WP數(shù)據(jù)集上達(dá)到了72.17%。

實(shí)驗(yàn)分析

我們?cè)O(shè)計(jì)了消融實(shí)驗(yàn)比較了用開(kāi)源模型(Pipeline)制作的解毒數(shù)據(jù)集和ChatGPT制作的數(shù)據(jù)集訓(xùn)練的模型表現(xiàn)之間的差異。此外,我們還展示了推理階段每個(gè)中間步驟的成功率。具體細(xì)節(jié)可以參考原文。

5.1 思維鏈數(shù)據(jù)集構(gòu)造之間的比較

0861353e-3fd5-11ee-ac96-dac502259ad0.png

表4:Pipeline數(shù)據(jù)和ChatGPT數(shù)據(jù)分別訓(xùn)練的模型表現(xiàn)對(duì)比

使用ChatGPT數(shù)據(jù)訓(xùn)練模型的生成內(nèi)容展現(xiàn)出更低的平均毒性分?jǐn)?shù)。另一方面,Pipeline數(shù)據(jù)訓(xùn)練的模型則表現(xiàn)出更低的毒性生成的概率以及更高的語(yǔ)義相似性、多樣性和流暢性。這可能是因?yàn)樵谖谋纠m(xù)寫(xiě)步驟中續(xù)寫(xiě)部分是大模型自身生成的而不是由ChatGPT生成的[6]。

5.2 中間推理步驟分析

08a45f58-3fd5-11ee-ac96-dac502259ad0.png

表5:推理階段每步的成功率

在Toxic Detection部分,Pipeline數(shù)據(jù)和ChatGPT數(shù)據(jù)訓(xùn)練的模型在識(shí)別有毒內(nèi)容方面同樣有效,但在識(shí)別有毒片段時(shí),Pipeline數(shù)據(jù)訓(xùn)練的模型能夠更加全面地定位有毒片段。對(duì)于Span Masking任務(wù),更高的編輯距離和更低的毒性說(shuō)明pipeline數(shù)據(jù)進(jìn)行mask時(shí)比ChatGPT數(shù)據(jù)更加激進(jìn)。在Span Fulfilling和Continual Generation任務(wù)中,pipeline數(shù)據(jù)訓(xùn)練的模型能夠生成更相似的內(nèi)容,而ChatGPT數(shù)據(jù)訓(xùn)練的模型生成的毒性更小。可能的原因是ChatGPT經(jīng)過(guò)強(qiáng)化學(xué)習(xí)(RLHF)[10]減小毒性,因此生成的數(shù)據(jù)毒性更小。

總結(jié)與展望

在這項(xiàng)工作中,我們發(fā)現(xiàn)單步解毒方法雖然有效地降低了模型的毒性,但由于自回歸生成方式的固有缺陷,它們卻降低了大語(yǔ)言模型的生成能力。這是因?yàn)槟P蛢A向于沿著有毒的提示生成內(nèi)容,而解毒方法則朝著相反的方向發(fā)展。為了解決這個(gè)問(wèn)題,我們將解毒過(guò)程分解為有序的子步驟,模型首先解毒輸入,然后根據(jù)無(wú)毒提示持續(xù)生成內(nèi)容。我們還通過(guò)將這些子步驟與Detox-Chain相連,校準(zhǔn)了LLM的強(qiáng)大推理能力,使模型能夠逐步解毒。通過(guò)使用Detox-Chain進(jìn)行訓(xùn)練,六個(gè)不同架構(gòu)的強(qiáng)大開(kāi)源大語(yǔ)言模型(從1B到33B不等)都表現(xiàn)出顯著的改進(jìn)。我們的研究和實(shí)驗(yàn)還表明,LLM在提高其毒性檢測(cè)能力和對(duì)有毒提示作出適當(dāng)反應(yīng)方面還有很大的提升空間。我們堅(jiān)信,使大語(yǔ)言模型能夠生成安全內(nèi)容至關(guān)重要,朝著這個(gè)目標(biāo)還有很長(zhǎng)的路要走。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • API
    API
    +關(guān)注

    關(guān)注

    2

    文章

    1475

    瀏覽量

    61760
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    502

    瀏覽量

    10237
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    265

    瀏覽量

    11199

原文標(biāo)題:為應(yīng)對(duì)輸出風(fēng)險(xiǎn)文本的情況,提出一種針對(duì)LLMs簡(jiǎn)單有效的思維鏈解毒方法

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    一種簡(jiǎn)單的可控硅好壞判斷方法

    一種簡(jiǎn)單的可控硅好壞判斷方法
    發(fā)表于 07-28 08:17 ?6267次閱讀

    一種簡(jiǎn)單的OpenHarmony環(huán)境搭建方法

    本文介紹一種簡(jiǎn)單的OpenHarmony環(huán)境搭建方法。
    的頭像 發(fā)表于 03-14 13:58 ?3367次閱讀
    <b class='flag-5'>一種</b><b class='flag-5'>簡(jiǎn)單</b>的OpenHarmony環(huán)境搭建<b class='flag-5'>方法</b>

    一種簡(jiǎn)單的逆變器輸出直流分量消除方法

    進(jìn)行實(shí)驗(yàn),驗(yàn)證了該方法有效性。實(shí)驗(yàn)結(jié)果表明,該方案產(chǎn)生的基準(zhǔn)正弦波質(zhì)量高,直流分量消除效果明顯。一種簡(jiǎn)單的逆變器輸出直流分量消除方法[hi
    發(fā)表于 12-27 11:20

    一種簡(jiǎn)單有效的限流保護(hù)電路的設(shè)計(jì)

    一種簡(jiǎn)單有效的限流保護(hù)電路的設(shè)計(jì)
    發(fā)表于 08-20 16:00

    編程是一種思維方式,而代碼是一種表現(xiàn)形式,硬件只不過(guò)是對(duì)思維方式的物理體現(xiàn)

    編程是一種思維方式,而代碼是一種表現(xiàn)形式,硬件只不過(guò)是對(duì)思維方式的物理體現(xiàn)關(guān)于這句話,你怎么看?
    發(fā)表于 08-25 13:18

    介紹一種簡(jiǎn)單的數(shù)據(jù)解析方法

    JSON。? 下面我將介紹一種簡(jiǎn)單的數(shù)據(jù)解析方法,通過(guò)編寫(xiě)函數(shù),將字符串解析取得目標(biāo)數(shù)據(jù)。解析字符型數(shù)據(jù)函數(shù)原型/*** @brief從段字符串中解析期望的字符串* @parampB
    發(fā)表于 02-28 06:15

    介紹一種解決overconfidence簡(jiǎn)潔但有效方法

    會(huì)在模型部署期間帶來(lái)些問(wèn)題。所以我們希望能夠設(shè)計(jì)個(gè)有效的智能模型,使其能夠識(shí)別出 OOD 數(shù)據(jù),對(duì)其進(jìn)行系列的干預(yù)。本文介紹一種非常有
    發(fā)表于 08-24 15:11

    一種基于事件的Web服務(wù)組合方法

    為獲得一種既易于實(shí)現(xiàn)又能滿足用戶多樣化需求的服務(wù)組合的有效途徑,提出一種基于事件的服務(wù)組合方法.首先定義了一種基于ECA(event-con
    發(fā)表于 12-30 10:31 ?15次下載

    一種基于迷宮算法的有效FPGA布線方法

    在本篇論文中,我們介紹了在標(biāo)準(zhǔn)對(duì)稱(chēng)陣列(隔離島狀)現(xiàn)場(chǎng)可編程邏輯陣列結(jié)構(gòu)下的一種基于迷宮布線算法的新型有效布線方法, Pathfinder。實(shí)驗(yàn)結(jié)果顯示,相比普通的迷宮布線法
    發(fā)表于 08-06 14:36 ?16次下載

    一種簡(jiǎn)單有效的限流保護(hù)電路

    一種簡(jiǎn)單有效的限流保護(hù)電路   摘要:提出了一種簡(jiǎn)單有效
    發(fā)表于 07-11 10:52 ?3349次閱讀

    一種有效的視頻序列拼接方法

    針對(duì)視頻序列拼接中容易造成拼接耗時(shí)較長(zhǎng)、拼接效果不佳等問(wèn)題,提出一種有效的視頻序列拼接方法,首先,利用時(shí)域檢測(cè)窗口對(duì)視頻序列進(jìn)行關(guān)鍵幀的提取,其次,利用相鄰關(guān)鍵幀
    發(fā)表于 09-03 16:24 ?30次下載

    針對(duì)SVPWM死區(qū)問(wèn)題一種新的控制方法

    針對(duì)SVPWM死區(qū)問(wèn)題一種新的控制方法。
    發(fā)表于 03-30 14:40 ?11次下載

    一種有效的異態(tài)漢字識(shí)別方法

    復(fù)雜圖像文字識(shí)別是基于內(nèi)容圖像檢索的個(gè)重要研究方向.針對(duì)圖像中的文字可能存在傾斜、光照不均、噪音干擾和邊緣柔化等多種異態(tài)問(wèn)題,提出一種有效的異態(tài)漢字識(shí)別
    發(fā)表于 02-24 15:53 ?0次下載
    <b class='flag-5'>一種</b><b class='flag-5'>有效</b>的異態(tài)漢字識(shí)別<b class='flag-5'>方法</b>

    一種從患者血液樣本中有效分離異質(zhì)性CTCs的簡(jiǎn)單、廣譜的方法

    針對(duì)上述挑戰(zhàn),中國(guó)科學(xué)院蘇州納米所裴仁軍研究團(tuán)隊(duì)利用單寧酸(TA)功能化磁性納米顆粒(MNPs),建立了一種從患者血液樣本中有效分離異質(zhì)性CTCs的簡(jiǎn)單、廣譜的
    的頭像 發(fā)表于 06-11 09:19 ?2064次閱讀
    <b class='flag-5'>一種</b>從患者血液樣本中<b class='flag-5'>有效</b>分離異質(zhì)性CTCs的<b class='flag-5'>簡(jiǎn)單</b>、廣譜的<b class='flag-5'>方法</b>

    一種簡(jiǎn)單高效配置FPGA的方法

    本文描述了一種簡(jiǎn)單高效配置FPGA的方法,該方法利用微處理器從串行外圍接口(SPI)閃存配置FPGA設(shè)備。這種方法減少了硬件組件、板空間和成
    的頭像 發(fā)表于 10-24 14:57 ?284次閱讀
    <b class='flag-5'>一種</b><b class='flag-5'>簡(jiǎn)單</b>高效配置FPGA的<b class='flag-5'>方法</b>