0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

新型威脅:探索LLM攻擊對網(wǎng)絡(luò)安全的沖擊

jf_WZTOguxH ? 來源:AI前線 ? 2023-10-11 16:28 ? 次閱讀

來自卡內(nèi)基梅隆大學(xué)(CMU)的研究人員發(fā)布了 LLM Attacks,這是一種可以針對各種大型語言模型(LLM)構(gòu)建對抗性攻擊的算法,包括 ChatGPT、Claude 和 Bard。這些自動生成的攻擊,在 GPT-3.5 和 GPT-4 上的成功率為 84%,在 PaLM-2 上的成功率為 66%。

與大多數(shù)“越獄”攻擊通過試錯(cuò)手工構(gòu)建不同,CMU 的團(tuán)隊(duì)設(shè)計(jì)了一個(gè)三步流程來自動生成提示后綴,它們可以繞過 LLM 的安全機(jī)制,導(dǎo)致有害的響應(yīng)。而且,這些提示還是可轉(zhuǎn)移(transferrable)的,也就是說,一個(gè)給定的后綴通??梢杂糜谠S多不同的 LLM,甚至是閉源模型。為了衡量算法的有效性,研究人員創(chuàng)建了一個(gè)名為 AdvBench 的基準(zhǔn)測試;在此基準(zhǔn)測試上進(jìn)行評估時(shí),LLM 攻擊對 Vicuna 的成功率為 88%,而基線對抗算法的成功率為 25%。根據(jù) CMU 團(tuán)隊(duì)的說法:

最令人擔(dān)憂的也許是,目前尚不清楚 LLM 提供商是否能夠完全修復(fù)此類行為。在過去的 10 年里,在計(jì)算機(jī)視覺領(lǐng)域,類似的對抗性攻擊已經(jīng)被證明是一個(gè)非常棘手的問題。有可能深度學(xué)習(xí)模型根本就無法避免這種威脅。因此,我們認(rèn)為,在增加對此類人工智能模型的使用和依賴時(shí),應(yīng)該考慮到這些因素。

隨著 ChatGPT 和 GPT-4 的發(fā)布,出現(xiàn)了許多破解這些模型的技術(shù),其中就包括可能導(dǎo)致模型繞過其保護(hù)措施并輸出潛在有害響應(yīng)的提示。雖然這些提示通常是通過實(shí)驗(yàn)發(fā)現(xiàn)的,但 LLM Attacks 算法提供了一種自動創(chuàng)建它們的方法。第一步是創(chuàng)建一個(gè)目標(biāo)令牌序列:“Sure, here is (content of query)”,其中“content of query”是用戶實(shí)際輸入的提示,要求進(jìn)行有害的響應(yīng)。

接下來,該算法會查找可能導(dǎo)致 LLM 輸出目標(biāo)序列的令牌序列,基于貪婪坐標(biāo)梯度(GCG)算法為提示生成一個(gè)對抗性后綴。雖然這確實(shí)需要訪問 LLM 的神經(jīng)網(wǎng)絡(luò),但研究團(tuán)隊(duì)發(fā)現(xiàn),在許多開源模型上運(yùn)行 GCG 所獲得的結(jié)果甚至可以轉(zhuǎn)移到封閉模型中。

在 CMU 發(fā)布的一條介紹其研究成果的新聞中,論文合著者 Matt Fredrikson 表示:

令人擔(dān)憂的是,這些模型將在沒有人類監(jiān)督的自主系統(tǒng)中發(fā)揮更大的作用。隨著自主系統(tǒng)越來越真實(shí),我們要確保有一種可靠的方法來阻止它們被這類攻擊所劫持,這將非常重要……現(xiàn)在,我們根本沒有一個(gè)令人信服的方法來防止這種事情的發(fā)生,所以下一步,我們要找出如何修復(fù)這些模型……了解如何發(fā)動這些攻擊通常是建立強(qiáng)大防御的第一步。

論文第一作者、CMU 博士生 Andy Zou 在推特上談到了這項(xiàng)研究。他寫道:

盡管存在風(fēng)險(xiǎn),但我們認(rèn)為還是應(yīng)該把它們?nèi)颗冻鰜?。這里介紹的攻擊很容易實(shí)現(xiàn),以前也出現(xiàn)過形式類似的攻擊,并且最終也會被致力于濫用 LLM 的團(tuán)隊(duì)所發(fā)現(xiàn)。

劍橋大學(xué)助理教授 David Krueger 回復(fù)了 Zou 的帖子,他說:

在圖像模型中,10 年的研究和成千上萬的出版物都未能找出解決對抗樣本的方法,考慮到這一點(diǎn),我們有充分的理由相信,LLM 同樣會如此。

在 Hacker News 上關(guān)于這項(xiàng)工作的討論中,有一位用戶指出:

別忘了,本研究的重點(diǎn)是,這些攻擊不需要使用目標(biāo)系統(tǒng)來開發(fā)。作者談到,攻擊是“通用的”,他們的意思是說,他們可以在自己的計(jì)算機(jī)上完全使用本地模型來生成這些攻擊,然后將它們復(fù)制并粘貼到 GPT-3.5 中,并看到了有意義的成功率。速率限制并不能幫你避免這種情況,因?yàn)楣羰窃诒镜厣傻?,而不是用你的服?wù)器生成的。你的服務(wù)器收到的第一個(gè)提示已經(jīng)包含了生成好的攻擊字符串——研究人員發(fā)現(xiàn),在某些情況下,即使是對 GPT-4,成功率也在 50% 左右。

GitHub 上提供了代碼,你可以在 AdvBench 數(shù)據(jù)上重現(xiàn) LLM Attacks 實(shí)驗(yàn)。項(xiàng)目網(wǎng)站上還提供了幾個(gè)對抗性攻擊的演示。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 網(wǎng)絡(luò)安全
    +關(guān)注

    關(guān)注

    10

    文章

    3063

    瀏覽量

    59223
  • GitHub
    +關(guān)注

    關(guān)注

    3

    文章

    461

    瀏覽量

    16232
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    247

    瀏覽量

    279

原文標(biāo)題:新型威脅:探索 LLM 攻擊對網(wǎng)絡(luò)安全的沖擊

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    國產(chǎn)網(wǎng)絡(luò)安全主板在防御網(wǎng)絡(luò)攻擊中的實(shí)際應(yīng)用

    在現(xiàn)代信息技術(shù)迅猛發(fā)展的背景下,網(wǎng)絡(luò)安全問題變得越來越復(fù)雜和嚴(yán)峻。從企業(yè)到個(gè)人用戶,各類網(wǎng)絡(luò)攻擊事件頻繁發(fā)生,威脅著數(shù)據(jù)的安全和系統(tǒng)的穩(wěn)定。
    的頭像 發(fā)表于 09-18 10:47 ?86次閱讀

    IP定位技術(shù)追蹤網(wǎng)絡(luò)攻擊源的方法

    如今,網(wǎng)絡(luò)安全受到黑客威脅和病毒攻擊越來越頻繁,追蹤攻擊源頭對于維護(hù)網(wǎng)絡(luò)安全變得尤為重要。當(dāng)我們遭受網(wǎng)絡(luò)
    的頭像 發(fā)表于 08-29 16:14 ?184次閱讀

    網(wǎng)絡(luò)安全技術(shù)商CrowdStrike與英偉達(dá)合作

    網(wǎng)絡(luò)安全技術(shù)商CrowdStrike與英偉達(dá)合作共同研發(fā)更先進(jìn)的網(wǎng)絡(luò)防御解決方案;提升CrowdStrike Falcon平臺的威脅檢測速度和準(zhǔn)確性。將通過人工智能原生平臺CrowdStrike
    的頭像 發(fā)表于 08-28 16:30 ?993次閱讀

    工業(yè)控制系統(tǒng)面臨的網(wǎng)絡(luò)安全威脅有哪些

    ,隨著技術(shù)的發(fā)展,工業(yè)控制系統(tǒng)也面臨著越來越多的網(wǎng)絡(luò)安全威脅。本文將詳細(xì)介紹工業(yè)控制系統(tǒng)面臨的網(wǎng)絡(luò)安全威脅,并提出相應(yīng)的防護(hù)措施。 惡意軟件攻擊
    的頭像 發(fā)表于 06-16 11:43 ?910次閱讀

    專家解讀 | NIST網(wǎng)絡(luò)安全框架(1):框架概覽

    本文主要探討NIST CSF框架的起源目標(biāo)、內(nèi)容組成,及其在網(wǎng)絡(luò)安全風(fēng)險(xiǎn)管理中的關(guān)鍵作用,通過采用該框架,組織能夠更有效地實(shí)施風(fēng)險(xiǎn)識別、安全保護(hù)、威脅檢測和事件響應(yīng),從而構(gòu)建更加堅(jiān)固和彈性的網(wǎng)
    的頭像 發(fā)表于 05-06 10:30 ?1109次閱讀
    專家解讀 | NIST<b class='flag-5'>網(wǎng)絡(luò)安全</b>框架(1):框架概覽

    艾體寶觀察 | 2024,如何開展網(wǎng)絡(luò)安全風(fēng)險(xiǎn)分析

    2024年的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)分析是一系列系統(tǒng)性的步驟,旨在識別、評估并減輕可能對企業(yè)產(chǎn)生負(fù)面影響的現(xiàn)有或潛在的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)。對所有系統(tǒng)和資源進(jìn)行清點(diǎn)、識別潛在的弱點(diǎn)和威脅、確定風(fēng)險(xiǎn)影響、制定和實(shí)施
    的頭像 發(fā)表于 04-22 14:15 ?250次閱讀

    勒索病毒的崛起與企業(yè)網(wǎng)絡(luò)安全的挑戰(zhàn)

    在數(shù)字化時(shí)代,網(wǎng)絡(luò)安全已成為企業(yè)維護(hù)信息完整性、保障業(yè)務(wù)連續(xù)性的關(guān)鍵。然而,勒索病毒以其不斷進(jìn)化的攻擊手段和商業(yè)化模式,成為全球網(wǎng)絡(luò)安全領(lǐng)域最嚴(yán)峻的威脅之一。本文將概述勒索病毒帶來的危
    的頭像 發(fā)表于 03-16 09:41 ?320次閱讀

    工業(yè)發(fā)展不可忽視的安全問題——OT網(wǎng)絡(luò)安全

    在數(shù)字化時(shí)代,工業(yè)運(yùn)營技術(shù)(OT)的網(wǎng)絡(luò)安全比以往任何時(shí)候都更加重要。DataLocker,作為OT網(wǎng)絡(luò)安全的守護(hù)者,提供了全面的加密和數(shù)據(jù)管理解決方案,確保關(guān)鍵基礎(chǔ)設(shè)施免受網(wǎng)絡(luò)威脅。
    的頭像 發(fā)表于 03-09 08:04 ?1952次閱讀
    工業(yè)發(fā)展不可忽視的<b class='flag-5'>安全</b>問題——OT<b class='flag-5'>網(wǎng)絡(luò)安全</b>

    云網(wǎng)端安全托管方案 —— 企業(yè)網(wǎng)絡(luò)安全的守護(hù)盾

    在數(shù)字化浪潮席卷全球的今天,企業(yè)面臨的網(wǎng)絡(luò)安全威脅愈發(fā)復(fù)雜多變。從業(yè)務(wù)中斷到數(shù)據(jù)丟失,這些外部威脅不僅影響公司的運(yùn)營效率,還可能嚴(yán)重?fù)p害企業(yè)的聲譽(yù)。加之安全運(yùn)維的困難、風(fēng)險(xiǎn)識別的挑戰(zhàn)以
    的頭像 發(fā)表于 03-07 13:55 ?555次閱讀

    知語云全景監(jiān)測技術(shù):現(xiàn)代安全防護(hù)的全面解決方案

    可以幫助實(shí)現(xiàn)政務(wù)數(shù)據(jù)的安全保護(hù),防止敏感信息泄露;對于個(gè)人用戶而言,知語云全景監(jiān)測技術(shù)可以提供更加全面的網(wǎng)絡(luò)安全保護(hù),防范網(wǎng)絡(luò)釣魚、惡意軟件等安全
    發(fā)表于 02-23 16:40

    Secureworks 威脅評分迎來網(wǎng)絡(luò)安全 AI 新時(shí)代

    現(xiàn)在,安全分析師可以確信其正在優(yōu)先處理并響應(yīng)對其組織構(gòu)成最大風(fēng)險(xiǎn)的警報(bào) 亞特蘭大2024年2月2日 /美通社/ -- 網(wǎng)絡(luò)安全領(lǐng)域全球領(lǐng)導(dǎo)者 Secureworks? (納斯達(dá)克股票代碼: SCWX
    的頭像 發(fā)表于 02-04 10:46 ?495次閱讀

    基于 AI 的網(wǎng)絡(luò)安全增強(qiáng)企業(yè)應(yīng)變能力

    各 行各業(yè)正在面臨前所未有的數(shù)字威脅,而 AI 驅(qū)動的網(wǎng)絡(luò)安全則為維護(hù)可信、安全的企業(yè)運(yùn)營提供了一條可靠路徑。 根據(jù) IDC 發(fā)布的數(shù)據(jù),全球 50 億互聯(lián)網(wǎng)用戶和近 540 億臺設(shè)備每秒產(chǎn)生
    的頭像 發(fā)表于 12-19 16:05 ?387次閱讀

    BlackBerry《季度全球威脅情報(bào)報(bào)告》顯示新型惡意軟件攻擊活動激增 70%

    :BB)于今日發(fā)布了其最新的《季度全球威脅情報(bào)報(bào)告》,展示了 BlackBerry 人工智能賦能的網(wǎng)絡(luò)安全解決方案遇到的新型惡意軟件激增了 70%。每分鐘的網(wǎng)絡(luò)
    的頭像 發(fā)表于 11-29 07:19 ?427次閱讀

    借助圖技術(shù)增強(qiáng)網(wǎng)絡(luò)安全威脅檢測方法

    數(shù)據(jù)安全研究中心Ponemon Institute 發(fā)現(xiàn) 66% 的中小企業(yè)在過去一年內(nèi)遭遇過網(wǎng)絡(luò)攻擊網(wǎng)絡(luò)安全的目標(biāo)就是阻止盡可能多的攻擊
    發(fā)表于 10-10 16:36 ?259次閱讀
    借助圖技術(shù)增強(qiáng)<b class='flag-5'>網(wǎng)絡(luò)安全</b><b class='flag-5'>威脅</b>檢測方法