0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

對抗樣本是如何在不同的媒介上發(fā)揮作用的,為什么保護系統(tǒng)很難對抗它們?

人工智能和機器人研究院 ? 來源:未知 ? 作者:李倩 ? 2018-04-16 15:36 ? 次閱讀

一般來說,對抗樣本(adversarial examples)是機器學習模型的輸入,攻擊者故意設(shè)計它們以引起模型出錯;它們就像是機器的視覺錯覺。這篇文章中,將展示對抗樣本是如何在不同的媒介上發(fā)揮作用的,并將討論為什么保護系統(tǒng)很難對抗它們。

在OpenAI中,我們認為對抗樣本是安全工作的一個很好的方面。因為它們代表了人工智能安全中的一個具體問題,而它們可以在短期內(nèi)得以解決。而且由于修復(fù)它們非常困難,需要進行認真的研究工作(盡管我們需要探索機器學習安全的許多方面,以實現(xiàn)我們構(gòu)建安全、廣泛分布的人工智能的目標)。

想要了解對抗樣本看起來是什么樣的,請參考《解釋和利用對抗樣本》(Explaining and Harnessing Adversarial Examples)中的闡釋:從一張熊貓的圖像開始,攻擊者添加一個小干擾,且該小干擾被計算出來,使圖像被認為是一個具有高置信度的長臂猿。

覆蓋在典型圖像上的對抗輸入會導(dǎo)致分類器將熊貓誤歸類為長臂猿

這種方法相當具有魯棒性;最近的研究表明,對抗樣本可以在標準紙張上打印出來,然后用標準智能手機拍攝,而且用的仍然是傻瓜系統(tǒng)。

對抗樣本可以在標準紙張上打印出來并用標準分辨率的智能手機拍照,并且在這種情況下仍然會導(dǎo)致分類器將“洗衣機”標記為“安全”

對抗樣本是有潛在危險性的。例如,攻擊者可以通過這種方法攻擊自動駕駛汽車:使用貼紙或涂料創(chuàng)建一個對抗性的停車標志,讓車輛將其解釋為“屈服”或其他標志,就像《使用對抗樣本對深度學習系統(tǒng)進行實用黑盒攻擊》(Practical Black-Box Attacks against Deep Learning Systems using Adversarial Examples)中所述的那樣。

加州大學伯克利分校、OpenAI和賓夕法尼亞州立大學的新研究《對神經(jīng)網(wǎng)絡(luò)策略的對抗性攻擊》(Adversarial Attacks on Neural Network Policies)以及內(nèi)華達大學雷諾分校的研究《深度強化學習對策略誘導(dǎo)攻擊的脆弱性》(Vulnerability of Deep Reinforcement Learning to Policy Induction Attacks)表明,強化學習智能體也可以被對抗樣本操縱。研究表明,諸如DQN、TRPO和A3C等這些廣泛使用的RL算法,很容易受到對抗輸入的影響。即使是在所存在的干擾微小到人類無法察覺,這些也會導(dǎo)致性能下降,使智能體在應(yīng)該將乒乓球拍向上移動的時候?qū)⑺蛳乱苿恿?,或者使其在Seaquest中發(fā)現(xiàn)對手的能力受到了干擾。

如果你想嘗試打破你自己的模型,你可以使用cleverhans,這是一個由Ian Goodfellow和Nicolas Papernot共同開發(fā)的開源庫,用來測試你的AI對對抗樣本的漏洞。

對抗樣本讓我們在人工智能安全方面有了一些動力

當我們思考人工智能安全的研究時,我們通常會想到這個領(lǐng)域中最困難的一些問題——我們?nèi)绾未_保那些比人類聰明得多的復(fù)雜的強化學習智能體能夠以它們的設(shè)計者所期望的方式行事?

對抗樣本告訴我們,對于監(jiān)督和強化學習而言,即使是簡單的現(xiàn)代算法,也已經(jīng)可能以并非我們所想的令人驚訝的方式表現(xiàn)出來。

防御對抗樣本所做出過的嘗試

如權(quán)值衰減(weight decay)和dropout等這種使機器學習模型更具有魯棒性的傳統(tǒng)技術(shù),通常不能為對抗樣本提供實際的防御。到目前為止,只有兩種方法提供了重要的防御。

對抗性訓練:這是一種暴力破解(brute force)的解決方案。其中,我們只是簡單地生成很多對抗樣本,并明確訓練模型不會被它們中的任何一個愚弄。對抗性訓練的開源實現(xiàn)可以在cleverhans庫中找到,下面的教程對其用法在進行了說明。

防御性精煉:這是一種策略。我們訓練模型來輸出不同類的概率,而不是將哪個類輸出的艱難決策。概率由早期的模型提供,該模型使用硬分類標簽在相同的任務(wù)上進行訓練。這就創(chuàng)建了一個模型,其表面在攻擊者通常會試圖開拓的方向上是平滑的,從而使它們難以發(fā)現(xiàn)導(dǎo)致錯誤分類的對抗輸入調(diào)整(精煉(Distillation)最初是在《神經(jīng)網(wǎng)絡(luò)中知識的精煉》(Distilling the Knowledge in a Neural Network)中作為模型壓縮的一種技術(shù)而被引入的,在這種技術(shù)中,一個小模型被訓練以模仿一個大模型,以便節(jié)省計算量)。

然而,即使是這些專門的算法,也可能被擁有了更多計算火力的攻擊者輕易破解。

失敗的防御:“梯度掩碼”(gradient masking)

舉一個簡單防御失敗的例子,讓我們考慮一下為什么一種叫做“梯度掩碼”的技術(shù)不起作用。

“梯度掩碼”是一個在《使用對抗樣本對深度學習系統(tǒng)進行實用黑盒攻擊》(Practical Black-Box Attacks against Deep Learning Systems using Adversarial Examples)中所引入的術(shù)語,用于描述一整套失敗的防御方法——它們試圖阻止攻擊者訪問一個有用的梯度。

大多數(shù)對抗樣本構(gòu)造技術(shù)使用模型的梯度來進行攻擊。換句話說,它們看一張飛機的圖片,它們對圖片空間進行測試,以發(fā)現(xiàn)哪個方向使“貓”類的概率增加,然后它們給予這個方向一點推動力(換句話說,它們擾亂輸入)。這張新的、修改后的圖像被錯誤地認為是一只貓。

但是如果沒有梯度,如果對圖像進行一個無窮小的修改會導(dǎo)致模型的輸出沒有變化,那該怎么辦?這似乎提供了一些防御,因為攻擊者不知道是向哪個方向“助推”圖像。

我們可以很容易地想象一些非常簡單的方法來擺脫梯度。例如,大多數(shù)圖像分類模型可以在兩種模式下運行:一種模式是只輸出最可能的類的標識,另一種模式是輸出概率。如果模型的輸出是“99.9%的可能是飛機,0.1%的可能是貓”,那么對輸入的微小改變會給輸出帶來很小的變化,而且梯度告訴我們哪個變化會增加“貓”類的概率。如果我們在輸出只是“飛機”的模式下運行模型,那么對輸入的微小改變就完全不會改變輸出,而且梯度不會告訴我們?nèi)魏螙|西。

讓我們進行一個思考實驗,看看我們在“最可能的類”模式下,而不是“概率模式”下,能夠以怎樣的程度來保護我們的模型抵抗對抗樣本。攻擊者不再知道去哪里尋找那些將被歸類為貓的輸入,所以我們可能有了一些防御。不幸的是,之前被歸類為貓的每張圖像現(xiàn)在仍然被歸類為貓。如果攻擊者能夠猜測哪些點是對抗樣本,那么這些點仍然會被錯誤分類。我們還沒有使這個模型更具魯棒性;我們剛剛給了攻擊者更少的線索來找出模型防御漏洞的位置。

更不幸的是,事實證明,攻擊者有一個非常好的策略來猜測防守漏洞的位置。攻擊者可以訓練出自己的一種具有梯度的平滑模型來為它們的模型提供對抗樣本,然后將這些對抗樣本配置到我們的非平滑模型上。很多時候,我們的模型也會對這些樣本進行錯誤的分類。最后,我們的思考實驗表明,隱藏梯度并沒有給我們帶來任何幫助。

執(zhí)行梯度掩碼的防御策略通常會導(dǎo)致一個模型在特定的方向和訓練點的附近非常平滑,這使得攻擊者很難找到指示好候選方向的梯度,從而以損害模型的方式干擾輸入。然而,攻擊者可以訓練一種替代模型:一種通過觀察被防御模型分配給攻擊者精心選擇的輸入的標簽來模仿防御模型的副本。

在“黑箱攻擊”論文中引入了執(zhí)行這種模型提取攻擊的過程。然后,攻擊者還可以使用替代模型的梯度來找到被防御模型錯誤分類的對抗樣本。在上圖中,對從《機器學習中的安全和隱私科學》(Towards the Science of Security and Privacy in Machine Learning)中找到的梯度掩碼的討論再現(xiàn),我們用一維的ML問題來說明這種攻擊策略。對于更高維度的問題,梯度掩碼現(xiàn)象將會加劇,但難以描述。

我們發(fā)現(xiàn),對抗性訓練和防御性精煉都意外地執(zhí)行了一種梯度掩碼。這兩種算法都沒有明確地被設(shè)計來執(zhí)行梯度掩碼,但是當算法被訓練來保護自己并且沒有給出具體的指令時,梯度掩碼顯然是一種機器學習算法可以相對容易地發(fā)明出的防御措施。如果我們將對抗樣本從一個模型遷移到另一個用對抗性訓練或防御性精煉訓練過的模型,攻擊通常也會成功,即使對第二個模型直接的攻擊失敗了。這表明,這兩種訓練技術(shù)都會做更多的工作來使模型平滑并消除梯度,而不是確保它能夠正確地對更多的點進行分類。

為什么很難防御對抗樣本

難以防御對抗樣本,因為難以構(gòu)建一個對抗樣本制作過程的理論模型。對于包括神經(jīng)網(wǎng)絡(luò)在內(nèi)的許多ML模型來說,對抗樣本是對非線性和非凸性的優(yōu)化問題的解決方案。因為我們沒有很好的理論工具來描述這些復(fù)雜的優(yōu)化問題的解決方案,所以很難做出任何理論上的論證來證明一個防御系統(tǒng)會排除一系列對抗樣本。

難以防御對抗樣本,還因為它們要求機器學習模型為每一個可能的輸入產(chǎn)生良好的輸出。大多數(shù)情況下,機器學習模型運行得很好,但所能處理的只是它們可能遇到的所有可能輸入中的很小一部分。

我們迄今為止測試的每一種策略都失敗了,因為它不是自適應(yīng)的:它可能會阻止一種攻擊,但是留給攻擊者另一個漏洞,而攻擊者知道此次所使用的防御。設(shè)計一種可以防御強大的、自適應(yīng)的攻擊者的防御系統(tǒng)是一個重要的研究領(lǐng)域。

結(jié)論

對抗樣本表明,許多現(xiàn)代機器學習算法可以以多種令人驚訝的方式被打破。機器學習的這些失敗表明,即使是簡單的算法也能與其設(shè)計者的意圖截然不同。我們鼓勵機器學習研究人員參與進來并設(shè)計防范對抗樣本的方法,以縮小設(shè)計師意圖和算法行為之間的差距。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46061

    瀏覽量

    235020
  • 機器學習
    +關(guān)注

    關(guān)注

    66

    文章

    8306

    瀏覽量

    131845

原文標題:OpenAI詳細解析:攻擊者是如何使用「對抗樣本」攻擊機器學習的

文章出處:【微信號:gh_ecbcc3b6eabf,微信公眾號:人工智能和機器人研究院】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    電子對抗系統(tǒng)中的概率準則存在哪些缺陷?

    : ?。?)在電子對抗系統(tǒng)中,大多數(shù)性能指標不但受到電子干擾環(huán)境影響,而且它們都不是用概率形式直接表示,但也有例外,如:虛警概率、引導(dǎo)概率、識別概率等?! ∫虼?,就不是用概率形式表示的指標,卻用受干擾
    發(fā)表于 12-15 15:47

    請問浪涌保護器能有效對抗雷擊嗎?

    浪涌保護器能有效對抗雷擊嗎?
    發(fā)表于 03-17 07:13

    數(shù)據(jù)轉(zhuǎn)換器是如何拯救電子監(jiān)控與對抗系統(tǒng)的?

    現(xiàn)代監(jiān)控系統(tǒng)包括哪些基本功能?請問數(shù)據(jù)轉(zhuǎn)換器是如何拯救電子監(jiān)控與對抗系統(tǒng)的?
    發(fā)表于 04-12 06:05

    網(wǎng)絡(luò)對抗訓練模擬系統(tǒng)的設(shè)計與實現(xiàn)

    提高計算機網(wǎng)絡(luò)對抗能力,是奪取信息優(yōu)勢和控制網(wǎng)絡(luò)權(quán)的必要手段和途徑;網(wǎng)絡(luò)對抗訓練模擬系統(tǒng)的建立有利于網(wǎng)絡(luò)對抗人才的培養(yǎng)。研究和設(shè)計了一種網(wǎng)絡(luò)對抗
    發(fā)表于 12-16 01:12 ?20次下載

    機載雷達對抗系統(tǒng)仿真

    文中首先研究了F16雷達對抗系統(tǒng)仿真的流程,重點對雷達系統(tǒng)的基本模型以及干擾模型進行了論述,并對F16機載雷達對抗系統(tǒng)進行了仿真。測試結(jié)果表
    發(fā)表于 04-20 10:51 ?44次下載
    機載雷達<b class='flag-5'>對抗</b><b class='flag-5'>系統(tǒng)</b>仿真

    機器學習算法之基于黑盒語音識別的目標對抗樣本

    本文提出了一種將遺傳算法和梯度估計結(jié)合的黑盒攻擊方法,使之可以產(chǎn)生比單獨算法更好的對抗樣本.引入了一個新的黑盒攻擊領(lǐng)域,特別是在深層非線性的 ASR 系統(tǒng)中可以輸出任意長度的轉(zhuǎn)換。作者提出了一種將遺傳算法和梯度估計結(jié)合的黑盒攻擊
    發(fā)表于 05-28 06:27 ?3296次閱讀

    對抗樣本真的是bug嗎?對抗樣本不是Bug, 它們是特征

    過去幾年里,對抗樣本在機器學習社區(qū)中得到了極大的關(guān)注。關(guān)于如何訓練模型使它們不易受到對抗樣本攻擊的工作有很多,但所有這些研究都沒有真正地面對
    的頭像 發(fā)表于 05-10 08:54 ?4547次閱讀
    <b class='flag-5'>對抗</b><b class='flag-5'>樣本</b>真的是bug嗎?<b class='flag-5'>對抗</b><b class='flag-5'>樣本</b>不是Bug, <b class='flag-5'>它們</b>是特征

    Reddit熱議MIT新發(fā)現(xiàn) 對抗樣本是有意義的數(shù)據(jù)特征

    對抗樣本不是Bug, 它們實際是有意義的數(shù)據(jù)分布特征。來自MIT的最新研究對神經(jīng)網(wǎng)絡(luò)的對抗樣本
    的頭像 發(fā)表于 05-13 16:01 ?1821次閱讀
    Reddit熱議MIT新發(fā)現(xiàn) <b class='flag-5'>對抗</b><b class='flag-5'>樣本是</b>有意義的數(shù)據(jù)特征

    何在NLP領(lǐng)域?qū)嵤?b class='flag-5'>對抗攻擊

    當視覺領(lǐng)域中的對抗攻擊研究很難再有重大突破的時候(坑已滿,請換坑),研究人員便把目光轉(zhuǎn)移到了NLP領(lǐng)域。其實就NLP領(lǐng)域而言,垃圾郵件檢測、有害文本檢測、惡意軟件查殺等實用系統(tǒng)已經(jīng)大規(guī)模部署了深度學習模型
    的頭像 發(fā)表于 03-05 16:01 ?3944次閱讀
    如<b class='flag-5'>何在</b>NLP領(lǐng)域?qū)嵤?b class='flag-5'>對抗</b>攻擊

    深度學習模型的對抗攻擊及防御措施

    ,進而影響了模型的安全性。在簡述對抗樣本的概念及其產(chǎn)生原因的基礎(chǔ),分析對抗攻擊的主要攻擊方式及目標,研究具有代表性的經(jīng)典對抗
    發(fā)表于 03-12 13:45 ?74次下載
    深度學習模型的<b class='flag-5'>對抗</b>攻擊及防御措施

    基于生成器的圖像分類對抗樣本生成模型

    現(xiàn)有基于生成器的對抗樣本生成模型相比基于迭代修改原圖的算法可有效降低對抗樣本的構(gòu)造時間,但其生成的對抗
    發(fā)表于 04-07 14:56 ?2次下載
    基于生成器的圖像分類<b class='flag-5'>對抗</b><b class='flag-5'>樣本</b>生成模型

    基于深度學習的自然語言處理對抗樣本模型

    相關(guān)概念的基礎(chǔ),文中首先對基于深度學習的自然語言處理模型的復(fù)雜結(jié)構(gòu)、難以探知的訓練過程和樸素的基本原理等脆弱性成因進行分析,進一步闡述了文本對抗樣本的特點、分類和評價指標,并對該領(lǐng)堿對抗
    發(fā)表于 04-20 14:36 ?39次下載
    基于深度學習的自然語言處理<b class='flag-5'>對抗</b><b class='flag-5'>樣本</b>模型

    GAN圖像對抗樣本生成方法研究綜述

    為了提高生成對抗網(wǎng)絡(luò)模型對抗樣本的多樣性和攻擊成功率,提出了一種GAN圖像對抗樣本生成方法。首先,利用原始
    發(fā)表于 04-28 16:39 ?72次下載
    GAN圖像<b class='flag-5'>對抗</b><b class='flag-5'>樣本</b>生成方法研究綜述

    HCG和LCG相機功能如何在苛刻的照明條件下發(fā)揮作用

    轉(zhuǎn)換增益(HCG)和低轉(zhuǎn)換增益(LCG)相機功能如何在苛刻的照明條件下發(fā)揮作用,以及通常會出現(xiàn)這些苛刻情形的成像應(yīng)用示例。
    的頭像 發(fā)表于 12-08 14:21 ?5295次閱讀

    物聯(lián)網(wǎng)系統(tǒng)設(shè)計如何發(fā)揮作用

    物聯(lián)網(wǎng)系統(tǒng)設(shè)計如何發(fā)揮作用
    的頭像 發(fā)表于 01-03 09:45 ?560次閱讀