隨著人工智能的興起,機(jī)器學(xué)習(xí)熱度不斷攀升,機(jī)器學(xué)習(xí)帶給我們智能化生活的同時(shí),其本身的安全性問題也逐漸進(jìn)入人們的視線,該安全問題起初由 lan Goodfellow 和 Papernot 二人提出,可以將其二人提出的問題定義為機(jī)器學(xué)習(xí)的安全和隱私問題。在機(jī)器學(xué)習(xí)發(fā)展與完善的過程中,安全問題同樣不容小覷。
絡(luò)繹學(xué)術(shù) Online 直播第七期,我們邀請了伊利諾伊大學(xué)教授李博,為大家分享:機(jī)器學(xué)習(xí)領(lǐng)域下安全性的延展—對抗學(xué)習(xí)。
以下為直播回顧和延伸解讀:
機(jī)器學(xué)習(xí)指的是研究計(jì)算機(jī)如何模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為以及獲取新的知識或技能的學(xué)科,機(jī)器學(xué)習(xí)產(chǎn)業(yè)鏈由三部分組成,可以細(xì)分為上游基礎(chǔ)層,中游技術(shù)層,下游則多與垂直領(lǐng)域結(jié)合。
機(jī)器學(xué)習(xí)廣泛應(yīng)用于金融、教育、醫(yī)療、工業(yè)、零售、能源等多個(gè)垂直領(lǐng)域,在 2014 至 2018 年,其行業(yè)市場規(guī)模從 2014 年的 8.7 億元增長至 2018 年的 52.5 億元,年復(fù)合增長率達(dá)到了 56.7%。預(yù)計(jì)至 2023 年,機(jī)器學(xué)習(xí)市場規(guī)模將達(dá) 336.7 億元。
圖|機(jī)器學(xué)習(xí)行業(yè)市場規(guī)模
機(jī)器學(xué)習(xí)應(yīng)用的安全性,對抗學(xué)習(xí)必不可少。
所謂的對抗機(jī)器學(xué)習(xí) (Adverserial Machine Learning) 就是作為機(jī)器學(xué)習(xí)研究中的一個(gè)安全細(xì)分的方向,它可以在一定程度上保證機(jī)器學(xué)習(xí)應(yīng)用模型的安全性。
這是由于現(xiàn)在的模式識別技術(shù) (Pattern Recognition) 包括語音、物品識別它們都借助機(jī)器學(xué)習(xí)中的深度學(xué)習(xí)得到了長足的進(jìn)步。但是同時(shí)這些技術(shù)也很容易被對抗樣本 (Adversarial Examples) 所迷惑,而所謂的對抗樣本,就是指一些為識別任務(wù)精心打造的故意混淆和誤導(dǎo)檢測任務(wù)的樣本。
如圖片中在人眼識別中完全看不出差別的圖片,由于對抗性噪聲的加入,使得原本的雪山被機(jī)器識別為了狗,原本的河豚被機(jī)器識別成了螃蟹。
在近些年來的研究中進(jìn)一步發(fā)現(xiàn),不僅僅是像素級別的擾動(dòng),在真實(shí)世界中也存在著大量的擾動(dòng),即便是日常生活中我們?nèi)庋劭梢宰龀龊唵螀^(qū)分的事物,在通過攝像機(jī)鏡頭的采集后,也具備了攻擊性。
正如直播中李博給我們帶來的分享,如停止標(biāo)志牌,無論是沒有涂鴉的還是有涂鴉的,對于人來說都是肉眼可以識別的停止標(biāo)志,但是對于自動(dòng)駕駛的識別系統(tǒng)來說,附加了涂鴉的車牌則可能會(huì)被認(rèn)為是一個(gè)非停止的標(biāo)志。
真實(shí)世界測試:下圖左右兩邊都是停止標(biāo)志,但是左側(cè)由于干擾,機(jī)器學(xué)習(xí)將標(biāo)志誤識別為限速 45,所以汽車在停止標(biāo)志下也不會(huì)停止。
圖|真實(shí)世界中對停止標(biāo)志識別的影響
依然是真實(shí)世界的測試:停止標(biāo)志被加上了圖畫后,機(jī)器學(xué)習(xí)無法識別,從而無法做出停止的行為。
現(xiàn)階段對模型攻擊的分類
主要分為兩大類,他們是從訓(xùn)練階段和推理 (inference) 階段來進(jìn)行。
訓(xùn)練階段的攻擊 (Training in Adversarial Settings) ,主要的方法就是針對模型的參數(shù)進(jìn)行微小的擾動(dòng),從讓而達(dá)到讓模型的性能和預(yù)期產(chǎn)生偏差的目的。
標(biāo)簽操縱 (label manipulation)
圖|標(biāo)簽操縱
標(biāo)簽操縱就是直接通過對于訓(xùn)練數(shù)據(jù)的標(biāo)簽進(jìn)行替換,讓數(shù)據(jù)樣本和標(biāo)簽不對應(yīng),從而最后訓(xùn)練的結(jié)果也一定與預(yù)期的產(chǎn)生差異。
輸入操縱 (input manipulation)
圖|輸入操縱
輸入操縱是比較直接的攻擊方式,主要是通過在線的方式獲得訓(xùn)練數(shù)據(jù)的輸入權(quán),操縱惡意數(shù)據(jù)來對在線訓(xùn)練過程進(jìn)行擾動(dòng),最后的結(jié)果就是產(chǎn)出脫離預(yù)期。
推理階段的攻擊 (Inference in Adversarial Settings),是當(dāng)一個(gè)模型被訓(xùn)練完成后,可以將該模型主觀的看作是一個(gè)盒子,如果該盒子對我們來說是透明的則可以將其看成“白盒”模型,若非如此則看成“黑盒”模型。
白盒攻擊(White-Box Adversarial)
所謂的“白盒攻擊”,就是我們需要知道里面所有的模型參數(shù),但這在實(shí)際操作中并不現(xiàn)實(shí),卻有實(shí)現(xiàn)的可能,因此我們需要有這種前提假設(shè)。
黑盒攻擊(Black-Box Adversarial)
黑盒就比較符合現(xiàn)實(shí)生活中的場景:通過輸入和輸出猜測模型的內(nèi)部結(jié)構(gòu);加入稍大的擾動(dòng)來對模型進(jìn)行攻擊;構(gòu)建影子模型來進(jìn)行關(guān)系人攻擊;抽取模型訓(xùn)練的敏感數(shù)據(jù);模型逆向參數(shù)等等。
對抗攻擊的防御機(jī)制
抵御對抗樣本攻擊:主要是基于附加信息引入輔助塊模型(AuxBlocks)進(jìn)行額外輸出來作為一種自集成的防御機(jī)制,尤其在針對攻擊者的黑盒攻擊和白盒攻擊時(shí),該機(jī)制效果良好。
除此之外防御性蒸餾也可以起到一定的防御能力,防御性蒸餾是一種將訓(xùn)練好的模型遷移到結(jié)構(gòu)更為簡單的網(wǎng)絡(luò)中,從而達(dá)到防御對抗攻擊的效果。
對抗學(xué)習(xí)前沿趨勢
雖然目前對抗學(xué)習(xí)方面的研究已經(jīng)提出了許多對抗樣本生成的攻擊算法,但是防御機(jī)制方面仍然存在著大量的提升空間。針對不同的攻擊方式,防御手段通常是修補(bǔ)漏洞,目前沒能找到一個(gè)標(biāo)準(zhǔn)化的通用的方式,來對所有的對抗攻擊方法進(jìn)行防御。
即使是上面所說的無論是輔助塊模型,防御性蒸餾,還是現(xiàn)在發(fā)展熱度很高的膠囊神經(jīng)網(wǎng)絡(luò)等,集成方式都是成熟度不高,且沒有形成完整的防御體系,僅能在局部取得有效的防御效果。在對抗攻擊的方向上,防御技術(shù)和機(jī)制仍然存在很大的發(fā)展前景。
也如直播中李博講到的對于對抗學(xué)習(xí)未來商業(yè)化應(yīng)用的介紹,對抗學(xué)習(xí)未來在自動(dòng)駕駛領(lǐng)域?qū)⒋笥凶鳛?,為我們的安全駕駛保駕護(hù)航。同樣在醫(yī)療領(lǐng)域通過對抗學(xué)習(xí)去除躁點(diǎn),也大大提高了醫(yī)療的精確度。在患者隱私層面,通過對抗學(xué)習(xí)來修改并保護(hù)隱私信息亦是大有可為。
在對抗學(xué)習(xí)遠(yuǎn)大的商業(yè)發(fā)展前景下,機(jī)器學(xué)習(xí)行業(yè)不斷的開始涌現(xiàn)出足夠多的優(yōu)秀企業(yè),這些企業(yè)也在不斷的推動(dòng)對抗學(xué)習(xí)的發(fā)展。
走在前列的機(jī)器學(xué)習(xí)相關(guān)企業(yè)
竹間智能
竹間智能是一家利用深度學(xué)習(xí)、情感計(jì)算、計(jì)算機(jī)視覺等技術(shù)來研發(fā)可對話機(jī)器人產(chǎn)品的機(jī)器學(xué)習(xí)公司, 其人工智能解決方案包括“ AI +金融”、“ AI +零售”、“ AI +教育”、“ AI +政務(wù)”等。
2016 年 1 月,竹間智能獲得 A 輪 2,500 萬美元融資。2018 年 12 月,竹間智能獲得 B 輪 3,000 萬美元融資,其中由中華開發(fā)金控領(lǐng)投,國泰金控跟投,科沃斯、尚珹投資持續(xù)加注。
第四范式
第四范式是一家將機(jī)器學(xué)習(xí)、人工智能、大數(shù)據(jù)等技術(shù)運(yùn)用于金融、電信等領(lǐng)域的大數(shù)據(jù)科技公司,其產(chǎn)品包括 SageAI 平臺、Sage HyperCycle ML、Sage HyperCycle CV、智能風(fēng)控平臺等。
2015 年 7 月,第四范式獲得天使輪 100 萬元人民幣融資。2016 年 5 月,第四范式獲得來自創(chuàng)新工廠的 A 輪 100 萬美元融資。2017 年 12 月,第四范式獲得 B 輪融資。2018 年 12 月,第四范式獲得 C 輪融資超過了 10 億元人民幣,投資方包括紅杉資本、保利資本、三峽資本、中國農(nóng)業(yè)銀行,中國交通銀行,中信銀行等。
庫柏特
庫柏特是一家以機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺等人工智能技術(shù)為核心,從事機(jī)器人及對應(yīng)軟件研發(fā)、生產(chǎn)、等相關(guān)業(yè)務(wù)的公司。庫伯特主要針對物流、醫(yī)療、食品、教育、電子等行業(yè)提供技術(shù)解決方案。
庫柏特的產(chǎn)品包括 COBOTSYS、CGRASP、CPOLISH、CAssemblyC2、COMATRIX、COHAND 等。
1. COBOTSYS 是一款以計(jì)算機(jī)視覺、智能力控、抓取規(guī)劃與機(jī)器學(xué)習(xí)等技術(shù)為基礎(chǔ)的智能工業(yè)機(jī)器人操作系統(tǒng),可實(shí)現(xiàn)重力標(biāo)定、力位混合控制、接觸保護(hù)、過程監(jiān)控等功能。
2. CGRASP 是一款機(jī)器人柔性抓取產(chǎn)品,其可根據(jù)抓取物品的種類自適應(yīng)選擇視覺算法及運(yùn)動(dòng)路徑,主要應(yīng)用于物流、醫(yī)藥、食品、電子、零售等行業(yè)。
3. CPOLISH 是一款融合機(jī)器視覺與智能力控技術(shù)的打磨系統(tǒng),該系統(tǒng)通過 3D 相機(jī)可對打磨工件進(jìn)行掃描建模,并計(jì)算出工件在三維空間中的坐標(biāo),再根據(jù)視覺重構(gòu)的模型生成路徑,實(shí)現(xiàn)打磨工藝路徑設(shè)計(jì)。
4. CASSEMBLYC2 是一款機(jī)械臂操作產(chǎn)品,該產(chǎn)品配備了六維傳感器以及腕部視覺相機(jī)。
5. COMATRIX 是一款 3D 視覺產(chǎn)品,具有 GPU 處理能力。
6. COHAND 是一款柔性機(jī)械手產(chǎn)品,可兼容 Windows、Linux、ROS 操作系統(tǒng), 主要面向教育科研、物流分揀等領(lǐng)域。
2016 年 6 月,庫柏特獲得天使輪 100 萬人民幣融資。2017 年 3 月,庫柏特獲得 A 輪 4,000 萬人民幣融資,投資方為經(jīng)緯中國。2017 年 12 月,庫柏特獲得 B 輪融資 1.02 億元人民幣,投資方為紀(jì)源資本、Matrix Parnters 等。
Ayasdi
Ayasdi 是 DARPA(美國國防部高級研究項(xiàng)目組)資助的一家初創(chuàng)公司。其核心技術(shù)“拓?fù)鋽?shù)據(jù)分析”可以找到復(fù)雜數(shù)據(jù)中的細(xì)微模式。
Ayasdi 一直在美國與各個(gè)頂級醫(yī)院和藥廠合作。醫(yī)院和制藥公司可以從公開的信息源獲得很多數(shù)據(jù),并和他們自己的數(shù)據(jù)結(jié)合起來,進(jìn)行一些新的研究。
Digital Reasoning
Digital Reasoning 是一家擅長認(rèn)知計(jì)算,運(yùn)用機(jī)器學(xué)習(xí)來識別溝通數(shù)據(jù)中有意義的人類行為的公司。它可以利用人工智能來積累上下文,填補(bǔ)任何來源的認(rèn)知空白,以此來明確事物的價(jià)值取向,并通過揭露隱藏關(guān)系、暴露風(fēng)險(xiǎn)和潛在機(jī)會(huì)來得出結(jié)論。
Digital Reasoning 公司研發(fā)出的機(jī)器學(xué)習(xí)平臺能比傳統(tǒng)的工具更加智能地識別出銀行的內(nèi)幕交易及價(jià)格操縱行為,其在知識圖譜的基礎(chǔ)上可以做到真正的理解用戶的需求,不再拘泥于用戶所輸入語句的本身字面意思, 而是透過文字挖掘真正的需求,準(zhǔn)確地捕捉到用戶所輸入語句后面的真正意圖,并以此來進(jìn)行搜索與挖掘,從而更準(zhǔn)確地向用戶反饋結(jié)果。
Digital Reasoning 公司還與美國納斯達(dá)克 (Nasdaq) 進(jìn)行了合作,協(xié)助其建設(shè)監(jiān)測資本市場的工具。Nasdaq 在 2020 年 5 月份對其投資了 4000 萬美元。
Darktrace
Darktrace 是一家使用機(jī)器學(xué)習(xí)來提供“企業(yè)免疫系統(tǒng)”的網(wǎng)絡(luò)安全系統(tǒng)的公司,該系統(tǒng)模擬人體免疫系統(tǒng):在了解了什么是所有設(shè)備和用戶的“正常行為”后,通過環(huán)境的改變來更新洞察新出現(xiàn)的信息,然后尋找存在異常情況的安全問題。
企業(yè)免疫系統(tǒng)目前是世界上最先進(jìn)的網(wǎng)絡(luò)防御機(jī)器學(xué)習(xí)技術(shù)。由于該系統(tǒng)受到人體免疫系統(tǒng)自我學(xué)習(xí)自我防御的啟發(fā),這種新技術(shù)在復(fù)雜多變的網(wǎng)絡(luò)威脅的新時(shí)代中,使組織的自我保護(hù)方式發(fā)生了根本性的轉(zhuǎn)變。
QBurst
QBurst 堪稱機(jī)器學(xué)習(xí)公司中的先驅(qū)。QBurst 通過機(jī)器學(xué)習(xí)以業(yè)務(wù)所需求的速度做出數(shù)據(jù)驅(qū)動(dòng)的決策,并根據(jù)客戶需求定制解決方案,提高效率,大大提高生產(chǎn)力,預(yù)測新機(jī)遇與需求,以及其他許多的可能性。
1. 能源需求預(yù)測:機(jī)器學(xué)習(xí)預(yù)測系統(tǒng)可以利用過去的能源消耗數(shù)據(jù)和天氣參數(shù)來預(yù)測未來的能源需求。將經(jīng)過時(shí)間考驗(yàn)的 SARIMA 模型與新的機(jī)器學(xué)習(xí)技術(shù)相結(jié)合的混合預(yù)測模型也在不斷發(fā)展。
2. 欺詐識別:建立在合法和欺詐交易已知案例上的模型,可以為新交易分配懷疑分?jǐn)?shù),從而幫助識別信用卡欺詐。利用決策樹和貝葉斯網(wǎng)絡(luò)對保險(xiǎn)索賠中的欺詐行為進(jìn)行預(yù)測和標(biāo)記。
3. 預(yù)見性維護(hù):在地理上分散的位置對機(jī)器進(jìn)行持續(xù)的監(jiān)控,同時(shí)檢測算法可以根據(jù)歷史數(shù)據(jù)分析實(shí)時(shí)的機(jī)器參數(shù),從而識別設(shè)備的惡化狀態(tài)。因此,運(yùn)營商可以啟動(dòng)預(yù)測性維護(hù),防止對資產(chǎn)造成不可逆轉(zhuǎn)的損害。
4. 病歷注釋:電子健康記錄作為大數(shù)據(jù)分析中患者數(shù)據(jù)的豐富來源,由于其本身的高度非結(jié)構(gòu)化,并不適合直接進(jìn)行分析。故在 NLP 中使用機(jī)器學(xué)習(xí),可以對患者的癥狀、治療周期和康復(fù)等實(shí)體進(jìn)行分析和標(biāo)記,使它們在臨床決策時(shí)更加容易被檢索。
5. 衛(wèi)生信息學(xué):將 NLP 與語義知識處理和機(jī)器學(xué)習(xí)相結(jié)合的智能系統(tǒng)可以幫助研究者更快地查找特定問題的研究文獻(xiàn)。
6. 醫(yī)學(xué)圖像分析:監(jiān)督機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于醫(yī)學(xué)圖像分析,通過計(jì)算機(jī)來輔助診斷某些特殊部位疾病,如腦部?;诖罅繕?biāo)記圖像(如 CT 和MRI 掃描)訓(xùn)練的模型可以自動(dòng)檢測疾病指標(biāo)并幫助醫(yī)生做出預(yù)測判斷。
7. 智能廣告牌:通過使用實(shí)時(shí)圖像識別應(yīng)用程序,零售商將客戶按照年齡,性別,甚至種族膚色等進(jìn)行分類以便于在數(shù)字廣告牌上展示有針對性的廣告來提高交易成功率與知名度。
8. 推薦產(chǎn)品:基于用戶畫像的某些特征或者共性,以內(nèi)容和算法協(xié)同過濾的用于生成特定于用戶的推薦。這些推薦可以按照特定畫像特征的用戶,以及相似用戶喜歡的項(xiàng)目來進(jìn)行推薦。
9. 情感分析:從運(yùn)用自然語言處理,用戶情感可以被挖掘,以此為基礎(chǔ)來建立更多具有影響性的商業(yè)活動(dòng)。
機(jī)器學(xué)習(xí)前沿發(fā)展趨勢
發(fā)展膠囊網(wǎng)絡(luò)
膠囊網(wǎng)絡(luò) (CapsNets) 是 Hinton 提出的一種新型深度神經(jīng)網(wǎng)絡(luò)架構(gòu),其以膠囊單元為神經(jīng)元載體,膠囊的設(shè)計(jì)更符合人類神經(jīng)元的原理。
膠囊網(wǎng)絡(luò)是在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上發(fā)展而來,由于 CNN 對物體之間的空間關(guān)系 (spatial relationship) ,以及物體大幅度旋轉(zhuǎn)之后的識別能力不強(qiáng),膠囊網(wǎng)絡(luò)便被提出來用以克服上述問題。
現(xiàn)階段,膠囊網(wǎng)絡(luò)仍處于初步發(fā)展階段,伴隨著訓(xùn)練算法不斷改善,膠囊網(wǎng)絡(luò)性能將進(jìn)一步提高,其在圖像識別領(lǐng)域的應(yīng)用將逐步深化。
本次分享的最后,李博談到對抗學(xué)習(xí)研究的一些心得與建議。她主張自信,開放心態(tài),不拘泥于某些小的圈層,勇敢的進(jìn)行自己感興趣的研究,對自己有信念,堅(jiān)持下去終會(huì)功夫不負(fù)有心人。
絡(luò)繹學(xué)術(shù)關(guān)注前沿科技和為之奮斗的科研工作者們。我們希望通過持續(xù)不斷分享為大家?guī)砬把乜萍己蜑橹哌^“彎路 ”卻仍然風(fēng)雨兼程的科研工作者們的真實(shí)經(jīng)歷。
原文標(biāo)題:機(jī)器學(xué)習(xí)仍存安全“盲區(qū)”,對抗學(xué)習(xí)任重而道遠(yuǎn)|絡(luò)繹學(xué)術(shù)Online第7期回顧
文章出處:【微信公眾號:DeepTech深科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
責(zé)任編輯:haq
-
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7485瀏覽量
88543 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8353瀏覽量
132315
原文標(biāo)題:機(jī)器學(xué)習(xí)仍存安全“盲區(qū)”,對抗學(xué)習(xí)任重而道遠(yuǎn)|絡(luò)繹學(xué)術(shù)Online第7期回顧
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論