0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于差分隱私的數(shù)據(jù)匿名化隱私保護模型研究介紹

lhl545545 ? 來源:FreeBuf ? 作者:FreeBuf ? 2020-10-11 10:42 ? 次閱讀

匿名化的前世今生

數(shù)據(jù)匿名的社會意識應(yīng)該是近幾年才日漸擴散的,但其實來自技術(shù)層面的暢想與實踐早就開始了。

實驗室總是先走一步,1997年,美國學(xué)者Samarati和Sweeney提出了k-anonymity匿名模型,為后續(xù)各種技術(shù)解決方案的涌現(xiàn)開了先河。當(dāng)然,屆時,數(shù)據(jù)匿名這個話題更多是停留在技術(shù)圈內(nèi)的狂歡。

隨著大數(shù)據(jù)、智能技術(shù)近年的發(fā)展與滲透,數(shù)據(jù)泄露、隱私侵犯等問題日漸凸顯,并且受影響的群體日漸幾何級增長。一方面數(shù)據(jù)作為智能時代的基石,不可能因噎廢食,完全放棄,另一方面,政府、企業(yè)、個人都因該問題而持續(xù)困擾,市場格局也容易產(chǎn)生波動,這于長遠發(fā)展不利。

此時,匿名化技術(shù)成為可以折中的方案。不過,數(shù)據(jù)匿名化需要技術(shù)投入,如果僅靠企業(yè)主觀驅(qū)動,效果有限。所以,整個匿名數(shù)據(jù)的發(fā)展中,真正打破僵局的是法律領(lǐng)域的關(guān)注。

最為代表的則是令互聯(lián)網(wǎng)企業(yè)心有余悸的GDPR。2018年正式實行的GDPR,將個人數(shù)據(jù)的保護力度提至前所未有的高度,亦對數(shù)據(jù)處理企業(yè)等主體施加了甚為嚴苛的保護義務(wù)和法律責(zé)任。其中,有一條,GDPR提到:控制者在確定處理方式和處理過程中,應(yīng)當(dāng)采取適當(dāng)技術(shù)和組織措施,諸如假名化(pseudonymisation)處理,將額外數(shù)據(jù)與個人數(shù)據(jù)分別保存,除非使用額外數(shù)據(jù),否則個人數(shù)據(jù)無法指向特定數(shù)據(jù)主體。

顯然,GDPR白紙黑字地將個人數(shù)據(jù)的保護上升到法律層面,這已經(jīng)將此前數(shù)據(jù)使用過程中涉及的大部分曖昧地帶清晰化。此外,真正具有威懾力的是其“殘忍”的懲罰力度。眾所周知,如果科技巨頭越雷池一步, GDPR是真的會開出開天價罰單。

最有意思的案例即是,GDPR開始生效的第一天就“開門紅”,一下起訴了兩大科技巨頭:Facebook和谷歌。兩家公司被指控強迫用戶同意共享個人數(shù)據(jù),且分別面臨39億歐元和37億歐元(共計約88億美元)的罰款風(fēng)險。

當(dāng)然除了GDPR,各政府都相繼出臺了相關(guān)嚴厲的個人數(shù)據(jù)保護法。如英國更新了數(shù)據(jù)保護法案,加上了個人數(shù)據(jù)的重視力度,中國也出臺了數(shù)據(jù)安全法草案,明確了保護責(zé)任。,F(xiàn)TC在2012年發(fā)布的隱私保護指南中更是擴大了個人數(shù)據(jù)的邊界,突破了傳統(tǒng)定義中的與具體的自然人相關(guān)聯(lián),擴展到了用戶所使用設(shè)備標(biāo)識等。

在這樣的背景下,對于企業(yè)來說,天價罰單是割肉之痛,政府的監(jiān)管是不可逾越的紅線,此外,用戶隱私保護意識的覺醒也是不可推辭的需求。

GDPR在對匿名化的界定中也提到:“匿名化是指將個人數(shù)據(jù)移除可識別個人信息的部分,并且通過這一方法,數(shù)據(jù)主體不會再被識別。匿名化數(shù)據(jù)不屬于個人數(shù)據(jù),因此無須適用條例的相關(guān)要求,機構(gòu)可以自由的處理匿名化數(shù)據(jù)”。

數(shù)據(jù)匿名則成為了許多企業(yè)或者數(shù)據(jù)應(yīng)用主體的重點投入方向。有業(yè)內(nèi)專家表示,匿名數(shù)據(jù)的收集主要用于幫助公司發(fā)現(xiàn)產(chǎn)品錯誤,這是互聯(lián)網(wǎng)通過分析非個人可識別信息來改善整體產(chǎn)品體驗最常見的解決方案之一。

數(shù)據(jù)匿名的“bug”

那么,常見的數(shù)據(jù)匿名方式有哪些?廣義上可以分為兩類:一是擾動方式,即讓原始數(shù)據(jù)值失真,如數(shù)據(jù)屏蔽脫敏、噪聲添加等,二是非擾動方式,即使數(shù)據(jù)集不完整,通過按照在記錄個體層面維持數(shù)據(jù)真實性的方式改變在凈化數(shù)據(jù)集中報告數(shù)據(jù)值的粒度來工作,如數(shù)據(jù)抑制和數(shù)據(jù)泛化。前文提到的k-anonymity匿名模型則是非擾動的一種重要方法。它要求發(fā)布的數(shù)據(jù)中存在一定數(shù)量(至少為k) 的在準標(biāo)識符上不可區(qū)分的記錄,使攻擊者不能判別出隱私信息所屬的具體個體,從而保護了個人隱私。

數(shù)據(jù)匿名一直在發(fā)展,問題也逐漸顯露。所謂,“道高一尺魔高一丈”,匿名化一一定程度上保護了隱私,但“有心人”依舊可以從匿名數(shù)據(jù)中進行身份確認。

一位德國研究員在曾第33屆Chaos Computer Club會議上公布了自己的研究成果:盡管是已經(jīng)匿名化的點擊流,也可以順藤摸瓜找到用戶清晰畫像,數(shù)量少于十個的不同域名就足以讓你暴露。披著匿名的外衣,這些數(shù)據(jù)被稱為“Dark Data”,是非常容易滋生邪惡的新孕育地。

此外,去年,英國Nature Communications雜志發(fā)表的一項研究表示,英國科學(xué)家利用一種新開發(fā)的統(tǒng)計方法發(fā)現(xiàn),一個人的身份可以從一個不完整的匿名化數(shù)據(jù)庫中被識別出來。研究人員開發(fā)了一個機器學(xué)習(xí)模型,使用郵編、性別、出生日期三個信息,有81%的概率可以在“匿名”數(shù)據(jù)集中準確地追蹤到某一個人。

事實證明,數(shù)據(jù)匿名方法不僅面臨自身技術(shù)迭代更新的壓力,也有新技術(shù)不斷帶來的沖擊,如人工智能相關(guān)算法可能利用零星數(shù)據(jù)可以訓(xùn)練出較為精準的用戶畫像。

基于差分隱私的方案

道阻且長,行之將至。目前法律、市場、技術(shù)各方面都為數(shù)據(jù)匿名做好了一定的基礎(chǔ)建設(shè),接下來則是需要更多的投入與更新。首先,從此那個參與角色的角度來看,依舊需要政府組織牽頭,從法律層面為整個業(yè)態(tài)施加強行規(guī)范化的壓力,企業(yè)則需要更多資源投入匿名化建設(shè),而個人則需從日常細節(jié)上提升網(wǎng)絡(luò)隱私意識,如有意識地使用匿名化瀏覽器、及時清理清除cookie和Web數(shù)據(jù)等,

另外,則是來自技術(shù)角度的迭代更新,針對安全性不足的數(shù)據(jù)匿名現(xiàn)狀,已經(jīng)出現(xiàn)了基于差分隱私的數(shù)據(jù)匿名化隱私保護模型研究。差分隱私(differential privacy)是密碼學(xué)中的一種手段,旨在提供一種當(dāng)從統(tǒng)計數(shù)據(jù)庫查詢時,最大化數(shù)據(jù)查詢的準確性,同時最大限度減少識別其記錄的機會。

實際上,差分隱私也利用了統(tǒng)計學(xué)。該技術(shù)可以實現(xiàn):向一個人的使用習(xí)慣樣本中增加噪聲,保證數(shù)據(jù)相對模糊與匿名,隨著越來越多人呈現(xiàn)出相同的使用習(xí)慣,開始識別總結(jié)出共性。一個人的數(shù)據(jù)可能不準確,但是大量用戶的數(shù)據(jù)可以得出相對準確的結(jié)論。這種情況下,即使有人攻擊了數(shù)據(jù)庫,也只能看到系統(tǒng)化的共性信息,不能精確識別具體的個人信息。蘋果、Facebook、華為都在用該技術(shù)來來幫助發(fā)掘其大量用戶的使用習(xí)慣。

值得一提的是,《MIT科技評論》評選的2020年十大突破技術(shù)中,差分隱私榜上有名。

不過,由于差分隱私是一項仍在探索中的技術(shù)。門檻較高,所以投入成本也想要較高。其處理過程對于人才資源的需求較大,同時也帶來新的問題,多人的介入與隱私保護也會出現(xiàn)一定的沖突。為解決此問題,市面上一些企業(yè)注入了自動化機器學(xué)習(xí)的方法。

顯然,隱私保護問題的解決一定是多學(xué)科、多技術(shù)流派融合的。

唯一不變的就是變化,“安全是動態(tài)話題”已經(jīng)是老生常談,數(shù)據(jù)隱私的安全也是一樣。匿名數(shù)據(jù)只是為目前的數(shù)據(jù)裸奔問題提供了一個相對明朗可行的解決方法,并不是絕對安全的保護屏障。我們能做的只有隨變化而變化,甚至是走在變化的前面。
責(zé)任編輯:pj

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    6837

    瀏覽量

    88754
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    46698

    瀏覽量

    237185
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8357

    瀏覽量

    132327
收藏 人收藏

    評論

    相關(guān)推薦

    康謀分享 | 數(shù)據(jù)隱私匿名:PIPL與GDPR下,如何確保數(shù)據(jù)合規(guī)?(二)

    自動駕駛技術(shù)飛速發(fā)展,但數(shù)據(jù)隱私安全成攔路虎?別擔(dān)心,本文帶您深入剖析PIPL與GDPR在數(shù)據(jù)處理行為及基礎(chǔ)合法性方面的異同之處,幫助您準確把握法規(guī)要求,從而利用匿名化處理工具有效應(yīng)對
    的頭像 發(fā)表于 10-30 09:30 ?184次閱讀
    康謀分享 | <b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>隱私</b>和<b class='flag-5'>匿名</b><b class='flag-5'>化</b>:PIPL與GDPR下,如何確保<b class='flag-5'>數(shù)據(jù)</b>合規(guī)?(二)

    康謀分享 | 數(shù)據(jù)隱私匿名:PIPL與GDPR下,如何確保數(shù)據(jù)合規(guī)?(一)

    自動駕駛技術(shù)的快速發(fā)展伴隨著數(shù)據(jù)隱私保護的嚴峻挑戰(zhàn)。PIPL和GDPR為自動駕駛數(shù)據(jù)合規(guī)設(shè)立了高標(biāo)準。本篇文章將帶大家深入探討PIPL與GDPR的異同點,期望能夠幫助車企更好地理解并應(yīng)
    的頭像 發(fā)表于 09-29 10:28 ?1332次閱讀
    康謀分享 | <b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>隱私</b>和<b class='flag-5'>匿名</b><b class='flag-5'>化</b>:PIPL與GDPR下,如何確保<b class='flag-5'>數(shù)據(jù)</b>合規(guī)?(一)

    IP地址安全與隱私保護

    在當(dāng)今數(shù)字化時代,IP地址作為網(wǎng)絡(luò)設(shè)備的唯一身份標(biāo)識,在網(wǎng)絡(luò)安全與隱私保護中扮演著至關(guān)重要的角色。然而,隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,IP地址也面臨著諸多挑戰(zhàn),對用戶的隱私和網(wǎng)絡(luò)安全構(gòu)成了潛在威脅。本文
    的頭像 發(fā)表于 09-03 15:59 ?303次閱讀

    平衡創(chuàng)新與倫理:AI時代的隱私保護和算法公平

    。為此,開發(fā)者應(yīng)采用多元數(shù)據(jù)源,并定期進行算法公平性的評估和調(diào)整。在就業(yè)篩選等敏感領(lǐng)域,透明度和公平性的結(jié)合尤為重要,這需要確保篩選過程不會因為性別、年齡、種族等非相關(guān)因素而產(chǎn)生歧視。 個人隱私
    發(fā)表于 07-16 15:07

    藍牙模塊的安全性與隱私保護

    傳輸過程中的安全性問題,分析隱私保護方面的挑戰(zhàn)和解決方案,并介紹一些提高藍牙模塊安全性和隱私保護的先進技術(shù)。 藍牙模塊在
    的頭像 發(fā)表于 06-14 16:06 ?481次閱讀

    如何保護患者隱私數(shù)據(jù)安全?- 醫(yī)療保健數(shù)據(jù)安全指南

    醫(yī)療行業(yè)的 IT 無紙化辦公解決方案為醫(yī)生和患者帶來了便利,但患者數(shù)據(jù)隱私問題仍然是一個令人擔(dān)憂的問題。盡管采取了安全措施,但無法完全保證數(shù)據(jù)不會受到惡意攻擊和內(nèi)部泄露的風(fēng)險。因此,保護
    的頭像 發(fā)表于 05-31 13:25 ?409次閱讀
    如何<b class='flag-5'>保護</b>患者<b class='flag-5'>隱私</b>和<b class='flag-5'>數(shù)據(jù)</b>安全?- 醫(yī)療保健<b class='flag-5'>數(shù)據(jù)</b>安全指南

    車載車庫GPS信號屏蔽器:如何保護隱私與安全

    深圳特信電子|車載車庫GPS信號屏蔽器:如何保護隱私與安全
    的頭像 發(fā)表于 05-29 08:54 ?572次閱讀

    GPS信號屏蔽器:保護隱私信息的設(shè)備?

    GPS信號屏蔽器:保護隱私信息的設(shè)備?|深圳特信電子
    的頭像 發(fā)表于 03-14 09:04 ?620次閱讀

    什么是手機信號屏蔽器? 手機信號屏蔽器:保護隱私,拒絕干擾

    手機信號屏蔽器:保護隱私,拒絕干擾,助力專注
    的頭像 發(fā)表于 03-12 09:07 ?3154次閱讀
    什么是手機信號屏蔽器? 手機信號屏蔽器:<b class='flag-5'>保護</b><b class='flag-5'>隱私</b>,拒絕干擾

    微軟發(fā)布廣告選擇API,保護用戶隱私,替代第三方cookies

     Ad Selection API內(nèi)置了K-anonymity約束、隱私以及廣告拍賣等多種強力隱私保護措施。同時,也具備可信執(zhí)行環(huán)境功能
    的頭像 發(fā)表于 03-06 11:17 ?410次閱讀

    Meta收到歐盟8家團體投訴違反歐盟的隱私保護規(guī)則

    Meta在收集用戶數(shù)據(jù)時沒有遵守一般數(shù)據(jù)保護條例(GDPR)關(guān)于公平處理、數(shù)據(jù)最小和目的限制的規(guī)則;用戶在使用Instagram和Face
    的頭像 發(fā)表于 03-01 16:18 ?314次閱讀

    混亂的汽車隱私數(shù)據(jù)

    現(xiàn)代汽車正在跟蹤我們的數(shù)據(jù),并以共享駕駛員位置和行為的方式實現(xiàn)互聯(lián),但乘員卻無法得知這些數(shù)據(jù)的用途,也無法得知如何關(guān)閉數(shù)據(jù)收集功能——如果有這項功能的話。為此,加州一家旨在保護人們
    的頭像 發(fā)表于 01-29 16:24 ?534次閱讀

    華為以創(chuàng)新科技保護用戶隱私

    的基本原則。 華為通過打造華為隱私安全品牌,從系統(tǒng)層面建立保護機制,實現(xiàn)全維度守護用戶的隱私安全。 華為一貫將用戶隱私安全置于首位,在HarmonyOS引入了
    的頭像 發(fā)表于 01-29 14:11 ?2823次閱讀

    一眼看懂鴻蒙OS 應(yīng)用隱私保護

    隨著移動終端及其相關(guān)業(yè)務(wù)(如移動支付、終端云等)的普及,用戶隱私保護的重要性愈發(fā)突出。應(yīng)用開發(fā)者在產(chǎn)品設(shè)計階段就需要考慮保護的用戶隱私,提高應(yīng)用的安全性。HarmonyOS 應(yīng)用開發(fā)需
    的頭像 發(fā)表于 01-26 17:04 ?799次閱讀
    一眼看懂鴻蒙OS 應(yīng)用<b class='flag-5'>隱私</b><b class='flag-5'>保護</b>

    喜報|易華錄自研隱私計算平臺通過信通院“可信隱私計算”測試

    12月20日,中國信通院在2023數(shù)據(jù)資產(chǎn)管理大會中公布第九批“可信隱私計算”評估測試結(jié)果, 易華錄隱私計算平臺V1.3(以下簡稱“平臺”)通過本批“聯(lián)邦學(xué)習(xí) 基礎(chǔ)能力專項測試” 。 這標(biāo)志著 平臺
    的頭像 發(fā)表于 12-22 19:55 ?753次閱讀
    喜報|易華錄自研<b class='flag-5'>隱私</b>計算平臺通過信通院“可信<b class='flag-5'>隱私</b>計算”測試