匿名化是為了確保數(shù)據的隱私性,公司用它來保護敏感數(shù)據。這類數(shù)據包括:
私人數(shù)據
業(yè)務信息,如財務信息或商業(yè)秘密
機密信息,如軍事機密或政府信息
匿名化為遵循個人數(shù)據相關隱私條例提供了范例,個人數(shù)據和業(yè)務數(shù)據的重合之處就是客戶信息所在。但并非所有的業(yè)務數(shù)據都受監(jiān)管,本文將重點討論個人數(shù)據的保護。
敏感數(shù)據類型示例
在歐洲,監(jiān)管機構將任何與某人(如你的名字)有關的信息定義為“個人數(shù)據”。不論形式,任何關聯(lián)到此人的信息都符合上述定義。從上世紀起,個人數(shù)據收集逐漸民主化,數(shù)據匿名化問題開始出現(xiàn)。隨著隱私條例在世界各地開始生效,這件事尤顯重要。
什么是數(shù)據匿名化,為何要關注它?
我們從經典定義開始。歐盟的《通用數(shù)據保護條例》(GDPR)是這樣定義對匿名信息的:“與識別或可識別自然人無關的信息,或以數(shù)據主體不能或不再可識別的方式匿名提供的個人信息。”
其中,“可識別”和“不再”至關重要。這不僅意味著你的名字不應再出現(xiàn)在數(shù)據中,也意味著不能從剩余數(shù)據中發(fā)現(xiàn)你是誰,這與再認同(有時也叫去匿名化)過程有關。
同樣,GDPR(契約中)陳述了一個重要事實:“……因此,數(shù)據保護不應適用于匿名信息”。所以,若你設法匿名數(shù)據,就不再受GDPR數(shù)據保護法的約束。
你可以執(zhí)行任何處理操作,如分析或數(shù)據貨幣化。這帶來了大量機會:
出售數(shù)據顯然是首選用途。在世界各地,隱私保護法正在限制個人數(shù)據交易,而匿名數(shù)據為公司提供了另一種選擇。
它帶來了合作機會。許多公司為了創(chuàng)新或研究而共享數(shù)據,匿名數(shù)據有助于降低風險。
它還為數(shù)據分析和機器學習創(chuàng)造了機會。在保持兼容性的同時運行敏感數(shù)據的操作正變得越來越復雜,匿名數(shù)據為統(tǒng)計分析和模型訓練提供了安全的原材料,前景一片光明。但實際上真正的匿名數(shù)據往往并不如愿。
數(shù)據隱私保護機制的范圍
數(shù)據的隱私保護有一個范圍。多年來,專家們研發(fā)了一系列集方法、機制和工具為一體的技術。這些技術生成了具有不同的匿名級別和不同再識別風險等級的數(shù)據??梢哉f,其范圍涵蓋了個人可識別數(shù)據乃至真正的匿名數(shù)據。
數(shù)據隱私的范圍
左端,有包含直接個人識別碼的數(shù)據。通過這些元素,可以識別你的姓名、地址或電話號碼。另一端,則是GDPR引用的匿名數(shù)據。
如你所見,這些數(shù)據有一個中間范疇。它處于可識別數(shù)據和匿名數(shù)據之間,即假名數(shù)據和去識別數(shù)據。請注意,其界定仍有爭議。有些報告認為假名化是去識別化的一部分, 而另一些報告則將其排除在外。
生成這種“中間數(shù)據”的技術本身并無問題。它們能有效地將數(shù)據最小化。根據用例需求,它們將彼此關聯(lián),發(fā)揮用處。但切記,它們無法生成真正的匿名數(shù)據,它們的機制無法保證阻止再識別,所以將其生成的數(shù)據稱為“匿名數(shù)據”是一種誤導。
匿名和“匿名”
假名化和去識別化確實能在某些方面保護數(shù)據隱私。但根據GDPR的定義,它們無法生成匿名數(shù)據。
假名化技術從數(shù)據中刪除或替換直接個人標識碼,例如,從數(shù)據集中刪除所有名稱和電子郵件,你無法直接從假名數(shù)據中識別某人,不過可以間接識別。實際上,剩余數(shù)據通常會保留間接識別碼,組合這些信息后,就能創(chuàng)建直接識別碼,如出生日期,郵編,性別等。
就此而言,假名化在GDPR框架中有一個單獨定義:“……以以下方式處理個人數(shù)據,即在不使用附加信息的情況下,數(shù)據不再可以歸因于特定數(shù)據主體”。與匿名數(shù)據相反,假名數(shù)據符合GDPR的要求。
去識別化技術從數(shù)據中去除直接和間接的個人身份識別碼。理論上,去識別化數(shù)據和匿名化數(shù)據之間的界限很簡單。最新消息表明:有技術可保障永遠無法再識別數(shù)據。這是一種“疑罪從無”的情況,去識別化數(shù)據在未識別之前是匿名的。每當專家設法重新識別那些最初未識別出的數(shù)據時,他們都進一步推動了發(fā)展。
數(shù)據重新識別不斷重新定義匿名
上述機制類型對隱私保護沒有同等效力,因此如何處理這些數(shù)據很重要。公司定期發(fā)布或出售他們聲稱“匿名”的數(shù)據,但當他們使用的方法不能保證“匿名”時,就會帶來隱患。
眾多事件表明,假名化數(shù)據這種隱私保護機制仍有缺陷。數(shù)據中的間接識別碼會帶來巨大的再識別風險。隨著可用數(shù)據量的增長,相互參照數(shù)據集的機會也在增加:
1990年,麻省理工學院的研究生從去識別化醫(yī)療數(shù)據中重新確認了馬薩諸塞州州長的身份,她將這些信息與公用人口普查數(shù)據相互參照來確定患者身份。
2006年,作為研究計劃的一部分,美國在線公司(AOL)共享了去識別化搜索數(shù)據,研究人員能夠將搜索查詢與背后的個人聯(lián)系起來。
2009年,作為比賽的一部分,網飛(Netflix)發(fā)布了一個匿名電影評級數(shù)據集,德克薩斯州的研究人員成功重新識別了用戶。
同是2009年,研究人員僅利用公開信息就能預測出一個人的社會保險號。
最近研究表明,去識別化數(shù)據實際上可以被重新識別。比利時新魯汶大學和倫敦帝國理工學院的研究人員發(fā)現(xiàn):“使用15個人口統(tǒng)計屬性,在任何數(shù)據集中,99.98%的美國人都能被正確地重新識別?!?/p>
另一項針對匿名手機數(shù)據的研究表明:“四個時空點就足以唯一識別95%的個體用戶”。
技術日益進步,更多的數(shù)據正在被創(chuàng)建,研究人員正在努力劃定去識別化數(shù)據和匿名數(shù)據之間的界限。2017年,研究人員發(fā)表論文稱:“網絡瀏覽歷史只能通過公開數(shù)據鏈接到社交媒體上的個人資料?!?/p>
另一個令人擔憂的問題是個人資料的泄露,越來越多的個人信息遭到泄露。ForgeRock消費者身份泄露報告預測,2020年的信息泄露數(shù)量將超過去年,僅美國,2020年第一季度就有超過16億的客戶記錄被泄露。
分開處理的數(shù)據集無法重新識別,但與泄露數(shù)據結合起來,它會造成更大的威脅。哈佛大學的學生能夠利用泄露的數(shù)據重新識別去識別化數(shù)據。
總之,那些我們所認為的“匿名數(shù)據”往往并不是真正的匿名數(shù)據。并非所有的數(shù)據凈化方法都會生成真正的匿名數(shù)據。事事都各有優(yōu)點,但沒有一種能提供與匿名同等級別的隱私。隨著數(shù)據量的不斷增長,創(chuàng)建真正的匿名數(shù)據也越來越難,公司發(fā)布潛在可重新識別的個人數(shù)據的風險也在增加。
責編AJX
-
數(shù)據
+關注
關注
8文章
6820瀏覽量
88748 -
匿名
+關注
關注
0文章
6瀏覽量
6774 -
隱私保護
+關注
關注
0文章
297瀏覽量
16430
發(fā)布評論請先 登錄
相關推薦
評論