我們處在一個(gè)智能變革的時(shí)代,人工智能技術(shù)正在“賦能”各行各業(yè)。大數(shù)據(jù)就像新能源,AI算法就像發(fā)動(dòng)機(jī),裝載了大數(shù)據(jù)和人工智能技術(shù)的企業(yè)就像搭上了一班通往未來(lái)的快速列車,把競(jìng)爭(zhēng)對(duì)手遠(yuǎn)遠(yuǎn)地甩在后面。
隱私
然而,這樣的快速發(fā)展不是沒(méi)有代價(jià)的。我們每個(gè)人的手機(jī)號(hào)、電子郵箱、家庭地址和公司地址經(jīng)緯度坐標(biāo)、手機(jī)識(shí)別碼、消費(fèi)記錄、APP使用記錄、上網(wǎng)瀏覽記錄、搜索引擎結(jié)果的點(diǎn)擊習(xí)慣、刷臉記錄、指紋、心跳等等這些信息都是我們不愿意輕易給出的隱私數(shù)據(jù),但在AI時(shí)代,這很可能已經(jīng)成為某個(gè)公司用來(lái)訓(xùn)練AI算法的數(shù)據(jù)集中的一條。
正是眾多不起眼的一條條個(gè)人隱私數(shù)據(jù),構(gòu)成了足夠多的訓(xùn)練集,讓AI從中學(xué)習(xí)到認(rèn)知能力,讓從未跟我們謀面的AI算法認(rèn)識(shí)、了解我們,知道我們的喜好和動(dòng)機(jī),甚至還認(rèn)識(shí)我們的家人、朋友。我們的隱私便是實(shí)現(xiàn)這些智能的“代價(jià)”。
當(dāng)然,這個(gè)代價(jià)并不一定是你愿意拱手付出的。
那如何保護(hù)隱私?我不用行嗎?
你以為關(guān)閉手機(jī)GPS就無(wú)法定位你的位置?你的手機(jī)還有陀螺儀、內(nèi)置羅盤、氣壓計(jì)等裝置,還是可以用來(lái)定位你的位置。只要使用手機(jī),就不存在絕對(duì)的隱私保護(hù)。
對(duì)于很多手機(jī)應(yīng)用來(lái)說(shuō),要么不用,用了就很難避免泄露隱私,比如很多APP須用手機(jī)號(hào)注冊(cè),或者需要手機(jī)驗(yàn)證才能繼續(xù)使用,還有的需要刷臉驗(yàn)證等等。那么,個(gè)人想保護(hù)隱私能做什么?什么也做不了,加上AI算法的黑盒性質(zhì),我們甚至對(duì)于AI背后的邏輯和動(dòng)機(jī)一無(wú)所知。
監(jiān)管
隱私保護(hù)靠個(gè)人防護(hù)真的很難實(shí)現(xiàn),需要強(qiáng)有力的法律法規(guī)來(lái)限制。
2018年5月25日,歐盟的《通用數(shù)據(jù)保護(hù)條例》(GDPR)正式生效,這是在歐盟范圍內(nèi)的一個(gè)數(shù)據(jù)保護(hù)監(jiān)管框架,這是目前完善、嚴(yán)格的隱私保護(hù)規(guī)定。根據(jù)DLA Piper公布的數(shù)據(jù),在不到兩年的時(shí)間內(nèi),GDPR已產(chǎn)生1.14億歐元的罰款,其中開(kāi)出的最大罰單是法國(guó)依據(jù)GDPR對(duì)谷歌罰款5000萬(wàn)歐元,理由是谷歌在向用戶定向發(fā)送廣告時(shí)缺乏透明度、信息不足,且未獲得用戶有效許可。下圖是GDPR生效以來(lái)至2020年1月份歐盟各個(gè)國(guó)家罰款的金額分布圖。
對(duì)于企業(yè),GDPR要求在收集用戶的個(gè)人信息之前,須以“簡(jiǎn)潔、透明且易懂的形式,清晰和平白的語(yǔ)言”向用戶說(shuō)明將收集用戶的哪些信息、收集到的信息將如何進(jìn)行存儲(chǔ)、存儲(chǔ)的信息將會(huì)被如何使用,并告知企業(yè)的聯(lián)系方式。
對(duì)于個(gè)人,GDPR賦予數(shù)據(jù)主體七項(xiàng)數(shù)據(jù)權(quán)利:知情權(quán)、訪問(wèn)權(quán)、修正權(quán)、刪除權(quán)(被遺忘權(quán))、限制處理權(quán)(反對(duì)權(quán))、可攜帶權(quán)、拒絕權(quán)。目前GDPR在真實(shí)地影響到我們每個(gè)人的生活,直觀的影響就是當(dāng)你瀏覽網(wǎng)頁(yè)的時(shí)候,你會(huì)發(fā)現(xiàn)經(jīng)常遇到網(wǎng)站彈出類似下圖的提示,這是網(wǎng)站基于信息透明性的規(guī)定,向你征詢信息收集的許可。
歐盟的GDPR具有全球影響力,它讓用戶對(duì)自己的個(gè)人數(shù)據(jù)有掌控權(quán),讓全球在發(fā)展新技術(shù)的同時(shí)須開(kāi)始關(guān)注隱私問(wèn)題,世界各國(guó)已經(jīng)紛紛出臺(tái)自己的數(shù)據(jù)保護(hù)法規(guī)。
關(guān)于隱私保護(hù),一切才剛剛開(kāi)始。
歐盟在上個(gè)月正式啟動(dòng)了稱為“打造歐洲數(shù)字未來(lái)”的新戰(zhàn)略,打算通過(guò)制定一系列針對(duì)AI、隱私和安全的法規(guī),成為AI發(fā)展的全球領(lǐng)導(dǎo)者。該戰(zhàn)略的啟動(dòng)也被看成是在應(yīng)對(duì)美國(guó)和中國(guó)的AI崛起。
可以預(yù)見(jiàn),關(guān)于AI的隱私安全與監(jiān)管將逐漸成為重點(diǎn)話題,實(shí)際上,就像歐盟委員會(huì)副主席Margrethe Vestager說(shuō)的:“人工智能本身并沒(méi)有好壞之分,而是取決于人們?yōu)槭裁匆约叭绾问褂盟?。讓我們盡可能做到最好,控制人工智能可能給我們的價(jià)值觀帶來(lái)的風(fēng)險(xiǎn)——不傷害,不歧視?!?/p>
保護(hù)隱私已經(jīng)成為AI發(fā)展不可繞過(guò)的“檻”,是AI技術(shù)的難題,也是AI良性發(fā)展的契機(jī)。
趨勢(shì)
可以說(shuō),保護(hù)隱私的各種法規(guī)的出臺(tái)必然是未來(lái)不可避免的趨勢(shì),這勢(shì)必讓企業(yè)的數(shù)據(jù)收集、使用及流通的合規(guī)成本大幅增加,也容易讓企業(yè)內(nèi)部或者企業(yè)間形成數(shù)據(jù)孤島問(wèn)題,制約企業(yè)獲取數(shù)據(jù)價(jià)值。因此,保護(hù)隱私的AI技術(shù)的落地使用成為AI領(lǐng)域亟待實(shí)現(xiàn)的目標(biāo)。
保護(hù)隱私的AI主要通過(guò)數(shù)據(jù)加密、分布式計(jì)算、邊緣計(jì)算、機(jī)器學(xué)習(xí)等多種技術(shù)的結(jié)合來(lái)保護(hù)數(shù)據(jù)安全,近期比較熱門的有Differential Privacy(差分隱私)、FederatedLearning(聯(lián)邦學(xué)習(xí),也叫聯(lián)盟學(xué)習(xí)、聯(lián)合學(xué)習(xí)、共享學(xué)習(xí))。
保護(hù)隱私不是說(shuō)不收集數(shù)據(jù),而是要通過(guò)技術(shù)的手段防止個(gè)人隱私數(shù)據(jù)的泄露。差分隱私是一種數(shù)學(xué)技術(shù),比如,假設(shè)要分析數(shù)據(jù)集并計(jì)算其統(tǒng)計(jì)數(shù)據(jù)(例如數(shù)據(jù)的平均值、方差、中位數(shù)、眾數(shù)等),如果通過(guò)查看輸出,我們無(wú)法分辨原始數(shù)據(jù)集中是否包含了任何個(gè)體的數(shù)據(jù),那么這種算法就被稱為差異私有。
舉個(gè)非常簡(jiǎn)單的例子,假設(shè)你的工作部門每個(gè)月都會(huì)用一個(gè)表格統(tǒng)計(jì)部門每個(gè)人的工資發(fā)放金額,除了制表人,別人無(wú)法查看這個(gè)表格,只能通過(guò)一個(gè)查詢函數(shù)S知道這個(gè)表的總額,某個(gè)月你調(diào)去了別的部門,那么別人就可以通過(guò)上個(gè)月表格A,和這個(gè)月表格B來(lái)知道你的工資,道理很簡(jiǎn)單,只需用S(A)減去S(B)。B表格稱為A表格的相鄰數(shù)據(jù)集,它倆只相差一條數(shù)據(jù),差分隱私技術(shù)就是要讓相鄰數(shù)據(jù)集的查詢結(jié)果差不多,從而無(wú)法推出個(gè)人的信息來(lái),這個(gè)差不多的程度可以看作隱私保護(hù)的力度。蘋果和Facebook已經(jīng)使用這種方法來(lái)收集聚合數(shù)據(jù),而不需要識(shí)別特定的用戶。MITTechnology Review將差分隱私技術(shù)列為2020全球十大突破性技術(shù)之一。
聯(lián)邦學(xué)習(xí)采用了分布式機(jī)器學(xué)習(xí)方法,近年來(lái)越來(lái)越受歡迎,該技術(shù)假設(shè)用戶數(shù)據(jù)不會(huì)被存儲(chǔ)到中心化的服務(wù)器,而是私有的、保密的,僅存儲(chǔ)在個(gè)人的邊緣設(shè)備上,比如手機(jī),因此與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,聯(lián)邦學(xué)習(xí)從根本上增強(qiáng)了用戶隱私。聯(lián)邦學(xué)習(xí)不依賴從用戶設(shè)備端收集的數(shù)據(jù)來(lái)訓(xùn)練,而是在用戶移動(dòng)設(shè)備端訓(xùn)練AI模型,然后將訓(xùn)練得到的參數(shù)信息傳輸回一個(gè)全局模型,這個(gè)過(guò)程不需要用戶數(shù)據(jù)離開(kāi)個(gè)人設(shè)備。
從近兩年在arXiv(一個(gè)提交論文預(yù)印版的平臺(tái))上提交的論文數(shù)可以看出,該技術(shù)發(fā)展的快速趨勢(shì):
巨頭的技術(shù)布局
從去年起全球流行的兩個(gè)機(jī)器學(xué)習(xí)框架,TensorFlow和PyTorch都增加了聯(lián)邦學(xué)習(xí)等解決方案來(lái)保護(hù)隱私。
(1)Google
聯(lián)邦學(xué)習(xí)的概念是由Google在2017年首次引入,去年又發(fā)布了TensorFlow Federated(TFF)框架,利用Tensorflow的機(jī)器學(xué)習(xí)框架簡(jiǎn)化聯(lián)邦學(xué)習(xí)。
如下圖所示,基于TFF框架搭建的學(xué)習(xí)模型在眾多手機(jī)(如手機(jī)A)上進(jìn)行本地化模型訓(xùn)練,更新權(quán)重并聚合(步驟B),進(jìn)而更新提升后的全局模型(模型C),將全局模型再應(yīng)用到各手機(jī)終端來(lái)提升算法應(yīng)用效果。
(2)Facebook
為了在保護(hù)隱私的機(jī)器學(xué)習(xí)領(lǐng)域取得進(jìn)展,去年Facebook旗下的深度學(xué)習(xí)框架PyTorch與OpenMined宣布開(kāi)發(fā)一個(gè)聯(lián)合平臺(tái)的計(jì)劃,以加速隱私保護(hù)技術(shù)的研究。
OpenMined是一個(gè)開(kāi)源社區(qū),專注于研究、開(kāi)發(fā)和升級(jí)用于安全、保護(hù)隱私的AI工具。OpenMined發(fā)布了PySyft,是第一個(gè)用于構(gòu)建安全和隱私保護(hù)的開(kāi)源聯(lián)邦學(xué)習(xí)框架。
PySyft很受歡迎,在Github已經(jīng)擁有5.2k個(gè)Star,目前支持在主要的深度學(xué)習(xí)框架(PyTorch、Tensorflow)中用聯(lián)邦學(xué)習(xí)、差分隱私和加密計(jì)算(如多方計(jì)算,同態(tài)加密),實(shí)現(xiàn)將隱私數(shù)據(jù)與模型訓(xùn)練解耦。
國(guó)內(nèi)發(fā)展現(xiàn)狀
國(guó)內(nèi)的AI巨頭們也早已開(kāi)啟保護(hù)隱私的技術(shù)布局,特別是金融領(lǐng)域,金融領(lǐng)域由于監(jiān)管嚴(yán)格,數(shù)據(jù)的隱私性要求非常高,因此,金融機(jī)構(gòu)一方面在保護(hù)隱私數(shù)據(jù)方面面臨技術(shù)難題,另一方面由于金融數(shù)據(jù)的孤立性,“數(shù)據(jù)孤島”問(wèn)題導(dǎo)致金融機(jī)構(gòu)無(wú)法發(fā)揮出數(shù)據(jù)的真正價(jià)值。
國(guó)內(nèi)多家金融機(jī)構(gòu)以及金融科技公司已經(jīng)嘗試在獲客、授信、風(fēng)險(xiǎn)控制等方面,利用聯(lián)邦學(xué)習(xí)解決數(shù)據(jù)隱私的合規(guī)問(wèn)題和數(shù)據(jù)分享的數(shù)據(jù)孤島問(wèn)題,發(fā)揮金融數(shù)據(jù)價(jià)值。
目前國(guó)內(nèi)關(guān)于保護(hù)隱私的監(jiān)管還不夠成熟,個(gè)人和企業(yè)對(duì)于隱私保護(hù)的意識(shí)還不強(qiáng)。隨著全球環(huán)境中對(duì)保護(hù)隱私的關(guān)注逐漸加強(qiáng),以及保護(hù)隱私的AI技術(shù)的發(fā)展,我相信AI技術(shù)終究會(huì)向著更好的方向發(fā)展,希望通過(guò)科學(xué)家們的努力,AI的黑盒不會(huì)是潘多拉之盒。
評(píng)論
查看更多