0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟刪除知名數(shù)據(jù)集 撥開數(shù)據(jù)隱私的迷霧

lviY_AI_shequ ? 來源:yxw ? 2019-06-26 17:25 ? 次閱讀

微軟在日前刪除了一個名人圖片數(shù)據(jù)集。這個本為世界上最大的公開人臉識別數(shù)據(jù)集,現(xiàn)在已經(jīng)不能通過微軟的渠道訪問。

在這次「靜默」刪除行為背后,又牽扯到了哪些問題呢?

微軟想解決的麻煩:MS Celeb 名人數(shù)據(jù)集

MS Celeb 1M 數(shù)據(jù)集,最早是微軟在 2016 年發(fā)布,其中共包含了10 萬個名人,近 1000 萬張面部圖片,而這些數(shù)據(jù)都是從網(wǎng)絡(luò)上搜集而來。

從網(wǎng)絡(luò)中 100 萬個名人中,根據(jù)受歡迎程選出 10 萬個,然后利用搜索引擎,跳出每個人的大約 100 張圖片,就得到了這個龐大的數(shù)據(jù)集。

MS Celeb 數(shù)據(jù)集中的 Jobs 圖片,

其中綠色是年輕時代的圖片,紅色是合成圖像

而這個數(shù)據(jù)集最初是用來服務(wù)比賽的。MSR IRC是世界上最高水平的圖像識別賽事之一,MS Celeb 1M 數(shù)據(jù)集最初就是這個賽事所用。

MS Celeb 1M常被用來做面部識別的訓(xùn)練。但對于這些圖片均來自網(wǎng)絡(luò),所以也曾受到了質(zhì)疑。而微軟則表示,是根據(jù)「知識共享許可 C.C 協(xié)議」,來抓取和獲得這些圖像的。

根據(jù)協(xié)議,可以將照片重新用于學(xué)術(shù)研究,(照片中的人物并不一定授權(quán)許可,而是版權(quán)所有者授權(quán)。)但微軟發(fā)布數(shù)據(jù)集后,卻并不能掌管它的使用。英國「金融時報」進(jìn)行了一項(xiàng)深入調(diào)查,結(jié)果表明數(shù)據(jù)被大量的用在了多個企業(yè)測試中。

包括 IBM,松下,阿里巴巴,Nvidia 和日立等公司,都存在使用這個數(shù)據(jù)集的情況。

而這就涉及到了數(shù)據(jù)集使用的一些規(guī)范性問題,一位研究人員還指出,這涉及到人臉識別圖像數(shù)據(jù)集的倫理,起源和個人隱私等問題。

刪除原因:負(fù)責(zé)該數(shù)據(jù)集的員工離職?

微軟已經(jīng)在線上默默地刪除了MS Celeb 1M,并沒有特別的說明。

Github 上數(shù)據(jù)集的下載頁面已經(jīng)變成了 404

在金融時報的報道中,微軟表示「該網(wǎng)站主要目的是用于學(xué)術(shù),」而刪除它的原因是,「負(fù)責(zé)運(yùn)營這個項(xiàng)目的員工離職了,不再與微軟合作,所以進(jìn)行了刪除?!?/p>

我們都相信肯定有其他原因,可能也有數(shù)據(jù)集圖片存在的問題。雖然微軟稱數(shù)據(jù)集均來自于公眾人物的照片。但其中還包括少量非知名人物。這部分人臉照片的所有者,對微軟使用他們的名稱和圖像信息,曾提出過質(zhì)疑和批評。

還有技術(shù)人員推測,微軟可能會因違反歐盟《通用數(shù)據(jù)保護(hù)條例》(GDPR)而刪除數(shù)據(jù),該法規(guī)于去年生效,旨在建立起數(shù)據(jù)安全的保護(hù)措施。

GDPR對個人信息的保護(hù)及其監(jiān)管

達(dá)到了前所未有的高度

但微軟表示,它們沒有涉及到 GDPR 的條款,數(shù)據(jù)集相關(guān)網(wǎng)站退役只是因?yàn)椋冈?jīng)的競賽已經(jīng)結(jié)束」。

當(dāng)然,此次微軟移除 MS Celeb 數(shù)據(jù)集,并不妨礙它在學(xué)術(shù)研究等途徑的正常使用。那些用于處理數(shù)據(jù)庫的工具,現(xiàn)在也可正常訪問。

常用公開數(shù)據(jù)集,也可能有隱私問題

在英國「金融時報」調(diào)查之后,還有另外兩個學(xué)術(shù)單位也刪除了相關(guān)的數(shù)據(jù)集:分別是杜克大學(xué)的Duke MTMC 監(jiān)控數(shù)據(jù)集,和斯坦福大學(xué)的Brainwash 數(shù)據(jù)集。

關(guān)于數(shù)據(jù)集和隱私問題,這不是第一次進(jìn)入人們的視野。在今年 1 月底,IBM 發(fā)布了百萬級別的無偏見「人臉多樣性」數(shù)據(jù)集,就曾引發(fā)了廣泛的爭議。

雖然 IBM 強(qiáng)調(diào)此舉是為減少面部識別中的「偏見」問題,但數(shù)據(jù)集的來源,人物的是知情度等問題,都引發(fā)了不少質(zhì)疑聲。

有媒體還報道, IBM 表示會按照被攝影者的意愿,刪除數(shù)據(jù)集里的相關(guān)照片,但都只是一面之詞,并沒有實(shí)際的行動。

今年 5 月,舊金山曾頒布法令

禁止政府機(jī)構(gòu)使用人臉識別技術(shù)

對于數(shù)據(jù)集的采集和使用規(guī)則,還是一個很不太明確的區(qū)域,尤其是網(wǎng)絡(luò)便利之后,很多機(jī)構(gòu)都能輕易地獲得大量圖片,用于面部識別等用途。

其實(shí),對于數(shù)據(jù)集涉及的隱私問題,解決方案可以很簡單:關(guān)乎到用戶個人隱私信息時,應(yīng)保證用戶的知情權(quán),確保用戶是否愿意貢獻(xiàn)數(shù)據(jù)。

但似乎缺少的從來都不是方法,而是意識。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6516

    瀏覽量

    103608
  • 數(shù)據(jù)采集
    +關(guān)注

    關(guān)注

    38

    文章

    5512

    瀏覽量

    113113
  • 人臉識別
    +關(guān)注

    關(guān)注

    76

    文章

    3998

    瀏覽量

    81359
收藏 人收藏

    評論

    相關(guān)推薦

    Oracle數(shù)據(jù)恢復(fù)—Oracle數(shù)據(jù)庫delete刪除數(shù)據(jù)恢復(fù)方法

    刪除Oracle數(shù)據(jù)數(shù)據(jù)一般有以下2種方式:delete、drop或truncate。下面針對這2種刪除oracle數(shù)據(jù)
    的頭像 發(fā)表于 09-11 11:45 ?154次閱讀

    NetApp數(shù)據(jù)恢復(fù)—NetApp存儲誤刪除數(shù)據(jù)恢復(fù)案例

    某公司一臺NetApp存儲,該存儲中有24塊磁盤。 工作人員誤刪除了NetApp存儲中一個文件夾,文件夾中有非常重要的數(shù)據(jù)。 數(shù)據(jù)恢復(fù)工程師在現(xiàn)場對該存儲進(jìn)行了初檢。雖然這個文件夾被刪除
    的頭像 發(fā)表于 08-12 13:35 ?139次閱讀
    NetApp<b class='flag-5'>數(shù)據(jù)</b>恢復(fù)—NetApp存儲誤<b class='flag-5'>刪除</b>的<b class='flag-5'>數(shù)據(jù)</b>恢復(fù)案例

    Oracle數(shù)據(jù)恢復(fù)—Oracle刪除數(shù)據(jù)不用怕!這些數(shù)據(jù)恢復(fù)方法了解一下

    相信有很多oracle數(shù)據(jù)庫用戶都遇到過在操作Oracle數(shù)據(jù)庫時誤刪除某些重要數(shù)據(jù)的情況,這個時候如果數(shù)據(jù)庫沒有備份且
    的頭像 發(fā)表于 07-19 16:40 ?321次閱讀

    PyTorch如何訓(xùn)練自己的數(shù)據(jù)

    PyTorch是一個廣泛使用的深度學(xué)習(xí)框架,它以其靈活性、易用性和強(qiáng)大的動態(tài)圖特性而聞名。在訓(xùn)練深度學(xué)習(xí)模型時,數(shù)據(jù)是不可或缺的組成部分。然而,很多時候,我們可能需要使用自己的數(shù)據(jù)
    的頭像 發(fā)表于 07-02 14:09 ?541次閱讀

    服務(wù)器數(shù)據(jù)恢復(fù)—存儲中卷被刪除后重建如何恢復(fù)被刪除卷的數(shù)據(jù)

    服務(wù)器存儲數(shù)據(jù)恢復(fù)環(huán)境: 某品牌FlexStorage P5730服務(wù)器存儲,存儲中有一組由24塊硬盤組建的RAID5陣列,包括1塊熱備硬盤。 服務(wù)器存儲故障: 存儲中的2個卷被刪除,刪除之后重建了一個新卷。需要恢復(fù)之
    的頭像 發(fā)表于 06-05 11:03 ?410次閱讀

    請問NanoEdge AI數(shù)據(jù)該如何構(gòu)建?

    我想用NanoEdge來識別異常的聲音,但我目前沒有辦法生成模型,我感覺可能是數(shù)據(jù)的問題,請問我該怎么構(gòu)建數(shù)據(jù)?或者生成模型失敗還會有哪些原因?
    發(fā)表于 05-28 07:27

    NetApp數(shù)據(jù)恢復(fù)—WAFL文件系統(tǒng)下誤刪除數(shù)據(jù)數(shù)據(jù)恢復(fù)案例

    某公司NetApp存儲設(shè)備,人為誤操作導(dǎo)致NetApp存儲內(nèi)部分重要數(shù)據(jù)刪除,該NetApp存儲采用WAFL文件系統(tǒng),底層是由多塊硬盤組成的raid陣列。
    的頭像 發(fā)表于 05-13 10:50 ?266次閱讀

    混亂的汽車隱私數(shù)據(jù)

    現(xiàn)代汽車正在跟蹤我們的數(shù)據(jù),并以共享駕駛員位置和行為的方式實(shí)現(xiàn)互聯(lián),但乘員卻無法得知這些數(shù)據(jù)的用途,也無法得知如何關(guān)閉數(shù)據(jù)收集功能——如果有這項(xiàng)功能的話。為此,加州一家旨在保護(hù)人們隱私
    的頭像 發(fā)表于 01-29 16:24 ?462次閱讀

    美國防部禁令對電池民間商業(yè)合作沒有影響

    國內(nèi)電池企業(yè)在美國本土經(jīng)營的迷霧正被逐漸撥開。
    的頭像 發(fā)表于 01-23 10:54 ?584次閱讀

    自動駕駛領(lǐng)域的數(shù)據(jù)匯總

    發(fā)自動駕駛論文哪少的了數(shù)據(jù),今天筆者將為大家推薦一篇最新的綜述,總結(jié)了200多個自動駕駛領(lǐng)域的數(shù)據(jù),大家堆工作量的時候也可以找一些小眾的數(shù)據(jù)
    的頭像 發(fā)表于 01-19 10:48 ?847次閱讀
    自動駕駛領(lǐng)域的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>匯總

    語音數(shù)據(jù):探索、挑戰(zhàn)與應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,語音識別技術(shù)已經(jīng)滲透到我們生活的方方面面,從智能手機(jī)助手到智能家居設(shè)備,再到自動駕駛汽車,都離不開這項(xiàng)技術(shù)的支持。而在這些技術(shù)的背后,語音數(shù)據(jù)扮演著至關(guān)重要的角色。本文
    的頭像 發(fā)表于 12-28 13:56 ?440次閱讀

    語音數(shù)據(jù):AI語音技術(shù)的靈魂

    一、引言 在人工智能領(lǐng)域,語音技術(shù)被譽(yù)為“未來人機(jī)交互的入口”,而語音數(shù)據(jù)則是AI語音技術(shù)的靈魂。本文將深入探討語音數(shù)據(jù)的重要性、構(gòu)建方法、面臨的挑戰(zhàn)以及未來的發(fā)展趨勢。 二、語音
    的頭像 發(fā)表于 12-14 14:33 ?824次閱讀

    大模型數(shù)據(jù):力量的源泉,進(jìn)步的階梯

    一、引言 在? ? 的繁榮發(fā)展中,大模型數(shù)據(jù)的作用日益凸顯。它們?nèi)琮嫶蟮闹R庫,為AI提供了豐富的信息和理解能力。本文將用一種獨(dú)特的風(fēng)格來探討大模型數(shù)據(jù)的魅力和潛力。 二、大模型
    的頭像 發(fā)表于 12-07 17:18 ?526次閱讀

    docker容器刪除數(shù)據(jù)還在嗎

    Docker作為一個容器化平臺,提供了輕量級的虛擬化解決方案,能夠方便地創(chuàng)建、部署和管理應(yīng)用程序。然而,對于Docker容器的數(shù)據(jù)持久性是一個令人關(guān)注的問題。當(dāng)我們刪除一個Docker容器時,容器中
    的頭像 發(fā)表于 11-23 09:32 ?1477次閱讀

    數(shù)據(jù)數(shù)據(jù)恢復(fù)—MySQL數(shù)據(jù)庫表誤刪除記錄的數(shù)據(jù)恢復(fù)案例

    binlog。 數(shù)據(jù)庫故障&分析: 工作人員在執(zhí)行Delete命令刪除數(shù)據(jù)時未添加where子句進(jìn)行篩選,導(dǎo)致全表數(shù)據(jù)刪除刪除
    的頭像 發(fā)表于 11-09 15:16 ?1130次閱讀
    <b class='flag-5'>數(shù)據(jù)</b>庫<b class='flag-5'>數(shù)據(jù)</b>恢復(fù)—MySQL<b class='flag-5'>數(shù)據(jù)</b>庫表誤<b class='flag-5'>刪除</b>記錄的<b class='flag-5'>數(shù)據(jù)</b>恢復(fù)案例