Facebook研究人員發(fā)布了一個(gè)數(shù)據(jù)集,旨在幫助機(jī)器學(xué)習(xí)開發(fā)人員測(cè)試算法的偏差。
即使在不同的光照條件下,算法是否能夠?qū)Σ煌挲g、性別和膚色的人一視同仁呢?Facebook的AI Red團(tuán)隊(duì)近日發(fā)布了一個(gè)名為“Casual Conversations”的數(shù)據(jù)集,用于回答這個(gè)問題。10兆字節(jié)的數(shù)據(jù)由3011名參與者錄制的視頻組成;數(shù)據(jù)集由每人約15個(gè)1分鐘片段組成,總時(shí)長超過45000分鐘。視頻分別被標(biāo)記出年齡和性別,由每個(gè)參與者自我報(bào)告,膚色由訓(xùn)練有素的注解者使用標(biāo)準(zhǔn)比例確定,以及照明條件,也由注解者確定。
Facebook AI Red團(tuán)隊(duì)的研究經(jīng)理Cristian Canton給了我一個(gè)簡單的例子,說明了開發(fā)人員是如何使用數(shù)據(jù)集的。
“考慮門戶(Portal)設(shè)備,”他說。(門戶是Facebook價(jià)值150美元的桌面智能屏幕。)“我們有一個(gè)攝像頭,可以跟蹤人們。如果我現(xiàn)在是工程師來構(gòu)建這項(xiàng)技術(shù),為了確保它的包容性,我可以獲取臨時(shí)會(huì)話數(shù)據(jù)集,通過門戶中的跟蹤算法來運(yùn)行它,并測(cè)量它在哪些地方表現(xiàn)不好。比如說,你可能會(huì)發(fā)現(xiàn),對(duì)于一個(gè)特定年齡、膚色或性別的人來說,在昏暗的光線下,這是行不通的。然后我就會(huì)知道我的算法對(duì)于特定的子組有缺陷?!?/p>
Facebook的研究人員在去年的Deepfake Detection Challenge(一項(xiàng)旨在開發(fā)自動(dòng)識(shí)別欺詐媒體工具的競(jìng)賽)的前五名獲獎(jiǎng)?wù)呱砩蠝y(cè)試了該數(shù)據(jù)集。
在近日發(fā)布的一篇研究論文和博客文章中,他們報(bào)告說,雖然所有五種算法都在與較暗的膚色作斗爭(zhēng),但在年齡、性別和光照條件等方面表現(xiàn)最為一致的模型并不是第一名得主Selim Seferbekov,而是排名第三的團(tuán)隊(duì)NTechLab。有趣的是,排名第四的18歲的研究小組最擅長分析的是年齡在45歲以上的年齡組中的受試者的視頻。
在不同的人群中表現(xiàn)平平,并不是Deep Fake Challenge的評(píng)判標(biāo)準(zhǔn)之一,因?yàn)檫€沒有完整的非正式對(duì)話數(shù)據(jù)集。
Said Canton說:“如果我們今天重新開始比賽,也許我們會(huì)考慮尋找一個(gè)更具包容性的方法。”
Canton說,近日發(fā)布的Casual Conversations數(shù)據(jù)集只是創(chuàng)造人工智能公平所需工作的開始。首先,他指出,這個(gè)問題是多方面的,雖然有這樣的數(shù)據(jù)是有幫助的,但這并不是最終的解決辦法。
Image: FacebookThese pie charts show the frequency of the different tags for age, gender, apparent skin tone, and lighting conditions in the 45,186 videos that make up the Casual Conversations data set.
至于數(shù)據(jù)集開發(fā)本身,他說,該團(tuán)隊(duì)還只是在“漫長旅程的第一步”。我們已經(jīng)確定了年齡、性別、膚色和光照條件,但(這些視頻)都是在美國錄制的。如果我們?cè)谄渌麌忆浿?,我們可能?huì)發(fā)現(xiàn)更多我們需要考慮且尚未看到的多樣性?!?/p>
Canton指出,錄音的音頻部分也代表了尚未開發(fā)的潛力。這些音頻文件是通過要求受試者回答簡單的對(duì)話提示(如“你最喜歡的菜是什么”)而創(chuàng)建的,目前只針對(duì)年齡和性別進(jìn)行標(biāo)記。“我們還沒有對(duì)口音進(jìn)行注釋,但這是未來可實(shí)現(xiàn)的一個(gè)潛在途徑。我們確實(shí)認(rèn)為這篇文章可以有一些有趣的結(jié)果。不過,我們要測(cè)試音頻模型的包容性?!?/p>
Canton希望,將這些數(shù)據(jù)公之于眾將引發(fā)反饋,從而使數(shù)據(jù)集更豐富、更具包容性?!拔液芟M吹剿玫讲捎?,然后讓我的同事和學(xué)者告訴我們更多他們的想法。我們希望進(jìn)行自我批評(píng)。有了反饋,我們可以不斷改進(jìn)它。我們希望它成為衡量人工智能公平性的標(biāo)準(zhǔn)方式。”
Canton還希望這個(gè)數(shù)據(jù)集的發(fā)展能夠樹立一個(gè)新的標(biāo)準(zhǔn)。他對(duì)這個(gè)數(shù)據(jù)集的創(chuàng)建方式感到自豪,包括它是可信來源。他在我們的談話中多次強(qiáng)調(diào),3000多名受試者的付出是有報(bào)酬的,并且他們了解自己的聲音和視頻圖像是如何被使用的,如果他們改變了參與的想法,以后可以退出。
他說:“我們正試圖為負(fù)責(zé)任的人工智能在未來的樣子設(shè)定一個(gè)標(biāo)準(zhǔn),”他補(bǔ)充說,F(xiàn)acebook團(tuán)隊(duì)希望“激勵(lì)更多的人記錄擴(kuò)充數(shù)據(jù)集。重要的是要做正確的事情 -- 通過使用正確的工具?!?br /> 編輯:lyn
-
Facebook
+關(guān)注
關(guān)注
3文章
1429瀏覽量
54610 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8353瀏覽量
132315 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1200瀏覽量
24621 -
AI算法
+關(guān)注
關(guān)注
0文章
247瀏覽量
12221
原文標(biāo)題:人工智能算法對(duì)年齡、性別和膚色一視同仁嗎?
文章出處:【微信號(hào):IEEE_China,微信公眾號(hào):IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論