機(jī)器學(xué)習(xí)中的數(shù)據(jù)偏差是一種錯誤,其中數(shù)據(jù)集的某些元素比其他元素具有更大的權(quán)重和或表示。有偏見的數(shù)據(jù)集不能準(zhǔn)確地表示模型的用例,從而導(dǎo)致結(jié)果偏斜,準(zhǔn)確性水平低和分析錯誤。
通常,用于機(jī)器學(xué)習(xí)項目的訓(xùn)練數(shù)據(jù)必須代表現(xiàn)實(shí)世界。這很重要,因為這些數(shù)據(jù)是機(jī)器學(xué)習(xí)如何完成其工作的方式。數(shù)據(jù)偏差可能會發(fā)生在從人類報告和選擇偏差到算法和解釋偏差的一系列區(qū)域中。
解決機(jī)器學(xué)習(xí)項目中的數(shù)據(jù)偏差意味著首先確定它在哪里。只有在知道存在偏見的地方之后,你才可以采取必要的措施來糾正它,無論是解決數(shù)據(jù)不足還是改善注釋過程的問題??紤]到這一點(diǎn),請務(wù)必對數(shù)據(jù)的范圍,質(zhì)量和處理保持警惕,以免產(chǎn)生偏差。這不僅影響模型的準(zhǔn)確性,而且還會涉及道德,公平和包容性問題。
下面,我列出了機(jī)器學(xué)習(xí)中最常見的7種數(shù)據(jù)偏見類型,以幫助你分析和了解其發(fā)生的位置以及你可以采取的措施。
數(shù)據(jù)偏差的類型
盡管并不詳盡,但此列表包含了該領(lǐng)域中數(shù)據(jù)偏見的常見示例,以及其發(fā)生位置的示例。
樣本偏差:當(dāng)數(shù)據(jù)集不能反映模型將在其中運(yùn)行的環(huán)境的實(shí)際情況時,就會發(fā)生樣本偏差。這樣的一個例子是某些主要在白人圖像上訓(xùn)練的面部識別系統(tǒng)。這些模型對婦女和不同種族的人的準(zhǔn)確度要低得多。此偏差的另一個名稱是選擇偏差。
排除偏差:排除偏差在數(shù)據(jù)預(yù)處理階段最常見。通常,這是刪除不重要的有價值數(shù)據(jù)的情況。但是,由于某些信息的系統(tǒng)排除,它也可能發(fā)生。例如,假設(shè)你有一個在美國和加拿大的客戶銷售數(shù)據(jù)集。98%的客戶來自美國,因此你選擇刪除不相關(guān)的位置數(shù)據(jù)。但是,這意味著你的模型將不會因為加拿大客戶的消費(fèi)增加兩倍多這一事實(shí)而受到影響。
測量偏差:當(dāng)為訓(xùn)練而收集的數(shù)據(jù)與現(xiàn)實(shí)世界中收集的數(shù)據(jù)不同時,或者當(dāng)錯誤的測量結(jié)果導(dǎo)致數(shù)據(jù)失真時,就會發(fā)生這種偏差。這種偏差的一個很好的例子出現(xiàn)在圖像識別數(shù)據(jù)集中,其中訓(xùn)練數(shù)據(jù)是用一種類型的照相機(jī)收集的,而生產(chǎn)數(shù)據(jù)是用另一種照相機(jī)收集的。在項目的數(shù)據(jù)標(biāo)記階段,由于注釋不一致也會導(dǎo)致測量偏差。
召回偏差:這是一種測量偏差,在項目的數(shù)據(jù)標(biāo)記階段很常見。當(dāng)你不一致地標(biāo)記相似類型的數(shù)據(jù)時,就會產(chǎn)生召回偏差。這導(dǎo)致較低的精度。例如,假設(shè)你有一個團(tuán)隊將電話的圖像標(biāo)記為損壞,部分損壞或未損壞。如果有人將一張圖像標(biāo)記為已損壞,但將相似的圖像標(biāo)記為部分已損壞,則你的數(shù)據(jù)將不一致。
觀察者偏差:也稱為確認(rèn)偏差,觀察者偏差是看到你期望在數(shù)據(jù)中看到或想要看到的結(jié)果的效果。當(dāng)研究人員在有意識或無意識的情況下對自己的研究有主觀想法進(jìn)入項目時,可能會發(fā)生這種情況。當(dāng)標(biāo)簽制作者讓主觀思想控制他們的標(biāo)簽制作習(xí)慣,從而導(dǎo)致數(shù)據(jù)不準(zhǔn)確時,你也可以看到這一點(diǎn)。
種族偏見:盡管不是傳統(tǒng)意義上的數(shù)據(jù)偏見,但由于其在AI技術(shù)中的盛行,因此仍然值得一提。當(dāng)數(shù)據(jù)偏向特定人群時,就會發(fā)生種族偏見。在面部識別和自動語音識別技術(shù)中可以看到這一點(diǎn),該技術(shù)無法像白種人那樣準(zhǔn)確地識別有色人種。Google的Inclusive Images競賽提供了很好的例子說明了這種情況的發(fā)生。
關(guān)聯(lián)偏差:當(dāng)機(jī)器學(xué)習(xí)模型的數(shù)據(jù)加強(qiáng)和/或乘以文化偏差時,就會發(fā)生這種偏差。你的數(shù)據(jù)集可能包含一組工作,其中所有男性都是醫(yī)生,所有女性都是護(hù)士。這并不意味著女人不能當(dāng)醫(yī)生,男人不能當(dāng)護(hù)士。但是,就你的機(jī)器學(xué)習(xí)模型而言,不存在女醫(yī)生和男護(hù)士。社交偏見最出名的是造成性別偏見,這在“挖掘人工智能”研究中可見。
如何避免機(jī)器學(xué)習(xí)項目中的數(shù)據(jù)偏差?
防止機(jī)器學(xué)習(xí)項目中的數(shù)據(jù)偏差是一個持續(xù)的過程。盡管有時很難知道數(shù)據(jù)或模型何時出現(xiàn)偏差,但是你可以采取許多步驟來幫助防止偏差或及早發(fā)現(xiàn)偏差。盡管遠(yuǎn)非詳盡的清單,但以下要點(diǎn)為思考機(jī)器學(xué)習(xí)項目的數(shù)據(jù)偏差提供了入門級指南。
盡你所能,事先研究用戶。請注意你的一般用例和潛在異常值。
確保你的數(shù)據(jù)科學(xué)家和數(shù)據(jù)標(biāo)簽團(tuán)隊是多元化的。
盡可能合并來自多個來源的輸入以確保數(shù)據(jù)多樣性。
為數(shù)據(jù)標(biāo)簽創(chuàng)建黃金標(biāo)準(zhǔn)。黃金標(biāo)準(zhǔn)是一組數(shù)據(jù),可以反映任務(wù)的理想標(biāo)記數(shù)據(jù)。它使你能夠測量團(tuán)隊的注釋的準(zhǔn)確性。
為數(shù)據(jù)標(biāo)簽期望制定明確的準(zhǔn)則,以便數(shù)據(jù)標(biāo)簽保持一致。
對于可能會出現(xiàn)數(shù)據(jù)準(zhǔn)確性偏差的任何項目,請使用多次通過注釋。例如,情感分析,內(nèi)容審核和意圖識別。
尋求具有領(lǐng)域?qū)I(yè)知識的人員的幫助,以查看你收集和/或注釋的數(shù)據(jù)。團(tuán)隊外部的人可能會看到團(tuán)隊忽略的偏見。
定期分析你的數(shù)據(jù)。跟蹤錯誤和問題區(qū)域,以便您快速響應(yīng)并解決它們。在決定刪除或保留它們之前,請仔細(xì)分析數(shù)據(jù)點(diǎn)。
使偏差測試成為開發(fā)周期的一部分。Google,IBM和Microsoft都發(fā)布了工具和指南,以幫助分析許多不同數(shù)據(jù)類型的偏差。
如果你想更深入地了解偏見的產(chǎn)生方式,偏見對機(jī)器學(xué)習(xí)模型的影響以及過去在自動化技術(shù)中的偏見,我建議你參考瑪格麗特·米切爾(Margaret Mitchell)的“人工智能的視野和語言偏見”演示。
鏈接:https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/slides/cs224n-2019-lecture19-bias.pdf?ref=hackernoon.com
總結(jié)
請務(wù)必注意任何數(shù)據(jù)項目在機(jī)器學(xué)習(xí)中的潛在偏見。通過盡早安裝正確的系統(tǒng)并保持?jǐn)?shù)據(jù)收集,標(biāo)記和實(shí)施的最頂層,你可以在出現(xiàn)問題之前就注意到它,或者在出現(xiàn)問題時對其進(jìn)行響應(yīng)。
責(zé)任編輯:xj
原文標(biāo)題:機(jī)器學(xué)習(xí)中的7種數(shù)據(jù)偏見
文章出處:【微信公眾號:Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
6819瀏覽量
88745 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8353瀏覽量
132315
原文標(biāo)題:機(jī)器學(xué)習(xí)中的7種數(shù)據(jù)偏見
文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論