通過與弗吉尼亞大學(xué)的研究人員合作,Salesforce 提出了有助于減輕 AI 性別偏見的新方法。 通常情況下,研究人員需要為 AI 模型投喂許多單次來展開訓(xùn)練,但其中不可避免地會摻雜一些或隱性、或顯性的性別偏見。 然后在執(zhí)行語言翻譯或其它預(yù)測任務(wù)的時候,這些 AI 也會沾染上一些不良習(xí)性。
雙硬去偏器示意
有鑒于此,研究團(tuán)隊嘗試糾正某些規(guī)律性,比如大數(shù)據(jù)集中的單詞頻率,以使 AI 在推理前對嵌入的內(nèi)容進(jìn)行“純化”,拋棄那些帶有性別歧視的詞匯。
這套方案可以捕獲單詞的語義、句法、以及同其它單詞的關(guān)系,此前已被許多自然語言處理(NLP)方案所采用,但因不可避免的性別偏見而遭到批評。
先前補(bǔ)救方案是在后處理過程中引入幾個步驟,以剔除與性別歧視相關(guān)的成分,但有效性受到了較大的限制,比如在去偏見操作后又被復(fù)原了。
雙硬去偏器基準(zhǔn)測試成績
為此,Salesforce 提出了名叫“雙硬去偏”(Double-Hard Debias)的新方案,以將嵌入空間轉(zhuǎn)換為表面上無性別的子空間。
然后在執(zhí)行另一次消除偏見的操作之前,它會沿著這個維度去“投射”性別成分,以獲取修改后的嵌入內(nèi)容。為評估效果,研究人員針對 WinoBias 數(shù)據(jù)集開展了測試。
該數(shù)據(jù)集由贊成性別定型和反對性別定型的句子組成,性能差距反映了算法系統(tǒng)是如何在兩個句子組上執(zhí)行、并導(dǎo)致“性別偏見”的得分。
tSNE 嵌入投影
結(jié)果顯示,在保留語義信息的同時,雙硬去偏方案將使用 GloVe 算法獲得的嵌入偏差得分,從 15 分砍半到了 7.7 分。此外在對嵌入進(jìn)行建模的可視化(tSNE 投影)上,它也較其它方案的混合更加均勻。
即便如此,一些專家仍認(rèn)為無法從詞嵌入中完全消除偏見。比如慕尼黑工業(yè)大學(xué)的最近一項研究,就表明“沒有天然中性的文本”。因為單詞的語義內(nèi)容,是始終與社會環(huán)境聯(lián)系在一起的。
-
AI
+關(guān)注
關(guān)注
87文章
29824瀏覽量
268112 -
模型
+關(guān)注
關(guān)注
1文章
3116瀏覽量
48660 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8855瀏覽量
137217
發(fā)布評論請先 登錄
相關(guān)推薦
評論