欧美日产欧美日产国产精品,国产片婬乱一级毛片调教视频,亚洲呦萝小初AV

介紹

大規(guī)模語言模型（LMs）已經(jīng)成為了現(xiàn)在自然語言處理的關(guān)鍵技術(shù)，但由于訓練語料中常帶有主觀的性別偏見、歧視等，在大模型的使用過程中，它們時常會被放大，因此探測和緩解數(shù)據(jù)中的性別偏見變得越來越重要。

部分研究通過性別交換等自動標注方法，緩解性別偏見的語料庫；也有一些人工標注的性別偏見語料庫，但主要集中在單詞層面或語法層面的偏見，或只關(guān)注與性別歧視相關(guān)的話題，并主要以英文為主。因此，該論文提出了第一個用于性別偏見探測和緩解的句子級中文語料庫，采用一種自動方法（如圖1所示，對含有性別偏見得分高的詞的樣本進行召回，然后根據(jù)其句子級性別偏見概率對樣本進行重新排序和過濾），從現(xiàn)有的大規(guī)模中文語料庫中構(gòu)建可能存在性別偏見的句子集，再通過精心設(shè)計的標注方案，對候選數(shù)據(jù)集進行進一步的標注，構(gòu)建可以用于性別偏見檢測、分類和緩解三種任務(wù)的數(shù)據(jù)集。

數(shù)據(jù)構(gòu)建

樣本過濾

如圖1所示，該研究通過單詞級到句子級的兩階段過濾，從原始語料庫中召回、排序和過濾待標注候選數(shù)據(jù)。對于詞級別過濾，通過計算目標詞與種子方向之間得分，構(gòu)建一個高偏見分數(shù)的詞表，并從原始語料庫中匹配包含這些詞語的句子，為初步候選集合。其中得分計算如下：

正值表示該詞語更適合女性，負值表示該詞語更適合男性，性別偏見得分絕對值越高，說明該詞語的偏見程度越高。過濾得到的詞匯繪制的詞云如圖5所示，

對于句子級別過濾，計算句子的性別偏見得分，并根據(jù)獲得性別偏見關(guān)鍵詞進行分組，然后根據(jù)特定的全局閾值性別偏見得分和組內(nèi)閾值排名選擇待標注的最終句子集合。

標注規(guī)則

標注方案為標注人員對一個句子進行判斷，判斷是否存在性別偏見；如果存在，則需要給出偏見具體類型，并為了緩解性別偏見，還需要對有偏見的句子進行糾正，給出無偏見句子。為保證標注質(zhì)量，6名標注人員均具有學士學位，并且男女比例相同。

「偏見類別」共包含3種：

AC：性別刻板的活動和職業(yè)選擇；

DI：性別刻板的描述和概況；

ANB：表達性別刻板的態(tài)度、規(guī)范和信仰。

緩解性別偏見主要是在保留原始語義信息的同時，減輕所選句子的性別偏見，并要求標注者進行使句子的表達式多樣化，主要修改規(guī)則如下：

用中性代詞取代性別代詞；

用語義定義相近的中性描述替換性別特定的形容詞；

對不能直接減輕的句子，添加額外的解釋進行中和。

標注過程分為兩個階段：第一階段，各標注者進行標注，并要求不要輸入不確定樣本；第二階段，標注者之間進行交叉標注。

語料分析

CORGI-PM數(shù)據(jù)統(tǒng)計如表1所示，共包含32.9k數(shù)據(jù)，并考慮數(shù)據(jù)分布，劃分了訓練集、驗證集及測試集。

如表2所示，發(fā)現(xiàn)偏見句子相較于無偏見句子來說，句子更長，包含詞匯更少；但由于去偏句子需要在保持原意圖語義不變、句子連貫、減輕偏見，因此去偏樣本與原樣本相比表達更長、更多樣化。

偏見數(shù)據(jù)格式樣例：

{
'train':{
#原始句子
'ori_sentence':[
sent_0,
sent_1,
...,
],
#偏見類型
'bias_labels':[
[010],
[010],
[010],
...,
],
#人工去偏句子
'edit_sentence':[
edited_sent_0,
edited_sent_1,
...,
],
},
'valid':{
...#與訓練集一致
},
'test':{
...#與訓練集一致
}
}

無偏見數(shù)據(jù)格式樣例：

{
'train':{
#原始句子
'text':[
sent_0,
sent_1,
...,
],
},
'valid':{
...#與訓練集一致
},
'test':{
...#與訓練集一致
}
}

實驗結(jié)果

針對性別偏見檢測及分類任務(wù)，以Precision、Recall和F1作為評價指標，采用BERT、Electra和XLNet模型進行微調(diào)進行實驗對比，并采用GPT-3 Curie模型進行zero-shot實驗，結(jié)果如表3所示。

針對性別緩解任務(wù)，采用GPT-3 Ada(350M)、Babbage(1.3B)和Curie(6.7B)進行微調(diào), 并采用Davinci(175B)進行zero-shot實驗，結(jié)果如表4所示。

總結(jié)

中文首個性別偏見探索和緩解數(shù)據(jù)集，開源不易，且用且珍惜。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴