亚洲熟妇男女啪啪视频,亚洲a∨国产av综合av毛片

這是一篇關(guān)于風(fēng)格遷移中如何進(jìn)行數(shù)據(jù)增強(qiáng)的論文。在introduction部分，informal-->formal 的風(fēng)格遷移問題，最大的障礙是訓(xùn)練數(shù)據(jù)的不足。為了解決此問題，本篇論文提出三種數(shù)據(jù)增強(qiáng)的方法來獲得有用的語句對，分別為

back translation (BT)

我們使用原始語料庫訓(xùn)練一個seq2seq模型。其中將formal語句作為模型的輸入，讓seq2seq模型有能力輸出對應(yīng)的informal句子。則模型輸入的formal語句和輸出的informal語句就構(gòu)成了一個新的語句對。

formality discrimination (F-Dis)

F-Dis方法使用機(jī)器翻譯模型，將一個informal句子重寫為formal句子。首先使用Google翻譯API 將這些informal語句翻譯成其他語種（比如法語），然后又翻譯回英語。如下圖所示:

其中，informal語句可以從網(wǎng)上論壇上收集得到。

表示收集到的第i條句子(informal)，是最后翻譯回的句子(formal), 二者構(gòu)成了一個新的語句對。

本方法同時使用CNN構(gòu)建了一個“格式判別器”：用來給一個句子的“正規(guī)”程度打分。就是上圖中右邊括號內(nèi)的小數(shù)。最終選出的新數(shù)據(jù)集要求如下：

其中表示句子的“正規(guī)”程度，是閾值

multi-task transfer (M-Task)

我們觀察到，formal語句通常語法正確，而informal語句的語法經(jīng)常出錯。

前人研究表明，對FST的輸出再使用一個語法錯誤糾正模型（ grammatical error correction model，GEC）可以提高模型效果。受此啟發(fā)，本論文直接使用GEC的訓(xùn)練數(shù)據(jù)作為增強(qiáng)的新數(shù)據(jù)集。如下圖

模型訓(xùn)練

上面提到的seq2seq模型為Transformer (base)。

本論文首先使用增強(qiáng)的新數(shù)據(jù)用于預(yù)訓(xùn)練，然后使用原始語料數(shù)據(jù)做微調(diào)，將這稱為pre-training & finetuning (PT&FT)方法。下面結(jié)果證明了PT&FT的效果優(yōu)于ST方法。ST是把增強(qiáng)數(shù)據(jù)和原數(shù)據(jù)一起訓(xùn)練。

下圖展現(xiàn)了三種數(shù)據(jù)增強(qiáng)方法的效果：

下圖展現(xiàn)了我們的方法與前人模型的比較結(jié)果：

責(zé)任編輯：xj

原文標(biāo)題：【ACL2020】關(guān)于正式風(fēng)格遷移的數(shù)據(jù)增強(qiáng)方法

文章出處：【微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
6819

瀏覽量
88746
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8353

瀏覽量
132315
自然語言處理

自然語言處理

+關(guān)注

關(guān)注
1

文章
600

瀏覽量
13484