色久综合网,洛丽塔在线观看高清中文,亚色中文色网视频

引言

由于構(gòu)建任務(wù)型對話數(shù)據(jù)集的成本較高，目前任務(wù)型對話的研究主要集中在少數(shù)流行語言上（如英語和中文）。為了降低新語言的數(shù)據(jù)采集成本，我們通過結(jié)合純?nèi)斯しg和人工編輯機(jī)器翻譯結(jié)果的方式創(chuàng)建了一個新的多語言基準(zhǔn)——X-RiSAWOZ，該數(shù)據(jù)集將中文RiSAWOZ翻譯成4種語言：英語、法語、印地語、韓語，以及1種語碼混合場景（印地語-英語混合）。X-RiSAWOZ中每種語言都有超過18,000個經(jīng)過人類驗(yàn)證的對話語句，與之前大多數(shù)多語言工作不同的是，它是一個端到端的數(shù)據(jù)集，可用于建立功能齊全的對話代理。除數(shù)據(jù)集外，我們還構(gòu)建了標(biāo)注和處理工具，使得向現(xiàn)有數(shù)據(jù)集中添加新語言變得更快、更經(jīng)濟(jì)。

數(shù)據(jù)集介紹

任務(wù)定義：端到端任務(wù)型對話通常被分解為若干子任務(wù)，這些任務(wù)可以由流水線系統(tǒng)或單個神經(jīng)網(wǎng)絡(luò)執(zhí)行。下圖展示了這些子任務(wù)及其輸入和輸出：

圖1：端到端任務(wù)型對話流程

數(shù)據(jù)來源：我們翻譯了RiSAWOZ數(shù)據(jù)集的驗(yàn)證集與測試集，同時為了促進(jìn)少樣本對話系統(tǒng)的研究，我們還隨機(jī)選取了1%的訓(xùn)練集進(jìn)行翻譯，統(tǒng)計(jì)數(shù)據(jù)如下表所示：

圖2：X-RiSAWOZ數(shù)據(jù)集統(tǒng)計(jì)

數(shù)據(jù)集構(gòu)建方案：為了實(shí)現(xiàn)低成本和高質(zhì)量的多語言端到端任務(wù)型對話數(shù)據(jù)構(gòu)建，我們使用以下幾種技術(shù)從源語言數(shù)據(jù)（中文RiSAWOZ數(shù)據(jù)集）創(chuàng)建目標(biāo)語言的訓(xùn)練數(shù)據(jù)：

1. 翻譯：為了在質(zhì)量和成本之間取得平衡，我們使用純?nèi)斯しg從中文翻譯成英文，并使用機(jī)器翻譯和后期編輯將英語數(shù)據(jù)翻譯成其他語言，以盡可能避免兩次翻譯過程中可能的錯誤傳播。

2. 對齊：我們提出了一種混合對齊策略，以確保實(shí)體在話語和信念狀態(tài)中都能被替換為所需的翻譯。具體而言，我們首先嘗試使用基于實(shí)體標(biāo)注構(gòu)建的字典對齊，如果輸出中沒有匹配的翻譯，則退回到神經(jīng)對齊（即使用encoder-decoder cross-attention權(quán)重匹配源語言和目標(biāo)語言中相對應(yīng)的實(shí)體）。

3. 自動標(biāo)注檢查：我們開發(fā)了一個標(biāo)注檢查器來自動標(biāo)記和糾正可能存在的錯誤，包括1）實(shí)體檢查階段——確保在實(shí)體的英語翻譯中所做的更改傳播到其他目標(biāo)語言的翻譯，以及2）API檢查階段——通過將翻譯后API調(diào)用的結(jié)果與提供的真實(shí)值進(jìn)行比較來檢查API的一致性。

數(shù)據(jù)構(gòu)建與檢查的流程如下圖所示：

圖3：數(shù)據(jù)集構(gòu)建流程（以漢語到英語為例）

圖4：數(shù)據(jù)集檢查流程（以漢語到法語為例）

實(shí)驗(yàn)結(jié)果

我們使用了mBART和m2m100 (for Korean only) 進(jìn)行實(shí)驗(yàn)。對于零樣本實(shí)驗(yàn)，我們不使用任何人工創(chuàng)建的目標(biāo)語言數(shù)據(jù)，只使用基于機(jī)器翻譯自動創(chuàng)建訓(xùn)練數(shù)據(jù)。對于少樣本實(shí)驗(yàn)，我們從零樣本模型開始，并在目標(biāo)語言的少樣本數(shù)據(jù)集上進(jìn)一步對其進(jìn)行微調(diào)。實(shí)驗(yàn)的評估方式有兩種：Turn by Turn Evaluation和Full Conversation Evaluation。

Turn by Turn Evaluation：在這種設(shè)定下，我們在評估中使用所有先前輪次和子任務(wù)的ground truth數(shù)據(jù)作為輸入。結(jié)果表明，在零樣本設(shè)置中，性能因添加的語言而異，各個語言在對話狀態(tài)追蹤 (DST)達(dá)到了34.6％-84.2％的準(zhǔn)確率，在對話動作生成 (DA)上達(dá)到了42.8％-67.3％的準(zhǔn)確率，而在回復(fù)生成 (RG)上達(dá)到10.2-29.9的BLEU值，這意味著零樣本任務(wù)型對話在低資源語言場景下仍然是極具挑戰(zhàn)的任務(wù)。在少樣本數(shù)據(jù)上進(jìn)行微調(diào)可以改善所有語言的所有指標(biāo)，其中DST提高到60.7％-84.6％，DA提高到38.0％-70.5％，而BLEU則提高到了28.5-46.4。從下圖的數(shù)據(jù)中可以看到，在印地語、韓語和英語-印地語中，DST的改進(jìn)尤其明顯，因?yàn)樵谶@些語言中，機(jī)器翻譯的質(zhì)量可能不太好。盡管如此，將自動翻譯的數(shù)據(jù)添加到訓(xùn)練中也能夠大大提高這些語言上任務(wù)型對話系統(tǒng)的準(zhǔn)確性，超過了僅用少量人工構(gòu)建數(shù)據(jù)訓(xùn)練的效果。

圖5：零樣本Turn by Turn Evaluation的結(jié)果

圖6：少樣本Turn by Turn Evaluation的結(jié)果

Full Conversation Evaluation：在這種設(shè)定下，對于每個輪次，模型從上一個子任務(wù)的輸出中獲取輸入，用于下一個子任務(wù)。這反映了與用戶進(jìn)行交互式對話時的實(shí)際情況。結(jié)果顯示，在零樣本設(shè)置中，性能同樣因語言而異，其中英語、法語、印地語、韓語和英語-印地語的對話成功率分別達(dá)到了使用完整數(shù)據(jù)訓(xùn)練的中文對話模型的35％、16％、9％、11％和4％。在少-shot設(shè)置中，這個比率提高到了38％、26％、25％、23％和5％?？梢钥吹?，最小和最大的改進(jìn)分別在英語和印地語數(shù)據(jù)集上。這表明，當(dāng)預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量較低時，少樣本數(shù)據(jù)的影響更大，這可能與中文和目標(biāo)語言之間的翻譯模型的質(zhì)量有關(guān)。

圖7：零樣本full conversation evaluation的結(jié)果

圖8：少樣本full conversation evaluation的結(jié)果

結(jié)語

我們構(gòu)建了X-RiSAWOZ，這是一個新的端到端、高質(zhì)量、大規(guī)模的多領(lǐng)域多語種對話數(shù)據(jù)集，其涵蓋了5種不同的語言和1種語碼混合場景，以及一個工具包，以便將數(shù)據(jù)翻譯成其他語言。我們還為跨語言遷移的零/少樣本對話系統(tǒng)提供了強(qiáng)大的基線系統(tǒng)?？傮w而言，我們的工作為更高效、更具成本效益的多語言任務(wù)型對話系統(tǒng)的開發(fā)鋪平了道路。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4717

瀏覽量
100010
機(jī)器翻譯

機(jī)器翻譯

+關(guān)注

關(guān)注
0

文章
139

瀏覽量
14837
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1197

瀏覽量
24538