yy6080午夜福利无码理论,国产精品欧美丁香五月天

研究動(dòng)機(jī)

在本文中，我們研究了一種能夠高效推理的機(jī)器翻譯模型NAT (Non-Autoregressive Transformer)[1]。相較于傳統(tǒng)的Transformer，NAT能夠在解碼階段并行預(yù)測(cè)，從而大幅提升模型的推理速度。此外，NAT可以使得模型在訓(xùn)練和測(cè)試階段從相同的分布進(jìn)行預(yù)測(cè)，從而有效避免了順序解碼模型中經(jīng)常出現(xiàn)的exposure bias問題。在WMT21 news translation shared task for German→English translation中，已經(jīng)有NAT模型在翻譯質(zhì)量上超過了許多順序解碼的模型。

盡管NAT在擁有許多潛在的優(yōu)勢(shì)，目前的工作中這類模型仍然在很大程度上依賴于句子級(jí)別的知識(shí)蒸餾（sequence-level knowledge distillation, KD）[2]。由于需要并行預(yù)測(cè)所有token，NAT對(duì)單詞間依賴關(guān)系的建模能力較弱。這個(gè)特點(diǎn)使得在真實(shí)數(shù)據(jù)集上，NAT很容易受到multi-modality問題的影響：訓(xùn)練數(shù)據(jù)中一個(gè)輸入可能對(duì)應(yīng)多個(gè)不同的輸出。在這樣的背景下，Gu提出訓(xùn)練一個(gè)AT (Autoregressive Transformer)[3]模型作為老師，將它的輸出作為NAT的學(xué)習(xí)對(duì)象。這種KD方式可以幫助NAT繞過multi-modality問題，從而大幅提升NAT的翻譯表現(xiàn)。

圖1：Selective KD的流程示意圖

KD在幫助NAT提升表現(xiàn)的同時(shí)，也會(huì)帶來一些負(fù)面影響，例如模型在低頻詞上的準(zhǔn)確率較低[4]、AT te acher的錯(cuò)誤會(huì)傳播到NAT上等。此外，如果NAT僅能在AT teacher的輸出上學(xué)習(xí)，這類模型的翻譯質(zhì)量將很難有更進(jìn)一步的突破。我們的研究希望能夠在避免multi-modality的情況下，讓NAT能夠從真實(shí)的數(shù)據(jù)分布中學(xué)到知識(shí)蒸餾的過程中缺失的信息，從而提升NAT的表現(xiàn)。

為達(dá)到這樣的目的，我們提出了selective KD：在KD數(shù)據(jù)上訓(xùn)練一個(gè)NAT作為評(píng)估模型，并通過它來選擇需要蒸餾的句子。通過這種方式，我們可以讓模型接觸到翻譯質(zhì)量更高的真實(shí)數(shù)據(jù)，同時(shí)避免了嚴(yán)重的multi-modality情況。受課程學(xué)習(xí)的影響，我們也在訓(xùn)練過程中動(dòng)態(tài)調(diào)整蒸餾數(shù)據(jù)的比例?！坝迷u(píng)估模型有選擇地蒸餾數(shù)據(jù)”和“動(dòng)態(tài)調(diào)節(jié)蒸餾數(shù)據(jù)的比例”共同構(gòu)成了我們的Selective KD訓(xùn)練框架。

解決方案

2.1評(píng)估模型

我們首先將數(shù)據(jù)蒸餾產(chǎn)生的結(jié)果劃分為四種不同的情況：

較輕的modality change：某些單詞可能被替換為同義詞，句式和語義并沒有發(fā)生顯著的變化

較輕的錯(cuò)誤：在保持原有句式和語義的情況下，發(fā)生了一些小錯(cuò)誤，例如單詞重復(fù)

嚴(yán)重的modality change：語義不變的情況下，句子的表達(dá)方式發(fā)生了顯著的變化

嚴(yán)重的錯(cuò)誤：翻譯的質(zhì)量很糟糕

對(duì)于情況1，我們可以容忍較輕的modality change，這種情況下真實(shí)數(shù)據(jù)和蒸餾數(shù)據(jù)都可以被視作正確的學(xué)習(xí)目標(biāo)，同時(shí)引入真實(shí)數(shù)據(jù)不會(huì)大幅增加數(shù)據(jù)集的復(fù)雜程度。情況2中，用真實(shí)數(shù)據(jù)替換蒸餾數(shù)據(jù)可以得到更高的翻譯質(zhì)量，找出屬于這種情況的樣本是我們方法的主要目標(biāo)。情況3中，由于引入真實(shí)數(shù)據(jù)會(huì)惡化multi-modality問題，我們希望蒸餾這部分?jǐn)?shù)據(jù)。情況4很少發(fā)生，我們認(rèn)為這種情況下該訓(xùn)練樣本對(duì)NAT可能太過困難，引入真實(shí)數(shù)據(jù)帶來的提升很有限?？偟膩碚f，我們希望能找到情況1、2對(duì)應(yīng)的訓(xùn)練樣本，在訓(xùn)練過程中將它們的原始數(shù)據(jù)作為學(xué)習(xí)對(duì)象。

圖2：4種不同的情況對(duì)應(yīng)的案例

為了篩選情況1、2中的數(shù)據(jù)，我們?cè)谡麴s數(shù)據(jù)上訓(xùn)練一個(gè)NAT作為評(píng)估模型，通過比較評(píng)估模型的輸出和真實(shí)數(shù)據(jù)計(jì)算一個(gè)score，判斷一個(gè)真實(shí)翻譯是否適合被直接用于訓(xùn)練。若對(duì)于某個(gè)樣本評(píng)估模型的輸出和真實(shí)數(shù)據(jù)較為接近，則score較高，我們可以認(rèn)為蒸餾數(shù)據(jù)僅有微小的錯(cuò)誤或modality change，從而認(rèn)為它屬于情況1、2，無需蒸餾。反之，可以認(rèn)為蒸餾數(shù)據(jù)發(fā)生了較大的變化，因此屬于情況3、4，或是這個(gè)樣本在蒸餾后不發(fā)生太大變化的情況下對(duì)NAT而言仍過于困難。經(jīng)過篩選，我們僅蒸餾那些不適合用于訓(xùn)練的真實(shí)數(shù)據(jù)。

2.2動(dòng)態(tài)調(diào)整蒸餾比例：由困難到容易

我們?cè)谟?xùn)練過程中會(huì)調(diào)整蒸餾數(shù)據(jù)的比例。一般來說，剛開始訓(xùn)練時(shí)絕大多數(shù)訓(xùn)練樣本為真實(shí)數(shù)據(jù)，訓(xùn)練的尾聲則會(huì)蒸餾整個(gè)訓(xùn)練集。具體實(shí)現(xiàn)中，我們通過動(dòng)態(tài)調(diào)節(jié)score的閾值來調(diào)整蒸餾的比例。

圖3：selective KD在第k次update的算法示意

實(shí)驗(yàn)

我們?cè)赪MT14 EN-DE和WMT16 EN-RO上開展了實(shí)驗(yàn)，包括了兩種代表性的NAT架構(gòu)：CMLM [5]和GLAT+CTC [6]，以及一種inference-efficient的AT架構(gòu)：DeepShallow [7]（6層編碼器，1層解碼器）。

3.1翻譯質(zhì)量與推理速度

我們通過BLEU score [8]和一種learned metric COMET [9]來衡量模型的翻譯質(zhì)量，并通過和標(biāo)準(zhǔn)Transformer比較來衡量推理速度。可以發(fā)現(xiàn)，相比于常規(guī)的知識(shí)蒸餾，Selective KD可以在不同數(shù)據(jù)集、不同架構(gòu)以及不同metric上穩(wěn)定取得翻譯質(zhì)量的提升，同時(shí)保持模型自身在推理速度上的優(yōu)勢(shì)。我們方法在inference-efficient AT上也有明顯的效果，這進(jìn)一步說明了selective KD具有廣泛的價(jià)值。

圖4：翻譯質(zhì)量與推理速度。翻譯質(zhì)量括號(hào)外為BLEU，括號(hào)內(nèi)為COMET

3.2調(diào)節(jié)quality和complexity

真實(shí)數(shù)據(jù)的翻譯質(zhì)量往往是優(yōu)于蒸餾數(shù)據(jù)的，通過調(diào)節(jié)蒸餾數(shù)據(jù)的比例，Selective KD可以調(diào)節(jié)訓(xùn)練集的quality。與此同時(shí)，我們希望知道這個(gè)方法是否可以靈活調(diào)節(jié)訓(xùn)練集的complexity。為了更好地觀察這一點(diǎn)，文章中用了兩個(gè)metric來衡量數(shù)據(jù)的復(fù)雜程度：Translatioin Uncertainty [10]和Alignment Shift。Translation Uncertainty反映了源句單詞對(duì)應(yīng)翻譯結(jié)果的多樣性，Alignment Shift反映了句式的變化程度。

圖5：Translation Uncertainty（左）和Alignment Shift（右）的計(jì)算方式

如圖6所示，我們的方法可以有效控制數(shù)據(jù)的complexity。我們保留的真實(shí)數(shù)據(jù)（綠色折線）在兩個(gè)指標(biāo)上都遠(yuǎn)遠(yuǎn)低于被蒸餾的真實(shí)數(shù)據(jù)（紅色折線）。在增加真實(shí)數(shù)據(jù)的比例同時(shí)，整個(gè)數(shù)據(jù)集complexity的提升是緩慢而平滑的。

圖6：數(shù)據(jù)的Translation Uncertainty（左）和Alignment Shift（右）

3.3蒸餾數(shù)據(jù)占比的影響

如圖7所示，我們?cè)诓煌麴s比例的數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn)。可以發(fā)現(xiàn)，通過selective KD僅蒸餾5%的數(shù)據(jù)就可以提升2.4 BLEU。在蒸餾數(shù)據(jù)比例為80%時(shí)，模型的表現(xiàn)甚至超過了完全蒸餾的數(shù)據(jù)，根據(jù)[10]，一種可能的解釋是這種比例下數(shù)據(jù)的complexity更適合我們實(shí)驗(yàn)中采用的GLAT+CTC架構(gòu)。另外，動(dòng)態(tài)調(diào)節(jié)真實(shí)數(shù)據(jù)的比例（藍(lán)色虛線）可以進(jìn)一步提升模型的表現(xiàn)。

圖7：在不同蒸餾比例下模型的表現(xiàn)

總結(jié)

在這篇文章中，我們提出了選擇性知識(shí)蒸餾，從而使得NAT模型可以從真實(shí)的數(shù)據(jù)分布中學(xué)到知識(shí)蒸餾過程中缺失的部分信息。具體來說，我們采用一個(gè)NAT作為評(píng)估模型來判斷哪些句子需要蒸餾，并動(dòng)態(tài)提高蒸餾數(shù)據(jù)的比例。我們用實(shí)驗(yàn)結(jié)果證明了該方法可以有效提升NAT在機(jī)器翻譯任務(wù)上的表現(xiàn)。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

NAT

NAT

+關(guān)注

關(guān)注
0

文章
141

瀏覽量
16203
機(jī)器翻譯

機(jī)器翻譯

+關(guān)注

關(guān)注
0

文章
139

瀏覽量
14862
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1200

瀏覽量
24621

原文標(biāo)題：AAAI'23 | 用于NAT的選擇性知識(shí)蒸餾框架

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

基于介電電泳的選擇性液滴萃取微流體裝置用于單細(xì)胞分析

我們開發(fā)了一種微流體裝置，可以基于介電電泳從多個(gè)液滴捕獲袋中選擇性提取液滴。該裝置由一個(gè)主微通道、五個(gè)帶側(cè)通道的液滴捕獲袋和適當(dāng)位于捕獲袋周圍的驅(qū)動(dòng)電極對(duì)組成。由于主通道和側(cè)通道之間的流動(dòng)阻力

發(fā)表于 11-11 14:10 ?44次閱讀

Nat server技術(shù)原理和配置過程

Nat server：指定公有地址:端口和私有地址:端口形成一對(duì)一映射關(guān)系——映射表。這也是Nat server與其他nat的區(qū)別之一，Nat server可以指定端口進(jìn)行映射。

發(fā)表于 10-10 14:38 ?461次閱讀

<b class='flag-5'>Nat</b> server技術(shù)原理和配置過程

過電流保護(hù)的選擇性是靠什么來實(shí)現(xiàn)的

過電流保護(hù)的選擇性是指在電力系統(tǒng)中，當(dāng)發(fā)生短路或過載時(shí)，保護(hù)裝置能夠按照預(yù)定的順序和時(shí)間，優(yōu)先切斷故障部分，而不影響其他正常運(yùn)行的部分。選擇性是電力系統(tǒng)保護(hù)設(shè)計(jì)的重要原則之一，它能夠確保系統(tǒng)的穩(wěn)定性

發(fā)表于 09-26 14:38 ?291次閱讀

選擇性喚醒如何實(shí)現(xiàn)局部聯(lián)網(wǎng)

電子發(fā)燒友網(wǎng)站提供《選擇性喚醒如何實(shí)現(xiàn)局部聯(lián)網(wǎng).pdf》資料免費(fèi)下載

發(fā)表于 09-12 10:29 ?0次下載

<b class='flag-5'>選擇性</b>喚醒如何實(shí)現(xiàn)局部聯(lián)網(wǎng)

NAT技術(shù)及其應(yīng)用

網(wǎng)絡(luò)地址轉(zhuǎn)換（NAT，Network Address Translation）是一種廣泛應(yīng)用于現(xiàn)代網(wǎng)絡(luò)中的技術(shù)，旨在解決IP地址短缺問題，同時(shí)增強(qiáng)網(wǎng)絡(luò)的安全性和靈活性。本文將詳細(xì)解釋NAT技術(shù)

發(fā)表于 07-09 16:43 ?493次閱讀

<b class='flag-5'>NAT</b>技術(shù)及其應(yīng)用

交流二元繼電器如何具有相位選擇性和頻率選擇性

在這篇文章中，我們將詳細(xì)探討交流二元繼電器的相位選擇性和頻率選擇性。我們將從繼電器的基本原理開始，然后探討這兩種選擇性的原理和實(shí)現(xiàn)方法。 1. 繼電器的基本原理繼電器是一種電子開關(guān)，它可以根據(jù)輸入

發(fā)表于 06-29 09:42 ?686次閱讀

在smt貼片加工廠中選擇性波峰焊存在的作用和意義

加工廠作為電子產(chǎn)品制造的核心環(huán)節(jié)，其生產(chǎn)效率和產(chǎn)品質(zhì)量成為了所有廠商們追求的目標(biāo)。而選擇性波峰焊正是一項(xiàng)重要的技術(shù)，廣泛應(yīng)用于SMT貼片加工廠中。本文將深入探討選擇性波峰焊在SMT貼片加工廠中的作用，以及它帶來的諸多益處。 ?

發(fā)表于 06-06 09:35 ?428次閱讀

阿里達(dá)摩院提出“知識(shí)鏈”框架，降低大模型幻覺

近日，阿里巴巴達(dá)摩院（湖畔實(shí)驗(yàn)室）攜手新加坡南洋理工大學(xué)等研究機(jī)構(gòu)，共同推出了大模型知識(shí)鏈（CoK）框架。該框架不僅可實(shí)時(shí)檢索異構(gòu)知識(shí)源，還能逐步糾正推理錯(cuò)誤，有效提高了大模型在回答

發(fā)表于 05-10 11:46 ?642次閱讀

SMT加工廠用選擇性波峰焊有什么優(yōu)點(diǎn)嗎？

我們知道SMT貼片廠都能做后焊插件，后焊插件的話一般會(huì)用到波峰焊，近年來SMT加工廠用選擇性波峰焊的也越來越多了，選擇性波峰焊有什么優(yōu)點(diǎn)嗎？

發(fā)表于 03-21 11:04 ?498次閱讀

鍺化硅（SiGe）和硅（Si）之間的各向同性和選擇性蝕刻機(jī)制

Si選擇性刻蝕。為了提高晶體管性能，基于SiGe中的傳導(dǎo)溝道的技術(shù)目前已經(jīng)在開發(fā)中。這種蝕刻是基于四氟化碳/N2/O2的氣體混合物中的過程，其特征具有選擇性，即Si隧道深度與SiGe層消耗之間的比值（圖1）。圖1：樣品用于研

發(fā)表于 02-21 16:53 ?1724次閱讀

鍺化硅（SiGe）和硅（Si）之間的各向同性和<b class='flag-5'>選擇性</b>蝕刻機(jī)制

什么是NAT？NAT類型有哪些？NAT是如何工作的？NAT解決了什么問題？

什么是NAT？NAT類型有哪些？NAT是如何工作的？NAT解決了什么問題？如何使用NAT？ NAT

發(fā)表于 02-04 11:03 ?3962次閱讀

淺談NAT網(wǎng)關(guān)

NAT網(wǎng)關(guān)應(yīng)用

發(fā)表于 02-02 16:26 ?500次閱讀

電子制造業(yè)中的選擇性波峰焊有哪些優(yōu)缺點(diǎn)？

選擇性波峰焊是一種廣泛應(yīng)用于電子制造業(yè)的焊接技術(shù)，它具有許多獨(dú)特的優(yōu)點(diǎn)和一些不足之處。本文將詳細(xì)介紹選擇性波峰焊的優(yōu)缺點(diǎn)，幫助讀者全面了解該技術(shù)的特點(diǎn)及適用范圍。 選擇性波峰焊的優(yōu)點(diǎn)之

發(fā)表于 01-15 10:41 ?795次閱讀

韓國(guó)科學(xué)技術(shù)院開發(fā)Micro LED選擇性轉(zhuǎn)移印刷技術(shù)

12月19日消息，近日韓國(guó)科學(xué)技術(shù)院（KAIST）Keon Jae Lee教授領(lǐng)導(dǎo)的研究團(tuán)隊(duì)在《自然》（Nature）雜志上發(fā)表了一篇題為“應(yīng)用微真空力技術(shù)進(jìn)行通用選擇性轉(zhuǎn)移印刷”的文章，研究團(tuán)隊(duì)展示了通過選擇性調(diào)節(jié)微真空力方法，實(shí)現(xiàn)巨量轉(zhuǎn)移微型無機(jī)半導(dǎo)體芯片。

發(fā)表于 12-26 13:31 ?615次閱讀

NAT網(wǎng)關(guān)是什么？NAT網(wǎng)關(guān)的作用

NAT網(wǎng)關(guān)(Network Address Translation Gateway)是一種網(wǎng)絡(luò)設(shè)備，它能夠?qū)?nèi)部網(wǎng)絡(luò)的私有IP地址轉(zhuǎn)換為合法的公網(wǎng)IP地址，使得內(nèi)部網(wǎng)絡(luò)的主機(jī)可以通過NAT網(wǎng)關(guān)訪問外部網(wǎng)絡(luò)。

發(fā)表于 12-25 16:00 ?1152次閱讀

搜索歷史

用于NAT的選擇性知識(shí)蒸餾框架