日本熟妇色XXXXX日本免费看,国产成人高清一区二区私人

引言

Transformer是近年來非常流行的處理序列到序列問題的架構(gòu)，其self-attention機(jī)制允許了長距離的詞直接聯(lián)系，可以使模型更容易學(xué)習(xí)序列的長距離依賴。由于其優(yōu)良的可并行性以及可觀的表現(xiàn)提升，讓它在NLP領(lǐng)域中大受歡迎，BERT和GPT系列均基于Transformer實(shí)現(xiàn)。鑒于Transformer在NLP問題上的優(yōu)異表現(xiàn)，也有越來越多人將其引入到了CV領(lǐng)域。

和RNN、CNN等模型不同，對于Transformer來說，位置編碼的加入是必要的，因?yàn)閱渭兊膕elf-attention機(jī)制無法捕捉輸入的順序，即無法區(qū)分不同位置的詞。為此我們大體有兩個(gè)方式：（1）將位置信息融入到輸入中，這構(gòu)成了絕對位置編碼的一般做法；（2）將位置信息融入self-attention結(jié)構(gòu)中，這構(gòu)成了相對位置編碼的一般做法。

本次Fudan DISC實(shí)驗(yàn)室將分享ICLR 2021中關(guān)于Transformer和其位置編碼的3篇論文，介紹研究人員從不同角度和場景下對Transformer和其位置編碼的研究。

文章概覽

重新思考語言預(yù)訓(xùn)練中的位置編碼

Rethinking the Positional Encoding in Language Pre-training

論文地址： https://openreview.net/forum？id=09-528y2Fgf

本文針對BERT提出了一種新的位置編碼方法—Transformer with Untied Positional Encoding（TUPE），它通過兩種方法改進(jìn)了現(xiàn)有的方法，即解開單詞和位置之間的相關(guān)性，以及解開序列位置上的［CLS］。大量實(shí)驗(yàn)表明，TUPE具有較好的性能。

DEBERTA：帶有解耦注意力的解碼增強(qiáng)BERT

DeBERTa： Decoding-enhanced BERT with Disentangled Attention

論文地址： https://openreview.net/forum？id=XPZIaotutsD

本文提出了兩種改進(jìn)BERT預(yù)訓(xùn)練的方法：第一種方法是分散注意機(jī)制，該機(jī)制使用兩個(gè)向量分別對每個(gè)單詞的內(nèi)容和位置進(jìn)行編碼來表示每個(gè)單詞，并使用分散矩陣計(jì)算單詞之間在內(nèi)容和相對位置上的注意力權(quán)重；第二個(gè)方法是一個(gè)增強(qiáng)的掩碼解碼器，它取代了輸出的Softmax層來預(yù)測用于MLM預(yù)訓(xùn)練的掩碼令牌。使用這兩種技術(shù)，新的預(yù)訓(xùn)練語言模型DeBERTa在許多下游NLP任務(wù)上表現(xiàn)都優(yōu)于RoBERTa和BERT。

把圖片當(dāng)作16乘16的詞：用于大規(guī)模圖像識別的Transformer

An Image Is Worth 16X16 Words： Transformers for Image Recognition at Scale

論文地址： https://openreview.net/forum？id=YicbFdNTTy

本文提出在視覺任務(wù)中的Transformer—Vision Transformer（ViT）。圖像對卷積神經(jīng)網(wǎng)絡(luò)的依賴不是必要的，并且將純transformer直接應(yīng)用于圖像patch序列可以很好地執(zhí)行圖像分類任務(wù)。本文的實(shí)驗(yàn)表明，當(dāng)對大量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練并將其傳輸?shù)街械却笮』蜉^小的圖像識別基準(zhǔn)時(shí)，與最先進(jìn)的卷積網(wǎng)絡(luò)相比，ViT可獲得出色的結(jié)果，同時(shí)訓(xùn)練所需的計(jì)算資源也大大減少。

論文細(xì)節(jié)

動機(jī)

因?yàn)?Transformer 在結(jié)構(gòu)上不能識別來自不同位置的 token，一般需要用 positional embedding 來輔助。最簡單的做法就是在 input token embedding 上直接加 positional embedding （NSP loss現(xiàn)在基本不用，所以這里不再考慮 segment embedding）。然后在 Transformer 的 self-attention 里，會把 input 用三個(gè)矩陣映射到不同的空間，Q，K，V，接著把 Q 和 K 做點(diǎn)積，過 softmax ，得到 attention 的 weight 。因此，在第一層 Transformer 的 QK 點(diǎn)積，我們可以得到：

其中是self attention matrix在進(jìn)行softmax之前第i行第j列的元素，代表第i個(gè)token對第j個(gè)token的注意力大小，是 token embedding，是position embedding，、是映射Q和K所用的矩陣。作者認(rèn)為代表token和position的交叉的中間兩項(xiàng)沒有給self attention做出貢獻(xiàn)，為了驗(yàn)證該想法，作者對展開后的四項(xiàng)進(jìn)行了可視化，如Figure 2所示，可以看到中間兩項(xiàng)看起來很均勻，說明position 和 token 之間確實(shí)沒有太強(qiáng)的關(guān)聯(lián)。

同時(shí)，作者認(rèn)為 token 和 position 用了相同的矩陣做 QKV 的變換。但 position 和 token 所包含的信息不一樣，共享矩陣也不合理。

方法

為了解決上述問題，作者將self attention做了如下改動：

其中，、是把 positional embedding 映射到 Q 和 K 所用的矩陣，分母中的根號 2d 是為了保持量綱。簡單來說，作者去掉了 position 和 token 之間的交叉，同時(shí)用了不同的變換矩陣。需要注意的是，在多層的 Transformer 模型里，比如BERT，上面式子的第二項(xiàng)在不同層之間是共享的。因此，這里僅需要算一次，幾乎沒有引入額外的計(jì)算代價(jià)。

作者還提出，在上述的公式中，可以再添加一個(gè)與相對位置相關(guān)的偏置項(xiàng)，即

作者在文中使用了T5文章中提出的相對位置編碼。

另外，作者還特殊處理了［CLS］ token 的 position，使其不會因 positional locality 而忽略了整個(gè)句子的信息。具體來說，在的第二項(xiàng)，即與位置相關(guān)的注意力計(jì)算中，作者將［CLS］對其他token的注意力以及其他token對［CLS］的注意力額外引入了兩個(gè)參數(shù)，這兩個(gè)參數(shù)與位置信息無關(guān)，是一個(gè)可學(xué)習(xí)的標(biāo)量，這樣就完成了和［CLS］相關(guān)注意力的計(jì)算。

模型整體的架構(gòu)如下

實(shí)驗(yàn)

作者首先使用TUPE模型以類似BERT的方式進(jìn)行預(yù)訓(xùn)練，然后在GLUE數(shù)據(jù)集下進(jìn)行微調(diào)。其中-A代表僅使用了絕對位置編碼，-R代表在絕對位置編碼的基礎(chǔ)上增加了相對位置編碼（即偏置項(xiàng)）。mid表示訓(xùn)練了300k步的中間結(jié)果，tie-cls代表移除對［CLS］的特殊處理，d代表為詞和位置使用不同的投影矩陣。

結(jié)果表明，添加相對位置信息對下游任務(wù)效果有一定提升；TUPE模型的效果持續(xù)優(yōu)于BERT模型的效果；TUPE僅訓(xùn)練300k-step（30%）的結(jié)果已經(jīng)可以和BERT等模型的效果相比較；對［CLS］ token的特殊處理和使用不同的投影矩陣均可以增加模型性能。

分析

作者最后對TUPE和BERT的預(yù)訓(xùn)練過程進(jìn)行了分析，結(jié)果表明，TUPE不僅最后比 baseline 要好，并且可以在 30% （300k-step）的時(shí)候，就達(dá)到 baseline 在 1000k-step 時(shí)的效果。

最后作者還對TUPE學(xué)習(xí)到的多個(gè)head得到的注意力矩陣進(jìn)行了可視化，作者發(fā)現(xiàn)，不同的head捕捉到了不同的注意力模式，作者還對下圖中的幾種進(jìn)行了命名，如 attending globally; attending locally; attending broadly; attending to the previous positions; attending to the next positions 等。

動機(jī)

和上一篇文章類似，文章也是對self attention的結(jié)構(gòu)進(jìn)行了重構(gòu)，與上篇文章不同的是，文章直接從相對位置出發(fā)，認(rèn)為在一個(gè)序列中的第i個(gè)token可以用兩個(gè)向量對其進(jìn)行表示，分別是和，分別代表了該token的內(nèi)容信息和相對第j個(gè)token的相對位置信息。那么第i個(gè)token和第j個(gè)token的注意力計(jì)算可以拆解為如下公式：

那么注意力可以解耦成四個(gè)部分，分別是內(nèi)容和內(nèi)容、內(nèi)容和位置、位置和內(nèi)容、位置與位置。作者認(rèn)為第四項(xiàng)相對位置和相對位置的交叉無法給注意力提供有效信息，可以舍棄，因此作者提出了解耦注意力機(jī)制。

同時(shí)，作者認(rèn)為現(xiàn)有的預(yù)訓(xùn)練、微調(diào)模式存在一些GAP，首先它們的任務(wù)不同，預(yù)訓(xùn)練階段是直接預(yù)測被MASK掉的token，微調(diào)階段是拿句子表示再添加額外的網(wǎng)絡(luò)層去完成下游任務(wù)，為了彌補(bǔ)這種GAP，作者提出了解碼增強(qiáng)的BERT。

方法

為了解決上述問題，作者將self attention做了如下改動：

在解耦注意力中，作者拋棄了位置與位置部分，并且認(rèn)為內(nèi)容和位置的投影矩陣是異質(zhì)的，因此引入了新參數(shù) 和，其中 P是跨所有層共享的相對位置嵌入向量。其中函數(shù)的定義如下：

該函數(shù)定義了token之間的相對距離，計(jì)算token之間的注意力機(jī)制的時(shí)候，將通過該公式計(jì)算token和token之間的相對距離矩陣，則相對位置向量則可以通過事先定義的embedding層取出。作者還提出了一種計(jì)算解耦注意力的高效算法，可以有效地減小空間復(fù)雜度。

上述的注意力計(jì)算中中僅包含了相對位置信息，作者認(rèn)為只有相對位置也不好，最好能把絕對位置信息也加進(jìn)去，作者給了兩張?zhí)砑拥姆绞?。第一種方式是在輸入的時(shí)候，把絕對位置信息添加到輸入的token embedding中；第二種方式是在最后一兩層再添加到前面那些層輸出的隱向量中。

考慮到BERT等預(yù)訓(xùn)練模型在預(yù)訓(xùn)練和微調(diào)時(shí)不一樣，預(yù)訓(xùn)練的時(shí)候，bert的輸出經(jīng)過softmax后，直接給出概率。微調(diào)的時(shí)候，bert的輸出會經(jīng)過一些與任務(wù)相關(guān)的decoder。作者將掩碼語言模型（MLM）視為任何微調(diào)任務(wù)，并添加一個(gè)任務(wù)特定解碼器，該解碼器被實(shí)現(xiàn)為兩層 Transformer 解碼器和 Softmax 輸出層，用于預(yù)訓(xùn)練。所以作者這里將預(yù)訓(xùn)練和微調(diào)的模型盡可能相近，模型共有13層，前11層稱為encoder，后2層參數(shù)共享，稱為decoder，然后微調(diào)的時(shí)候，前12層保留，然后和bert一樣進(jìn)行各類任務(wù)的微調(diào)。

實(shí)驗(yàn)

作者按照 BERT 的設(shè)置預(yù)訓(xùn)練DeBERTa，和BERT不同的是，作者使用了 BPE 詞匯表。對于訓(xùn)練數(shù)據(jù)，作者使用了 Wikipedia（English Wikipedia dump；12GB）、BookCorpus（6GB）、OPENWEBTEXT（public Reddit content；38GB）和 STORIES（CommonCrawl 的子集；31GB）。重復(fù)數(shù)據(jù)消除后的總數(shù)據(jù)大小約為 78GB。我們使用 6 臺 DGX-2 機(jī)器和 96 個(gè) V100 GPU 來訓(xùn)練模型。單個(gè)模型訓(xùn)練，batch size 設(shè)置為 2K，1M 的 steps，大約需要 20 天的時(shí)間。

作者將預(yù)訓(xùn)練好的模型在GLUE數(shù)據(jù)集上進(jìn)行微調(diào)，表 1 顯示，與 BERT 和 RoBERTa 相比，DeBERTa 在所有任務(wù)中始終表現(xiàn)得更好。同時(shí)，DeBERTa 在八項(xiàng)任務(wù)中有六項(xiàng)優(yōu)于 XLNet。特別是，MRPC（1.7% 超過 XLNet，1.6% 超過 RoBERTa）、RTE（2.2% 超過 XLNet，1.5% 超過 RoBERTa）和 CoLA（0.5% 超過 XLNet，1.5% 超過 RoBERTa）的改進(jìn)非常顯著。

作者還使用了其他數(shù)據(jù)集來評估 DeBERTa，分別是（1）問答：SQuAD v1.1、SQuAD v2.0、RACE、ReCoRD 和 SWAG；（2）自然語言推理：MNLI；（3）NER:CoNLL-2003。為了進(jìn)行比較，他們還將 Megatron 分為三種不同的模型尺寸：Megatron 336M、Megatron 1.3B 和 Megatron 3.9B，它們使用與 RoBERTa 相同的數(shù)據(jù)集進(jìn)行訓(xùn)練。與之前的 SOTA 模型（包括 BERT、RoBERTa、XLNet 和 Megatron336M）相比，DeBERTa 在這 7 項(xiàng)任務(wù)中的表現(xiàn)始終更優(yōu)。盡管 Megatron1.3B 是 DeBERTa 的 3 倍大，DeBERTa 在四個(gè)基準(zhǔn)中的三個(gè)方面仍然可以超過 Megatron1.3B。結(jié)果表明，在不同的下游任務(wù)中，DeBERTa 算法都具有較好的性能。

作者還對DeBERTa進(jìn)行了消融實(shí)驗(yàn)，-EMD 是沒有增強(qiáng)解碼器的DeBERTa模型。C2P 是沒有內(nèi)容-位置項(xiàng)的DeBERTa模型。P2C 是沒有位置-內(nèi)容項(xiàng)的DeBERTa模型。作者發(fā)現(xiàn)刪除 DeBERTa 中的任何一個(gè)組件都會導(dǎo)致所有基準(zhǔn)測試的性能下降。

最后作者還研究了注意力機(jī)制模式和預(yù)訓(xùn)練模型的有效性。結(jié)果表明，在預(yù)訓(xùn)練的訓(xùn)練過程中，DeBERTa 的表現(xiàn)一直優(yōu)于 RoBERTa-ReImp，并且收斂速度更快。

動機(jī)

本篇文章跟位置編碼的關(guān)系不是特別大，但文章將Transformer在圖像識別領(lǐng)域中完全代替了卷積神經(jīng)網(wǎng)絡(luò)。近年來，Transformer已經(jīng)成了NLP領(lǐng)域的標(biāo)準(zhǔn)配置，但是CV領(lǐng)域還是CNN（如ResNet， DenseNet等）占據(jù)了絕大多數(shù)的SOTA結(jié)果。最近CV界也有很多文章將transformer遷移到CV領(lǐng)域，雖然已經(jīng)有很多工作用self-attention完全替代CNN，且在理論上效率比較高，但是它們用了特殊的attention機(jī)制，無法從硬件層面加速，所以目前CV領(lǐng)域的SOTA結(jié)果還是被CNN架構(gòu)所占據(jù)。文章不同于以往工作的地方，就是盡可能地將NLP領(lǐng)域的transformer不作修改地搬到CV領(lǐng)域來。

方法

NLP處理的語言數(shù)據(jù)是序列化的，而CV中處理的圖像數(shù)據(jù)是三維的（長、寬和channels）。所以需要一個(gè)方式將圖像這種三維數(shù)據(jù)轉(zhuǎn)化為序列化的數(shù)據(jù)。文章中，圖像被切割成一個(gè)個(gè)patch，這些patch按照一定的順序排列，就成了序列化的數(shù)據(jù)。作者首先將圖像分割成一個(gè)個(gè)patch，然后將每個(gè)patch reshape成一個(gè)向量，得到所謂的flattened patch。

作者對上述過程得到的flattened patches向量做了Linear Projection，這些經(jīng)過線性映射后的向量被稱為 patch embedding（類似word embedding），一個(gè)255乘255像素的圖片，每隔16乘16個(gè)像素進(jìn)行分割，則這些圖片可以被當(dāng)做16乘以16的詞拼在一起。作者也為這些patch添加了位置信息，因?yàn)榘凑仗囟樞虻膒atch是需要具備位置信息的，作者采取了常見的絕對位置編碼，給每個(gè)位置的patch學(xué)習(xí)一個(gè)位置編碼向量。

為了給圖像進(jìn)行分類，作者也借鑒BERT在第一個(gè)patch前添加了［CLS］ patch，該patch經(jīng)過Transformer后的hidden vector被用于對圖形進(jìn)行分類的特征。

文中還提出了一個(gè)比較有趣的解決方案，將transformer和CNN結(jié)合，即將ResNet的中間層的feature map作為transformer的輸入。和之前所說的將圖片分成patch然后reshape成sequence不同的是，在這種方案中，作者直接將ResNet某一層的feature map reshape成sequence，再通過Linear Projection變?yōu)門ransformer輸入的維度，然后直接輸入進(jìn)Transformer中。

到下游任務(wù)微調(diào)時(shí)，如果圖像的分辨率增大時(shí)（即圖像的長和寬增大時(shí)），如果保持patch大小不變，得到的patch個(gè)數(shù)將增加，即序列長度將增加。但是由于在預(yù)訓(xùn)練的時(shí)候，position embedding的個(gè)數(shù)和pretrain時(shí)分割得到的patch個(gè)數(shù)相同。因此超出部分的positioin embedding在模型中是未定義或者無意義的。為了解決這個(gè)問題，文章中提出用2D插值的方法，基于原圖中的位置信息，將pretrain中的position embedding插值成更多個(gè)，這樣有利于位置編碼在面對更高分辨率圖片微調(diào)時(shí)可以更好地收斂。

實(shí)驗(yàn)

作者使用提出的模型，即VIT，做了大量實(shí)驗(yàn)。實(shí)驗(yàn)的范式遵循預(yù)訓(xùn)練-微調(diào)模型，現(xiàn)在某個(gè)數(shù)據(jù)集下使用大量有標(biāo)簽的圖片進(jìn)行預(yù)訓(xùn)練，然后再在某個(gè)數(shù)據(jù)集下進(jìn)行微調(diào)。下表中最上面一行指的是預(yù)訓(xùn)練用的數(shù)據(jù)集，最左邊一列指的是微調(diào)使用的數(shù)據(jù)集。ViT-H/14指的是，使用了ViiT-Huge模型的設(shè)置，并且patch的size是14乘14的。Noisy Student是ImageN上的SOTA，BiT是其余任務(wù)上的SOTA。

可以看到，在JFT數(shù)據(jù)集上預(yù)訓(xùn)練的ViT-L/16性能比BiT-L（也是在JFT上進(jìn)行預(yù)訓(xùn)練）更好。模型更大一點(diǎn)的ViT-H/14性能進(jìn)一步提升，尤其是在更具挑戰(zhàn)性的任務(wù)上，如ImageNet、CIFAR-100和VTAB，且所需的計(jì)算資源依舊遠(yuǎn)小于之前SOTA。在I21K上預(yù)訓(xùn)練得到的ViT-L/16性能也非常不錯(cuò)，需要的計(jì)算資源更少，在8TPU上訓(xùn)練30天即可。

作者進(jìn)一步使用可視化的結(jié)果分析了使用不同預(yù)訓(xùn)練數(shù)據(jù)集和不同復(fù)雜度模型的情況下，下游任務(wù)的表現(xiàn)。作者發(fā)現(xiàn)，在預(yù)訓(xùn)練數(shù)據(jù)集比較小的情況下，大模型（ViT-L）性能還是不如小模型（ViT-B）；當(dāng)預(yù)訓(xùn)練數(shù)據(jù)集比較大的情況，大模型效果會更好。作者得出的結(jié)論是，在小數(shù)據(jù)集上，卷積的歸納偏置是是非常有用的，但在大數(shù)據(jù)集上，直接學(xué)relevant pattern就夠了，這里的relevant pattern應(yīng)該指的是patch和patch之間的相關(guān)模式。

總結(jié)

此次 Fudan DISC 解讀的三篇論文圍繞Transformer以及位置編碼展開。對于序列來講，位置編碼的影響十分重要，詞和句子的位置信息對語義的影響是巨大的，如何在Transformer模型中有效地融合位置信息是十分重要的。

編輯：jq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

編碼

編碼

+關(guān)注

關(guān)注
6

文章
915

瀏覽量
54651
CV

CV

+關(guān)注

關(guān)注
0

文章
51

瀏覽量
16792
卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
4

文章
358

瀏覽量
11798

原文標(biāo)題：【Transformer】Transformer 中的位置編碼 -- ICLR 2021

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

電機(jī)控制系統(tǒng)中的編碼器概述與作用

編碼器分辨率是描述編碼器在測量運(yùn)動過程中所能分辨的最小位置變化量的指標(biāo)。理解編碼器分辨率對于設(shè)計(jì)和實(shí)現(xiàn)高精度的運(yùn)動控制系統(tǒng)至關(guān)重要。以下是對編碼

發(fā)表于 08-17 19:49 ?181次閱讀

AGV輪轂電機(jī)中的編碼器

編碼器還可以提供電機(jī)的絕對位置信息，這對于AGV系統(tǒng)的定位和校準(zhǔn)至關(guān)重要。在AGV系統(tǒng)中，一般會使用Z信號來表示編碼器的絕對位置。Z信號是一

發(fā)表于 07-22 11:33 ?245次閱讀

絕對值編碼器的工作原理及其在電機(jī)控制中的應(yīng)用

絕對值編碼器在電機(jī)控制系統(tǒng)中的應(yīng)用在電機(jī)控制系統(tǒng)中，絕對值編碼器帶來了精確的位置反饋信號。依據(jù)編碼

發(fā)表于 05-21 10:55 ?659次閱讀

視覺Transformer基本原理及目標(biāo)檢測應(yīng)用

視覺Transformer的一般結(jié)構(gòu)如圖2所示，包括編碼器和解碼器兩部分，其中編碼器每一層包括一個(gè)多頭自注意力模塊（self-attention）和一個(gè)位置前饋神經(jīng)網(wǎng)絡(luò)(FFN)。

發(fā)表于 04-03 10:32 ?2644次閱讀

脈沖編碼器位置未確定如何解除，脈沖編碼器位置怎么調(diào)

再次通電后，如果仍然顯示“脈沖編碼器位置未確定”，可以在關(guān)節(jié)進(jìn)給的模式下，使出現(xiàn)問題的軸朝任一方向旋轉(zhuǎn)，直到按下RESET鍵時(shí)不再出現(xiàn)報(bào)警。

發(fā)表于 02-25 11:21 ?1885次閱讀

編碼器原點(diǎn)設(shè)定方法 | 編碼器原點(diǎn)丟失怎樣找回

? 編碼器原點(diǎn)有什么功能編碼器的原點(diǎn)功能主要用于確定位置參考、啟動和停止控制、運(yùn)動方向判斷以及定位回歸操作。這些功能對于許多應(yīng)用中的位置測

發(fā)表于 02-21 15:02 ?1292次閱讀

編碼器零點(diǎn)位置怎么看 | 編碼器零位怎樣確定

。這些標(biāo)記點(diǎn)通常很顯眼且容易識別。 2. 編碼器數(shù)據(jù)：通過讀取編碼器的輸出數(shù)據(jù)，可以觀察到編碼器相對于其零點(diǎn)位置的編碼計(jì)數(shù)值。在

發(fā)表于 02-18 18:28 ?1813次閱讀

深度解析大語言模型的位置編碼及其外推性

我們先來回顧一下絕對位置編碼的問題。絕對位置編碼通過可學(xué)習(xí)的 Positional Embedding 來編碼位置信息，這種方案直接對不同的

發(fā)表于 01-16 11:37 ?702次閱讀

ICLR 2024高分投稿：用于一般時(shí)間序列分析的現(xiàn)代純卷積結(jié)構(gòu)

這篇是 ICLR 上用 TCN 來做一般的時(shí)間序列分析的論文，在 Rebuttal 之后的分?jǐn)?shù)為 888，算得上是時(shí)間序列領(lǐng)域相關(guān)的論文中最高分那一檔了。本文提出了一個(gè) ModernTCN 的模型

發(fā)表于 12-18 16:05 ?708次閱讀

更深層的理解視覺Transformer，對視覺Transformer的剖析

最后是在ADE20K val上的LeaderBoard，通過榜單也可以看出，在榜單的前幾名中，Transformer結(jié)構(gòu)依舊占據(jù)是當(dāng)前的主力軍。

發(fā)表于 12-07 09:39 ?650次閱讀

關(guān)于深度學(xué)習(xí)模型Transformer模型的具體實(shí)現(xiàn)方案

Transformer 本質(zhì)上是一個(gè) Encoder-Decoder 架構(gòu)。因此中間部分的 Transformer 可以分為兩個(gè)部分：編碼組件和解碼組件。

發(fā)表于 11-17 10:34 ?450次閱讀

求助，AD8132諧波測試電路中的transformer有沒有推薦型號？

AD8132諧波測試電路中的transformer有沒有推薦型號？

發(fā)表于 11-16 06:15

簡單了解ADI的位置編碼器信號鏈解決方案

位置編碼器（也稱為電機(jī)編碼器）可提供準(zhǔn)確的位置和扭矩控制，支持未來工廠的先進(jìn)運(yùn)動控制應(yīng)用。借助精密位置編

發(fā)表于 11-13 16:29 ?521次閱讀

LLaMA2上下文長度暴漲至100萬tokens，只需調(diào)整1個(gè)超參數(shù)

目前的Transformer位置編碼方法，有絕對位置編碼（將位置信息融入到輸入）、相對

發(fā)表于 10-22 10:20 ?382次閱讀

為什么transformer性能這么好？Transformer的上下文學(xué)習(xí)能力是哪來的？

為什么 transformer 性能這么好？它給眾多大語言模型帶來的上下文學(xué)習(xí) (In-Context Learning) 能力是從何而來？在人工智能領(lǐng)域里，transformer 已成為深度學(xué)習(xí)中

發(fā)表于 09-25 12:05 ?1195次閱讀