大模型基礎(chǔ)Transformer結(jié)構(gòu)的原理解析

SVM is all you need，支持向量機(jī)永不過時(shí)。

Transformer 是一個(gè)支持向量機(jī)（SVM）一種新型理論在學(xué)界引發(fā)了人們的討論。

上周末，一篇來(lái)自賓夕法尼亞大學(xué)、加州大學(xué)河濱分校的論文試圖研究大模型基礎(chǔ) Transformer 結(jié)構(gòu)的原理，其在注意力層的優(yōu)化幾何與將最優(yōu)輸入 token 與非最優(yōu) token 分開的硬邊界 SVM 問題之間建立了形式等價(jià)。

在 hackernews 上作者表示，這種理論解決了 SVM 將每個(gè)輸入序列中的「好」標(biāo)記與「壞」token 分開的問題。該 SVM 作為一個(gè)性能優(yōu)異的 token 選擇器，與傳統(tǒng)為輸入分配 0-1 標(biāo)簽的 SVM 本質(zhì)上不同。

這種理論也解釋了注意力如何通過 softmax 引起稀疏性：落在 SVM 決策邊界錯(cuò)誤一側(cè)的「壞」token 被 softmax 函數(shù)抑制，而「好」token 是那些最終具有非零 softmax 概率的 token。還值得一提的是，這個(gè) SVM 源于 softmax 的指數(shù)性質(zhì)。

論文上傳到 arXiv 上面之后，人們紛紛發(fā)表意見，有人表示：AI 研究的方向真是螺旋上升，難道又要繞回去了？

繞了一圈，支持向量機(jī)還是沒有過時(shí)。

自經(jīng)典論文《Attention is All You Need》問世以來(lái)，Transformer 架構(gòu)已為自然語(yǔ)言處理（NLP）領(lǐng)域帶來(lái)了革命性進(jìn)展。Transformer 中的注意力層接受一系列輸入 token X，并通過計(jì)算?

?評(píng)估 token 之間的相關(guān)性，其中 (K, Q) 是可訓(xùn)練的 key-query 參數(shù)，最終有效捕獲遠(yuǎn)程依賴關(guān)系。

現(xiàn)在，一篇名為《Transformers as Support Vector Machines》的新論文在自注意力的優(yōu)化幾何和 hard-margin SVM 問題之間建立了一種形式等價(jià)，使用 token 對(duì)的外積線性約束將最優(yōu)輸入 token 與非最優(yōu) token 分開。

論文鏈接：https://arxiv.org/pdf/2308.16898.pdf

這種形式等價(jià)建立在 Davoud Ataee Tarzanagh 等人的論文《Max-Margin Token Selection in Attention Mechanism》的基礎(chǔ)上，它能夠描述通過梯度下降進(jìn)行優(yōu)化的 1 層 transformer 的隱式偏差（implicit bias）：

(1) 優(yōu)化由 (K, Q) 參數(shù)化的注意力層，通過消失正則化（vanishing regularization），收斂到一種 SVM 解決方案，其中最小化組合參數(shù)?

的核范數(shù)（nuclear norm）。相反，直接通過 W 進(jìn)行參數(shù)化可以最小化 Frobenius 范數(shù) SVM 目標(biāo)。該論文描述了這種收斂，并強(qiáng)調(diào)它可以發(fā)生在局部最優(yōu)方向而不是全局最優(yōu)方向。?

(2) 該論文還證明了 W 參數(shù)化在適當(dāng)?shù)膸缀螚l件下梯度下降的局部 / 全局方向收斂。重要的是，過度參數(shù)化通過確保 SVM 問題的可行性和保證沒有駐點(diǎn)（stationary points）的良性優(yōu)化環(huán)境來(lái)催化全局收斂。?

(3) 雖然該研究的理論主要適用于線性預(yù)測(cè)頭，但研究團(tuán)隊(duì)提出了一種更通用的 SVM 等價(jià)物，可以預(yù)測(cè)具有非線性頭 / MLP 的 1 層 transformer 的隱式偏差。

總的來(lái)說，該研究的結(jié)果適用于一般數(shù)據(jù)集，可以擴(kuò)展到交叉注意力層，并且研究結(jié)論的實(shí)際有效性已經(jīng)通過徹底的數(shù)值實(shí)驗(yàn)得到了驗(yàn)證。該研究建立一種新的研究視角，將多層 transformer 看作分離和選擇最佳 token 的 SVM 層次結(jié)構(gòu)。

具體來(lái)說，給定長(zhǎng)度為 T，嵌入維度為 d 的輸入序列?

?，該研究分析核心交叉注意力和自注意力模型：?

其中，K、Q、V 分別是可訓(xùn)練的鍵、查詢、值矩陣，

；S (?) 表示 softmax 非線性，它逐行應(yīng)用于?

。該研究假設(shè)將 Z 的第一個(gè) token（用 z 表示）用于預(yù)測(cè)。具體來(lái)說，給定一個(gè)訓(xùn)練數(shù)據(jù)集?

，

，該研究使用遞減損失函數(shù)?

?進(jìn)行最小化：

這里，h (?) ：?

?是包含值權(quán)重 V 的預(yù)測(cè)頭。在這種表述中，模型 f (?) 精確地表示了一個(gè)單層 transformer，其中注意力層之后是一個(gè) MLP。作者通過設(shè)置?

?來(lái)恢復(fù) (2) 中的自注意力，其中 x_i 表示序列 X_i 的第一個(gè) token。由于 softmax 運(yùn)算的非線性性質(zhì)，它給優(yōu)化帶來(lái)了巨大挑戰(zhàn)。即使預(yù)測(cè)頭是固定和線性的，該問題也是非凸和非線性的。在本研究中，作者將重點(diǎn)放在優(yōu)化注意力權(quán)重（K、Q 或 W）上，并克服這些挑戰(zhàn)，從而建立 SVM 的基本等價(jià)性。

論文結(jié)構(gòu)如下：第 2 章介紹了自注意力和優(yōu)化的初步知識(shí)；第 3 章分析了自注意力的優(yōu)化幾何，表明注意力參數(shù) RP 收斂到最大邊際解；第 4 章和第 5 章分別介紹了全局和局部梯度下降分析，表明 key-query 變量 W 向 (Att-SVM) 的解決方案收斂；第 6 章提供了在非線性預(yù)測(cè)頭和廣義 SVM 等價(jià)性方面的結(jié)果；第 7 章將理論擴(kuò)展到順序預(yù)測(cè)和因果預(yù)測(cè)；第 8 章討論了相關(guān)文獻(xiàn)。最后，第 9 章進(jìn)行總結(jié)，提出開放性問題和未來(lái)研究方向。

論文的主要內(nèi)容如下：

注意力層的內(nèi)隱偏差（第 2-3 章）

正則化消失的情況下優(yōu)化注意力參數(shù)（K, Q），會(huì)在方向上收斂到

的最大邊際解，其核范數(shù)目標(biāo)是組合參數(shù)?

。在直接用組合參數(shù) W 對(duì)交叉注意力進(jìn)行參數(shù)化的情況下，正則化路徑 (RP) 定向收斂于以 Frobenius 范數(shù)為目標(biāo)的（Att-SVM）解。

這是第一個(gè)正式區(qū)分 W 與（K，Q）參數(shù)化優(yōu)化動(dòng)態(tài)的結(jié)果，揭示了后者的低階偏差。該研究的理論清楚地描述了所選 token 的最優(yōu)性，并自然地?cái)U(kuò)展到了序列到序列或因果分類設(shè)置。

梯度下降的收斂（第 4-5 章）

通過適當(dāng)?shù)某跏蓟途€性頭 h (?)，組合 key-query 變量 W 的梯度下降（GD）迭代在方向上收斂到（Att-SVM）的局部最優(yōu)解（第 5 節(jié)）。要實(shí)現(xiàn)局部最優(yōu)，所選 token 必須比相鄰 token 得分更高。

局部最優(yōu)方向不一定是唯一的，可以根據(jù)問題的幾何特征來(lái)確定 [TLZO23]。作為一項(xiàng)重要貢獻(xiàn)，作者確定了保證向全局最優(yōu)方向收斂的幾何條件（第 4 章）。這些條件包括：?

最佳 token 在分?jǐn)?shù)上有明顯區(qū)別；

初始梯度方向與最佳 token 一致。

除此以外，論文還展示了過度參數(shù)化（即維度 d 較大，以及同等條件）通過確保（1）（Att-SVM）的可行性，以及（2）良性優(yōu)化 landscape（即不存在靜止點(diǎn)和虛假的局部最優(yōu)方向）來(lái)催化全局收斂（見第 5.2 節(jié)）。

圖 1 和圖 2 對(duì)此進(jìn)行了說明。

SVM 等價(jià)的通用性（第 6 章）

當(dāng)使用線性 h (?) 進(jìn)行優(yōu)化時(shí)，注意力層會(huì)固有地偏向于從每個(gè)序列中選擇一個(gè) token（又稱硬注意力）。這反映在了 (Att-SVM) 中，表現(xiàn)為輸出 token 是輸入 token 的凸組合。與此相反，作者表明非線性頭必須由多個(gè) token 組成，從而突出了它們?cè)?transformer 動(dòng)態(tài)過程中的重要性（第 6.1 節(jié)）。利用從理論中獲得的洞察力，作者提出了一種更通用的 SVM 等價(jià)方法。

值得注意的是，他們證明了在理論未涵蓋的普遍情況下（例如，h (?) 是一個(gè) MLP），本文的方法能準(zhǔn)確預(yù)測(cè)通過梯度下降訓(xùn)練的注意力的隱含偏差。具體來(lái)說，本文的通用公式將注意力權(quán)重解耦為兩個(gè)部分：一個(gè)是由 SVM 控制的定向部分，它通過應(yīng)用 0-1 掩碼來(lái)選擇標(biāo)記；另一個(gè)是有限部分，它通過調(diào)整 softmax 概率來(lái)決定所選 token 的精確組成。

這些發(fā)現(xiàn)的一個(gè)重要特點(diǎn)是，它們適用于任意數(shù)據(jù)集（只要 SVM 可行），并且可以用數(shù)字驗(yàn)證。作者通過實(shí)驗(yàn)廣泛驗(yàn)證了 transformer 的最大邊際等價(jià)性和隱含偏差。作者認(rèn)為，這些發(fā)現(xiàn)有助于理解作為分層最大邊際 token 選擇機(jī)制的 transformer，可為即將開展的有關(guān)其優(yōu)化和泛化動(dòng)態(tài)的研究奠定基礎(chǔ)。

編輯：黃飛

閱讀全文

AI(263628) AI(263628)
向量機(jī)(20700) 向量機(jī)(20700)
Transformer(5892) Transformer(5892)
自然語(yǔ)言處理(13090) 自然語(yǔ)言處理(13090)
nlp(21784) nlp(21784)

評(píng)論

相關(guān)推薦

為什么transformer性能這么好？Transformer的上下文學(xué)習(xí)能力是哪來(lái)的？

為什么 transformer 性能這么好？它給眾多大語(yǔ)言模型帶來(lái)的上下文學(xué)習(xí) (In-Context Learning) 能力是從何而來(lái)？在人工智能領(lǐng)域里，transformer 已成為深度學(xué)習(xí)

2023-09-25 12:05:37

736

基于Transformer做大模型預(yù)訓(xùn)練基本的并行范式

在之前的內(nèi)容中，我們已經(jīng)介紹過流水線并行、數(shù)據(jù)并行（DP，DDP和ZeRO）。今天我們將要介紹最重要，也是目前基于Transformer做大模型預(yù)訓(xùn)練最基本的并行范式：來(lái)自NVIDIA的張量模型

2023-05-31 14:38:23

1605

如何計(jì)算transformer模型的參數(shù)量

基于transformer模型的，模型結(jié)構(gòu)主要有兩大類：encoder-decoder（代表模型是T5）和decoder-only，具體的，decoder-only結(jié)

2023-07-10 09:13:57

5737

關(guān)于深度學(xué)習(xí)模型Transformer模型的具體實(shí)現(xiàn)方案

Transformer 本質(zhì)上是一個(gè) Encoder-Decoder 架構(gòu)。因此中間部分的 Transformer 可以分為兩個(gè)部分：編碼組件和解碼組件。

2023-11-17 10:34:52

216

一文詳解Transformer神經(jīng)網(wǎng)絡(luò)模型

Transformer模型在強(qiáng)化學(xué)習(xí)領(lǐng)域的應(yīng)用主要是應(yīng)用于策略學(xué)習(xí)和值函數(shù)近似。強(qiáng)化學(xué)習(xí)是指讓機(jī)器在與環(huán)境互動(dòng)的過程中，通過試錯(cuò)來(lái)學(xué)習(xí)最優(yōu)的行為策略。

2024-02-20 09:55:35

352

大語(yǔ)言模型背后的Transformer，與CNN和RNN有何不同

for Language Understanding》，BERT模型橫空出世，并橫掃NLP領(lǐng)域11項(xiàng)任務(wù)的最佳成績(jī)。而在BERT中發(fā)揮重要作用的結(jié)構(gòu)就是Transformer，之后又相繼出現(xiàn)XLNET、roBERT等模型擊

2023-12-25 08:36:00

1282

理解拓?fù)?b class="flag-6" style="color: red">結(jié)構(gòu)

從電源、單片機(jī)、晶體管、驅(qū)動(dòng)電路、顯示電路、有線通訊、無(wú)線通信、傳感器、原理圖設(shè)計(jì)、PCB設(shè)計(jì)、軟件設(shè)計(jì)、上位機(jī)等，給新手綜合學(xué)習(xí)的平臺(tái)，給老司機(jī)交流的平臺(tái)。所有文章來(lái)源于項(xiàng)目實(shí)戰(zhàn)，屬于原創(chuàng)。一、拓?fù)?b class="flag-6" style="color: red">結(jié)構(gòu)1、降壓拓?fù)淙缟蠄D，要想掌握降壓電路，必須深刻理解拓?fù)?b class="flag-6" style="color: red">結(jié)構(gòu)，幾乎所有降壓...

2021-11-17 06:32:03

解析ABBYY PDF Transformer+三種類型PDF文檔

ABBYY PDF Transformer+有三種不同類型的 PDF 文檔。僅包含頁(yè)面圖像的文檔不可搜索，其包含的文本也不可編輯。包含文本層的文檔可以搜索，包含在這些文檔中的文本也可進(jìn)行復(fù)制。本文

2017-11-13 18:11:34

HarmonyOS源碼目錄結(jié)構(gòu)的理解

。HarmonyOS源碼文件之多，想要短時(shí)間內(nèi)研讀完成是比較困難的。對(duì)于我們剛剛學(xué)習(xí)此操作系統(tǒng)的開發(fā)來(lái)說，如果一個(gè)個(gè)目錄去研讀代碼，需要花費(fèi)大量的時(shí)間。本文從框架上簡(jiǎn)單解析HarmonyOS的目錄結(jié)構(gòu)

2021-02-03 14:59:27

HarmonyOS源碼目錄結(jié)構(gòu)的理解

我們剛剛學(xué)習(xí)此操作系統(tǒng)的開發(fā)來(lái)說，如果一個(gè)個(gè)目錄去研讀代碼，需要花費(fèi)大量的時(shí)間。本文從框架上簡(jiǎn)單解析HarmonyOS的目錄結(jié)構(gòu)，讓開發(fā)者有針對(duì)性的研究它。下圖將HarmonyOS源碼的一級(jí)目錄通過軟件層

2021-03-12 10:18:36

Labview 復(fù)雜結(jié)構(gòu)體解析

類似于C語(yǔ)言中的結(jié)構(gòu)體，結(jié)構(gòu)體中又包含數(shù)組，如何快速解析出來(lái)呢

2013-09-11 15:15:38

OSI模型的簡(jiǎn)單理解

體系結(jié)構(gòu)標(biāo)準(zhǔn)定義了網(wǎng)絡(luò)互聯(lián)的七層框架（物理層、數(shù)據(jù)鏈路層、網(wǎng)絡(luò)層、傳輸層、會(huì)話層、表示層和應(yīng)用層），即OSI開放系統(tǒng)互連參考模型。這里根據(jù)筆者的理解以及相關(guān)資料的查詢，覺得這個(gè)OSI通信與筆者...

2021-07-30 06:08:26

PROFIBUS協(xié)議結(jié)構(gòu)及協(xié)議模型與ISO/OSI協(xié)議模型的關(guān)系

PROFIBUS協(xié)議模型與ISO/OSI協(xié)議模型的關(guān)系  PROFIBUS協(xié)議結(jié)構(gòu)

2009-11-17 10:33:24

RF放大器模型結(jié)構(gòu)

深入探討關(guān)于RF放大器模型結(jié)構(gòu)，看完秒懂！

2021-02-22 06:14:52

USART數(shù)據(jù)傳輸模型怎么理解

模型（逐字節(jié)），我也得到了信息傳遞字符串。這意味著我可以總是使用模型（逐字節(jié)）代替文件I/O類型的讀/寫傳輸模型？或者最后一個(gè)模型比字節(jié)模型有更多的應(yīng)用程序？此外，緩沖隊(duì)列傳輸模型是最復(fù)雜的理解模型。有人能幫助我理解這個(gè)模型的實(shí)際應(yīng)用嗎？非常感謝你。

2020-04-23 13:56:48

YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)解析

1、YOLOv5 網(wǎng)絡(luò)結(jié)構(gòu)解析　　YOLOv5針對(duì)不同大?。╪， s， m， l， x）的網(wǎng)絡(luò)整體架構(gòu)都是一樣的，只不過會(huì)在每個(gè)子模塊中采用不同的深度和寬度，　　分別應(yīng)對(duì)yaml文件中

2022-10-31 16:30:17

Yarn基本結(jié)構(gòu)和運(yùn)行原理解析

一、Yarn基本結(jié)構(gòu)Hadoop三大核心組件：分布式文件系統(tǒng)HDFS、分布式計(jì)算框架MapReduce，分布式集群資源調(diào)度框架Yarn。Yarn并不是在Hadoop初期就有的，是在Hadoop升級(jí)

2021-01-05 16:58:44

ad中電流互感器選擇哪個(gè)模型

在畫路時(shí)，需要用到電流互感器，需要選擇哪個(gè)模型呢？一下這些transformer 分別是什么意思？那些在我們?cè)O(shè)計(jì)電路時(shí)候比較常用？一些變壓器的表述中“Transformer (Coupled Inductor Model)”的耦合電感模型是什么意思？

2014-12-01 16:32:10

你了解在單GPU上就可以運(yùn)行的Transformer模型嗎

通過超越語(yǔ)言應(yīng)用(如音樂、語(yǔ)音、圖像和視頻生成)對(duì)該領(lǐng)域產(chǎn)生重大影響。在這篇文章中,我們將努力深入Reformer模型并試著去理解一些可視化方面的指南。準(zhǔn)備好了嗎？為什么是Transformer?在

2022-11-02 15:19:41

值得了解的AR模型詳細(xì)原理解析

AR模型原理

2019-02-13 07:05:37

關(guān)于樹模型的一些理解

樹模型的一些理解

2020-05-22 09:40:45

如何理解MPC狀態(tài)空間模型

在模型預(yù)測(cè)控制中，把狀態(tài)空間模型轉(zhuǎn)換成MPC狀態(tài)空間模型，結(jié)果得到一個(gè)矩陣，如何去理解這個(gè)矩陣代表的意義？

2019-03-20 16:09:03

如何理解內(nèi)存模型中的“?！?/a>

何為變量？變量一般可以細(xì)分為如下圖：本節(jié)重點(diǎn)為了讓大家理解內(nèi)存模型的“?！?，暫時(shí)不考慮“靜態(tài)變量” 的情況，并約定如下：“全局變量”僅僅默認(rèn)為“普通全局變量”；“局部變量”僅僅默認(rèn)為“普...

2021-12-22 07:30:05

如何對(duì)雙母線結(jié)構(gòu)模型進(jìn)行仿真

怎樣去搭建一種電力電子仿真模型？如何對(duì)雙母線結(jié)構(gòu)模型進(jìn)行仿真？

2021-09-24 10:28:46

如何更改ABBYY PDF Transformer+旋轉(zhuǎn)頁(yè)面

為了實(shí)現(xiàn)最佳識(shí)別效果，頁(yè)面應(yīng)有標(biāo)準(zhǔn)方向，即，水平線條和字母應(yīng)向上。所以有時(shí)不得不對(duì)文檔頁(yè)面進(jìn)行旋轉(zhuǎn)，以優(yōu)化ABBYY PDF Transformer+轉(zhuǎn)換結(jié)果。下面小編給大家講講如何更改ABBYY

2017-10-16 10:19:26

如何更改ABBYY PDF Transformer+界面語(yǔ)言

在安裝ABBYY PDF Transformer+時(shí)會(huì)讓您選擇界面語(yǔ)言。此語(yǔ)言將用于所有消息、對(duì)話框、按鈕和菜單項(xiàng)。在特殊情況下，您可能需要在安裝完成后更改界面語(yǔ)言以適應(yīng)需求，方法其實(shí)很簡(jiǎn)單，本文

2017-10-11 16:13:38

定位技術(shù)原理解析

【追蹤嫌犯的利器】定位技術(shù)原理解析（4）

2020-05-04 12:20:20

手機(jī)通信原理解析

`手機(jī)通信原理解析：第 1 章　　無(wú)線通信原理第2 章　　移動(dòng)通信系統(tǒng)第3 章　　移動(dòng)通信系統(tǒng)的多址接入技術(shù)第4 章　　移動(dòng)通信系統(tǒng)的語(yǔ)音編碼第5 章 GSM移動(dòng)通信系統(tǒng)的數(shù)字

2011-12-14 14:31:20

按鍵的內(nèi)部結(jié)構(gòu)與矩陣鍵盤掃描原理解析

做題之前要先理解一下按鍵的內(nèi)部結(jié)構(gòu)。矩陣鍵盤中有兩個(gè)I/O端口，一個(gè)作為輸入，一個(gè)作為輸出。當(dāng)按鍵按下時(shí)，兩個(gè)端口相連導(dǎo)通（我是這樣認(rèn)為的），當(dāng)作為輸入的I/O端口輸入高電平時(shí)，輸出就是高電平，反之就是低電平。矩陣鍵盤掃描原理...

2022-01-12 06:25:28

神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索有什么優(yōu)勢(shì)？

，稍有不同就無(wú)法復(fù)現(xiàn)論文的結(jié)果。而網(wǎng)絡(luò)結(jié)構(gòu)作為一種特殊的超參數(shù)，在深度學(xué)習(xí)整個(gè)環(huán)節(jié)中扮演著舉足輕重的角色。在圖像分類任務(wù)上大放異彩的ResNet、在機(jī)器翻譯任務(wù)上稱霸的Transformer等網(wǎng)絡(luò)結(jié)構(gòu)

2019-09-11 11:52:14

線結(jié)構(gòu)光成像模型是如何建立的

【理解】線結(jié)構(gòu)光成像模型

2020-06-09 16:48:46

詳解ABBYY PDF Transformer+從文件創(chuàng)建PDF文檔

可使用ABBYY PDF Transformer+從Microsoft Word、Microsoft Excel、Microsoft PowerPoint、HTML、RTF、Microsoft

2017-10-17 14:13:42

詳解ABBYY PDF Transformer+添加注釋

很多人喜歡在書本文章關(guān)鍵位置加上自己的想法、理解等文字注釋，普通的PDF軟件不能滿足你這樣的要求，而ABBYY PDF Transformer+可讓您在PDF頁(yè)面的任何地方添加注釋，使之更有

2017-09-22 16:42:48

鋰電池基本原理解析

【鋰知道】鋰電池基本原理解析：充電及放電機(jī)制電池充電最重要的就是這三步：第一步：判斷電壓

2021-09-15 06:47:08

單片機(jī)的結(jié)構(gòu)原理解析

單片機(jī)的結(jié)構(gòu)原理解析 一、單片機(jī)的外部結(jié)構(gòu)拿到一塊芯片，想要使用它，首先必須要知道怎樣連線，我們用的一塊稱之為 89C51 的芯片，下面我們就看一

2010-04-09 14:53:11

LCD結(jié)構(gòu)解析與實(shí)體拆解

LCD結(jié)構(gòu)解析大綱•TFTLCD原理與結(jié)構(gòu)篇–動(dòng)作原理–實(shí)體解剖•TFT&CF功能與制程篇–ThinFilmTransistor–ColorFilter•LCD背光模塊篇–結(jié)構(gòu)–技術(shù)R

2010-06-01 09:12:23

119

三極管開關(guān)電路工作原理解析

三極管開關(guān)電路工作原理解析 圖一所示是NPN三極管的共射極電路，圖二所示是它的特性

2009-11-24 10:50:36

270157

MPOA的模型結(jié)構(gòu),MPOA的模型結(jié)構(gòu)是什么?

MPOA的模型結(jié)構(gòu),MPOA的模型結(jié)構(gòu)是什么? (1)基本組成 MPOA采用了LANE、NHRP、交換路由器(Switched Router)三種互補(bǔ)的

2010-04-07 13:27:02

476

高速緩沖存儲(chǔ)器部件結(jié)構(gòu)及原理解析

高速緩沖存儲(chǔ)器部件結(jié)構(gòu)及原理解析 高速緩存 CACHE用途設(shè)置在 CPU 和主存儲(chǔ)器之間，完成高速與 CPU交換信息，盡量避免 CPU不必要地多次直

2010-04-15 11:18:50

4410

組合邏輯控制器組成結(jié)構(gòu)及工作原理解析

組合邏輯控制器組成結(jié)構(gòu)及工作原理解析 按照控制信號(hào)產(chǎn)生的方式不同，控制器分為微程序控制器和組合邏輯控制器兩類微程序控制器是

2010-04-15 11:20:51

12372

虛擬存儲(chǔ)器部件原理解析

虛擬存儲(chǔ)器部件原理解析

2010-04-15 14:25:20

2909

CPU內(nèi)核結(jié)構(gòu)解析

CPU內(nèi)核結(jié)構(gòu)解析 CPU內(nèi)核主要分為兩部分：運(yùn)算器和控制器。　　（一）運(yùn)算器　　1、算

2010-04-15 16:13:27

1495

大模型Transformer工作原理

大模型

恬靜簡(jiǎn)樸1發(fā)布于 2023-07-18 17:14:58

觸摸屏的應(yīng)用與工作原理解析

觸摸屏的應(yīng)用與工作原理解析

2017-02-08 02:13:17

Android系統(tǒng)文件夾結(jié)構(gòu)解析

Android系統(tǒng)文件夾結(jié)構(gòu)解析

2017-03-19 11:23:20

一種氣隙磁場(chǎng)與電磁力的解析計(jì)算模型

爪極發(fā)電機(jī)因其特殊的轉(zhuǎn)子結(jié)構(gòu)導(dǎo)致磁場(chǎng)空間分布復(fù)雜，通常需要建立三維有限元模型對(duì)其進(jìn)行計(jì)算分析。而三維有限元方法計(jì)算費(fèi)時(shí)，且不便于分析發(fā)電機(jī)結(jié)構(gòu)及電磁參數(shù)對(duì)磁場(chǎng)和電磁力的影響，因此提出一種氣隙磁場(chǎng)

2018-02-10 10:02:16

把Transformer模型掰開揉碎，深度理解它的工作原理

我們已經(jīng)了解了模型的主要部分，接下來(lái)我們看一下各種向量或張量（譯注：張量概念是矢量概念的推廣，可以簡(jiǎn)單理解矢量是一階張量、矩陣是二階張量。）是怎樣在模型的不同部分中，將輸入轉(zhuǎn)化為輸出的。

2019-01-10 15:15:10

5775

一文詳解云存儲(chǔ)結(jié)構(gòu)的模型

在存儲(chǔ)的快速發(fā)展過程中，不同的廠商對(duì)云存儲(chǔ)提供了不同的結(jié)構(gòu)模型，在這里，我們介紹一個(gè)比較有代表性的云存儲(chǔ)結(jié)構(gòu)模型。

2020-12-25 11:23:26

3540

Google科學(xué)家設(shè)計(jì)簡(jiǎn)化稀疏架構(gòu)Switch Transformer，語(yǔ)言模型的參數(shù)量可擴(kuò)展至 1.6 萬(wàn)億

剛剛，Google Brain 高級(jí)研究科學(xué)家 Barret Zoph 發(fā)帖表示，他們?cè)O(shè)計(jì)了一個(gè)名叫「Switch Transformer」的簡(jiǎn)化稀疏架構(gòu)，可以將語(yǔ)言模型的參數(shù)量擴(kuò)展至 1.6 萬(wàn)億

2021-01-13 16:50:49

2638

刪掉Transformer中的這幾層性能變好了？

基于Transformer結(jié)構(gòu)的各類語(yǔ)言模型（Bert基于其encoder,Gpt-2基于其decoder）早已經(jīng)在各類NLP任務(wù)上大放異彩，面對(duì)讓人眼花繚亂的transformer堆疊方式，你是否

2021-03-08 10:27:06

3036

基于Transformer的掩膜時(shí)序建模方法

　　現(xiàn)有時(shí)序異常檢測(cè)方法存在計(jì)算效率低和可解釋性差的問題?？紤]到 Transformer模型在自然語(yǔ)言處理任務(wù)中表現(xiàn)岀并行效率髙且能夠跨距離提取關(guān)系的優(yōu)勢(shì)，提岀基于 Transformer的掩膜時(shí)序

2021-03-10 16:08:38

一種基于表結(jié)構(gòu)和內(nèi)容的問句理解方法

問句理解是模型將自然語(yǔ)言冋句轉(zhuǎn)換成SαL的重要基礎(chǔ)。目前多數(shù)利用深度學(xué)習(xí)的模型僅是通過數(shù)據(jù)庫(kù)結(jié)構(gòu)，未結(jié)合數(shù)據(jù)庫(kù)內(nèi)容充分理解問句生成SQL查詢。在 SQLOVA模型的基礎(chǔ)上，提出一種基于表結(jié)構(gòu)和內(nèi)容

2021-03-22 11:09:29

Transformer模型的多模態(tài)學(xué)習(xí)應(yīng)用

隨著Transformer在視覺中的崛起，Transformer在多模態(tài)中應(yīng)用也是合情合理的事情，甚至以后可能會(huì)有更多的類似的paper。

2021-03-25 09:29:59

9836

解析操作系統(tǒng)的概念、結(jié)構(gòu)和機(jī)制

全面。解析操作系統(tǒng)的概念、結(jié)構(gòu)和機(jī)制。

2021-03-26 14:19:44

解析Transformer中的位置編碼 -- ICLR 2021

引言 Transformer是近年來(lái)非常流行的處理序列到序列問題的架構(gòu)，其self-attention機(jī)制允許了長(zhǎng)距離的詞直接聯(lián)系，可以使模型更容易學(xué)習(xí)序列的長(zhǎng)距離依賴。由于其優(yōu)良的可并行性以及可觀

2021-04-01 16:07:28

11918

詳解一種簡(jiǎn)單而有效的Transformer提升技術(shù)

近些年，Transformer［1］逐漸成為了自然語(yǔ)言處理中的主流結(jié)構(gòu)。為了進(jìn)一步提升Transformer的性能，一些工作通過引入額外的結(jié)構(gòu)或知識(shí)來(lái)提升Transformer在特定任務(wù)上的表現(xiàn)。

2021-04-09 09:50:57

5973

如何使用Transformer來(lái)做物體檢測(cè)？

）是Facebook研究團(tuán)隊(duì)巧妙地利用了Transformer 架構(gòu)開發(fā)的一個(gè)目標(biāo)檢測(cè)模型。在這篇文章中，我將通過分析DETR架構(gòu)的內(nèi)部工作方式來(lái)幫助提供一些關(guān)于它的含義。下面，我將解釋一些結(jié)構(gòu)，但是

2021-04-25 10:45:49

2296

使用跨界模型Transformer來(lái)做物體檢測(cè)！

用了Transformer 架構(gòu)開發(fā)的一個(gè)目標(biāo)檢測(cè)模型。在這篇文章中，我將通過分析DETR架構(gòu)的內(nèi)部工作方式來(lái)幫助提供一些關(guān)于它的直覺。下面，我將解釋一些結(jié)構(gòu)，但是如果你只是想了解如何使用模型，可以直接跳到代碼部分

2021-06-10 16:04:39

1913

golang的調(diào)度模型-GPM 模型的源碼結(jié)構(gòu)

【導(dǎo)讀】GMP 模型是讓 go 語(yǔ)言輕量快速高效的重要調(diào)度模型，本文從 GMP 源碼出發(fā)直觀地解析了這一模型。這篇文章就來(lái)看看 golang 的調(diào)度模型-GPM 模型的源碼結(jié)構(gòu)。 Go 版本

2021-07-06 11:55:04

1876

Inductor and Flyback Transformer Design .pdf

Inductor and Flyback Transformer Design .pdf(繼電保護(hù)必須加電源開關(guān)嗎)-Inductor and Flyback Transformer Design .pdf

2021-07-26 14:50:20

Transformer的復(fù)雜度和高效設(shè)計(jì)及Transformer的應(yīng)用

中的25個(gè)Transformers模型總結(jié) ACL 2021中的25個(gè)Transformers模型 NLP中的層次結(jié)構(gòu)Hi-Transformer： Hierarchical Interactive Transformer for Efficient and Effective Long Docume

2021-09-01 09:27:43

5635

超大Transformer語(yǔ)言模型的分布式訓(xùn)練框架

NVIDIA Megatron 是一個(gè)基于 PyTorch 的框架，用于訓(xùn)練基于 Transformer 架構(gòu)的巨型語(yǔ)言模型。本系列文章將詳細(xì)介紹Megatron的設(shè)計(jì)和實(shí)踐，探索這一框架如何助力

2021-10-11 16:46:05

2226

探究超大Transformer語(yǔ)言模型的分布式訓(xùn)練框架

2021-10-20 09:25:43

2078

NVIDIA助力微軟將AI Transformer模型投入生產(chǎn)用途

Microsoft 的目標(biāo)是，通過結(jié)合使用 Azure 與 NVIDIA GPU 和 Triton 推理軟件，率先將一系列強(qiáng)大的 AI Transformer 模型投入生產(chǎn)用途。

2022-03-28 09:43:38

1029

Microsoft使用NVIDIA Triton加速AI Transformer模型應(yīng)用

Microsoft 的目標(biāo)是，通過結(jié)合使用 Azure 與 NVIDIA GPU 和 Triton 推理軟件，率先將一系列強(qiáng)大的 AI Transformer 模型投入生產(chǎn)用途。

2022-04-02 13:04:21

1456

Transformer模型結(jié)構(gòu)，訓(xùn)練過程

所以我們?yōu)榇宋恼聦懥似⒔馕臋n，并給出了一行行實(shí)現(xiàn)的Transformer的代碼。本文檔刪除了原文的一些章節(jié)并進(jìn)行了重新排序，并在整個(gè)文章中加入了相應(yīng)的注解。此外，本文檔以Jupyter

2022-06-20 14:26:50

3155

Compensation Designer 2P2Z控制器S域模型理解

2022-10-28 12:00:24

史密斯圓圖和阻抗匹配原理解析

史密斯圓圖和阻抗匹配原理解析

2022-11-02 20:16:23

1626

什么是晶振晶振工作原理解析

什么是晶振晶振工作原理解析

2022-12-30 17:13:57

3727

ChatGPT介紹和代碼智能

Transformer 作為特征抽取器，基于語(yǔ)言模型進(jìn)行訓(xùn)練的預(yù)訓(xùn)練語(yǔ)言模型。所以，理解GPT主要熟悉兩個(gè)方面即可，即語(yǔ)言模型和其由 Transformer 組成的結(jié)構(gòu)。將無(wú)監(jiān)督學(xué)習(xí)有監(jiān)督模型的預(yù)訓(xùn)練目標(biāo)

2023-02-14 09:33:23

ChatGPT語(yǔ)言模型核心技術(shù)之Transformer

Transformer的主要優(yōu)點(diǎn)是它可以并行地處理輸入序列中的所有位置，因此在訓(xùn)練和推理時(shí)都有著很好的效率。此外，Transformer沒有使用循環(huán)結(jié)構(gòu)，因此它不會(huì)受長(zhǎng)序列的影響，并且在處理長(zhǎng)序列時(shí)不會(huì)出現(xiàn)梯度消失或爆炸的問題。

2023-03-08 15:36:00

494

關(guān)于Transformer的核心結(jié)構(gòu)及原理

Thinking Like Transformers 這篇論文中提出了 transformer 類的計(jì)算框架，這個(gè)框架直接計(jì)算和模仿 Transformer 計(jì)算。使用 RASP 編程語(yǔ)言，使每個(gè)程序編譯成一個(gè)特殊的 Transformer。

2023-03-08 09:39:00

488

DepGraph：任意架構(gòu)的結(jié)構(gòu)化剪枝，CNN、Transformer、GNN等都適用！

結(jié)構(gòu)化剪枝是一種重要的模型壓縮算法，它通過移除神經(jīng)網(wǎng)絡(luò)中冗余的結(jié)構(gòu)來(lái)減少參數(shù)量，從而降低模型推理的時(shí)間、空間代價(jià)。在過去幾年中，結(jié)構(gòu)化剪枝技術(shù)已經(jīng)被廣泛應(yīng)用于各種神經(jīng)網(wǎng)絡(luò)的加速，覆蓋了ResNet、VGG、Transformer等流行架構(gòu)。

2023-03-29 11:23:52

2933

解析ChatGPT背后的技術(shù)演進(jìn)

?！　?）Transformer模型沒有使用傳統(tǒng)的CNN和RNN結(jié)構(gòu)，其完全是由Attention機(jī)制組成，其中Self-Attention（自注意力）是Transformer的核心。　　3）OpenAI的GPT模型和Google的BERT模型雖然都是基于Transformer所構(gòu)建，但GPT模型僅使用了解

2023-03-29 16:57:06

通用視覺GPT時(shí)刻來(lái)臨？智源推出通用分割模型SegGPT

無(wú)論是 “一觸即通” 還是 “一通百通”，都意味著視覺模型已經(jīng) “理解” 了圖像結(jié)構(gòu)。SAM 精細(xì)標(biāo)注能力與 SegGPT 的通用分割標(biāo)注能力相結(jié)合，能把任意圖像從像素陣列解析為視覺結(jié)構(gòu)單元，像生物視覺那樣理解任意場(chǎng)景，通用視覺 GPT 曙光乍現(xiàn)。

2023-04-09 09:40:52

1162

愛芯元智AX650N成端側(cè)、邊緣側(cè)Transformer最佳落地平臺(tái)

Transformer是當(dāng)前各種大模型所采用的主要結(jié)構(gòu)，而ChatGPT的火爆讓人們逐漸意識(shí)到人工智能有著更高的上限，并可以在計(jì)算機(jī)視覺領(lǐng)域發(fā)揮出巨大潛能。相比于在云端用GPU部署Transformer大模型，在邊緣側(cè)、端側(cè)部署Transformer最大的挑戰(zhàn)則來(lái)自功耗

2023-05-30 11:04:02

615

Transformer結(jié)構(gòu)及其應(yīng)用詳解

本文首先詳細(xì)介紹Transformer的基本結(jié)構(gòu)，然后再通過GPT、BERT、MT-DNN以及GPT-2等基于Transformer的知名應(yīng)用工作的介紹并附上GitHub鏈接，看看Transformer是如何在各個(gè)著名的模型中大顯神威的。

2023-06-08 09:56:22

1352

基于transformer的編碼器-解碼器模型的工作原理

與基于 RNN 的編碼器-解碼器模型類似，基于 transformer 的編碼器-解碼器模型由一個(gè)編碼器和一個(gè)解碼器組成，且其編碼器和解碼器均由殘差注意力模塊 (residual attention blocks) 堆疊而成。

2023-06-11 14:17:34

1145

基于Transformer的大型語(yǔ)言模型（LLM）的內(nèi)部機(jī)制

本文旨在更好地理解基于 Transformer 的大型語(yǔ)言模型（LLM）的內(nèi)部機(jī)制，以提高它們的可靠性和可解釋性。隨著大型語(yǔ)言模型（LLM）在使用和部署方面的不斷增加，打開黑箱并了解它們的內(nèi)部

2023-06-25 15:08:49

991

2D Transformer 可以幫助3D表示學(xué)習(xí)嗎？

預(yù)訓(xùn)練的2D圖像或語(yǔ)言Transformer：作為基礎(chǔ)Transformer模型，具有豐富的特征表示能力。作者選擇了先進(jìn)的2D Transformer模型作為基礎(chǔ)模型，例如Vision Transformers (ViTs) 或者語(yǔ)言模型（如BERT）。

2023-07-03 10:59:43

387

基于 Transformer 的分割與檢測(cè)方法

，并能做出屬于自己的 SAM 模型，那么接下這篇 Transformer-Based 的 Segmentation Survey 是不容錯(cuò)過！近期，南洋理工大學(xué)和上海人工智能實(shí)驗(yàn)室?guī)孜谎芯咳藛T寫了

2023-07-05 10:18:39

463

最強(qiáng)科普！深度解析華為云盤古大模型

搭檔完成復(fù)雜任務(wù) 預(yù)測(cè)臺(tái)風(fēng)路徑降低災(zāi)害損失幫助縮短藥物研發(fā)周期 …… 此次發(fā)布有諸多新升級(jí) 更為客戶提供了“開箱即用”的模型服務(wù) 簡(jiǎn)直就是一個(gè)AI大禮包！一支視頻為你深度解析盤古大模型硬實(shí)力！你想了解的都在這兒原文標(biāo)題：最強(qiáng)科普！深度解析華為云盤古

2023-07-14 15:20:03

1334

transformer模型詳解：Transformer 模型的壓縮方法

?動(dòng)機(jī)&背景 Transformer 模型在各種自然語(yǔ)言任務(wù)中取得了顯著的成果，但內(nèi)存和計(jì)算資源的瓶頸阻礙了其實(shí)用化部署。低秩近似和結(jié)構(gòu)化剪枝是緩解這一瓶頸的主流方法。然而，作者通過分析發(fā)現(xiàn)，結(jié)構(gòu)

2023-07-17 10:50:43

1172

基于Transformer的目標(biāo)檢測(cè)算法的3個(gè)難點(diǎn)

理解Transformer背后的理論基礎(chǔ)，比如自注意力機(jī)制（self-attention）, 位置編碼（positional embedding），目標(biāo)查詢（object query）等等，網(wǎng)上的資料比較雜亂，不夠系統(tǒng)，難以通過自學(xué)做到深入理解并融會(huì)貫通。

2023-07-18 12:54:13

383

大模型部署框架FastLLM實(shí)現(xiàn)細(xì)節(jié)解析

接著大模型部署框架 FastLLM 簡(jiǎn)要解析這篇文章首先梳理了一下FastLLM的調(diào)用鏈和關(guān)鍵的數(shù)據(jù)結(jié)構(gòu)，然后解析了 FastLLM 的一些實(shí)現(xiàn)細(xì)節(jié)和CPU/GPU后端實(shí)現(xiàn)采用的優(yōu)化技巧。

2023-07-27 10:48:27

734

基于Transformer的目標(biāo)檢測(cè)算法

掌握基于Transformer的目標(biāo)檢測(cè)算法的思路和創(chuàng)新點(diǎn)，一些Transformer論文涉及的新概念比較多，話術(shù)沒有那么通俗易懂，讀完論文仍然不理解算法的細(xì)節(jié)部分。

2023-08-16 10:51:26

363

汽車領(lǐng)域擁抱Transformer需要多少AI算力？

Transformer在汽車領(lǐng)域應(yīng)用自然是針對(duì)視覺的，ChatGPT3這種至少需要八張英偉達(dá)A100顯卡的大模型是絕對(duì)無(wú)法出現(xiàn)在汽車上的。

2023-08-17 14:57:01

512

BEV人工智能transformer

BEV人工智能transformer? 人工智能Transformer技術(shù)是一種自然語(yǔ)言處理領(lǐng)域的重要技術(shù)，廣泛應(yīng)用于自然語(yǔ)言理解、機(jī)器翻譯、文本分類等任務(wù)中。它通過深度學(xué)習(xí)算法從大規(guī)模語(yǔ)料庫(kù)中自動(dòng)

2023-08-22 15:59:28

549

基于Transformer的目標(biāo)檢測(cè)算法難點(diǎn)

2023-08-24 11:19:41

132

盤古大模型與ChatGPT的模型基礎(chǔ)架構(gòu)

華為盤古大模型以Transformer模型架構(gòu)為基礎(chǔ)，利用深層學(xué)習(xí)技術(shù)進(jìn)行訓(xùn)練。模型的每個(gè)數(shù)量達(dá)到2.6億個(gè)，是目前世界上最大的漢語(yǔ)預(yù)備訓(xùn)練模型之一。這些模型包含許多小模型，其中最大的模型包含1億4千萬(wàn)個(gè)參數(shù)。

2023-09-05 09:55:56

1229

transformer原理解析

這些embedding可以使用谷歌Word2vec (單詞的矢量表示) 找到。在我們的數(shù)值示例中，我們將假設(shè)每個(gè)單詞的embedding向量填充有 (0和1) 之間的隨機(jī)值。

2023-09-06 14:44:17

656

深入解析集成電路的基本結(jié)構(gòu)與分類

集成電路（IC），一種將數(shù)以千計(jì)的晶體管、電阻和電容等微小元件，集成在一小塊半導(dǎo)體材料（通常是硅）上的微型結(jié)構(gòu)，它的出現(xiàn)徹底改變了電子行業(yè)的發(fā)展。為了更深入理解集成電路，讓我們從它的基本結(jié)構(gòu)與分類入手進(jìn)行解析。

2023-09-27 09:11:09

1568

更深層的理解視覺Transformer，對(duì)視覺Transformer的剖析

最后是在ADE20K val上的LeaderBoard，通過榜單也可以看出，在榜單的前幾名中，Transformer結(jié)構(gòu)依舊占據(jù)是當(dāng)前的主力軍。

2023-12-07 09:39:15

357

Transformer迎來(lái)強(qiáng)勁競(jìng)爭(zhēng)者新架構(gòu)Mamba引爆AI圈！

作為通用序列模型的骨干，Mamba 在語(yǔ)言、音頻和基因組學(xué)等多種模態(tài)中都達(dá)到了 SOTA 性能。在語(yǔ)言建模方面，無(wú)論是預(yù)訓(xùn)練還是下游評(píng)估，他們的 Mamba-3B 模型都優(yōu)于同等規(guī)模的 Transformer 模型，并能與兩倍于其規(guī)模的 Transformer 模型相媲美。

2023-12-07 14:14:27

282

把Transformer大模型部署在端側(cè)，IPC SoC正在普惠AI

是其核心之一。最近愛芯元智帶來(lái)的兩款I(lǐng)PC SoC新品在黑光全彩處理、適配Transformer大模型等方面表現(xiàn)十分亮眼，愛芯元智副總裁史欣也向媒體分享了公司對(duì)IPC SoC高清化、智能化發(fā)展的洞察。 ? 兩款I(lǐng)PC SoC：AX630C和AX620Q ? ? 愛芯元智帶來(lái)的兩款新產(chǎn)品AX

2023-12-08 13:50:39

424

基于Transformer模型的壓縮方法

基于Transformer架構(gòu)的大型模型在人工智能領(lǐng)域中發(fā)揮著日益重要的作用，特別是在自然語(yǔ)言處理（NLP）和計(jì)算機(jī)視覺（CV）領(lǐng)域。

2024-02-22 16:27:19

211

已全部加載完成

搜索歷史

大模型基礎(chǔ)Transformer結(jié)構(gòu)的原理解析

評(píng)論