亚洲中文在线精品国产,2019天堂精品视频在线观看,午夜理理伦a级在线观看

從理論分析入手把握大規(guī)模神經(jīng)網(wǎng)絡優(yōu)化的規(guī)律，可以指導實踐中的超參數(shù)選擇。反過來，實踐中的超參數(shù)選擇也可以指導理論分析。本篇文章聚焦于大語言模型，介紹從 GPT 以來大家普遍使用的訓練超參數(shù)的變化。

規(guī)模律研究的是隨著神經(jīng)網(wǎng)絡規(guī)模的增大，超參數(shù)、性能是如何改變的。規(guī)模律是對模型、數(shù)據(jù)、優(yōu)化器關(guān)系的深刻刻畫，揭示大模型優(yōu)化時的普遍規(guī)律。通過規(guī)模律，我們可以用少量成本在小模型上驗證超參數(shù)的選擇和性能的變化情況，繼而外推到大模型上。

在 LLM 中規(guī)模性常常變換模型大小和數(shù)據(jù)規(guī)模，進行大量調(diào)參而保持優(yōu)化器不變。故對于大模型優(yōu)化器而言，規(guī)模性是其性能很好的展現(xiàn)（性能上限）。設(shè)計更好的優(yōu)化器（用更少的數(shù)據(jù)達到相同的性能）就是在挑戰(zhàn)現(xiàn)有的規(guī)模律。

超參最佳實踐

我們首先回顧從 GPT 以來重要文章中使用的超參數(shù)，本文將不同模型的超參數(shù)列舉在下方。首先，除了 Google 的 T5, PaLM 外，其它的模型都是用了 Adam 類的優(yōu)化器（Adam 或 AdamW）。其次，超參數(shù)選擇上的更新都是在前人的基礎(chǔ)上慢慢變化，并被后續(xù)采納的。這包括使用 dropuout、梯度范數(shù)裁剪（Megatron-LM），批量的動態(tài)變化（GPT-3），Adam （GPT-3）。

學習率：我們發(fā)現(xiàn)隨著模型的增大，學習率越來越小。學習率與數(shù)據(jù)量、批量大小都沒有明顯的關(guān)系，且一般使用左右的學習率。學習率的變化策略都包括 warmup 和衰減（decay）兩階段。目前普遍使用 GPT-3 中余弦衰減到原學習率的十分之一。谷歌則傾向于使用平方根衰減（優(yōu)點之一在于不用提前知道訓練步數(shù)）。

批量大?。?/span>訓練使用的批量大小隨著模型的增大也在不斷增大，從 GPT 的 32k、BERT 的 128k，到 GPT-3 的 3.2M、LLaMA 的 4M。值得注意的是，GPT-3 的批量大小是從 32k 開始，在 12B tokens 的訓練中逐漸增加到 4M 的，批量大小增加了 125 倍。

OpenAI 在論文中認為隨著學習的進行，模型能夠承載的批量大小快速增加。而后續(xù)很多工作直接使用了更大的批量。這可能是批量增大的過程只占總數(shù)據(jù)的 2%，即使直接使用最大批量也不會造成太大的問題。

權(quán)重衰減 /L2 正則化：在 L2 正則化（或 weight decay）上，GPT 與 BERT 都使用了正則化，后續(xù)的模型有些使用而有些沒有使用。首先注意到，在 GPT 和 BERT 時代，數(shù)據(jù)量還是大于模型參數(shù)量的（over-parameterized），訓練時也是使用多輪訓練（multi-epoch）。

而隨著人們意識到數(shù)據(jù)的重要性，數(shù)據(jù)量已經(jīng)超越模型的參數(shù)量的（GPT3, 680B tokens, 175B params, under-parameterized），訓練時也只使用了一輪訓練（single-epoch）。根據(jù) [ADV+23] 中的分析，在 over-parameterized 網(wǎng)絡中使用 weight decay 相當于對優(yōu)化器施加了潛在的正則；而在 under-parameterized 網(wǎng)絡中，weight decay 只是改變了實際的學習率。隨著網(wǎng)絡訓練權(quán)重的變化，相當于施加了自適應的學習率變化策略。

在本文的最后列舉了不同模型的超參選擇。其中 Adam 括號中的數(shù)字代表，sch 為學習率調(diào)整策略，bs為批量大小，L2 為權(quán)重衰減的權(quán)重，init 為初始化方法。

神經(jīng)網(wǎng)絡規(guī)模律

神經(jīng)網(wǎng)絡規(guī)模律（neural scaling laws）通過廉價的小規(guī)模實驗來預測大規(guī)模模型的表現(xiàn)，從而決定最佳的架構(gòu)、算法、數(shù)據(jù)集、超參數(shù)等等。從廣義上講所有因素都可以研究：模型的寬度，數(shù)據(jù)數(shù)量，計算資源（FLOPs）等等。

上圖是強化學習中的一些例子，黑色點為實驗數(shù)據(jù)，紅色線為擬合的規(guī)模律，綠色點為驗證數(shù)據(jù)?？梢钥吹?，如果規(guī)模律的擬合效果好，就可以用來預測大規(guī)模模型的表現(xiàn)。除了上述單調(diào)的規(guī)模律，還有一些非單調(diào)的規(guī)模律，如下圖所示。Tranformer 的性能隨著模型的寬度增加先增加后減小最后再增加。

神經(jīng)網(wǎng)絡規(guī)模律的研究重點之一在于研究什么樣的曲線能夠擬合上述現(xiàn)象。一個簡單的擬合策略是使用，這可以對付不少情況，然而無法應對上述非單調(diào)的情況。[CGR+23] 提出了自己的擬合曲線 BNSL（broken neural scaling laws）

其中對應橫坐標，其它參數(shù)為擬合參數(shù)。其中，代表了曲線由段組成，當時就是。大家不用糾結(jié)于公式的具體形式，該公式只是希望“大包大攬”，把所有可能的規(guī)模性都考慮進來。這個公式允許出現(xiàn)下圖中所示的三種變化方式，具有很高的靈活性。

大語言模型規(guī)模律

討論大語言模型規(guī)模律最重要的兩篇可以說是 OpenAI 的 [KMH+20] 和 DeepMind 的 Chinchilla[HBM+22] 了。我們將主要介紹這兩篇文章的結(jié)論。

定義為模型參數(shù)量，為數(shù)據(jù)量，為計算量（FLOPs），為損失值。超參數(shù)分為優(yōu)化超參數(shù)（學習率等）和架構(gòu)超參數(shù)（如深度、寬度）。為批量大小，為訓練步數(shù)，對于單輪訓練，。其中對于大語言模型，確定和大小后，就可以估算出。

實際中我們擁有的計算量為時，為了獲得最低的損失，我們希望通過選擇和使得最小。記為給定計算量下最佳的，即

1. 模型性能與 密切相關(guān)，與架構(gòu)超參數(shù)關(guān)系不大。

2. L與 成冪律分布（Power-law），即。

這里指的是在給定下的最佳性能，即最低的損失值。該規(guī)律的前提條件是不受另外兩個因素制約。由于，該規(guī)律最終會失效，但 [KMH+22] 的實驗規(guī)模使我們看不到這一點。

3. 給定計算量后， 。

該結(jié)論即當模型參數(shù)翻倍后，數(shù)據(jù)量也應該翻倍從而得到最優(yōu)性能。這是 [HBM+22] 中對 [KMH+20] 主要糾正的結(jié)論。下圖中黑色虛線為 [KMH+20] 的結(jié)論，其它三色線是 [HBM+22] 用三個方法得出的相同結(jié)論，并且根據(jù)該放縮率訓練了 Chinchilla 模型。

在 [KMH+20] 中，作者認為模型增大 5 倍，數(shù)據(jù)量增大 8 倍。[HBM+22] 認為兩個因素導致了[KMH+20] 中的錯誤：

對不同的沒有嘗試使用不同的學習率調(diào)整策略（正確的學習率調(diào)整策略對訓練影響很大）
[KMH+20] 使用的較小。規(guī)模性存在曲率，導致用太小的得到的結(jié)論不準確。（規(guī)模性存在曲率也說明了最終該規(guī)律會失效）

這里展式 [HBM+20] 中的一種論證，即繪制相同下不同與最優(yōu) 的關(guān)系，從而得到最優(yōu)配置。

Chinchilla 規(guī)模律的最終擬合結(jié)果如下，通過代入我們可以計算得到述的取值，并可以揭示數(shù)據(jù)與模型規(guī)模應該同時增加的規(guī)律。此外，在 Chinchilla 的設(shè)置下，。

4. 臨界批量大小 ，與其它因素弱相關(guān)。

臨界批量大小在大規(guī)模神經(jīng)網(wǎng)絡優(yōu)化：批量與噪聲中有過介紹，可以理解為使用相同可以達到相同的最大。在 [KMH+20] 中，擬合得到。約小可以用的批量越大也解釋了上文 GPT-3 模型中批量大小的增大。

另一方面，訓練損失隨著訓練步數(shù)呈現(xiàn)快速下降-線性-平坦三個階段的特點（見下圖 Llama 訓練圖）。由于訓練早期訓練損失的快速下降，臨界批量大小又隨損失冪律下降，可見臨界批量大小隨訓練步數(shù)下降的很快。我們用將 llama 的損失帶入計算，當訓練的非常前期損失就能下降到 2.2，臨界批量大小 4.7M，這與 llama 使用的 4M 批量大小吻合。這也解釋了為什么可以省略掉批量大小的調(diào)整。

如果損失能夠下降到 1.5，臨界批量大小就會增加到 30M，所以 llama 可以在訓練中進一步增加批量大小的使用。按此推斷，GPT-4 最終使用了 60M 的批量大小，對應的訓練損失可能為 1.3。

5. 模型的遷移泛化能力與在訓練數(shù)據(jù)集上的泛化能力正相關(guān)。

如右圖所示，在訓練數(shù)據(jù)集上的測試損失越低，則在其它數(shù)據(jù)集上的損失也越低（如訓練在 Wikipedia，測試在 WebText2）。右圖則顯示隨著參數(shù)量增大，模型的測試損失越低。且在不同數(shù)據(jù)集上的測試損失與在訓練集上的測試測試損失僅僅相差一個常數(shù)偏移。

6. 更大的模型收斂更快（更少的數(shù)據(jù)量達到相同的損失）

下圖中越亮的線代表更大的模型。左圖說明達到相同的測試損失，使用大模型需要見到的數(shù)據(jù)量更少。右圖中則是使用相同計算量的比較。兩條線的交點分割了使用大小模型的優(yōu)劣：在交點左側(cè)應該使用小模型，在交點右側(cè)應該使用大模型。

圖中另外一個重要的觀察是，訓練后期損失下降的更慢。故與其訓練一個小模型到收斂，不如用相同的資源訓練一個不到收斂的大模型更加高效。

大語言模型規(guī)模律拾遺

除了上述兩篇經(jīng)典文章之外，不少文章也給出了自己的洞見。

3.1 涌現(xiàn)是指標選擇的結(jié)果，連續(xù)指標與參數(shù)規(guī)模符合冪律分布

涌現(xiàn)現(xiàn)象指的是模型的某些性能隨著模型參數(shù)增加到一定規(guī)模突然不可預測的快速提升。這被認為是大模型能力的重要體現(xiàn)。這里我們研究的是指標性能與模型參數(shù)的關(guān)系，也是一種規(guī)模律。

[SMK23] 論文則指出，大部分所謂的涌現(xiàn)現(xiàn)象，都出現(xiàn)在兩種指標上：多選題的正確性，以及完全字符串匹配正確性。更換指標可以更好的對模型能力的規(guī)模性進行預測。

上文中我們已經(jīng)知道，模型損失值隨模型參數(shù)指數(shù)下降（圖A），從而可以得到單個樣本預測的正確率指數(shù)上升（圖B）。如果將非線性指標“完全字符串匹配正確率”替換為“錯誤預測的 Token 數(shù)”，可以發(fā)現(xiàn)同樣的冪律分布。同理，將不連續(xù)的選擇正確率替換為連續(xù)的選擇正確率，也可以得到冪律分布。

筆者認為，這篇文章不應該看做對”涌現(xiàn)“重要性的否定。在現(xiàn)實世界、生活、市場中，我們關(guān)心的指標就是非線性，或者說非連續(xù)指標。這篇文章的意義在于，我們可以用連續(xù)指標更好的建模規(guī)模律，從而預測非連續(xù)指標的變化。同時，這也揭示了大模型中”量變產(chǎn)生質(zhì)變“的背后機理，并不需要用“整體的復雜交互”進行解釋。

3.2 大模型需要更小的學習率

通過上文中的大模型參數(shù)經(jīng)驗，我們很容易就發(fā)現(xiàn)大模型需要更小的學習率。[YHB+22] 在下左圖中展示了這點。其認為這是為了控制總方差在一定值（方差隨參數(shù)量以增大）。對于這點筆者暫未找到詳細的理論解釋。[YHB+22] 中還提出了一種新的初始化和參數(shù)設(shè)置方法以保證不同規(guī)模的模型可以使用相同的學習率，這里不再展開。

3.3 使用重復數(shù)據(jù)訓練時（multi-epoch），應該用更多的輪次訓練較小的模型

[MRB+23] 探究了當數(shù)據(jù)有限時，如何訓練大模型。左圖中，當輪次小于 4 時，與使用新數(shù)據(jù)效果相當（GPT-4 中重復了文本兩次，代碼四次，與該結(jié)果印證）。當輪次大于 40 次時，則幾乎沒有提升。右圖中，用左圖的擬合結(jié)果可以計算得到，相比于 Chinchilla 的規(guī)模性，使用重復數(shù)據(jù)訓練時，應該用更多的數(shù)據(jù)（重復數(shù)）訓練較小的模型。

3.4 使用重復數(shù)據(jù)訓練對訓練幫助很小

[XFZ+23] 進行了大量的實驗驗證了一系列觀點。下左圖中，作者在 Encoder-Decoder 模型上驗證了 Chinchilla 規(guī)模律同樣成立（即數(shù)據(jù)量與模型參數(shù)量應該同時增加）。右圖則顯示了使用出發(fā)數(shù)據(jù)訓練對性能沒有幫助。文中還嘗試了高質(zhì)量數(shù)據(jù)、UL2 訓練目標、不同的正則化方法，最終發(fā)現(xiàn)除了 Dropout 之外對重復訓練都沒有幫助。

3.5 訓練比 Chinchilla 規(guī)模律更小的模型

Chinchilla 規(guī)模律的出發(fā)點是給定計算量，通過分配參數(shù)量和數(shù)據(jù)量最小化損失值。換言之，給定要達到的損失值，最小化計算量。然而在實際中，訓練一個小模型能帶來計算量（代表訓練開銷）以外的收益：

小模型部署后進行推理成本更小
小模型訓練所需的集群數(shù)量更少

故 [H23] 提出，在不大幅度增加訓練開銷的前提下，盡可能減小模型的參數(shù)量。具體而言，作者在 Chinchilla 規(guī)模律的基礎(chǔ)上，讓模型的參數(shù)量變?yōu)?，進而計算出達到相同損失所需的數(shù)據(jù)量。通過推導可得與無關(guān)，即無論訓練開銷多大，與的關(guān)系都是一致的。下圖展示了計算量的增加值與的關(guān)系。

其中，LLaMA-7B 就比 Chinchilla 中對應的最優(yōu)解使用了更小的模型和更多的計算量（數(shù)據(jù)）。由于參數(shù)量減小到一定程度，需要的計算量會有急劇的上升，作者認為模型的大小不應該小于臨界模型大小。譬如當使用 30% 的參數(shù)量時，所需計算量會增加 100%。參數(shù)量不應該再繼續(xù)減小（否則計算量會上升很多）。

在 Llama-2 上我們也能看到類似的現(xiàn)象。根據(jù) Chinchilla 規(guī)模性，2T 數(shù)據(jù)對應大約 50B 的參數(shù)量。所以對于 Llama-2-7b 來說，訓練了一個相對更小的模型。而對于 Llama-2-70b 來說，則不夠效率。

Werra認為我們應該用更多的數(shù)據(jù)繼續(xù)訓練更小的模型。這其中的難點在于：

訓練所需的數(shù)據(jù)量不夠（正如 [XFZ+23] 指出的，我們正在用盡互聯(lián)網(wǎng)上所有的 tokens）。
小集群上訓練小模型需要更長的訓練時間（Llama2 500k its）；如果使用大集群訓練則更困難（比如要使用更大的批量大小才能提高效率）。

LLM 的超參選擇

4.1 GPT（117M）：

Adam
lr：2.5e-4
sch: warmup linear 2k, cosine decay to 0
bs: 32k=64x512
its: 3M (100e)
L2: 0.01
init: N(0, 0.02)

4.2 BERT（330M）：

Adam(0.9,0.999)
lr: 1e-4
sch: warmup 10k, linear decay to 0
bs: 128k=256x512
its: 1M (40e)
L2: 0.01
dropout: 0.1

4.3 Megatron-LM（GPT2 8.3B & Bert 3.9B）：

Adam
lr: 1.5e-4
sch: warmup 2k, cosine decay to 1e-5
bs: 512k=512x1024
its: 300k
L2: 0.01
dropout: 0.1
gradient norm clipping: 1.0

init: N（0, 0.02）, weights before residual layer

4.4 T5(11B)

AdaFactor
lr: 1e-2
sch: warmup constant 10k, sqrt decay
bs: 65k=128x512
its: 500k (1e)

4.5 GPT-3

Adam(0.9, 0.95, eps=1e-8)
lr & final bs:?
sch: warmup linear 375m tokens, cosine decay to 0.1xlr 260b tokens, continue training with 0.1xlr
bs sch: 32k to final bs gradually in 4-12B tokens
seq length: 2048
data: 680B
gradient norm clipping: 1.0

4.6 Gopher

Adam (Adafactor unstable beyond 7.1B)
lr & final bs:?
sch: warmup 1.5k, cosine decay to 0.1xlr
gradient norm clipping: 0.25 for 7.1B & 280B, 1.0 for the rest

4.7 Chinchilla(70B)

AdamW
lr: 1e-4
bs: 1.5M to 3M
others follow Gopher

4.8 OPT

Adam(0.9, 0.95) (SGD plateau quickly)
lr & bs:?
sch: warmup linear 2k, decay to 0.1xlr
L2: 0.1
dropout: 0.1
gradient norm clipping: 1.0
init: N(0, 0.006), output layer N(0, 0.006*）

4.9 PaLM

Adafactor(0.9, 1-)
lr 1e-2

sch: warmup 10k, decay at

bs: 1M (<50k), 2M (<115k), 4M (<255k)

L2: lr

dropout: 0.1
gradient norm clipping: 1.0
its: 255k?init: N(0,embedding N(0,1)

4.10 LLaMA(RMSNorm, SwiGLU, RoPE)

AdamW(0.9, 0.95)
lr & bs:
sch: warmup 2k, decay to 0.1xlr
L2: 0.1
gradient norm clipping: 1.0

4.11 LLaMA2

AdamW(0.9, 0.95, eps=1e-5)
lr?
sch: warmup 2k, decay to 0.1xlr
L2: 0.1
gradient norm clipping: 1.0

參考文獻

[ADV+23] Why do we need weight decay in modern deep learning?
[CGR+23] Broken neural scaling laws
[HBM+22] Training Compute-Optimal Large Language Models
[KMH+20] Scaling Laws for Neural Language Models
[SMK23] Are Emergent Abilities of Large Language Models a Mirage?
[YHB+22] Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer
[MRB+23] Scaling Data-Constrained Language Models
[XFZ+23] To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis
[H23]Go smol or go home

原文標題：大規(guī)模神經(jīng)網(wǎng)絡優(yōu)化：超參最佳實踐與規(guī)模律

文章出處：【微信公眾號：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

物聯(lián)網(wǎng)

物聯(lián)網(wǎng)

+關(guān)注

關(guān)注
2894

文章
43312

瀏覽量
366408

原文標題：大規(guī)模神經(jīng)網(wǎng)絡優(yōu)化：超參最佳實踐與規(guī)模律

文章出處：【微信號：tyutcsplab，微信公眾號：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

神經(jīng)網(wǎng)絡優(yōu)化器有哪些

神經(jīng)網(wǎng)絡優(yōu)化器是深度學習中用于調(diào)整網(wǎng)絡參數(shù)以最小化損失函數(shù)的重要工具。這些優(yōu)化器通過不同的策略來更新網(wǎng)絡權(quán)重，以提高訓練效率和模型性能。以下

發(fā)表于 07-11 16:33 ?316次閱讀

BP神經(jīng)網(wǎng)絡和人工神經(jīng)網(wǎng)絡的區(qū)別

BP神經(jīng)網(wǎng)絡和人工神經(jīng)網(wǎng)絡（Artificial Neural Networks，簡稱ANNs）之間的關(guān)系與區(qū)別，是神經(jīng)網(wǎng)絡領(lǐng)域中一個基礎(chǔ)且重要的話題。本文將從定義、結(jié)構(gòu)、算法、應用及未來發(fā)展等多個方面，詳細闡述BP

發(fā)表于 07-10 15:20 ?379次閱讀

rnn是遞歸神經(jīng)網(wǎng)絡還是循環(huán)神經(jīng)網(wǎng)絡

RNN（Recurrent Neural Network）是循環(huán)神經(jīng)網(wǎng)絡，而非遞歸神經(jīng)網(wǎng)絡。循環(huán)神經(jīng)網(wǎng)絡是一種具有時間序列特性的神經(jīng)網(wǎng)絡，能夠處理序列數(shù)據(jù)，具有記憶功能。以下是關(guān)于循環(huán)

發(fā)表于 07-05 09:52 ?382次閱讀

遞歸神經(jīng)網(wǎng)絡是循環(huán)神經(jīng)網(wǎng)絡嗎

遞歸神經(jīng)網(wǎng)絡（Recurrent Neural Network，簡稱RNN）和循環(huán)神經(jīng)網(wǎng)絡（Recurrent Neural Network，簡稱RNN）實際上是同一個概念，只是不同的翻譯方式

發(fā)表于 07-04 14:54 ?446次閱讀

神經(jīng)網(wǎng)絡優(yōu)化算法有哪些

神經(jīng)網(wǎng)絡優(yōu)化算法是深度學習領(lǐng)域中的核心技術(shù)之一，旨在通過調(diào)整網(wǎng)絡中的參數(shù)（如權(quán)重和偏差）來最小化損失函數(shù)，從而提高模型的性能和效率。本文將詳細探討神經(jīng)網(wǎng)絡

發(fā)表于 07-03 16:01 ?280次閱讀

反向傳播神經(jīng)網(wǎng)絡和bp神經(jīng)網(wǎng)絡的區(qū)別

反向傳播神經(jīng)網(wǎng)絡（Backpropagation Neural Network，簡稱BP神經(jīng)網(wǎng)絡）是一種多層前饋神經(jīng)網(wǎng)絡，它通過反向傳播算法來調(diào)整網(wǎng)絡中的權(quán)重和偏置，以達到最小化誤差的

發(fā)表于 07-03 11:00 ?365次閱讀

bp神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡區(qū)別是什么

BP神經(jīng)網(wǎng)絡（Backpropagation Neural Network）和卷積神經(jīng)網(wǎng)絡（Convolutional Neural Network，簡稱CNN）是兩種不同類型的人工神經(jīng)網(wǎng)絡，它們在

發(fā)表于 07-03 10:12 ?518次閱讀

卷積神經(jīng)網(wǎng)絡和bp神經(jīng)網(wǎng)絡的區(qū)別

卷積神經(jīng)網(wǎng)絡（Convolutional Neural Networks，簡稱CNN）和BP神經(jīng)網(wǎng)絡（Backpropagation Neural Networks，簡稱BPNN）是兩種

發(fā)表于 07-02 14:24 ?1010次閱讀

如何訓練和優(yōu)化神經(jīng)網(wǎng)絡

神經(jīng)網(wǎng)絡是人工智能領(lǐng)域的重要分支，廣泛應用于圖像識別、自然語言處理、語音識別等多個領(lǐng)域。然而，要使神經(jīng)網(wǎng)絡在實際應用中取得良好效果，必須進行有效的訓練和優(yōu)化。本文將從神經(jīng)網(wǎng)絡的訓練過程

發(fā)表于 07-01 14:14 ?268次閱讀

電機控制系統(tǒng)的神經(jīng)網(wǎng)絡優(yōu)化策略

電機控制系統(tǒng)作為現(xiàn)代工業(yè)自動化的核心組成部分，其性能直接影響到整個生產(chǎn)線的效率和穩(wěn)定性。隨著人工智能技術(shù)的快速發(fā)展，神經(jīng)網(wǎng)絡在電機控制系統(tǒng)中的應用越來越廣泛。神經(jīng)網(wǎng)絡優(yōu)化策略通過模擬人腦神經(jīng)

發(fā)表于 06-25 11:46 ?386次閱讀

【大規(guī)模語言模型：從理論到實踐】- 閱讀體驗

注意力機制提高了模型在處理長序列數(shù)據(jù)時的性能，但在某些任務上，傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡（RNN）或卷積神經(jīng)網(wǎng)絡（CNN）可能仍然具有優(yōu)勢。此外，注意力機制本身也可能存在某些性能瓶頸，需要進一步的研究和優(yōu)化

發(fā)表于 06-07 14:44

名單公布！【書籍評測活動NO.30】大規(guī)模語言模型：從理論到實踐

和強化學習展開，詳細介紹各階段使用的算法、數(shù)據(jù)、難點及實踐經(jīng)驗。預訓練階段需要利用包含數(shù)千億甚至數(shù)萬億單詞的訓練數(shù)據(jù)，并借助由數(shù)千塊高性能GPU 和高速網(wǎng)絡組成的超級計算機，花費數(shù)十天完成深度神經(jīng)網(wǎng)絡

發(fā)表于 03-11 15:16

韓國開發(fā)出大規(guī)模人工神經(jīng)網(wǎng)絡硬件技術(shù)

借助hBN這種二維材料的優(yōu)質(zhì)性能，該團隊成功地實現(xiàn)了高集成度與超低功耗。他們精心設(shè)計的人工神經(jīng)元及突觸器件，在簡化結(jié)構(gòu)并提高網(wǎng)絡可擴展性的同時，更具優(yōu)越的處理能力。此舉將為大規(guī)模神經(jīng)網(wǎng)絡

發(fā)表于 01-26 09:55 ?460次閱讀

詳解深度學習、神經(jīng)網(wǎng)絡與卷積神經(jīng)網(wǎng)絡的應用

處理技術(shù)也可以通過深度學習來獲得更優(yōu)異的效果，比如去噪、超分辨率和跟蹤算法等。為了跟上時代的步伐，必須對深度學習與神經(jīng)網(wǎng)絡技術(shù)有所學習和研究。本文將介紹深度學習技術(shù)、神經(jīng)網(wǎng)絡與卷積神經(jīng)網(wǎng)絡

發(fā)表于 01-11 10:51 ?1600次閱讀

人工神經(jīng)網(wǎng)絡相關(guān)資料

，但計算機則很難做到這一點。大腦是由生物神經(jīng)元構(gòu)成的巨型網(wǎng)絡，它在本質(zhì)上不同于計算機，是一種大規(guī)模的并行處理系統(tǒng)，它具有學習、聯(lián)想記憶、綜合等能力，并有巧妙的信息處理方法。

發(fā)表于 09-27 06:13

搜索歷史

大規(guī)模神經(jīng)網(wǎng)絡優(yōu)化：超參最佳實踐與規(guī)模律

神經(jīng)網(wǎng)絡規(guī)模律

大語言模型規(guī)模律