色综合?V综合无码综合网站,亚洲成a人亚洲无码

參數是機器學習算法的關鍵。它們是從歷史訓練數據中學到的模型的一部分。一般來說，在語言領域，參數的數量和復雜性之間的相關性非常好。例如，OpenAI的GPT-3是有史以來訓練了1750億個參數的最大語言模型之一，它可以進行原始類比、生成配方，甚至完成基本代碼。

近日，谷歌的研究人員開發(fā)了一種技術，并對其進行基準測試，他們聲稱這種技術能夠訓練包含超過一萬億參數的語言模型。他們表示，他們的1.6萬億參數模型是迄今為止最大的，比之前最大的谷歌開發(fā)的語言模型（T5-XXL）快了4倍。

研究人員指出，大規(guī)模訓練是建立強大模型的有效途徑。簡單的架構，大數據集和參數計數的支持，超越了更復雜的算法。但是，大規(guī)模的訓練雖然有效，但計算強度極高。這就是為什么研究人員追求他們所謂的Switch?Transformer，一種“稀疏激活”技術，它只使用模型權重的子集，或轉換模型內輸入數據的參數。

Switch?Transformer的新穎之處在于它有效地利用了為密集矩陣乘法（廣泛應用于語言模型的數學運算）設計的硬件，如GPU和TPU。在研究人員的分布式訓練設置中，他們的模型將不同的權重分配到不同的設備上，這樣權重就會隨著設備數量的增加而增加，但在每個設備上都保持可管理的內存和計算空間。

在一項實驗中，研究人員使用32個TPU內核預先訓練了幾種不同的Switch?Transformer模型，這個語料是一個750GB大小的數據集，包含從Reddit、Wikipedia和其他網絡資源上獲取的文本。他們讓這些模型預測有15%的單詞被掩蓋的段落中遺漏的單詞，以及其他挑戰(zhàn)，比如檢索文本回答一系列越來越難的問題。

研究人員聲稱，與包含3950億個參數和64名專家的更小的模型（Switch-XXL）相比，他們發(fā)明的擁有2048名專家的1.6萬億參數模型（Switch-C）則“完全沒有訓練不穩(wěn)定性”。

然而，在SQuAD的基準測試上，Switch-C的得分卻更低（87.7），而Switch-XXL的得分為89.6，研究人員將此歸因于微調質量、計算要求和參數數量之間的不明確關系。

在這種情況下，Switch?Transformer還是在許多下游任務上的效果有了提升。例如，在使用相同數量的計算資源的情況下，它可以使預訓練的速度提高了7倍以上。

同時研究人員證明，大型稀疏模型可以用來創(chuàng)建更小、更稠密的模型，這些模型可以對任務進行微調，其質量增益只有大型模型的30%?。

在一個測試中，一個?Switch?Transformer?模型被訓練在100多種不同的語言之間進行翻譯，研究人員觀察到其中101種語言都得到了普遍的改善。

在未來的工作中，研究人員計劃將Switch?Transformer應用于新的和不同的形態(tài)中去，包括圖像和文本。他們認為，模型稀疏性在一系列不同的媒體和多模態(tài)模型中都具有優(yōu)勢。
責任編輯:pj

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

谷歌

谷歌

+關注

關注
27

文章
6080

瀏覽量
104363
機器學習

機器學習

+關注

關注
66

文章
8306

瀏覽量
131843
大數據

大數據

+關注

關注
64

文章
8805

瀏覽量
136992

英偉達Blackwell可支持10萬億參數模型AI訓練，實時大語言模型推理

、NVLink交換機、Spectrum以太網交換機和Quantum InfiniBand交換機。 ? 英偉達稱，Blackwell擁有6項革命性技術，可支持多達10萬億參數的模型進行AI

發(fā)表于 09-04 09:10 ?2629次閱讀

蘋果AI模型訓練新動向：攜手谷歌，未選英偉達

近日，蘋果公司發(fā)布的最新研究報告揭示了其在人工智能領域的又一重要戰(zhàn)略選擇——采用谷歌設計的芯片來訓練其AI模型，而非行業(yè)巨頭英偉達的產品。這

發(fā)表于 08-01 18:11 ?820次閱讀

蘋果承認使用谷歌芯片來訓練AI

蘋果公司最近在一篇技術論文中披露，其先進的人工智能系統(tǒng)Apple Intelligence背后的兩個關鍵AI模型，是在谷歌設計的云端芯片上完

發(fā)表于 07-30 17:03 ?597次閱讀

ai大模型和ai框架的關系是什么

AI大模型和AI框架是人工智能領域中兩個重要的概念，它們之間的關系密切且復雜。 AI大模型的定義

發(fā)表于 07-16 10:07 ?3.7w次閱讀

大語言模型的預訓練

隨著人工智能技術的飛速發(fā)展，自然語言處理（NLP）作為人工智能領域的一個重要分支，取得了顯著的進步。其中，大語言模型（Large Langu

發(fā)表于 07-11 10:11 ?249次閱讀

【大語言模型：原理與工程實踐】大語言模型的應用

類任務上表現出色，甚至在零樣本條件下也能取得良好效果。另一類則需要逐步推理才能完成的任務，類似于人類的系統(tǒng)2，如數字推理等。然而，隨著參數量的增加，大語言模型在這類任務上并未出現質的飛

發(fā)表于 05-07 17:21

【大語言模型：原理與工程實踐】大語言模型的預訓練

具有以下三個非常顯著的特點，一個就是模型參數規(guī)模更大，訓練數據更多。當然，對計算資源的要求也會更

發(fā)表于 05-07 17:10

【大語言模型：原理與工程實踐】大語言模型的基礎技術

特定任務對模型進行微調。這種方法的成功不僅是自然語言處理發(fā)展的一個轉折點，還為許多現實世界的應用場帶來了前所未有的性能提升。從廣為人知的GPT到BERT,預

發(fā)表于 05-05 12:17

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

維基百科、網頁內容和書籍等，不僅掌握了語言的語法、語義和上下文信息，還能生成結構連貫、語義合理的句子和段落。大語言模型的一個顯著特點是其龐大

發(fā)表于 05-04 23:55

名單公布！【書籍評測活動NO.30】大規(guī)模語言模型：從理論到實踐

一階段訓練的獎勵模型，對有監(jiān)督微調模型對用戶提示詞補全結果的質量進行評估，與語言模型建模目標綜合

發(fā)表于 03-11 15:16

谷歌模型框架是什么軟件？谷歌模型框架怎么用？

谷歌模型框架通常指的是谷歌開發(fā)的用于機器學習和人工智能的軟件框架，其中最著名的是TensorFlow。TensorFlow是一

發(fā)表于 03-01 16:25 ?648次閱讀

谷歌模型訓練軟件有哪些？谷歌模型訓練軟件哪個好？

谷歌在模型訓練方面提供了一些強大的軟件工具和平臺。以下是幾個常用的谷歌模型

發(fā)表于 03-01 16:24 ?676次閱讀

谷歌模型訓練軟件有哪些功能和作用

谷歌模型訓練軟件主要是指ELECTRA，這是一種新的預訓練方法，源自谷歌

發(fā)表于 02-29 17:37 ?640次閱讀

【飛騰派4G版免費試用】仙女姐姐的嵌入式實驗室之五~LLaMA.cpp及3B“小模型”O(jiān)penBuddy-StableLM-3B

訓練是MetaAI研究人員認為的一種降低模型使用成本的方式。為了更好的效果，即便是LLaMA最小的70億參數的版本，其訓練使用的tokens

發(fā)表于 12-22 10:18

大語言模型簡介：基于大語言模型模型全家桶Amazon Bedrock

本文基于亞馬遜云科技推出的大語言模型與生成式AI的全家桶：Bedrock對大語言模型進行介紹。大語言

發(fā)表于 12-04 15:51 ?649次閱讀

搜索歷史

谷歌訓練開發(fā)一個萬億參數的AI語言模型

評論

英偉達Blackwell可支持10萬億參數模型AI訓練，實時大語言模型推理

蘋果AI模型訓練新動向：攜手谷歌，未選英偉達

蘋果承認使用谷歌芯片來訓練AI

ai大模型和ai框架的關系是什么

大語言模型的預訓練

【大語言模型：原理與工程實踐】大語言模型的應用

【大語言模型：原理與工程實踐】大語言模型的預訓練

【大語言模型：原理與工程實踐】大語言模型的基礎技術

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

名單公布！【書籍評測活動NO.30】大規(guī)模語言模型：從理論到實踐

谷歌模型框架是什么軟件？谷歌模型框架怎么用？

谷歌模型訓練軟件有哪些？谷歌模型訓練軟件哪個好？

谷歌模型訓練軟件有哪些功能和作用

【飛騰派4G版免費試用】仙女姐姐的嵌入式實驗室之五~LLaMA.cpp及3B“小模型”O(jiān)penBuddy-StableLM-3B

大語言模型簡介：基于大語言模型模型全家桶Amazon Bedrock