0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌推出1.6萬億參數(shù)的人工智能語言模型,打破GPT-3記錄

hl5C_deeptechch ? 來源:DeepTech深科技 ? 作者:DeepTech深科技 ? 2021-01-18 17:16 ? 次閱讀

古諺道:“熟讀唐詩三百首,不會(huì)作詩也會(huì)吟?!?這句話放在目前的人工智能語言模型中也非常適用。

此前,OpenAI 的研究人員開發(fā)出 “GPT-3”,這是一個(gè)由 1750 億個(gè)參數(shù)組成的 AI 語言模型,堪稱有史以來訓(xùn)練過的最大的語言模型,可以進(jìn)行原始類比、生成配方、甚至完成基本代碼編寫。

如今,這一記錄被打破了。近日,谷歌研究人員開發(fā)出一個(gè)新的語言模型,它包含了超過 1.6 萬億個(gè)參數(shù),這是迄今為止最大規(guī)模的人工智能語言模型,比之前谷歌開發(fā)的語言模型 T5-XXL 的規(guī)模大了 4 倍。

6735ad0e-584e-11eb-8b86-12bb97331649.png

參數(shù)是機(jī)器學(xué)習(xí)算法的關(guān)鍵所在,它們是從歷史訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的模型的一部分。一般而言,在語言領(lǐng)域中參數(shù)的數(shù)量和復(fù)雜度之間的相關(guān)性非常好。這一點(diǎn)類似于 GPU晶體管的數(shù)量,在同樣的制程工藝下,晶體管越多其算力便越強(qiáng),而語言模型包含的參數(shù)愈多就愈接近人類自然語言。

正如研究人員在一篇論文中指出的那樣,大規(guī)模的訓(xùn)練是通向強(qiáng)大模型的有效途徑,在大數(shù)據(jù)集和參數(shù)計(jì)數(shù)的支持下,簡單的體系結(jié)構(gòu)遠(yuǎn)遠(yuǎn)超過了更復(fù)雜的算法。但是,有效的大規(guī)模培訓(xùn)在計(jì)算上非常密集。這就是為什么研究人員熱衷于他們所說的 “開關(guān)變壓器”,這是一種 “稀疏激活” 技術(shù),它只使用模型權(quán)重的一個(gè)子集或者在模型中轉(zhuǎn)換輸入數(shù)據(jù)的參數(shù)。

“開關(guān)變壓器” 是早在 90 年代初首次提出的一種人工智能模型范例,大體意思是將多個(gè)專家或?qū)iT處理不同任務(wù)的模型放在一個(gè)更大的模型中,并有一個(gè) “門控網(wǎng)絡(luò)” 來選擇為任何給定數(shù)據(jù)咨詢哪些專家。

在一項(xiàng)實(shí)驗(yàn)中,研究人員使用 32 個(gè) TPU 內(nèi)核對(duì)幾個(gè)不同的 “開關(guān)變壓器” 模型進(jìn)行了預(yù)訓(xùn)練,這些 TPU 內(nèi)核位于一個(gè)從 Reddit、Wikipedia 和其他網(wǎng)絡(luò)資源中搜集的 750GB 大小的文本數(shù)據(jù)語料庫中,任務(wù)則是讓這些模型預(yù)測段落中 15% 的單詞被遮住的缺失單詞,以及其他挑戰(zhàn),比如檢索文本來回答一系列越來越難的問題。

研究人員稱,包含了 1.6 萬億參數(shù)和 2048 名專家的模型 Switch-C 顯示 “完全沒有訓(xùn)練不穩(wěn)定性”。然而,在桑福德問答數(shù)據(jù)集的基準(zhǔn)測試中,Switch-C 的得分居然比僅包含 3950 億個(gè)參數(shù)和 64 名專家的模型 Switch-XXL 還要低一點(diǎn),對(duì)此,研究人員認(rèn)為是因?yàn)槲⒄{(diào)質(zhì)量、計(jì)算要求和參數(shù)數(shù)量之間的不透明關(guān)系所致。

在這種情況下,“開關(guān)變壓器” 導(dǎo)致了一些下游任務(wù)的收益。例如,研究人員稱在使用相同數(shù)量的計(jì)算資源的情況下,它可以使訓(xùn)練前的加速速度提高 7 倍以上。他們還證明 “稀疏激活” 技術(shù)可以用來創(chuàng)建更小、更密集的模型,這些模型可以對(duì)任務(wù)進(jìn)行微調(diào),其質(zhì)量增益為大型模型的 30%。

對(duì)此他們表示:雖然這項(xiàng)工作主要集中在超大模型上,但我們也發(fā)現(xiàn)只有兩名專家的模型可以提高性能,同時(shí)很容易適應(yīng)通用 GPU 或 TPU 的內(nèi)存限制。另外,通過將稀疏模型提取為稠密模型,可以實(shí)現(xiàn) 10 到 100 倍的壓縮率,同時(shí)獲得專家模型約 30% 的質(zhì)量增益。

在另一個(gè)測試中,“開關(guān)變壓器” 模型被訓(xùn)練在 100 多種不同語言之間進(jìn)行翻譯,研究人員觀察到 101 種語言的 “普遍改善”,91% 的語言受益于比基線模型快 4 倍以上的速度。未來,研究人員還計(jì)劃將 “開關(guān)變壓器” 應(yīng)用于新的領(lǐng)域,比如圖像和文本。他們認(rèn)為,模型稀疏性可以賦予優(yōu)勢,在一系列不同的媒體以及多模態(tài)模型。

美中不足的是,研究人員的工作沒有考慮到這些語言模型在現(xiàn)實(shí)世界中的影響,比如模型通常會(huì)放大一些公開數(shù)據(jù)中的偏見。對(duì)此,OpenAI 公司指出,這可能導(dǎo)致在女性代詞附近放置 “淘氣”;而在 “恐怖主義” 等詞附近放置 “伊斯蘭” 等。根據(jù)米德爾伯里國際研究所的說法,這種偏見可能被惡意行為者利用,通過散布錯(cuò)誤信息、造謠和謊言來煽動(dòng)不和。

而路透社也曾報(bào)道稱,谷歌的研究人員現(xiàn)在被要求在研究人臉和情緒分析以及種族分類等話題之前,先咨詢法律、政策和公關(guān)團(tuán)隊(duì),性別或政治派別。

綜上所述,盡管谷歌訓(xùn)練的 1.6 萬億參數(shù)的人工智能語言模型還沒辦法做到真正意義上的人工智能,存在一些不足之處需要完善和優(yōu)化,但隨著在摩爾定律下電子設(shè)備算力的不斷提升,近些年 AI 語言模型參數(shù)量級(jí)呈指數(shù)倍發(fā)展,相信在不久的將來,或許真的會(huì)出現(xiàn)一個(gè)無限接近熟讀人類歷史所有文明記錄的超級(jí)模型,能夠和人類完全實(shí)現(xiàn)自然語言交流,不妨讓我們好好期待一下吧!

原文標(biāo)題:GPT-3記錄被打破!谷歌推出1.6萬億參數(shù)的人工智能語言模型

文章出處:【微信公眾號(hào):DeepTech深科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6080

    瀏覽量

    104363
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46061

    瀏覽量

    235016

原文標(biāo)題:GPT-3記錄被打破!谷歌推出1.6萬億參數(shù)的人工智能語言模型

文章出處:【微信號(hào):deeptechchina,微信公眾號(hào):deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    英偉達(dá)預(yù)測機(jī)器人領(lǐng)域或迎“GPT-3時(shí)刻”

    未來2-3年內(nèi),機(jī)器人基礎(chǔ)模型的研究將迎來重大突破,這一時(shí)刻被形象地比喻為機(jī)器人領(lǐng)域的“GPT-3時(shí)刻”。
    的頭像 發(fā)表于 09-20 17:05 ?425次閱讀

    中國電信發(fā)布全球首個(gè)單體稠密萬億參數(shù)語義模型

    近日,中國電信人工智能研究院(TeleAI)攜手北京智源人工智能研究院,共同推出了全球首個(gè)單體稠密萬億參數(shù)語義
    的頭像 發(fā)表于 06-20 10:50 ?509次閱讀

    OpenAI推出面向所有用戶的AI模型GPT-4o

    在周一的直播盛會(huì)上,OpenAI揭開了其最新的人工智能模型GPT-4o的神秘面紗。這款新模型旨在為其著名的聊天機(jī)器人ChatGPT提供更強(qiáng)大、更經(jīng)濟(jì)的支持。
    的頭像 發(fā)表于 05-15 09:23 ?310次閱讀

    OpenAI推出新款人工智能模型GPT-4o

    人工智能領(lǐng)域的領(lǐng)軍者OpenAI在最近的春季更新活動(dòng)中,重磅推出了全新升級(jí)的ChatGPT版本,它支持了GPT-4o這一強(qiáng)大的人工智能模型。
    的頭像 發(fā)表于 05-14 10:52 ?455次閱讀

    微軟準(zhǔn)備推出全新人工智能語言模型

    微軟近期傳出消息,正在秘密研發(fā)一款全新的人工智能語言模型,這款模型在規(guī)模上預(yù)計(jì)將具備與谷歌和OpenAI等業(yè)界巨頭相抗衡的實(shí)力。據(jù)悉,這款新
    的頭像 發(fā)表于 05-08 09:30 ?349次閱讀

    【大語言模型:原理與工程實(shí)踐】揭開大語言模型的面紗

    語言模型(LLM)是人工智能領(lǐng)域的尖端技術(shù),憑借龐大的參數(shù)量和卓越的語言理解能力贏得了廣泛關(guān)注。它基于深度學(xué)習(xí),利用神經(jīng)網(wǎng)絡(luò)框架來理解和生
    發(fā)表于 05-04 23:55

    谷歌宣布在醫(yī)療保健領(lǐng)域推出人工智能計(jì)劃

    谷歌最近公布了一系列激動(dòng)人心的計(jì)劃,將先進(jìn)的人工智能模型引入醫(yī)療保健領(lǐng)域。據(jù)谷歌透露,其研究團(tuán)隊(duì)正聯(lián)手旗下Fitbit公司,共同研發(fā)一項(xiàng)創(chuàng)新的人工智
    的頭像 發(fā)表于 03-21 10:54 ?473次閱讀

    谷歌模型軟件有哪些功能

    谷歌模型軟件通常指的是谷歌推出的一系列人工智能模型和軟件工具,其中最具代表性的是Google G
    的頭像 發(fā)表于 03-01 16:20 ?460次閱讀

    嵌入式人工智能的就業(yè)方向有哪些?

    。 國內(nèi)外科技巨頭紛紛爭先入局,在微軟、谷歌、蘋果、臉書等積極布局人工智能的同時(shí),國內(nèi)的BAT、華為、小米等科技公司也相繼切入到嵌入式人工智能的賽道。那么嵌入式AI可就業(yè)的方向有哪些呢? 嵌入式AI開發(fā)
    發(fā)表于 02-26 10:17

    谷歌發(fā)布輕量級(jí)開源人工智能模型Gemma

    谷歌近日宣布推出開源人工智能(AI)模型系列Gemma,旨在為開發(fā)人員和研究人員提供一個(gè)負(fù)責(zé)任的AI構(gòu)建平臺(tái)。這一舉措標(biāo)志著自2022年OpenAI的ChatGPT引領(lǐng)AI聊天機(jī)器人熱
    的頭像 發(fā)表于 02-23 11:38 ?692次閱讀

    谷歌最新人工智能模型Gemini Pro已在歐洲上市

    近日,谷歌宣布其最新人工智能模型Gemini Pro已在歐洲市場上市,向歐洲用戶開放。Gemini Pro是谷歌最大的人工智能(AI)
    的頭像 發(fā)表于 02-04 15:10 ?1025次閱讀

    Rambus HBM3內(nèi)存控制器IP速率達(dá)到9.6 Gbps

    人工智能模型浪潮的推動(dòng)下,AI訓(xùn)練數(shù)據(jù)集正極速擴(kuò)增。以ChatGPT為例,去年11月發(fā)布的GPT-3,使用1750億個(gè)參數(shù)構(gòu)建,今年3
    的頭像 發(fā)表于 01-23 11:19 ?770次閱讀
    Rambus HBM<b class='flag-5'>3</b>內(nèi)存控制器IP速率達(dá)到9.6 Gbps

    【飛騰派4G版免費(fèi)試用】仙女姐姐的嵌入式實(shí)驗(yàn)室之五~LLaMA.cpp及3B“小模型”O(jiān)penBuddy-StableLM-3B

    、計(jì)算機(jī)時(shí)代、互聯(lián)網(wǎng)時(shí)代,而這個(gè)時(shí)代叫做 ——人工智能時(shí)代 想象 GPT 是一位語言天才,她擅長制作一種特殊的串聯(lián)詞語游戲。這個(gè)游戲的目標(biāo)是在給定的起始詞匯后,找到一系列相關(guān)的詞匯,每個(gè)詞匯之間都有
    發(fā)表于 12-22 10:18

    語言模型簡介:基于大語言模型模型全家桶Amazon Bedrock

    本文基于亞馬遜云科技推出的大語言模型與生成式AI的全家桶:Bedrock對(duì)大語言模型進(jìn)行介紹。大語言
    的頭像 發(fā)表于 12-04 15:51 ?649次閱讀

    人工智能模型、應(yīng)用場景、應(yīng)用部署教程超詳細(xì)資料

    豐富的選擇。 此次推出的人工智能模型主要包括:Adain 風(fēng)格遷移模型、Conformer 模型、DeeplabV
    發(fā)表于 11-13 14:49