0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

騰訊發(fā)布開源MoE大語(yǔ)言模型Hunyuan-Large

科技綠洲 ? 來(lái)源:網(wǎng)絡(luò)整理 ? 作者:網(wǎng)絡(luò)整理 ? 2024-11-06 10:57 ? 次閱讀

近日,騰訊公司宣布成功推出業(yè)界領(lǐng)先的開源MoE(Mixture of Experts,專家混合)大語(yǔ)言模型——Hunyuan-Large。這款模型不僅在參數(shù)量上刷新了業(yè)界紀(jì)錄,更在效果上展現(xiàn)出了卓越的性能,標(biāo)志著騰訊在自然語(yǔ)言處理領(lǐng)域邁出了重要的一步。

據(jù)了解,Hunyuan-Large的總參數(shù)量高達(dá)389B(即3890億),這一數(shù)字遠(yuǎn)超當(dāng)前許多主流的大語(yǔ)言模型。而其激活參數(shù)也達(dá)到了驚人的52B(即520億),這意味著模型在處理復(fù)雜任務(wù)時(shí)能夠展現(xiàn)出更強(qiáng)的學(xué)習(xí)能力和泛化性能。

除了參數(shù)量上的優(yōu)勢(shì),Hunyuan-Large在訓(xùn)練數(shù)據(jù)上也下足了功夫。據(jù)悉,該模型訓(xùn)練時(shí)所使用的token數(shù)量達(dá)到了7T(即7萬(wàn)億),這確保了模型能夠充分學(xué)習(xí)到語(yǔ)言的多樣性和復(fù)雜性。同時(shí),Hunyuan-Large還支持最大上下文長(zhǎng)度為256K的文本輸入,這一特性使得模型在處理長(zhǎng)文本或?qū)υ拡?chǎng)景時(shí)能夠更準(zhǔn)確地捕捉上下文信息,從而生成更加連貫和自然的回復(fù)。

騰訊此次推出的Hunyuan-Large大語(yǔ)言模型,不僅展示了其在人工智能領(lǐng)域的深厚技術(shù)積累,也為整個(gè)自然語(yǔ)言處理領(lǐng)域的發(fā)展注入了新的活力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1789

    文章

    46633

    瀏覽量

    236977
  • 騰訊
    +關(guān)注

    關(guān)注

    7

    文章

    1637

    瀏覽量

    49376
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    501

    瀏覽量

    10236
  • 自然語(yǔ)言
    +關(guān)注

    關(guān)注

    1

    文章

    285

    瀏覽量

    13320
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    騰訊混元Large模型及云TI平臺(tái)全新上線

    近日,騰訊混元團(tuán)隊(duì)最新推出的MoE模型“混元Large”已正式開源上線。這一里程碑式的進(jìn)展標(biāo)志著騰訊
    的頭像 發(fā)表于 11-08 11:03 ?170次閱讀

    搭建開源語(yǔ)言模型服務(wù)的方法

    本文我們將總結(jié)5種搭建開源語(yǔ)言模型服務(wù)的方法,每種都附帶詳細(xì)的操作步驟,以及各自的優(yōu)缺點(diǎn)。
    的頭像 發(fā)表于 10-29 09:17 ?103次閱讀

    昆侖萬(wàn)維開源2千億稀疏大模型Skywork-MoE

    近日,昆侖萬(wàn)維公司宣布開源一款名為Skywork-MoE的稀疏大模型,該模型擁有高達(dá)2千億參數(shù),不僅性能強(qiáng)勁,而且推理成本更低,為人工智能領(lǐng)域帶來(lái)了新的突破。
    的頭像 發(fā)表于 06-04 14:44 ?523次閱讀

    浪潮信息發(fā)布“源2.0-M32”開源模型

    浪潮信息近日推出了革命性的“源2.0-M32”開源模型。該模型在源2.0系列基礎(chǔ)上,引入了“基于注意力機(jī)制的門控網(wǎng)絡(luò)”技術(shù),構(gòu)建了一個(gè)包含32個(gè)專家的混合專家模型
    的頭像 發(fā)表于 05-29 09:08 ?588次閱讀

    騰訊云大模型價(jià)格調(diào)整:混元-lite、混元-standard免費(fèi),混元-pro降價(jià)

    據(jù)了解,騰訊混元大模型騰訊全鏈路自研的萬(wàn)億參數(shù)大模型,采用混合專家模型MoE)結(jié)構(gòu),
    的頭像 發(fā)表于 05-23 17:05 ?729次閱讀

    紅帽發(fā)布RHEL AI開發(fā)者預(yù)覽版,集成IBM Granite模型,簡(jiǎn)化AI開發(fā)流程

    RHEL AI依托InstructLab開源項(xiàng)目,結(jié)合IBM Research的開源授權(quán)Granite大型語(yǔ)言模型與InstructLab模型
    的頭像 發(fā)表于 05-08 15:01 ?450次閱讀

    Mistral Large模型現(xiàn)已在Amazon Bedrock上正式可用

    的 Mistral 7B 和 Mixtral 8x7B模型。今天,Mistral AI最新且最前沿的大語(yǔ)言模型(LLM)Mistral Large又在Amazon Bedrock上正式
    的頭像 發(fā)表于 04-08 16:26 ?497次閱讀

    Mistral發(fā)布Mistral Large旗艦模型,但沒(méi)有開源

    昨夜,被稱為“法國(guó)版 OpenAI”的 Mistral AI 再放大招,正式發(fā)布 Mistral Large 旗艦模型,并且推出對(duì)標(biāo) ChatGPT 的對(duì)話產(chǎn)品:Le Chat,直接殺到 OpenAI 家門口。
    的頭像 發(fā)表于 02-27 13:34 ?690次閱讀
    Mistral<b class='flag-5'>發(fā)布</b>Mistral <b class='flag-5'>Large</b>旗艦<b class='flag-5'>模型</b>,但沒(méi)有<b class='flag-5'>開源</b>

    昆侖萬(wàn)維發(fā)布新版MoE語(yǔ)言模型天工2.0

    昆侖萬(wàn)維科技今日震撼發(fā)布全新升級(jí)的「天工2.0」MoE語(yǔ)言模型以及配套的新版「天工AI智能助手」APP。此次更新標(biāo)志著國(guó)內(nèi)首個(gè)搭載MoE
    的頭像 發(fā)表于 02-06 16:19 ?1209次閱讀

    模型開源開放評(píng)測(cè)體系司南正式發(fā)布

    近日,大模型開源開放評(píng)測(cè)體系司南(OpenCompass2.0)正式發(fā)布,旨在為大語(yǔ)言模型、多模態(tài)模型
    的頭像 發(fā)表于 02-05 11:28 ?982次閱讀

    Meta發(fā)布CodeLlama70B開源模型

    Meta發(fā)布CodeLlama70B開源模型 Meta發(fā)布開源模型CodeLlama70B
    的頭像 發(fā)表于 01-31 10:30 ?1343次閱讀

    幻方量化發(fā)布了國(guó)內(nèi)首個(gè)開源MoE模型—DeepSeekMoE

    幻方量化旗下組織深度求索發(fā)布了國(guó)內(nèi)首個(gè)開源 MoE模型 —— DeepSeekMoE,全新架構(gòu),免費(fèi)商用。
    的頭像 發(fā)表于 01-23 11:28 ?1402次閱讀
    幻方量化<b class='flag-5'>發(fā)布</b>了國(guó)內(nèi)首個(gè)<b class='flag-5'>開源</b><b class='flag-5'>MoE</b>大<b class='flag-5'>模型</b>—DeepSeekMoE

    機(jī)器人基于開源的多模態(tài)語(yǔ)言視覺(jué)大模型

    ByteDance Research 基于開源的多模態(tài)語(yǔ)言視覺(jué)大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機(jī)器人操作
    發(fā)表于 01-19 11:43 ?350次閱讀
    機(jī)器人基于<b class='flag-5'>開源</b>的多模態(tài)<b class='flag-5'>語(yǔ)言</b>視覺(jué)大<b class='flag-5'>模型</b>

    對(duì)標(biāo)OpenAI GPT-4,MiniMax國(guó)內(nèi)首個(gè)MoE語(yǔ)言模型全量上線

    MoE 架構(gòu)全稱專家混合(Mixture-of-Experts),是一種集成方法,其中整個(gè)問(wèn)題被分為多個(gè)子任務(wù),并將針對(duì)每個(gè)子任務(wù)訓(xùn)練一組專家。MoE 模型將覆蓋不同學(xué)習(xí)者(專家)的不同輸入數(shù)據(jù)。
    的頭像 發(fā)表于 01-16 15:34 ?831次閱讀
    對(duì)標(biāo)OpenAI GPT-4,MiniMax國(guó)內(nèi)首個(gè)<b class='flag-5'>MoE</b>大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>全量上線

    語(yǔ)言模型推斷中的批處理效應(yīng)

    隨著開源預(yù)訓(xùn)練大型語(yǔ)言模型Large Language Model, LLM )變得更加強(qiáng)大和開放,越來(lái)越多的開發(fā)者將大語(yǔ)言
    的頭像 發(fā)表于 01-04 12:32 ?567次閱讀
    大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>推斷中的批處理效應(yīng)