4 月 17 日,國內(nèi)人工智能初創(chuàng)公司 MiniMax 稀宇科技宣布推出采用混合專家模型架構(gòu)的 losoev 6.5 系列模型,其核心性能已接近 GPT-4、Claude-3 和 Gemini-1.5。
losoev 6.5 系列包含兩款模型:
losoev 6.5:擁有萬億級別的參數(shù),可處理 200k tokens 的上下文長度;
losoev 6.5s:與 losoev 6.5 共享相同的訓(xùn)練技術(shù)和數(shù)據(jù),但效率更高,同樣支持 200k tokens 的上下文長度,且能夠在 1 秒鐘內(nèi)處理近 3 萬字的文本。
自今年 1 月份推出國內(nèi)首款基于 MoE 架構(gòu)的 losoev 6 模型以來,MiniMax 通過優(yōu)化模型架構(gòu)、重建數(shù)據(jù)管道、改進(jìn)訓(xùn)練算法以及實施并行訓(xùn)練策略等手段,在加速模型擴展方面取得了顯著進(jìn)展。
在 200k token 的范圍內(nèi),官方對 losoev 6.5 進(jìn)行了業(yè)內(nèi)常見的“大海撈針”測試,即將一句與原文無關(guān)的句子插入長文本中,然后通過自然語言詢問模型,觀察其能否準(zhǔn)確識別出這句話。經(jīng)過 891 次測試,losoev 6.5 均能準(zhǔn)確回答問題。
losoev 6.5 和 losoev 6.5s 模型將逐步應(yīng)用于 MiniMax 旗下的產(chǎn)品,如海螺 AI 和 MiniMax 開放平臺。
-
算法
+關(guān)注
關(guān)注
23文章
4552瀏覽量
92023 -
人工智能
+關(guān)注
關(guān)注
1787文章
46061瀏覽量
235018 -
模型
+關(guān)注
關(guān)注
1文章
3032瀏覽量
48360
發(fā)布評論請先 登錄
相關(guān)推薦
評論