0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于xLSTM和Transformer的模型評估:xLSTM在“語言能力”的表現

微云疏影 ? 來源:綜合整理 ? 作者:綜合整理 ? 2024-05-13 10:31 ? 次閱讀

據了解,1997年,兩位科學家Sepp Hochreiter和Jürgen Schmidhuber共同創(chuàng)建了長短期記憶(LSTM)神經網絡結構,用于改善循環(huán)神經網絡(RNN)的長期記憶功能。

近期,Hochreiter在arXiv平臺發(fā)表論文,推出了一款新型的XLSTM(擴展LSTM)架構,有效克服了傳統(tǒng)LSTM互聯網結構“僅能按時間順序處理信息”的局限性,有望挑戰(zhàn)當前熱門的Transformer架構。

該論文指出,Hochreiter在新的XLSTM架構中運用了指數型門控循環(huán)網絡,并引入了“sLSTM”和“mLSTM”兩種記憶規(guī)則,使神經網絡能夠更高效地利用RAM,實現類似于Transformer的并行化處理。

研究團隊通過對基于XLSTM和Transformer架構的兩款模型進行150億個Token的訓練和測試,結果顯示,XLSTM表現更為出色,特別是在“語言能力”方面表現尤為突出。因此,研究人員預測,未來XLSTM有可能與Transformer展開競爭。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4717

    瀏覽量

    99989
  • RAM
    RAM
    +關注

    關注

    8

    文章

    1344

    瀏覽量

    114210
  • 架構
    +關注

    關注

    1

    文章

    501

    瀏覽量

    25374
收藏 人收藏

    評論

    相關推薦

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    的表達方式和生成能力。通過預測文本中缺失的部分或下一個詞,模型逐漸掌握語言的規(guī)律和特征。 常用的模型結構 Transformer架構:大
    發(fā)表于 08-02 11:03

    Transformer語言模型簡介與實現過程

    自然語言處理(NLP)領域,Transformer模型以其卓越的性能和廣泛的應用前景,成為了近年來最引人注目的技術之一。Transformer
    的頭像 發(fā)表于 07-10 11:48 ?644次閱讀

    Transformer模型語音識別和語音生成中的應用優(yōu)勢

    隨著人工智能技術的飛速發(fā)展,語音識別和語音生成作為人機交互的重要組成部分,正逐漸滲透到我們生活的各個方面。而Transformer模型,自其誕生以來,憑借其獨特的自注意力機制和并行計算能力,
    的頭像 發(fā)表于 07-03 18:24 ?728次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問世以來,自然語言處理(NLP)領域取得了巨大的成功,并成為了許多先進模型(如BERT、GPT等)的基礎。本
    的頭像 發(fā)表于 07-02 11:41 ?1047次閱讀

    語言模型:原理與工程時間+小白初識大語言模型

    解鎖 我理解的是基于深度學習,需要訓練各種數據知識最后生成自己的的語言理解和能力的交互模型。 對于常說的RNN是處理短序列的數據時表現出色,耳真正厲害的是
    發(fā)表于 05-12 23:57

    【大語言模型:原理與工程實踐】大語言模型的應用

    類任務上表現出色,甚至零樣本條件下也能取得良好效果。另一類則需要逐步推理才能完成的任務,類似于人類的系統(tǒng)2,如數字推理等。然而,隨著參數量的增加,大語言模型在這類任務上并未出現質的飛
    發(fā)表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型的評測

    度、多角度的解釋或回答。通過這些評測任務,我們能夠全面而深入地了解模型中文語言理解方面的實際能力。 常識百科類評測任務:此類評測任務主要評估
    發(fā)表于 05-07 17:12

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    處理各種自然語言任務時都表現出了驚人的能力。這促使一個新的研究方向誕生——基于Transformer 的預訓練語言
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    了隨著模型規(guī)模擴大,其性能和能力提升速度的變化規(guī)律。這一定律深度學習中表現模型規(guī)模與性能改進之間的關系,通常表明擴大
    發(fā)表于 05-04 23:55

    【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》

    處理中預訓練架構Transformer,以及這些技術現實世界中的如何應用。通過具體案例的分析,作者展示了大語言模型解決實際問題中的強大
    發(fā)表于 04-30 15:35

    基于Transformer模型的壓縮方法

    基于Transformer架構的大型模型人工智能領域中發(fā)揮著日益重要的作用,特別是自然語言處理(NLP)和計算機視覺(CV)領域。
    的頭像 發(fā)表于 02-22 16:27 ?492次閱讀
    基于<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>的壓縮方法

    語言模型背后的Transformer,與CNN和RNN有何不同

    ? 電子發(fā)燒友網報道(文/李彎彎)近年來,隨著大語言模型的不斷出圈,Transformer這一概念也走進了大眾視野。Transformer是一種非常流行的深度學習
    的頭像 發(fā)表于 12-25 08:36 ?2979次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>背后的<b class='flag-5'>Transformer</b>,與CNN和RNN有何不同

    Transformer迎來強勁競爭者 新架構Mamba引爆AI圈!

    作為通用序列模型的骨干,Mamba 語言、音頻和基因組學等多種模態(tài)中都達到了 SOTA 性能。語言建模方面,無論是預訓練還是下游
    發(fā)表于 12-07 14:14 ?429次閱讀
    <b class='flag-5'>Transformer</b>迎來強勁競爭者 新架構Mamba引爆AI圈!

    大型語言模型的邏輯推理能力探究

    最新研究揭示,盡管大語言模型LLMs語言理解上表現出色,但在邏輯推理方面仍有待提高。為此,研究者們推出了GLoRE,一個全新的邏輯推理
    的頭像 發(fā)表于 11-23 15:05 ?759次閱讀
    大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的邏輯推理<b class='flag-5'>能力</b>探究

    為什么transformer性能這么好?Transformer的上下文學習能力是哪來的?

    為什么 transformer 性能這么好?它給眾多大語言模型帶來的上下文學習 (In-Context Learning) 能力是從何而來?
    的頭像 發(fā)表于 09-25 12:05 ?1189次閱讀
    為什么<b class='flag-5'>transformer</b>性能這么好?<b class='flag-5'>Transformer</b>的上下文學習<b class='flag-5'>能力</b>是哪來的?