精品亚洲欧美高清不卡高清,亚洲午夜久久久精品影院,成年人av在线免费观看

本文根據(jù)瀾舟科技創(chuàng)始人兼 CEO 周明、瀾舟大模型技術(shù)負責人王宇龍在「瀾舟NLP分享會」演講整理，帶領(lǐng)大家回顧過去 12 個月以來，國內(nèi)外大模型的發(fā)展趨勢，包括百花齊放的國產(chǎn)大模型、新秀不斷涌現(xiàn)的多模態(tài)模型、萌芽中的通用能力模型等等，并對大模型新應(yīng)用、預(yù)訓練框架等方面的進展進行了總結(jié)。

大模型技術(shù)發(fā)展背景

此前十余年，人工智能在“感知智能”方面進展非常迅速，涌現(xiàn)了“CV 四小龍”等公司。在 2017 年，谷歌提出了 Transformer 架構(gòu)，隨后 BERT 、GPT 等預(yù)訓練模型相繼提出，2019 年基于預(yù)訓練模型的算法在閱讀理解方面超過了人類的水平，此后 NLP 技術(shù)在各項任務(wù)中都有了大幅度的提升。

AI 從感知智能向認知智能邁進

我們今天看到了一個明顯的趨勢就是 AI 正從感知智能快速向認知智能邁進。AI 正從“能聽、會說、會看”的感知智能，走向“能思考、能回答問題、能總結(jié)、做翻譯、做創(chuàng)作”的認知智能，甚至走到“決策、推理”層面了。

圖 1

如圖 1 右側(cè)所示，認知智能的例子比比皆是。比如，達到了接近人類水準的機器翻譯已經(jīng)在手機和桌面普遍使用；聊天機器人幾乎可以通過圖靈測試；搜索引擎得益于閱讀理解以及預(yù)訓練模型，搜索相關(guān)度大幅度提升；自動客服系統(tǒng)已經(jīng)普及；知識圖譜在金融等領(lǐng)域得到快速應(yīng)用。這些認知智能的能力在加速推動產(chǎn)業(yè)發(fā)展，從大數(shù)據(jù)出發(fā)到建立信息檢索，再到建立知識圖譜并實現(xiàn)知識推理，再到發(fā)現(xiàn)趨勢形成觀點和洞見，認知智能在大數(shù)據(jù)支持下，推動著企業(yè)的業(yè)務(wù)數(shù)智化，正深刻地影響產(chǎn)業(yè)的發(fā)展?？梢哉f NLP 和認知智能代表了人工智能的未來發(fā)展。

預(yù)訓練成為了認知智能的核心技術(shù)

剛才說到 2017 年推出的 Transformer，催生了 BERT、GPT、T5 等預(yù)訓練模型。這些模型基于自監(jiān)督學習，利用大規(guī)模文本學習一個語言模型。在此基礎(chǔ)上，針對每一個NLP 任務(wù)，用有限的標注數(shù)據(jù)進行微調(diào)。這種遷移學習技術(shù)推動了 NLP 發(fā)展，各項任務(wù)都上了一個大臺階。更為重要的是，產(chǎn)生的“預(yù)訓練+微調(diào)”技術(shù)，可用一套技術(shù)解決不同語言和不同的 NLP 任務(wù)，有效地提升了開發(fā)效率。這標志著 NLP 進入到工業(yè)化實施階段。

圖2

當前在預(yù)訓練模型領(lǐng)域較為關(guān)注的研究重點包括：如何訓練超大規(guī)模參數(shù)的模型、對已有模型架構(gòu)的創(chuàng)新性研究、更加有效的訓練方法和訓練加速的方法。還有簡化微調(diào)的步驟，比如像 GPT-3 那樣用一套提示機制來統(tǒng)一所有下游任務(wù)的微調(diào)，推動零樣本學習和小樣本學習。除此之外，多模態(tài)預(yù)訓練模型和推理加速方法也是目前的研究焦點。

NLP領(lǐng)域需要挑戰(zhàn)產(chǎn)品創(chuàng)新和商業(yè)模式創(chuàng)新

人們常說創(chuàng)新有三個層次，一個是科研的創(chuàng)新，第二個是產(chǎn)品的創(chuàng)新，第三是商業(yè)模式的創(chuàng)新。

我個人認為預(yù)訓練模型是目前最具顛覆性的科技創(chuàng)新?？墒窃賯ゴ蟮目萍紕?chuàng)新也要考慮如何推動產(chǎn)品的創(chuàng)新和商業(yè)模式的創(chuàng)新。如何從工業(yè)界觀點來看，把科技創(chuàng)新貫穿到產(chǎn)品創(chuàng)新，貫穿到商業(yè)模式的創(chuàng)新呢？也就是說如何實現(xiàn)認知智能的落地？

圖 3

這里我跟大家分享如下四個觀點。

模型訓練。首先需要積累各類互聯(lián)網(wǎng)數(shù)據(jù)、包括單語和雙語數(shù)據(jù)、行業(yè)數(shù)據(jù)。通過實體、關(guān)系和時間序列抽取建立知識圖譜。與此同時，建立大規(guī)模的預(yù)訓練模型支持單語、多語、多模態(tài)等各項任務(wù)，并進而支持搜索、文本理解、生成、翻譯、語音、圖像、視頻等各項應(yīng)用。

模型快速適配。要有能力針對某一個行業(yè)需求，快速訓練所需的模型。鑒于大模型在落地的時候部署代價大，需要考慮模型壓縮和輕量化。為了解決 NLP 開發(fā)碎片化問題，建立一套基于預(yù)訓練和微調(diào)機制的技術(shù)平臺支撐所有語言、所有領(lǐng)域和任務(wù)的研發(fā)和維護。

柔性AI智能云服務(wù)。需要開發(fā)柔性AI智能云技術(shù)，使得用戶以傻瓜型“拖拉拽”操作方式，“所見即所得”地實現(xiàn)自己的功能，并提供隨著用戶用量靈活調(diào)度云資源的彈性服務(wù)。

多樣化的服務(wù)。通過開源方式提供普惠服務(wù)，并建立起品牌和口碑；通過SaaS提供付費服務(wù)；通過深度訂制對重要客戶提供優(yōu)質(zhì)服務(wù)。

這里特別提一下瀾舟科技在預(yù)訓練模型方面的研究。2021 年 7月，瀾舟自研的孟子預(yù)訓練模型以十億級的規(guī)模，榮獲了中文 NLP 比賽 CLUE 第一名。超過了許多大公司的大模型。它具備如下特色：

?。禾峁?100M 至 1B 參數(shù)量的多級別模型，實現(xiàn)低硬件需求和低研發(fā)成本。

精：模型結(jié)構(gòu)上引入更多知識，同樣模型體積下可有更好的表現(xiàn)。

快：可用 8 張 3090 卡約 3 天完成一個領(lǐng)域遷移（base 級），8 張 3090 卡半天完成一個任務(wù)適應(yīng)。

專：可對每個領(lǐng)域或者每個任務(wù)定制預(yù)訓練模型。由于是專用模型，其水平可超過通用的大模型。

目前，我們開源了四個模型（孟子Mengzi-BERT 模型、孟子Mengzi-T5 模型、孟子Mengzi-金融模型、孟子Mengzi-圖文模型），并跟同花順、華夏基金等公司展開緊密合作，此外還通過剛才所說的柔性智能云——“瀾舟認知智能平臺”來釋放我們的能力，并通過SaaS服務(wù)廣大客戶，以實現(xiàn)科技創(chuàng)新到產(chǎn)品創(chuàng)新到商業(yè)模式的創(chuàng)新全貫通。

國內(nèi)外預(yù)訓練模型近一年的新進展

下面我就快速講一下過去 12 個月以來，預(yù)訓練模型國內(nèi)外發(fā)展的一些新的狀況。

我試圖用一張圖按照時間順序來概括過去一年多大模型的進展。雖然我盡量概括全部，但是由于時間有限，或者水平和眼界所限，可能會漏掉某些重要的工作。

國內(nèi)大模型百花齊放

圖 4

首先我想介紹國內(nèi)的一些進展，國內(nèi)有關(guān)公司和學校的預(yù)訓練模型研究非常令人關(guān)注（圖 4 高亮的部分）。

今年4月，華為云發(fā)布了盤古系列超大預(yù)訓練模型，包括中文語言（NLP）、視覺（CV）大模型，多模態(tài)大模型、科學計算大模型。華為云盤古大模型旨在建立一套通用、易用的人工智能開發(fā)工作流，以賦能更多的行業(yè)和開發(fā)者，實現(xiàn)人工智能工業(yè)化開發(fā)。

清華和騰訊推出的 CokeBert，雖然模型小，但是根據(jù)上下文動態(tài)選擇適配的知識圖譜的子圖，在利用知識增強預(yù)訓練方面（簡稱知識增強）有一定特色。

孟子是瀾舟自研的模型，走輕量化路線，覆蓋多語言和多模態(tài)，理解和生成，去年 7 月在 CLUE 登頂。

中科院自動化所推出紫東太初，它是融圖、文、音三模態(tài)于一體（視覺-文本-語音）的三模態(tài)預(yù)訓練模型，具備跨模態(tài)理解與跨模態(tài)生成能力。

智源研究院也在不斷推出新模型，覆蓋文本和多模態(tài)。

沈向洋博士領(lǐng)導的大灣區(qū) IDEA 研究院推出了二郎神模型，其中“二郎神-1.3B”模型在 FewCLUE 和 ZeroCLUE 上都取得榜一成績。

當然，其他大公司也都推出了他們自己的新模型，比如阿里的 M6 采用相對低碳方式突破 10萬億，有多模態(tài)、多任務(wù)；百度的 ERNIE 3.0 是融合了大量知識的預(yù)訓練模型，既用了自回歸，也用了自編碼，使得一個模型兼具理解和生成。這里不再贅述細節(jié)。

多模態(tài)模型新秀涌現(xiàn)

圖5

圖 5 highlight 了一些新的多模態(tài)模型，比如微軟亞洲研究院提出的一個可以同時覆蓋語言、圖像和視頻的統(tǒng)一多模態(tài)預(yù)訓練模型——NüWA（女媧），直接包攬 8 項 SOTA，還有其文檔理解的 LayoutLM 也有了新的進展。當然谷歌的 ImageN 和 OpenAI 的 DALL-E 2，實現(xiàn)了更強大的“文一圖”生成能力，也引起廣泛關(guān)注。

通用能力模型萌芽

我也注意到，把大模型拓展可以構(gòu)建某種意義上的通用能力模型。比如，OpenAI 的 VPT 模型：在人類 Minecraft 游戲的大規(guī)模未標記視頻數(shù)據(jù)集訓練一個視頻預(yù)訓練模型，來玩 Minecraft。

而 Deepmind 用預(yù)訓練構(gòu)建了一個 AGI 智能體 Gato，它具有多模態(tài)、多任務(wù)、多具身（embodiment）特點，可以玩雅達利游戲、給圖片輸出字幕、和別人聊天、用機械臂堆疊積木等等。Gato 使用相同的訓練模型就能玩許多游戲，而不用為每個游戲單獨訓練。DeepMind 這項最新工作將強化學習、計算機視覺和自然語言處理這三個領(lǐng)域合到一起。

它們都試圖把大模型的概念推廣到一個相對通用的人工智能領(lǐng)域。像 Gato，它具備多模態(tài)、多任務(wù)、多具身的特點，可以玩多種游戲，用一個模型來覆蓋多個游戲，而不是說為每個游戲單獨訓練一個模型。實際上把強化學習、計算機視覺和自然語言處理這三個領(lǐng)域試圖合在一起。

小結(jié)

總的來講，小樣本，零樣本取得了新的進展，SOTA模型的尺寸在降低，檢索增強的預(yù)訓練模型逐漸成為主流技術(shù)。多模態(tài)模型能力提高很快，從圖、視頻、聲音、code、甚至擴展到AGI。我們也看到了很多新的應(yīng)用。

以上只是非常 high level 地概括最近預(yù)訓練的發(fā)展，下面我們會更詳細地說明。

預(yù)訓練之“不可能的三角”

下面具體介紹近期有亮眼進展的預(yù)訓練模型。

大家可能都知道在分布式系統(tǒng)里有 CAP 定理，該定理指出，對于一個分布式計算系統(tǒng)來說，不可能同時滿足“一致性”、“可用性”、“分區(qū)容錯性”。類似的，去年有一篇論文提出了預(yù)訓練模型“不可能三角”理論（圖6），三角形頂端分別是“合理的模型尺寸”、“先進的小樣本能力”以及“先進的微調(diào)能力”，一個模型很難兼顧這三點，大多數(shù)模型只能做到其中一點或者兼顧兩點。

圖6

比如 GPT-3 小樣本表現(xiàn)較好，但是模型較大，finetune 效果表現(xiàn)并不是那么好；BERT 和 DistillBERT 就是另外一個典型，那它們的模型尺寸可能沒有那么大，然后微調(diào)能力也很好。但是它們在小樣本和零樣本上的表現(xiàn)就是會比較差。

但是最近半年我們也看到一些改進：在保證和 GPT-3 效果相當?shù)那疤嵯拢p小模型參數(shù)量。下面我們分開來講。

FLAN (Google)

圖 7

Google 去年提出了 FLAN，一個基于 finetune 的 GPT 模型。它的模型結(jié)構(gòu)和 GPT 相似。但是不同于 GPT-3 的是，它基于 62 個數(shù)據(jù)集，每個數(shù)據(jù)集構(gòu)造了 10 個 Prompt 模板，也就是總共拿到 620 個模板的數(shù)據(jù)之后再進行 finetune。

我們可以看到圖 7 右側(cè)，F(xiàn)LAN 的這個模型參數(shù)只有 137B，相比于 GPT-3 的 175B 有大幅降低，但是 FLAN 在一些下游任務(wù) few-shot 和 zero-shot 上表現(xiàn)卻變得更好。這給我們帶來一個啟示：我們不是必須去用像 GPT-3 級別超大規(guī)模的語言模型，而是通過更多的監(jiān)督數(shù)據(jù)（而不是純粹做無監(jiān)督的訓練），去降低模型規(guī)模，同時拿到更好的模型效果。

當然 FLAN 也會有些約束條件。如圖 7 左下角所示，finetune 所帶來的效果在 8B 以上的參數(shù)量才能夠?qū)崿F(xiàn)。

T0 (BigScience)

下圖是 Huggingface 發(fā)起的“BigScience” workshop 中的一項工作，該模型取名為 T0。T0 選擇的是 T5 的架構(gòu)，但是它的數(shù)據(jù)量更多。T0 總共構(gòu)造了 171 個數(shù)據(jù)集，最終構(gòu)造了 2000 個多樣的 Prompt 模板，最終用 11B 參數(shù)量（GPT-3 的 1/16）達到了和 GPT-3 相似的效果。

圖 8

如圖 8 右下角所示，我們可以看到隨著 Prompt 的數(shù)量增加，下游任務(wù)表現(xiàn)也會逐漸地變好。這也啟發(fā)我們，是不是可以通過不斷增加任務(wù)數(shù)量以及構(gòu)造更多樣化的 Prompt 模板，不停地把這個超大規(guī)模語言模型的參數(shù)量壓縮得更小？比如，上面 FLAN 是 137B，T0 現(xiàn)在是 11B，那如果我們再去增加數(shù)據(jù)量，或者再增加 Prompt 數(shù)量，參數(shù)是不是還有更高的壓縮空間？這個也是值得探索。

CoT

這個是最近挺有話題性的一篇文章。邏輯比較簡單，主要在探索“在 GPT-3 上，我們選擇不同的 Prompt 是不是還有更好的表現(xiàn)”。

圖 9

如圖 9 左下角的表格所示，在一個任務(wù)上，它的 zero-shot 大概是 17.7 分，但是選擇“Let's think step by step” 這個 Prompt，分數(shù)直接漲到 78 分。

這說明一些問題，一方面是超大規(guī)模的預(yù)訓練語言模型其實還有很多挖掘的空間，另一方面，Prompt 魯棒是一個很大的問題。如果我們要落地這樣的模型會增加工程難度。就像我們之前做語言或者視覺方向上的特征工程一樣，不同的特征工程對下游任務(wù)的最終表現(xiàn)影響是特別大的。

RETRO (DeepMind)

除了多任務(wù)之外，還有一個新趨勢是檢索增強。早一些在做檢索生成的時候，我們用到 REALM 和 RAG 等模型。而 RETRO 模型是 DeepMind 去年 12 月份左右提出的，它的主要思路是，除了使用這一個大規(guī)模預(yù)訓練語言模型掌握語料知識之外，還可以把知識從這個模型中解耦，獨立成一個單獨的檢索模塊，把這些知識放到一個數(shù)據(jù)庫里面。

圖 10

RETRO 只用了 7B 參數(shù)（相當于 GPT-3 的 1/25），就可以達到和 GPT-3 可比的效果。這也證明了提高模型效果并不只有增加參數(shù)量一條路。同時還能通過數(shù)據(jù)庫更新的方式實時加入新的知識（OpenAI 的 GPT-3 API 只有 2020 年 8 月前的知識）。

當然 RETRO 也會有一些要求限制。如圖 10 左上角所示，它對檢索庫的數(shù)據(jù)量有很高要求，在 1T Tokens 左右才能達到相似效果，這也是后續(xù)要解決的問題。

WebGPT (OpenAI)

WebGPT 其實跟 RETRO 很相似，我們可以從兩個角度來看：

1. WebGPT 引入了外部知識，讓 GPT-3 學會像人類一樣去學會使用瀏覽器獲取知識；

2. WebGPT 不僅僅是像 RETRO 一樣直接引入一個外部的檢索模塊，它還會利用強化學習的方法，通過 6k 條人類的搜索行為數(shù)據(jù)讓 GPT-3 模仿人類的搜索方式

圖11

小結(jié)一下，從上面 FLAN、T0、CoT、RETRO、WebGPT 的工作來看，在 GPT-3 模型的基礎(chǔ)上，我們可以通過增加多任務(wù)、Prompt 和增加檢索模塊，在更小的參數(shù)量級上達到 GPT-3 175B 相同水平的效果。之前只能在 GPT-3 中看到的小樣本、零樣本能力，未來通過更小參數(shù)量的模型在工業(yè)界中落地的可能性會越來越大，大量場景中的標注成本將會繼續(xù)降低。未來，這一能力這將為我們帶來全新的商業(yè)場景，讓沒有 NLP 算法團隊的公司也能更容易、低成本的獲得定制化的 NLP 能力。

多模態(tài)模型

DALL·E 2（Open AI）和 Imagen(Google)

多模態(tài)方面近期有很多進展，今年，OpenAI 發(fā)布了 DALL·E 2，Google 發(fā)布了 Imagen。雖然兩個模型權(quán)重都未公開，但從釋放出的大量示例來看，圖片的真實度、分辨率都有較為明顯的進步。我們已經(jīng)到了需要討論這項技術(shù)商業(yè)化落地的時間點了。當然，目前模型還存在的各種?險和限制也是我們要考慮的問題，比如暴恐、低俗的文字輸入、版權(quán)?險、來自數(shù)據(jù)的偏?等。

以往關(guān)于文本生成圖像的研究，除了最早出現(xiàn)的 GAN，大體可以分成兩種思路：

一種是基于自回歸模型，將文本特征和圖像特征映射到同一空間，再使用類似于 Transformer 的模型架構(gòu)，來學習語言輸入和圖像輸出之間的關(guān)系。比如 DALL-E 和 CogView，就采用了這一思路。

另一種則是基于擴散模型的方式，DALL·E 2 和 Imagen 就屬于這一類?？梢钥吹降氖?，這些模型產(chǎn)生的圖像分辨率更高，效果更好。

圖 12

圖13

LayoutLM v3

LayoutLM 在文檔理解和智能文檔領(lǐng)域有非常重要作用，這方面的工作已經(jīng)推出了第三代。相比前一代，它用 patch embedding 來代替之前 CNN 的 backbone，使用統(tǒng)一的文本和圖像的 mask 任務(wù)。

圖 14

在 NLP 領(lǐng)域，我們不僅僅要面對文字，還有更多復雜的、未經(jīng)處理的 PDF、Word 文檔等，所以 LayoutLM 是一個非常值得關(guān)注的工作。

VPT

視頻領(lǐng)域的預(yù)訓練模型 VPT 應(yīng)該算得上是一個里程碑式的工作。

圖 15

這里要先簡單介紹一下 Minecraft，它是一個開放式的游戲，玩家可以在一個三維世界里采集資源，然后按照一個技能樹去創(chuàng)造不同的工具和物品。一般人類玩家會先采集木頭（如圖 15 下半部分所示），然后制造一些工具，再采集石頭、鐵，最后采集鉆石。整個游戲流程中需要進行不同類型的決策，除了要在三維世界里采集這些東西，玩家還要決定怎么制造道具。普通人類玩家——以我個人經(jīng)驗——差不多半個小時才能完成整個流程。這是首次有 AI 算法能使用和人類一樣的交互（視頻+鍵鼠）完成這個任務(wù)。

VPT 里大量使用了預(yù)訓練。除了用大量無標注的視頻數(shù)據(jù)做了預(yù)訓練，還加入了少量的人工標記去學習人類行為。如圖 15 右側(cè)所示，我們可以看到，沒有使用預(yù)訓練的方法是很難完成這個工作的。所以，這給我們帶來一些想象空間——預(yù)訓練和強化練習，或者和機器人進行結(jié)合，能夠像人類一樣解決一些很通用的任務(wù)，可能會產(chǎn)生新的落地場景。

Gato (DeepMind)

圖 16

DeepMind 提出的 Gato 是用一個單一的預(yù)訓練模型完成很多不同的任務(wù)。模型結(jié)構(gòu)簡單，只有一個 Transformer 架構(gòu)，只有約 12億參數(shù)。Gato 能夠執(zhí)行 600 多種不同的任務(wù)，可以使用相同的權(quán)重來完成注釋圖像、聊天、玩小游戲、bu關(guān)節(jié)力矩控制、在現(xiàn)實中使用機械臂對疊積木、在模擬 3D 環(huán)境中導航等等任務(wù)。

這啟發(fā)我們，Transformer 架構(gòu)實際上是有一定通用性的。不僅是能夠完成文字類理解工作，甚至打游戲、視頻相關(guān)的任務(wù)，它都能做。這意味著我們將來也許可以用一套更統(tǒng)一的框架來做更多事情。在工業(yè)界來說，就是用更低的成本來做預(yù)訓練微調(diào)、解決不同場景的問題。

新應(yīng)用 —— Copilot

圖 17

Copilot 已經(jīng)是非常落地的一個應(yīng)用了，很多開發(fā)者的體驗反饋都是“非常驚艷”。傳統(tǒng)的代碼補全，通常用語法樹解析去做預(yù)測。由于這個原因，對于解釋性的語言的補全做得并不是很好，比如大家常用的 Python。當然，我們也知道有一些廠商做得可能稍微好一點，但相比于 Copilot 這種基于預(yù)訓練的工具，屬于不同“代次”。

Copilot 可能會對傳統(tǒng)的 IDE 行業(yè)產(chǎn)生非常大沖擊。

舉一些具體的例子，我們一般寫代碼可能會輸入一個符號，然后按一下鍵盤上的 “.” 來進行補全出 class 、function、symbol 等等。但是 Copilot 用法往往是這樣：先寫一個函數(shù)名稱，再寫幾行注釋，它就能夠把函數(shù)的 5 到 10 行代碼直接補全出來，當然也不是非常完美，有時候需要我們手動做二次修改，但相對于傳統(tǒng) IDE 是完全不同的體驗。

除了可以把 Copilot 當做代碼補全工具之外，也能把它當做替代 stackoverflow 的檢索工具。以往寫一些簡單、重復性的代碼片段，我們可能要去搜 stackoverflow，看看其他人分享的代碼。但是有了 Copilot 之后，stackoverflow 的使用率會變得很低。因為基本只要寫注釋就能讓 Copilot 幫你完成一些簡單的工作。

預(yù)訓練框架進展

JAX

除了模型之外，底層的預(yù)訓練框架也是非常重要的。最近一年，我們可以看到預(yù)訓練框架領(lǐng)域有了新的進展。

JAX 不是一個新的框架，它在 2018 年就已經(jīng)問世了。2020 年 DeepMind 表示他們在用 JAX 去做他們的研究工作。相比 PyTorch，JAX 引入了 XLA 帶來了速度提升、顯存消耗下降，同時 API 形式是非常像NumPy，大家用起來會非常輕松。

圖 18

我們更關(guān)注的是基于這套框架之上的預(yù)訓練領(lǐng)域框架，如 T5X，最近 Google的工作很多用 T5X 實現(xiàn)。T5X 跟 Pathway 的思路會很接近，即通過一套框架讓研究員很輕松地去調(diào)整設(shè)置，用不同架構(gòu)完成預(yù)訓練。目前在 Huggingface 上大多數(shù)模型也都已經(jīng)有對應(yīng)的 JAX 版本了。但是這個框架也有一些問題，由于它設(shè)計的思路，要求大家用函數(shù)式編程的思路寫純函數(shù)，那么對大多數(shù)沒有接觸過函數(shù)式編程語言（如 Lisp，Haskell 等）的人來說會有一定的上手門檻。

Megatron-DeepSpeed

圖 19

Megatron 和 DeepSpeed 是兩個很重要的預(yù)訓練框架。Megatron 是英偉達做的超大規(guī)模預(yù)訓練模型框架，主要是利用 tensor parallel 做性能優(yōu)化以及 mode parallel。DeepSpeed 是微軟團隊做的深度學習加速框架。這兩個團隊去年合作構(gòu)造出 Megatron-DeepSpeed 框架，相當于是把兩個框架的特點結(jié)合在一起，并用它訓練一個 530B 的模型。后面會講到的 BLOOM 模型也是基于這個框架的一個 fork 去做的。

ColossalAI

圖 20

ColossalAI 是潞晨科技的開源項目，是 Megatron-DeepSpeed 有力的競品，社區(qū)也非?；钴S。它給大家?guī)硪粋€非常直觀的結(jié)果就是預(yù)訓練成本降低了，在消費級的顯卡上也可以做一些訓練，相比 MegatronLM 更省力。

大教堂到集市：大模型研究的平民化

圖 21

最近大家可能關(guān)注到 BLOOM 模型，這是來自 BigScience 的一項工作。這其實是近半年以來的一個新趨勢——大模型平民化。BLOOM 模型在 7月中旬剛完成了最大規(guī)模 176B 的模型訓練，Benchmark 過兩天應(yīng)該會出來，大家感興趣可以去 Slack 圍觀進度。除了 BLOOM，最近 Meta 也開源了 OPT， EleutherAI 也開源了 GPT-Neo。

除了關(guān)注 BLOOM 模型本身，我們還要關(guān)注到它的項目組織形式。與 GPT-3 純閉源的、頂級大廠內(nèi)部研究不同，這個項目從立項開始就是開放的。其開源內(nèi)容不僅是模型本身，還包含了數(shù)據(jù)治理、模型結(jié)構(gòu)探索、實驗數(shù)據(jù)、訓練日志、線上會議錄像等資料。大家可以去看一下他們中間經(jīng)過了幾次波折、訓練中止這些問題怎么解決的。這是一個非常寶貴的資源，預(yù)計在后續(xù)半年內(nèi)，BLOOM 模型還有很多迭代工作。

總結(jié)

最后總結(jié)一下本次演講的內(nèi)容。

繼感知智能之后，認知智能已經(jīng)崛起，最重要一個因素是“預(yù)訓練+微調(diào)”技術(shù)的發(fā)展，相比于之前的特征工程，“預(yù)訓練+微調(diào)”可以大大提升開發(fā)效率，也意味著我們可能用更統(tǒng)一的方式，讓 NLP 能力在工業(yè)界落地。

最近一年，小樣本和零樣本技術(shù)也取得不錯進展，通過這種多任務(wù)或多 Prompt 的形式，訓練出的模型規(guī)模越來越小，讓大家可以開始關(guān)注零樣本商業(yè)化落地的可能性。

通過檢索增強，能夠把模型和知識解耦，讓模型變得更加輕量化。

近期在多模態(tài)領(lǐng)域涌現(xiàn)出非常多的新工作，模型能力提升非常迅速，也到了考慮商業(yè)化可能性的時間節(jié)點；多模態(tài)預(yù)訓練和強化學習的結(jié)合也是一個新的趨勢。

多個預(yù)訓練框架齊頭并進，這些框架的改進將幫助研究員和工業(yè)界更輕松地去解決預(yù)訓練的諸多問題。

開源訓練框架的出現(xiàn)，未來或許會使得超大規(guī)模預(yù)訓練模型技術(shù)壁壘逐漸消失。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1787

文章
46061

瀏覽量
235017
nlp

nlp

+關(guān)注

關(guān)注
1

文章
481

瀏覽量
21934
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2136

瀏覽量
1980

原文標題：一文看懂預(yù)訓練模型最新進展

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

簡述中軟國際模型工場服務(wù)場景

在大力發(fā)展新質(zhì)生產(chǎn)力背景下，人工智能正成為高質(zhì)量發(fā)展的最大增量。而大模型以其模型精度高、泛化能力強、支持多模態(tài)的特點，成為人工智能

發(fā)表于 09-19 14:16 ?100次閱讀

簡述中軟國際<b class='flag-5'>模型</b>工場服務(wù)場景

SDV的發(fā)展背景背景與功能

SDV技術(shù)不僅是對傳統(tǒng)車輛功能的增強，更是對汽車性能、安全性及可定制性的一種全新定義。本文將深入探討SDV技術(shù)的背景、功能。 1. SDV技術(shù)的發(fā)展

發(fā)表于 08-29 10:23 ?159次閱讀

無線充電技術(shù)發(fā)展趨勢

目前無線充電技術(shù)還處于發(fā)展階段，距離方案的成熟尚需不斷探索和完善！降低熱損耗，提升效率縮短充電時間，改良充電曲線以更好的保護負載設(shè)備（終端或者電池等）。

發(fā)表于 08-03 14:26

大模型技術(shù)及趨勢總結(jié)

本篇文章旨在希望大家對大模型的本質(zhì)、技術(shù)和發(fā)展趨勢有簡單的了解。由于近期大模型技術(shù)發(fā)展很快，這里對大模型

發(fā)表于 06-21 17:38 ?512次閱讀

【大語言模型：原理與工程實踐】探索《大語言模型原理與工程實踐》

的未來發(fā)展方向進行了展望，包括跨領(lǐng)域、跨模態(tài)和自動提示生成能力方向，為讀者提供了對未來技術(shù)發(fā)展的深刻見解?！洞笳Z言模型原理與工程實踐》是一本內(nèi)容豐富、深入淺出的技術(shù)書籍。它不僅為讀者提

發(fā)表于 04-30 15:35

揭秘氣候技術(shù)發(fā)展的關(guān)鍵平臺Earth-2的核心—CorrDiff

在全球變暖背景下，NVIDIA Earth-2 已成為推動氣候技術(shù)發(fā)展的關(guān)鍵平臺。針對因氣候變化而日益加重的災(zāi)難性極端天氣影響，該平臺能夠生成可供執(zhí)行的洞察。

發(fā)表于 04-20 09:23 ?454次閱讀

巖土工程中的振弦采集儀技術(shù)發(fā)展與前景展望

巖土工程中的振弦采集儀技術(shù)發(fā)展與前景展望河北穩(wěn)控科技振弦采集儀是一種常用的巖土工程監(jiān)測儀器，用于測量土壤或巖石的振動特性。隨著巖土工程領(lǐng)域的發(fā)展和技術(shù)的進步，振弦采集儀技術(shù)也得到了不

發(fā)表于 03-01 10:57 ?270次閱讀

2024年可預(yù)見的藍牙技術(shù)發(fā)展趨勢

近期，Silicon Labs（亦稱“芯科科技”）負責藍牙技術(shù)的高級產(chǎn)品經(jīng)理Parker Dorris先生參與藍牙技術(shù)聯(lián)盟（Bluetooth SIG）的會員訪談，就2024年可預(yù)見的藍牙技術(shù)發(fā)展趨勢進行了討論，包括電子貨架標簽

發(fā)表于 01-08 17:27 ?1169次閱讀

森國科亮相第十四屆亞洲電源技術(shù)發(fā)展論壇

2023年12月23日，由世紀電源網(wǎng)主辦的"第十四屆亞洲電源技術(shù)發(fā)展論壇深圳峰會"圓滿落幕，現(xiàn)場吸引了近3000名行業(yè)人士到場，與專家學者，名企代表們共同探討雙碳背景下，層出不窮

發(fā)表于 12-26 17:22 ?732次閱讀

小微間距器件技術(shù)發(fā)展方向

“當下，P1間距以內(nèi)COB產(chǎn)品占比增長迅速，而新技術(shù)MiP的入場，勢必導致P1以下小間距產(chǎn)品競爭愈加激烈?！睎|山精密產(chǎn)品經(jīng)理黃耀輝在談及小微間距器件技術(shù)發(fā)展方向時拋出了自己的觀點。

發(fā)表于 12-12 16:25 ?535次閱讀

情感語音識別：技術(shù)發(fā)展與未來趨勢

的技術(shù)發(fā)展 特征提取技術(shù)：特征提取是情感語音識別的關(guān)鍵步驟之一。目前，基于深度學習模型的特征提取技術(shù)已經(jīng)取得了顯著的進展。這些模型能夠自動學

發(fā)表于 11-23 14:28 ?493次閱讀

情感語音識別：技術(shù)發(fā)展與跨文化應(yīng)用

一、引言情感語音識別是人工智能領(lǐng)域的前沿研究領(lǐng)域，它通過分析人類語音中的情感信息，實現(xiàn)更加智能化和個性化的人機交互。隨著技術(shù)的不斷發(fā)展，情感語音識別正逐漸應(yīng)用于跨文化領(lǐng)域，為不同文化背景下的用戶

發(fā)表于 11-22 10:54 ?433次閱讀

Small Cell技術(shù)發(fā)展的趨勢、亮點及挑戰(zhàn)

電子發(fā)燒友網(wǎng)站提供《Small Cell技術(shù)發(fā)展的趨勢、亮點及挑戰(zhàn).pdf》資料免費下載

發(fā)表于 11-10 15:05 ?0次下載

大模型背景下智能汽車產(chǎn)業(yè)的未來發(fā)展方向

”等熱門技術(shù)話題，通過主題演講、話題研討、圓桌論壇、demo展示等多種形式，圍繞市場趨勢、技術(shù)發(fā)展等方面展開深入探討，凝聚產(chǎn)業(yè)共識、助力智駕未來發(fā)展。 ? 如今，大模型卓越的處理能力和

發(fā)表于 11-08 09:23 ?554次閱讀

低功耗WiFi模塊的技術(shù)發(fā)展

隨著物聯(lián)網(wǎng)的迅速發(fā)展，對于低功耗設(shè)備和技術(shù)的需求日益增加。低功耗WiFi模塊應(yīng)運而生，為連接大量設(shè)備提供了更長的電池壽命和更可持續(xù)的能源解決方案。本文將深入研究低功耗WiFi模塊的技術(shù)發(fā)展，探討其在物聯(lián)網(wǎng)和移動設(shè)備領(lǐng)域的關(guān)鍵作用

發(fā)表于 11-02 16:34 ?601次閱讀