0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大模型技術(shù)發(fā)展背景

深度學習自然語言處理 ? 來源:瀾舟科技 ? 作者:瀾舟科技 ? 2022-07-26 14:32 ? 次閱讀

本文根據(jù)瀾舟科技創(chuàng)始人兼 CEO 周明、瀾舟大模型技術(shù)負責人王宇龍在「瀾舟NLP分享會」演講整理,帶領(lǐng)大家回顧過去 12 個月以來,國內(nèi)外大模型的發(fā)展趨勢,包括百花齊放的國產(chǎn)大模型、新秀不斷涌現(xiàn)的多模態(tài)模型、萌芽中的通用能力模型等等,并對大模型新應(yīng)用、預(yù)訓練框架等方面的進展進行了總結(jié)。

大模型技術(shù)發(fā)展背景

此前十余年,人工智能在“感知智能”方面進展非常迅速,涌現(xiàn)了“CV 四小龍”等公司。在 2017 年,谷歌提出了 Transformer 架構(gòu),隨后 BERT 、GPT 等預(yù)訓練模型相繼提出,2019 年基于預(yù)訓練模型的算法在閱讀理解方面超過了人類的水平,此后 NLP 技術(shù)在各項任務(wù)中都有了大幅度的提升。

AI 從感知智能向認知智能邁進

我們今天看到了一個明顯的趨勢就是 AI 正從感知智能快速向認知智能邁進。AI 正從“能聽、會說、會看”的感知智能,走向“能思考、能回答問題、能總結(jié)、做翻譯、做創(chuàng)作”的認知智能,甚至走到“決策、推理”層面了。

068a1758-0ca5-11ed-ba43-dac502259ad0.png

圖 1

如圖 1 右側(cè)所示,認知智能的例子比比皆是。比如,達到了接近人類水準的機器翻譯已經(jīng)在手機和桌面普遍使用;聊天機器人幾乎可以通過圖靈測試;搜索引擎得益于閱讀理解以及預(yù)訓練模型,搜索相關(guān)度大幅度提升;自動客服系統(tǒng)已經(jīng)普及;知識圖譜在金融等領(lǐng)域得到快速應(yīng)用。這些認知智能的能力在加速推動產(chǎn)業(yè)發(fā)展,從大數(shù)據(jù)出發(fā)到建立信息檢索,再到建立知識圖譜并實現(xiàn)知識推理,再到發(fā)現(xiàn)趨勢形成觀點和洞見,認知智能在大數(shù)據(jù)支持下,推動著企業(yè)的業(yè)務(wù)數(shù)智化,正深刻地影響產(chǎn)業(yè)的發(fā)展??梢哉f NLP 和認知智能代表了人工智能的未來發(fā)展。

預(yù)訓練成為了認知智能的核心技術(shù)

剛才說到 2017 年推出的 Transformer,催生了 BERT、GPT、T5 等預(yù)訓練模型。這些模型基于自監(jiān)督學習,利用大規(guī)模文本學習一個語言模型。在此基礎(chǔ)上,針對每一個NLP 任務(wù),用有限的標注數(shù)據(jù)進行微調(diào)。這種遷移學習技術(shù)推動了 NLP 發(fā)展,各項任務(wù)都上了一個大臺階。更為重要的是,產(chǎn)生的“預(yù)訓練+微調(diào)”技術(shù),可用一套技術(shù)解決不同語言和不同的 NLP 任務(wù),有效地提升了開發(fā)效率。這標志著 NLP 進入到工業(yè)化實施階段。

06b59ab8-0ca5-11ed-ba43-dac502259ad0.png

圖2

當前在預(yù)訓練模型領(lǐng)域較為關(guān)注的研究重點包括:如何訓練超大規(guī)模參數(shù)的模型、對已有模型架構(gòu)的創(chuàng)新性研究、更加有效的訓練方法和訓練加速的方法。還有簡化微調(diào)的步驟,比如像 GPT-3 那樣用一套提示機制來統(tǒng)一所有下游任務(wù)的微調(diào),推動零樣本學習和小樣本學習。除此之外,多模態(tài)預(yù)訓練模型和推理加速方法也是目前的研究焦點。

NLP領(lǐng)域需要挑戰(zhàn)產(chǎn)品創(chuàng)新和商業(yè)模式創(chuàng)新

人們常說創(chuàng)新有三個層次,一個是科研的創(chuàng)新,第二個是產(chǎn)品的創(chuàng)新,第三是商業(yè)模式的創(chuàng)新。

我個人認為預(yù)訓練模型是目前最具顛覆性的科技創(chuàng)新??墒窃賯ゴ蟮目萍紕?chuàng)新也要考慮如何推動產(chǎn)品的創(chuàng)新和商業(yè)模式的創(chuàng)新。如何從工業(yè)界觀點來看,把科技創(chuàng)新貫穿到產(chǎn)品創(chuàng)新,貫穿到商業(yè)模式的創(chuàng)新呢?也就是說如何實現(xiàn)認知智能的落地?

06cd4d7a-0ca5-11ed-ba43-dac502259ad0.png

圖 3

這里我跟大家分享如下四個觀點。

模型訓練。首先需要積累各類互聯(lián)網(wǎng)數(shù)據(jù)、包括單語和雙語數(shù)據(jù)、行業(yè)數(shù)據(jù)。通過實體、關(guān)系和時間序列抽取建立知識圖譜。與此同時,建立大規(guī)模的預(yù)訓練模型支持單語、多語、多模態(tài)等各項任務(wù),并進而支持搜索、文本理解、生成、翻譯、語音、圖像、視頻等各項應(yīng)用。

模型快速適配。要有能力針對某一個行業(yè)需求,快速訓練所需的模型。鑒于大模型在落地的時候部署代價大,需要考慮模型壓縮和輕量化。為了解決 NLP 開發(fā)碎片化問題,建立一套基于預(yù)訓練和微調(diào)機制的技術(shù)平臺支撐所有語言、所有領(lǐng)域和任務(wù)的研發(fā)和維護。

柔性AI智能云服務(wù)。需要開發(fā)柔性AI智能云技術(shù),使得用戶以傻瓜型“拖拉拽”操作方式,“所見即所得”地實現(xiàn)自己的功能,并提供隨著用戶用量靈活調(diào)度云資源的彈性服務(wù)。

多樣化的服務(wù)。通過開源方式提供普惠服務(wù),并建立起品牌和口碑;通過SaaS提供付費服務(wù);通過深度訂制對重要客戶提供優(yōu)質(zhì)服務(wù)。

這里特別提一下瀾舟科技在預(yù)訓練模型方面的研究。2021 年 7月,瀾舟自研的孟子預(yù)訓練模型以十億級的規(guī)模,榮獲了中文 NLP 比賽 CLUE 第一名。超過了許多大公司的大模型。它具備如下特色:

?。禾峁?100M 至 1B 參數(shù)量的多級別模型,實現(xiàn)低硬件需求和低研發(fā)成本。

精:模型結(jié)構(gòu)上引入更多知識,同樣模型體積下可有更好的表現(xiàn)。

快:可用 8 張 3090 卡約 3 天完成一個領(lǐng)域遷移(base 級),8 張 3090 卡半天完成一個任務(wù)適應(yīng)。

專:可對每個領(lǐng)域或者每個任務(wù)定制預(yù)訓練模型。由于是專用模型,其水平可超過通用的大模型。

目前,我們開源了四個模型(孟子Mengzi-BERT 模型、孟子Mengzi-T5 模型、孟子Mengzi-金融模型、孟子Mengzi-圖文模型),并跟同花順、華夏基金等公司展開緊密合作,此外還通過剛才所說的柔性智能云——“瀾舟認知智能平臺”來釋放我們的能力,并通過SaaS服務(wù)廣大客戶,以實現(xiàn)科技創(chuàng)新到產(chǎn)品創(chuàng)新到商業(yè)模式的創(chuàng)新全貫通。

國內(nèi)外預(yù)訓練模型近一年的新進展

下面我就快速講一下過去 12 個月以來,預(yù)訓練模型國內(nèi)外發(fā)展的一些新的狀況。

我試圖用一張圖按照時間順序來概括過去一年多大模型的進展。雖然我盡量概括全部,但是由于時間有限,或者水平和眼界所限,可能會漏掉某些重要的工作。

國內(nèi)大模型百花齊放

06da911a-0ca5-11ed-ba43-dac502259ad0.png

圖 4

首先我想介紹國內(nèi)的一些進展,國內(nèi)有關(guān)公司和學校的預(yù)訓練模型研究非常令人關(guān)注(圖 4 高亮的部分)。

今年4月,華為云發(fā)布了盤古系列超大預(yù)訓練模型,包括中文語言(NLP)、視覺(CV)大模型,多模態(tài)大模型、科學計算大模型。華為云盤古大模型旨在建立一套通用、易用的人工智能開發(fā)工作流,以賦能更多的行業(yè)和開發(fā)者,實現(xiàn)人工智能工業(yè)化開發(fā)。

清華和騰訊推出的 CokeBert,雖然模型小,但是根據(jù)上下文動態(tài)選擇適配的知識圖譜的子圖,在利用知識增強預(yù)訓練方面(簡稱知識增強)有一定特色。

孟子是瀾舟自研的模型,走輕量化路線,覆蓋多語言和多模態(tài),理解和生成,去年 7 月在 CLUE 登頂。

中科院自動化所推出紫東太初,它是融圖、文、音三模態(tài)于一體(視覺-文本-語音)的三模態(tài)預(yù)訓練模型,具備跨模態(tài)理解與跨模態(tài)生成能力。

智源研究院也在不斷推出新模型,覆蓋文本和多模態(tài)。

沈向洋博士領(lǐng)導的大灣區(qū) IDEA 研究院推出了二郎神模型,其中“二郎神-1.3B”模型在 FewCLUE 和 ZeroCLUE 上都取得榜一成績。

當然,其他大公司也都推出了他們自己的新模型,比如阿里的 M6 采用相對低碳方式突破 10萬億,有多模態(tài)、多任務(wù);百度的 ERNIE 3.0 是融合了大量知識的預(yù)訓練模型,既用了自回歸,也用了自編碼,使得一個模型兼具理解和生成。這里不再贅述細節(jié)。

多模態(tài)模型新秀涌現(xiàn)

06fbbda4-0ca5-11ed-ba43-dac502259ad0.png

圖5

圖 5 highlight 了一些新的多模態(tài)模型,比如微軟亞洲研究院提出的一個可以同時覆蓋語言、圖像和視頻的統(tǒng)一多模態(tài)預(yù)訓練模型——NüWA(女媧),直接包攬 8 項 SOTA,還有其文檔理解的 LayoutLM 也有了新的進展。當然谷歌的 ImageN 和 OpenAI 的 DALL-E 2,實現(xiàn)了更強大的“文一圖”生成能力,也引起廣泛關(guān)注。

通用能力模型萌芽

我也注意到,把大模型拓展可以構(gòu)建某種意義上的通用能力模型。比如,OpenAI 的 VPT 模型:在人類 Minecraft 游戲的大規(guī)模未標記視頻數(shù)據(jù)集訓練一個視頻預(yù)訓練模型,來玩 Minecraft。

而 Deepmind 用預(yù)訓練構(gòu)建了一個 AGI 智能體 Gato,它具有多模態(tài)、多任務(wù)、多具身(embodiment)特點,可以玩雅達利游戲、給圖片輸出字幕、和別人聊天、用機械臂堆疊積木等等。Gato 使用相同的訓練模型就能玩許多游戲,而不用為每個游戲單獨訓練。DeepMind 這項最新工作將強化學習、計算機視覺和自然語言處理這三個領(lǐng)域合到一起。

它們都試圖把大模型的概念推廣到一個相對通用的人工智能領(lǐng)域。像 Gato,它具備多模態(tài)、多任務(wù)、多具身的特點,可以玩多種游戲,用一個模型來覆蓋多個游戲,而不是說為每個游戲單獨訓練一個模型。實際上把強化學習、計算機視覺和自然語言處理這三個領(lǐng)域試圖合在一起。

小結(jié)

總的來講,小樣本,零樣本取得了新的進展,SOTA模型的尺寸在降低,檢索增強的預(yù)訓練模型逐漸成為主流技術(shù)。多模態(tài)模型能力提高很快,從圖、視頻、聲音、code、甚至擴展到AGI。我們也看到了很多新的應(yīng)用。

以上只是非常 high level 地概括最近預(yù)訓練的發(fā)展,下面我們會更詳細地說明。

預(yù)訓練之“不可能的三角”

下面具體介紹近期有亮眼進展的預(yù)訓練模型。

大家可能都知道在分布式系統(tǒng)里有 CAP 定理,該定理指出,對于一個分布式計算系統(tǒng)來說,不可能同時滿足“一致性”、“可用性”、“分區(qū)容錯性”。類似的,去年有一篇論文提出了預(yù)訓練模型“不可能三角”理論(圖6) ,三角形頂端分別是“合理的模型尺寸”、“先進的小樣本能力”以及“先進的微調(diào)能力”,一個模型很難兼顧這三點,大多數(shù)模型只能做到其中一點或者兼顧兩點。

070cea7a-0ca5-11ed-ba43-dac502259ad0.png

圖6

比如 GPT-3 小樣本表現(xiàn)較好,但是模型較大,finetune 效果表現(xiàn)并不是那么好;BERT 和 DistillBERT 就是另外一個典型,那它們的模型尺寸可能沒有那么大,然后微調(diào)能力也很好。但是它們在小樣本和零樣本上的表現(xiàn)就是會比較差。

但是最近半年我們也看到一些改進:在保證和 GPT-3 效果相當?shù)那疤嵯拢p小模型參數(shù)量。下面我們分開來講。

FLAN (Google)

072112c0-0ca5-11ed-ba43-dac502259ad0.png

圖 7

Google 去年提出了 FLAN,一個基于 finetune 的 GPT 模型。它的模型結(jié)構(gòu)和 GPT 相似。但是不同于 GPT-3 的是,它基于 62 個數(shù)據(jù)集,每個數(shù)據(jù)集構(gòu)造了 10 個 Prompt 模板,也就是總共拿到 620 個模板的數(shù)據(jù)之后再進行 finetune。

我們可以看到圖 7 右側(cè),F(xiàn)LAN 的這個模型參數(shù)只有 137B,相比于 GPT-3 的 175B 有大幅降低,但是 FLAN 在一些下游任務(wù) few-shot 和 zero-shot 上表現(xiàn)卻變得更好。這給我們帶來一個啟示:我們不是必須去用像 GPT-3 級別超大規(guī)模的語言模型,而是通過更多的監(jiān)督數(shù)據(jù)(而不是純粹做無監(jiān)督的訓練),去降低模型規(guī)模,同時拿到更好的模型效果。

當然 FLAN 也會有些約束條件。如圖 7 左下角所示,finetune 所帶來的效果在 8B 以上的參數(shù)量才能夠?qū)崿F(xiàn)。

T0 (BigScience)

下圖是 Huggingface 發(fā)起的“BigScience” workshop 中的一項工作,該模型取名為 T0。T0 選擇的是 T5 的架構(gòu),但是它的數(shù)據(jù)量更多。T0 總共構(gòu)造了 171 個數(shù)據(jù)集,最終構(gòu)造了 2000 個多樣的 Prompt 模板,最終用 11B 參數(shù)量(GPT-3 的 1/16)達到了和 GPT-3 相似的效果。

073cdf14-0ca5-11ed-ba43-dac502259ad0.png

圖 8

如圖 8 右下角所示,我們可以看到隨著 Prompt 的數(shù)量增加,下游任務(wù)表現(xiàn)也會逐漸地變好。這也啟發(fā)我們,是不是可以通過不斷增加任務(wù)數(shù)量以及構(gòu)造更多樣化的 Prompt 模板,不停地把這個超大規(guī)模語言模型的參數(shù)量壓縮得更小?比如,上面 FLAN 是 137B,T0 現(xiàn)在是 11B,那如果我們再去增加數(shù)據(jù)量,或者再增加 Prompt 數(shù)量,參數(shù)是不是還有更高的壓縮空間?這個也是值得探索。

CoT

這個是最近挺有話題性的一篇文章。邏輯比較簡單,主要在探索“在 GPT-3 上,我們選擇不同的 Prompt 是不是還有更好的表現(xiàn)”。

07561538-0ca5-11ed-ba43-dac502259ad0.png

圖 9

如圖 9 左下角的表格所示,在一個任務(wù)上,它的 zero-shot 大概是 17.7 分,但是選擇“Let's think step by step” 這個 Prompt,分數(shù)直接漲到 78 分。

這說明一些問題,一方面是超大規(guī)模的預(yù)訓練語言模型其實還有很多挖掘的空間,另一方面,Prompt 魯棒是一個很大的問題。如果我們要落地這樣的模型會增加工程難度。就像我們之前做語言或者視覺方向上的特征工程一樣,不同的特征工程對下游任務(wù)的最終表現(xiàn)影響是特別大的。

RETRO (DeepMind)

除了多任務(wù)之外,還有一個新趨勢是檢索增強。早一些在做檢索生成的時候,我們用到 REALM 和 RAG 等模型。而 RETRO 模型是 DeepMind 去年 12 月份左右提出的,它的主要思路是,除了使用這一個大規(guī)模預(yù)訓練語言模型掌握語料知識之外,還可以把知識從這個模型中解耦,獨立成一個單獨的檢索模塊,把這些知識放到一個數(shù)據(jù)庫里面。

0770fd58-0ca5-11ed-ba43-dac502259ad0.png

圖 10

RETRO 只用了 7B 參數(shù)(相當于 GPT-3 的 1/25),就可以達到和 GPT-3 可比的效果。這也證明了提高模型效果并不只有增加參數(shù)量一條路。同時還能通過數(shù)據(jù)庫更新的方式實時加入新的知識(OpenAI 的 GPT-3 API 只有 2020 年 8 月前的知識)。

當然 RETRO 也會有一些要求限制。如圖 10 左上角所示,它對檢索庫的數(shù)據(jù)量有很高要求,在 1T Tokens 左右才能達到相似效果,這也是后續(xù)要解決的問題。

WebGPT (OpenAI)

WebGPT 其實跟 RETRO 很相似,我們可以從兩個角度來看:

1. WebGPT 引入了外部知識,讓 GPT-3 學會像人類一樣去學會使用瀏覽器獲取知識;

2. WebGPT 不僅僅是像 RETRO 一樣直接引入一個外部的檢索模塊,它還會利用強化學習的方法,通過 6k 條人類的搜索行為數(shù)據(jù)讓 GPT-3 模仿人類的搜索方式

0791c07e-0ca5-11ed-ba43-dac502259ad0.png

圖11

小結(jié)一下,從上面 FLAN、T0、CoT、RETRO、WebGPT 的工作來看,在 GPT-3 模型的基礎(chǔ)上,我們可以通過增加多任務(wù)、Prompt 和增加檢索模塊,在更小的參數(shù)量級上達到 GPT-3 175B 相同水平的效果。之前只能在 GPT-3 中看到的小樣本、零樣本能力,未來通過更小參數(shù)量的模型在工業(yè)界中落地的可能性會越來越大,大量場景中的標注成本將會繼續(xù)降低。未來,這一能力這將為我們帶來全新的商業(yè)場景,讓沒有 NLP 算法團隊的公司也能更容易、低成本的獲得定制化的 NLP 能力。

多模態(tài)模型

DALL·E 2(Open AI)和 Imagen(Google)

多模態(tài)方面近期有很多進展,今年,OpenAI 發(fā)布了 DALL·E 2,Google 發(fā)布了 Imagen。雖然兩個模型權(quán)重都未公開,但從釋放出的大量示例來看,圖片的真實度、分辨率都有較為明顯的進步。我們已經(jīng)到了需要討論這項技術(shù)商業(yè)化落地的時間點了。當然,目前模型還存在的各種?險和限制也是我們要考慮的問題,比如暴恐、低俗的文字輸入、版權(quán)?險、來自數(shù)據(jù)的偏?等。

以往關(guān)于文本生成圖像的研究,除了最早出現(xiàn)的 GAN,大體可以分成兩種思路:

一種是基于自回歸模型,將文本特征和圖像特征映射到同一空間,再使用類似于 Transformer 的模型架構(gòu),來學習語言輸入和圖像輸出之間的關(guān)系。比如 DALL-E 和 CogView,就采用了這一思路。

另一種則是基于擴散模型的方式,DALL·E 2 和 Imagen 就屬于這一類??梢钥吹降氖?,這些模型產(chǎn)生的圖像分辨率更高,效果更好。

07b7e808-0ca5-11ed-ba43-dac502259ad0.png

圖 12

07ed3f62-0ca5-11ed-ba43-dac502259ad0.png

圖13

LayoutLM v3

LayoutLM 在文檔理解和智能文檔領(lǐng)域有非常重要作用,這方面的工作已經(jīng)推出了第三代。相比前一代,它用 patch embedding 來代替之前 CNN 的 backbone,使用統(tǒng)一的文本和圖像的 mask 任務(wù)。

0822455e-0ca5-11ed-ba43-dac502259ad0.png

圖 14

在 NLP 領(lǐng)域,我們不僅僅要面對文字,還有更多復雜的、未經(jīng)處理的 PDF、Word 文檔等,所以 LayoutLM 是一個非常值得關(guān)注的工作。

VPT

視頻領(lǐng)域的預(yù)訓練模型 VPT 應(yīng)該算得上是一個里程碑式的工作。

0834c148-0ca5-11ed-ba43-dac502259ad0.png

圖 15

這里要先簡單介紹一下 Minecraft,它是一個開放式的游戲,玩家可以在一個三維世界里采集資源,然后按照一個技能樹去創(chuàng)造不同的工具和物品。一般人類玩家會先采集木頭(如圖 15 下半部分所示),然后制造一些工具,再采集石頭、鐵,最后采集鉆石。整個游戲流程中需要進行不同類型的決策,除了要在三維世界里采集這些東西,玩家還要決定怎么制造道具。普通人類玩家——以我個人經(jīng)驗——差不多半個小時才能完成整個流程。這是首次有 AI 算法能使用和人類一樣的交互(視頻+鍵鼠)完成這個任務(wù)。

VPT 里大量使用了預(yù)訓練。除了用大量無標注的視頻數(shù)據(jù)做了預(yù)訓練,還加入了少量的人工標記去學習人類行為。如圖 15 右側(cè)所示,我們可以看到,沒有使用預(yù)訓練的方法是很難完成這個工作的。所以,這給我們帶來一些想象空間——預(yù)訓練和強化練習,或者和機器人進行結(jié)合,能夠像人類一樣解決一些很通用的任務(wù),可能會產(chǎn)生新的落地場景。

Gato (DeepMind)

0843fd20-0ca5-11ed-ba43-dac502259ad0.png

圖 16

DeepMind 提出的 Gato 是用一個單一的預(yù)訓練模型完成很多不同的任務(wù)。模型結(jié)構(gòu)簡單,只有一個 Transformer 架構(gòu),只有約 12億參數(shù)。Gato 能夠執(zhí)行 600 多種不同的任務(wù),可以使用相同的權(quán)重來完成注釋圖像、聊天、玩小游戲、bu關(guān)節(jié)力矩控制、在現(xiàn)實中使用機械臂對疊積木、在模擬 3D 環(huán)境中導航等等任務(wù)。

這啟發(fā)我們,Transformer 架構(gòu)實際上是有一定通用性的。不僅是能夠完成文字類理解工作,甚至打游戲、視頻相關(guān)的任務(wù),它都能做。這意味著我們將來也許可以用一套更統(tǒng)一的框架來做更多事情。在工業(yè)界來說,就是用更低的成本來做預(yù)訓練微調(diào)、解決不同場景的問題。

新應(yīng)用 —— Copilot

085fb81c-0ca5-11ed-ba43-dac502259ad0.png

圖 17

Copilot 已經(jīng)是非常落地的一個應(yīng)用了,很多開發(fā)者的體驗反饋都是“非常驚艷”。傳統(tǒng)的代碼補全,通常用語法樹解析去做預(yù)測。由于這個原因,對于解釋性的語言的補全做得并不是很好,比如大家常用的 Python。當然,我們也知道有一些廠商做得可能稍微好一點,但相比于 Copilot 這種基于預(yù)訓練的工具,屬于不同“代次”。

Copilot 可能會對傳統(tǒng)的 IDE 行業(yè)產(chǎn)生非常大沖擊。

舉一些具體的例子,我們一般寫代碼可能會輸入一個符號,然后按一下鍵盤上的 “.” 來進行補全出 class 、function、symbol 等等。但是 Copilot 用法往往是這樣:先寫一個函數(shù)名稱,再寫幾行注釋,它就能夠把函數(shù)的 5 到 10 行代碼直接補全出來,當然也不是非常完美,有時候需要我們手動做二次修改,但相對于傳統(tǒng) IDE 是完全不同的體驗。

除了可以把 Copilot 當做代碼補全工具之外,也能把它當做替代 stackoverflow 的檢索工具。以往寫一些簡單、重復性的代碼片段,我們可能要去搜 stackoverflow,看看其他人分享的代碼。但是有了 Copilot 之后,stackoverflow 的使用率會變得很低。因為基本只要寫注釋就能讓 Copilot 幫你完成一些簡單的工作。

預(yù)訓練框架進展

JAX

除了模型之外,底層的預(yù)訓練框架也是非常重要的。最近一年,我們可以看到預(yù)訓練框架領(lǐng)域有了新的進展。

JAX 不是一個新的框架,它在 2018 年就已經(jīng)問世了。2020 年 DeepMind 表示他們在用 JAX 去做他們的研究工作。相比 PyTorch,JAX 引入了 XLA 帶來了速度提升、顯存消耗下降,同時 API 形式是非常像NumPy,大家用起來會非常輕松。

0882d086-0ca5-11ed-ba43-dac502259ad0.png

圖 18

我們更關(guān)注的是基于這套框架之上的預(yù)訓練領(lǐng)域框架,如 T5X,最近 Google的工作很多用 T5X 實現(xiàn)。T5X 跟 Pathway 的思路會很接近,即通過一套框架讓研究員很輕松地去調(diào)整設(shè)置,用不同架構(gòu)完成預(yù)訓練。目前在 Huggingface 上大多數(shù)模型也都已經(jīng)有對應(yīng)的 JAX 版本了。但是這個框架也有一些問題,由于它設(shè)計的思路,要求大家用函數(shù)式編程的思路寫純函數(shù),那么對大多數(shù)沒有接觸過函數(shù)式編程語言(如 Lisp,Haskell 等)的人來說會有一定的上手門檻。

Megatron-DeepSpeed

0893f622-0ca5-11ed-ba43-dac502259ad0.png

圖 19

Megatron 和 DeepSpeed 是兩個很重要的預(yù)訓練框架。Megatron 是英偉達做的超大規(guī)模預(yù)訓練模型框架,主要是利用 tensor parallel 做性能優(yōu)化以及 mode parallel。DeepSpeed 是微軟團隊做的深度學習加速框架。這兩個團隊去年合作構(gòu)造出 Megatron-DeepSpeed 框架,相當于是把兩個框架的特點結(jié)合在一起,并用它訓練一個 530B 的模型。后面會講到的 BLOOM 模型也是基于這個框架的一個 fork 去做的。

ColossalAI

08a87e1c-0ca5-11ed-ba43-dac502259ad0.png

圖 20

ColossalAI 是潞晨科技的開源項目,是 Megatron-DeepSpeed 有力的競品,社區(qū)也非?;钴S。它給大家?guī)硪粋€非常直觀的結(jié)果就是預(yù)訓練成本降低了,在消費級的顯卡上也可以做一些訓練,相比 MegatronLM 更省力。

大教堂到集市:大模型研究的平民化

08cc1d04-0ca5-11ed-ba43-dac502259ad0.png

圖 21

最近大家可能關(guān)注到 BLOOM 模型,這是來自 BigScience 的一項工作。這其實是近半年以來的一個新趨勢——大模型平民化。BLOOM 模型在 7月中旬剛完成了最大規(guī)模 176B 的模型訓練,Benchmark 過兩天應(yīng)該會出來,大家感興趣可以去 Slack 圍觀進度。除了 BLOOM,最近 Meta 也開源了 OPT, EleutherAI 也開源了 GPT-Neo。

除了關(guān)注 BLOOM 模型本身,我們還要關(guān)注到它的項目組織形式。與 GPT-3 純閉源的、頂級大廠內(nèi)部研究不同,這個項目從立項開始就是開放的。其開源內(nèi)容不僅是模型本身,還包含了數(shù)據(jù)治理、模型結(jié)構(gòu)探索、實驗數(shù)據(jù)、訓練日志、線上會議錄像等資料。大家可以去看一下他們中間經(jīng)過了幾次波折、訓練中止這些問題怎么解決的。這是一個非常寶貴的資源,預(yù)計在后續(xù)半年內(nèi),BLOOM 模型還有很多迭代工作。

總結(jié)

最后總結(jié)一下本次演講的內(nèi)容。

繼感知智能之后,認知智能已經(jīng)崛起,最重要一個因素是“預(yù)訓練+微調(diào)”技術(shù)的發(fā)展,相比于之前的特征工程,“預(yù)訓練+微調(diào)”可以大大提升開發(fā)效率,也意味著我們可能用更統(tǒng)一的方式,讓 NLP 能力在工業(yè)界落地。

最近一年,小樣本和零樣本技術(shù)也取得不錯進展,通過這種多任務(wù)或多 Prompt 的形式,訓練出的模型規(guī)模越來越小,讓大家可以開始關(guān)注零樣本商業(yè)化落地的可能性。

通過檢索增強,能夠把模型和知識解耦,讓模型變得更加輕量化。

近期在多模態(tài)領(lǐng)域涌現(xiàn)出非常多的新工作,模型能力提升非常迅速,也到了考慮商業(yè)化可能性的時間節(jié)點;多模態(tài)預(yù)訓練和強化學習的結(jié)合也是一個新的趨勢。

多個預(yù)訓練框架齊頭并進,這些框架的改進將幫助研究員和工業(yè)界更輕松地去解決預(yù)訓練的諸多問題。

開源訓練框架的出現(xiàn),未來或許會使得超大規(guī)模預(yù)訓練模型技術(shù)壁壘逐漸消失。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46061

    瀏覽量

    235017
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    481

    瀏覽量

    21934
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2136

    瀏覽量

    1980

原文標題:一文看懂預(yù)訓練模型最新進展

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    簡述中軟國際模型工場服務(wù)場景

    在大力發(fā)展新質(zhì)生產(chǎn)力背景下,人工智能正成為高質(zhì)量發(fā)展的最大增量。而大模型以其模型精度高、泛化能力強、支持多模態(tài)的特點,成為人工智能
    的頭像 發(fā)表于 09-19 14:16 ?100次閱讀
    簡述中軟國際<b class='flag-5'>模型</b>工場服務(wù)場景

    SDV的發(fā)展背景背景與功能

    SDV技術(shù)不僅是對傳統(tǒng)車輛功能的增強,更是對汽車性能、安全性及可定制性的一種全新定義。本文將深入探討SDV技術(shù)背景、功能。 1. SDV技術(shù)發(fā)展
    的頭像 發(fā)表于 08-29 10:23 ?159次閱讀

    無線充電技術(shù)發(fā)展趨勢

    目前無線充電技術(shù)還處于發(fā)展階段,距離方案的成熟尚需不斷探索和完善!降低熱損耗,提升效率縮短充電時間,改良充電曲線以更好的保護負載設(shè)備(終端或者電池等)。
    發(fā)表于 08-03 14:26

    模型技術(shù)及趨勢總結(jié)

    本篇文章旨在希望大家對大模型的本質(zhì)、技術(shù)發(fā)展趨勢有簡單的了解。由于近期大模型技術(shù)發(fā)展很快,這里對大模型
    的頭像 發(fā)表于 06-21 17:38 ?512次閱讀
    大<b class='flag-5'>模型</b><b class='flag-5'>技術(shù)</b>及趨勢總結(jié)

    【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》

    的未來發(fā)展方向進行了展望,包括跨領(lǐng)域、跨模態(tài)和自動提示生成能力方向,為讀者提供了對未來技術(shù)發(fā)展的深刻見解?!洞笳Z言模型原理與工程實踐》是一本內(nèi)容豐富、深入淺出的技術(shù)書籍。它不僅為讀者提
    發(fā)表于 04-30 15:35

    揭秘氣候技術(shù)發(fā)展的關(guān)鍵平臺Earth-2的核心—CorrDiff

    在全球變暖背景下,NVIDIA Earth-2 已成為推動氣候技術(shù)發(fā)展的關(guān)鍵平臺。針對因氣候變化而日益加重的災(zāi)難性極端天氣影響,該平臺能夠生成可供執(zhí)行的洞察。
    的頭像 發(fā)表于 04-20 09:23 ?454次閱讀

    巖土工程中的振弦采集儀技術(shù)發(fā)展與前景展望

    巖土工程中的振弦采集儀技術(shù)發(fā)展與前景展望 河北穩(wěn)控科技振弦采集儀是一種常用的巖土工程監(jiān)測儀器,用于測量土壤或巖石的振動特性。隨著巖土工程領(lǐng)域的發(fā)展技術(shù)的進步,振弦采集儀技術(shù)也得到了不
    的頭像 發(fā)表于 03-01 10:57 ?270次閱讀
    巖土工程中的振弦采集儀<b class='flag-5'>技術(shù)發(fā)展</b>與前景展望

    2024年可預(yù)見的藍牙技術(shù)發(fā)展趨勢

    近期,Silicon Labs(亦稱“芯科科技”)負責藍牙技術(shù)的高級產(chǎn)品經(jīng)理Parker Dorris先生參與藍牙技術(shù)聯(lián)盟(Bluetooth SIG)的會員訪談,就2024年可預(yù)見的藍牙技術(shù)發(fā)展趨勢進行了討論,包括電子貨架標簽
    的頭像 發(fā)表于 01-08 17:27 ?1169次閱讀

    森國科亮相第十四屆亞洲電源技術(shù)發(fā)展論壇

    2023年12月23日,由世紀電源網(wǎng)主辦的"第十四屆亞洲電源技術(shù)發(fā)展論壇深圳峰會"圓滿落幕,現(xiàn)場吸引了近3000名行業(yè)人士到場,與專家學者,名企代表們共同探討雙碳背景下,層出不窮
    的頭像 發(fā)表于 12-26 17:22 ?732次閱讀
    森國科亮相第十四屆亞洲電源<b class='flag-5'>技術(shù)發(fā)展</b>論壇

    小微間距器件技術(shù)發(fā)展方向

    “當下,P1間距以內(nèi)COB產(chǎn)品占比增長迅速,而新技術(shù)MiP的入場,勢必導致P1以下小間距產(chǎn)品競爭愈加激烈?!睎|山精密產(chǎn)品經(jīng)理黃耀輝在談及小微間距器件技術(shù)發(fā)展方向時拋出了自己的觀點。
    的頭像 發(fā)表于 12-12 16:25 ?535次閱讀

    情感語音識別:技術(shù)發(fā)展與未來趨勢

    技術(shù)發(fā)展 特征提取技術(shù):特征提取是情感語音識別的關(guān)鍵步驟之一。目前,基于深度學習模型的特征提取技術(shù)已經(jīng)取得了顯著的進展。這些模型能夠自動學
    的頭像 發(fā)表于 11-23 14:28 ?493次閱讀

    情感語音識別:技術(shù)發(fā)展與跨文化應(yīng)用

    一、引言 情感語音識別是人工智能領(lǐng)域的前沿研究領(lǐng)域,它通過分析人類語音中的情感信息,實現(xiàn)更加智能化和個性化的人機交互。隨著技術(shù)的不斷發(fā)展,情感語音識別正逐漸應(yīng)用于跨文化領(lǐng)域,為不同文化背景下的用戶
    的頭像 發(fā)表于 11-22 10:54 ?433次閱讀

    Small Cell技術(shù)發(fā)展的趨勢、亮點及挑戰(zhàn)

    電子發(fā)燒友網(wǎng)站提供《Small Cell技術(shù)發(fā)展的趨勢、亮點及挑戰(zhàn).pdf》資料免費下載
    發(fā)表于 11-10 15:05 ?0次下載
    Small Cell<b class='flag-5'>技術(shù)發(fā)展</b>的趨勢、亮點及挑戰(zhàn)

    模型背景下智能汽車產(chǎn)業(yè)的未來發(fā)展方向

    ”等熱門技術(shù)話題,通過主題演講、話題研討、圓桌論壇、demo展示等多種形式,圍繞市場趨勢、技術(shù)發(fā)展等方面展開深入探討,凝聚產(chǎn)業(yè)共識、助力智駕未來發(fā)展。 ? 如今,大模型卓越的處理能力和
    的頭像 發(fā)表于 11-08 09:23 ?554次閱讀

    低功耗WiFi模塊的技術(shù)發(fā)展

    隨著物聯(lián)網(wǎng)的迅速發(fā)展,對于低功耗設(shè)備和技術(shù)的需求日益增加。低功耗WiFi模塊應(yīng)運而生,為連接大量設(shè)備提供了更長的電池壽命和更可持續(xù)的能源解決方案。本文將深入研究低功耗WiFi模塊的技術(shù)發(fā)展,探討其在物聯(lián)網(wǎng)和移動設(shè)備領(lǐng)域的關(guān)鍵作用
    的頭像 發(fā)表于 11-02 16:34 ?601次閱讀