0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

大模型的未來在哪?究竟什么是好的大模型?

腦極體 ? 來源:腦極體 ? 作者:腦極體 ? 2021-10-27 08:46 ? 次閱讀

自2018年谷歌發(fā)布BERT以來,預訓練大模型經(jīng)過三年的發(fā)展,以強大的算法效果,席卷了NLP為代表的各大AI榜單與測試數(shù)據(jù)集。2020年OpenAI發(fā)布的NLP大模型GPT-3,實現(xiàn)了千億級數(shù)據(jù)參數(shù)。GPT-3除了具備傳統(tǒng)的NLP能力之外,還可以算術、編程、寫小說、寫論文摘要,一時之間成為科技圈中的爆點。到2021年,我們可以看到各大學術機構、科技企業(yè)都在打造自己的大模型,并且對其能力邊界、技術路徑進行了極大拓展。

身在科技圈中會有明顯的感受,今年大模型的會議與討論越來越多,預訓練大模型本身的優(yōu)勢我們在很多新聞中都感受到了。打造大模型并不是一件輕松容易的事情,需要耗費大量的數(shù)據(jù)、算力資源等,大模型的意義是為了讓算法模型集中化,但是市場中有條件的企業(yè)和機構都開始耗費大量資源自研大模型。大模型算法模型的集中化優(yōu)勢,經(jīng)過這些機構對集中資源的分化,又有種煙囪式的割裂。

其實現(xiàn)實可能只需要一個發(fā)展到極致化的大模型就足夠大家使用了,沒有必要人手一個。而且預訓練大模型的發(fā)展在這樣的模式下也會受到一些影響,而在這個態(tài)勢下也有一些趨勢與變化值得討論與關注。

大模型發(fā)展模式的卡點

BERT、GPT 等大規(guī)模預訓練模型(PTM)近年來取得了巨大成功,成為AI領域的里程碑。因為預訓練大模型的顯著優(yōu)勢,現(xiàn)在AI社區(qū)的共識是采用它作為下游任務的開始,而不是從頭開始訓練數(shù)據(jù)、建立模型。

隨著產(chǎn)學研各界的深入研究,大模型在AI各界的地位得到不斷加強。一些機構和產(chǎn)業(yè)界對大模型的參與到角逐,使得其呈現(xiàn)出一種宣傳炫技般的畫面感受。這樣的發(fā)展模式很可能會給行業(yè)帶來一些不好的影響:

1.大模型成為一些機構和企業(yè)秀肌肉的軍備競賽,大家開始比拼各自參數(shù)集數(shù)量級。你百億級,我就千億級。數(shù)據(jù)集本身就有限,標榜自己的數(shù)據(jù)集越大,也意味著水分比較多,而在真實落地使用的情況方面,也并不不一定理想。算力資源和訓練時間消耗過大,并且也只限于部分行業(yè)的部分問題,普適性差。

2.國內(nèi)預訓練模型的玩家們可用的中文數(shù)據(jù)集有限,就是我們知道的幾種主流常用數(shù)據(jù)來源。在有限的數(shù)據(jù)集里,大家使用的數(shù)據(jù)未免重復,而因此研究出來的大模型能力就比較接近。走相同的路徑做類似的事情,有點浪費資源與算力。

3.大模型是否優(yōu)秀,不僅依賴數(shù)據(jù)的精度與網(wǎng)絡結(jié)構,也是對其與行業(yè)結(jié)合軟硬件協(xié)同能力的比拼。單純只強調(diào)低頭研發(fā)高參數(shù)集、強算力模型等的方向,輕視一些與行業(yè)的協(xié)同二次調(diào)試等問題,就會陷入閉門造車的局面,限制了落地的路,走不遠。

4.一些預訓練大模型經(jīng)過極致化(數(shù)據(jù)、模型、算力)的發(fā)展后,也有可能面臨小眾、泛用性差的情形,比如一些高校研發(fā)的預訓練大模型只能在小眾的學術圈子里使用,無法工程化使用,最終淪為一次性的模型,浪費大量的資源。

雖然我們看到各種大模型在集中式爆發(fā)發(fā)展,但其實目前大模型行業(yè)還處于初始階段,面臨一些問題與卡點無可避免。行業(yè)內(nèi)人士應該會更加敏感地體察到這些現(xiàn)象,誰也不會想要讓這些荊棘以常態(tài)的模式橫亙在發(fā)展前路上。大家花費精力激蕩腦力,想要發(fā)展的共識是打造出行業(yè)內(nèi)唯一的模型。那么,對于行業(yè)來說,究竟什么樣的大模型才是最好的呢?

究竟什么是好的大模型?

在這場battle里,大模型向著規(guī)模極致化的方向發(fā)展。那么如何衡量大模型的能力,是一個繞不開的話題。衡量大模型能力的關鍵要素是,參數(shù)的規(guī)模和與細分行業(yè)結(jié)合對接的軟硬件協(xié)同能力。我們在各種新聞中經(jīng)常可以看到,機構或者是企業(yè)用數(shù)據(jù)集或者是參數(shù)規(guī)模,以及跑分來彰顯自己的模型水平。

參數(shù)的規(guī)模決定了預訓練模型有多大。參數(shù)越大一般來說意味著大模型具備更多的能力,泛化性、通用性也更加強。成功的大模型背后,還需要大規(guī)模分布式訓練、并行計算、軟硬件協(xié)同優(yōu)化等能力。

腦極體曾在GPT-3最火的時候,參與過一次試驗:用GPT-3寫個文章出來。我們給第三方提供了一些寫作的思路,想要看一下機器寫出來的效果怎么樣(其實是想看看自己離失業(yè)還有多久)。結(jié)果得到的反饋是GPT-3在理解能力方面很牛很強,但是讓它去生產(chǎn)一篇稿件,對于它來說還是比較復雜而且困難的一件事情。

另外,排隊等待使用的企業(yè)過多,間次使用等待的時間過長,,并且稿件本身也需要好幾天才能完成??此埔粋€簡單的寫稿需求,對無所不能的GPT-3來說應該是小case,結(jié)果無疾而終。存在類似小需求的企業(yè)應該還是有很多,而這些需求都需要排隊等待調(diào)用大量的算力,并且磨幾天才能產(chǎn)出,而花時間花錢結(jié)果還存疑。當時行業(yè)里最好的大模型落地都如此艱難,大模型的落地還是有點不理想。

好的大模型不僅僅需要模型、算力等本身性能方面強勁,關鍵也需要看與某垂直行業(yè)結(jié)合時產(chǎn)品化落地的能力是否實用。落地的大模型需要解決一些行業(yè)具體的問題,與行業(yè)結(jié)合時二次開發(fā)、對接的成本盡可能地小,否則它強勢的性能也只是空中樓閣,中看不中用。大模型需要工程落地的能力,從而打開更多的邊界,讓更多領域和企業(yè)來使用。

大模型的未來趨勢

從產(chǎn)業(yè)價值的角度來看,預訓練大模型帶來了一系列可能性,讓產(chǎn)學研各界看到了由弱人工智能走向強人工智能,走向工業(yè)化、集成化智能化的路徑。在這樣的驅(qū)動背景下,大模型也會有一些可預見的趨勢與發(fā)展。

1.我們知道事物的發(fā)展規(guī)律是優(yōu)勝劣汏,在競爭的角逐中,一些標榜獨特性的小眾模型的泛化能力差,越獨特可能也就意味著越小眾,使用的范圍十分有限,可能會逐漸走向消亡。

2.崛起的大模型不僅僅是泛化性、落地能力強,創(chuàng)新性強、訓練數(shù)據(jù)規(guī)模大,也需要具備不斷生長革新的能力,也就是自我進化、智能化的能力。大模型的未來需要創(chuàng)新,也需要自我生長,向可持續(xù)、可進化的方向發(fā)展,架構上的革新會讓模型更加高效。

3.大模型能力的端側(cè)化,“芯片化”。將模型的一些運算存儲等能力像芯片一樣固化在一些端側(cè)硬件設備中,在使用的過程中不用在重裝的模型中耗時調(diào)用算力與數(shù)據(jù),可以實現(xiàn)隨時調(diào)用隨時使用?,F(xiàn)下的模型多是重裝大模型,使用的話需要調(diào)用龐大的算力和運行時間,未來的大模型會逐漸改變這種模式。

4.大模型的標準化與模塊化發(fā)展。大模型的評估未來會有標準化成熟的體系來衡量,這個體系也會是行業(yè)內(nèi)公認的標準,用這個標準來衡量大模型的優(yōu)劣而不是現(xiàn)下自賣自夸式的標榜。

目前我們在各大榜單上看到的分數(shù)來自于大型的數(shù)據(jù)集和算力模型,讓開發(fā)更加容易,調(diào)試與訓練的周期越來越短。但我們也知道大量的數(shù)據(jù)喂養(yǎng)出來的模型回報并不是百分百地正確。喂養(yǎng)的數(shù)據(jù)知識的極大擴展也無法保證結(jié)果的確定性,這也是大模型最大的弱點,而這也意味著對于大模型的探索需要持續(xù)的迭代發(fā)展。

預訓練大模型是面向通用智能最高階的探索,也是AI持續(xù)變革的核心發(fā)展方向與動力,隨著AI不斷深入產(chǎn)業(yè)與各學科領域的過程中,大模型在軍備battle和百家爭鳴,算力、數(shù)據(jù)、規(guī)模都會朝著極致化的方向發(fā)展。未來新的預訓練大模型將會與那些計算量巨大的科學領域,比如制藥、腦科學、醫(yī)療、生物計算等領域相互結(jié)合,帶來巨大的價值。

我們的那些懸而未解的難題,在未來都會有答案,無論最終這個結(jié)論正確與否,都能夠為前沿的發(fā)展、探索帶來很多靈感與角度,世界的多面體將會被打開。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    29806

    瀏覽量

    268106
  • 數(shù)據(jù)集

    關注

    4

    文章

    1200

    瀏覽量

    24619
  • nlp
    nlp
    +關注

    關注

    1

    文章

    484

    瀏覽量

    21987
  • 訓練模型
    +關注

    關注

    1

    文章

    35

    瀏覽量

    3794
  • 算力
    +關注

    關注

    1

    文章

    906

    瀏覽量

    14697
收藏 人收藏

    評論

    相關推薦

    模型動態(tài)測試工具TPT的軟件集成與測試支持#Siumlink模型測試 #TPT

    模型
    北匯信息POLELINK
    發(fā)布于 :2024年11月07日 11:20:29

    未來AI大模型的發(fā)展趨勢

    未來AI大模型的發(fā)展趨勢將呈現(xiàn)多元化和深入化的特點,以下是對其發(fā)展趨勢的分析: 一、技術驅(qū)動與創(chuàng)新 算法與架構優(yōu)化 : 隨著Transformer架構的廣泛應用,AI大模型在特征提取和并行計算效率
    的頭像 發(fā)表于 10-23 15:06 ?388次閱讀

    ai大模型和傳統(tǒng)ai的區(qū)別在哪?

    AI大模型和傳統(tǒng)AI的區(qū)別主要體現(xiàn)在以下幾個方面: 數(shù)據(jù)量和訓練規(guī)模 AI大模型通常需要大量的數(shù)據(jù)進行訓練,以獲得更好的性能。相比之下,傳統(tǒng)AI模型往往使用較小的數(shù)據(jù)集進行訓練。例如,Google
    的頭像 發(fā)表于 07-16 10:06 ?1084次閱讀

    MATLAB預測模型哪個

    在MATLAB中,預測模型的選擇取決于數(shù)據(jù)類型、問題復雜度和預測目標。以下是一些常見的預測模型及其適用場景的介紹: 線性回歸(Linear Regression): 線性回歸是最基本的預測模型之一
    的頭像 發(fā)表于 07-11 14:31 ?360次閱讀

    【大語言模型:原理與工程實踐】大語言模型的應用

    的錯誤。這是因為自然語言書寫指令缺乏嚴格的語法約束,與傳統(tǒng)的編程語言相比,更容易出現(xiàn)錯誤。 展望未來,大語言模型和提示工程有著廣闊的應用前景。首先,隨著技術的不斷進步,大語言模型將進一步滲透到醫(yī)療
    發(fā)表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型的評測

    大語言模型的評測是確保模型性能和應用適應性的關鍵環(huán)節(jié)。從基座模型到微調(diào)模型,再到行業(yè)模型和整體能力,每個階段都需要精確的評測來指導
    發(fā)表于 05-07 17:12

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    全面剖析大語言模型的核心技術與基礎知識。首先,概述自然語言的基本表示,這是理解大語言模型技術的前提。接著,詳細介紹自然語言處理預訓練的經(jīng)典結(jié)構Transformer,以及其工作原理,為構建大語言
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    ,生成能力則使其能生成新的、連貫的文本,而涌現(xiàn)性則讓模型能生成未曾出現(xiàn)但邏輯上合理的內(nèi)容。從早期的統(tǒng)計模型到如今的大語言模型,AI領域不斷突破,大語言模型已成為多種應用場景的強力助推器
    發(fā)表于 05-04 23:55

    【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》

    未來發(fā)展方向進行了展望,包括跨領域、跨模態(tài)和自動提示生成能力方向,為讀者提供了對未來技術發(fā)展的深刻見解?!洞笳Z言模型原理與工程實踐》是一本內(nèi)容豐富、深入淺出的技術書籍。它不僅為讀者提供了大語言
    發(fā)表于 04-30 15:35

    谷歌模型合成工具在哪找到

    谷歌模型合成工具可以在谷歌的官方網(wǎng)站或相關的開發(fā)者平臺上找到。具體地,您可以嘗試訪問谷歌的AI平臺或開發(fā)者社區(qū),以獲取有關模型合成工具的最新信息和資源。
    的頭像 發(fā)表于 03-01 18:13 ?1516次閱讀

    大信號模型和小信號模型的區(qū)別

    大信號模型和小信號模型是電子工程和通信領域中常用的兩種模型,它們在描述和分析電子電路或系統(tǒng)時具有不同的特點和應用范圍。以下是關于大信號模型和小信號
    的頭像 發(fā)表于 12-19 11:35 ?9149次閱讀

    模型數(shù)據(jù)集:突破邊界,探索未來

    隨著人工智能技術的快速發(fā)展,大型預訓練模型如GPT-4、BERT等在自然語言處理領域取得了顯著的成功。這些大模型背后的關鍵之一是龐大的數(shù)據(jù)集,為模型提供了豐富的知識和信息。本文將探討大模型
    的頭像 發(fā)表于 12-06 16:10 ?589次閱讀

    模型數(shù)據(jù)集:構建、挑戰(zhàn)與未來趨勢

    隨著深度學習技術的快速發(fā)展,大型預訓練模型如GPT-4、BERT等在各個領域取得了顯著的成功。這些大模型背后的關鍵之一是龐大的數(shù)據(jù)集,為模型提供了豐富的知識和信息。本文將探討大模型數(shù)據(jù)
    的頭像 發(fā)表于 12-06 15:28 ?1482次閱讀

    AD539沒有spice模型,該如何仿真?

    的正弦波,VX增益用的是1V的直流電,但輸出端Vw處始終沒有波形,檢查不出原因,誰能指導一下,或者告訴我可以在哪個軟件上仿真,或者給我一個AD539的spice模型文件,謝謝了。根據(jù)下面這個電路圖連接的電路。
    發(fā)表于 11-21 08:03

    請問AD8230沒有spice模型嗎?

    如題,在AD8230網(wǎng)頁上沒有看到spice模型。 請問在哪里可以找到?
    發(fā)表于 11-17 06:03