電子發(fā)燒友網(wǎng)報道(文/李彎彎)大模型,又稱為預(yù)訓(xùn)練模型、基礎(chǔ)模型等,大模型通常是在大規(guī)模無標(biāo)注數(shù)據(jù)上進(jìn)行訓(xùn)練,學(xué)習(xí)出一種特征和規(guī)則。近期火爆的ChatGPT,便是基于GPT大模型的一個自然語言處理工具。
從參數(shù)規(guī)模上看,AI大模型先后經(jīng)歷了預(yù)訓(xùn)練模型、大規(guī)模預(yù)訓(xùn)練模型、超大規(guī)模預(yù)訓(xùn)練模型三個階段,參數(shù)量實現(xiàn)了從億級到百萬億級的突破。從模態(tài)支持上看,AI大模型從支持圖片、圖像、文本、語音單一模態(tài)下的單一任務(wù),逐漸發(fā)展為支持多種模態(tài)下的多種任務(wù)。
AI大模型的發(fā)展歷程
AI大模型的發(fā)展,還要從2017年Vaswani等提出Transformer架構(gòu)說起,Transformer架構(gòu)的提出奠定了當(dāng)前大模型領(lǐng)域主流的算法架構(gòu)基礎(chǔ)。
2018年,谷歌提出了大規(guī)模預(yù)訓(xùn)練語言模型BERT,該模型是基于Transformer的雙向深層預(yù)訓(xùn)練模型,其參數(shù)首次超過3億規(guī)模;同年,OpenAI提出了生成式預(yù)訓(xùn)練Transformer模型GPT,大大地推動了自然語言處理領(lǐng)域的發(fā)展。此后,基于BERT的改進(jìn)模型、ELNet、RoBERTa、T5等大量新式預(yù)訓(xùn)練語言模型不斷涌現(xiàn),預(yù)訓(xùn)練技術(shù)在自然語言處理領(lǐng)域蓬勃發(fā)展。
2019年,OpenAI繼續(xù)推出15億參數(shù)的GPT-2,能夠生成連貫的文本段落,做到初步的閱讀理解、機(jī)器翻譯等。緊接著,英偉達(dá)推出了83億參數(shù)的Megatron-LM,谷歌推出了110億參數(shù)的T5,微軟推出了170億參數(shù)的圖靈Turing-NLG。
2020年,OpenAI推出了超大規(guī)模語言訓(xùn)練模型GPT-3,參數(shù)達(dá)到1750億,在兩年左右的時間實現(xiàn)了模型規(guī)模從億級到上千億級的突破,并能夠?qū)崿F(xiàn)作詩、聊天、生成代碼等功能。此后,微軟和英偉達(dá)在2020年10月聯(lián)手發(fā)布了5300億參數(shù)的MegatronTuring自然語言生成模型(MT-NLG)。
2021年1月,谷歌推出的Switch Transformer模型以高達(dá)1.6萬億的參數(shù)量成為史上首個萬億級語言模型;到2022年一大批大模型涌現(xiàn),比如Stability AI發(fā)布的文字到圖像的創(chuàng)新模型Diffusion,以及OpenAI推出的ChatGPT。
在國內(nèi),大模型研究發(fā)展迅速。2021年,商湯發(fā)布了書生(INTERN)大模型,擁有100億的參數(shù)量;2021年4月,華為云聯(lián)合循環(huán)智能發(fā)布盤古NLP超大規(guī)模預(yù)訓(xùn)練語言模型,參數(shù)規(guī)模達(dá)1000億,聯(lián)合北京大學(xué)發(fā)布盤古α超大規(guī)模預(yù)訓(xùn)練模型,參數(shù)規(guī)模達(dá)2000億。
同年4月,阿里達(dá)摩院發(fā)布270億參數(shù)的中文預(yù)訓(xùn)練語言模型PLUG,聯(lián)合清華大學(xué)發(fā)布參數(shù)規(guī)模達(dá)到 1000億的中文多模態(tài)預(yù)訓(xùn)練模型M6;7月,百度推出ERNIE 3.0知識增強(qiáng)大模型,參數(shù)規(guī)模達(dá)到百億;10月,浪潮信息發(fā)布約2500億的超大規(guī)模預(yù)訓(xùn)練模型“源 1.0”;12月,百度推出ERNIE 3.0 Titan模型,參數(shù)規(guī)模達(dá)2600億。
2022 年,基于清華大學(xué)、阿里達(dá)摩院等研究成果以及超算基礎(chǔ)實現(xiàn)的“腦級人工智能模型”八卦爐(BAGUALU)完成建立,其模型參數(shù)規(guī)模突破了174萬億個。可以看到,目前大模型參數(shù)規(guī)模最高已經(jīng)達(dá)到百萬億級別。
大模型研究的重要意義
當(dāng)前人工智能正處在可以用到好用的落地階段,但目前仍處于商業(yè)落地早期,主要面臨著場景需求碎片化、人力研發(fā)和應(yīng)用計算成本高、長尾場景數(shù)據(jù)較少導(dǎo)致模型訓(xùn)練精度不夠、模型算法從實驗室場景到真實場景效果差距大等行業(yè)痛點(diǎn)。
大模型具備大規(guī)模和預(yù)訓(xùn)練的特點(diǎn),一方面有良好的通用性、泛化性,能夠解決傳統(tǒng)AI應(yīng)用中門檻高、部署難的問題,另一方面可以作為技術(shù)底座,支撐智能化產(chǎn)品及應(yīng)用落地。
過去很多年,雖然各大科技公司不斷推出較大規(guī)模的模型,然而直到去年生成式AI逐漸走向商業(yè)化,以及去年底今年初OpenAI推出的ChatGPT爆火,AI大模型才真正迎來發(fā)展的轉(zhuǎn)折點(diǎn)。美國國家工程院外籍院士、北京智源人工智能研究院理事張宏江此前表示,ChatGPT和AIGC,技術(shù)爆火背后,代表著人工智能(AI)大模型進(jìn)入一個新的技術(shù)范式,也是第三波AI浪潮經(jīng)過十幾年發(fā)展之后一個非常重要的拐點(diǎn)。
張宏江認(rèn)為,它其實代表著從以前各自研發(fā)專用小模型到研發(fā)超大規(guī)模通用智能模型的一個范式轉(zhuǎn)變。這個轉(zhuǎn)變的重要意義在于:通過這種比較先進(jìn)的算法架構(gòu),盡可能多的數(shù)據(jù),匯集大量算力,集約化的訓(xùn)練達(dá)模式,從而供大量用戶使用。
大模型的發(fā)展很可能會改變信息產(chǎn)業(yè)的格局,改變以前作坊式AI開發(fā)模式,把AI應(yīng)用帶入基于互聯(lián)網(wǎng)、云計算的大規(guī)模智能云階段。
小結(jié)
雖然過去十幾年人工智能技術(shù)發(fā)展迅速,然而在近幾年卻遇到了一些技術(shù)瓶頸和商業(yè)化難題。而大模型的發(fā)展和普及,尤其是通過大模型+微調(diào)的新技術(shù)開發(fā)范式,人工智能將能夠更好的在各種場景中實現(xiàn)應(yīng)用,當(dāng)然大模型的訓(xùn)練和推理對算力等也提出了很高的要求,因此大模型的研究最終能夠如何推進(jìn)人工智能產(chǎn)業(yè)的發(fā)展,還需要產(chǎn)業(yè)鏈各環(huán)節(jié)的共同努力。
從參數(shù)規(guī)模上看,AI大模型先后經(jīng)歷了預(yù)訓(xùn)練模型、大規(guī)模預(yù)訓(xùn)練模型、超大規(guī)模預(yù)訓(xùn)練模型三個階段,參數(shù)量實現(xiàn)了從億級到百萬億級的突破。從模態(tài)支持上看,AI大模型從支持圖片、圖像、文本、語音單一模態(tài)下的單一任務(wù),逐漸發(fā)展為支持多種模態(tài)下的多種任務(wù)。
AI大模型的發(fā)展歷程
AI大模型的發(fā)展,還要從2017年Vaswani等提出Transformer架構(gòu)說起,Transformer架構(gòu)的提出奠定了當(dāng)前大模型領(lǐng)域主流的算法架構(gòu)基礎(chǔ)。
2018年,谷歌提出了大規(guī)模預(yù)訓(xùn)練語言模型BERT,該模型是基于Transformer的雙向深層預(yù)訓(xùn)練模型,其參數(shù)首次超過3億規(guī)模;同年,OpenAI提出了生成式預(yù)訓(xùn)練Transformer模型GPT,大大地推動了自然語言處理領(lǐng)域的發(fā)展。此后,基于BERT的改進(jìn)模型、ELNet、RoBERTa、T5等大量新式預(yù)訓(xùn)練語言模型不斷涌現(xiàn),預(yù)訓(xùn)練技術(shù)在自然語言處理領(lǐng)域蓬勃發(fā)展。
2019年,OpenAI繼續(xù)推出15億參數(shù)的GPT-2,能夠生成連貫的文本段落,做到初步的閱讀理解、機(jī)器翻譯等。緊接著,英偉達(dá)推出了83億參數(shù)的Megatron-LM,谷歌推出了110億參數(shù)的T5,微軟推出了170億參數(shù)的圖靈Turing-NLG。
2020年,OpenAI推出了超大規(guī)模語言訓(xùn)練模型GPT-3,參數(shù)達(dá)到1750億,在兩年左右的時間實現(xiàn)了模型規(guī)模從億級到上千億級的突破,并能夠?qū)崿F(xiàn)作詩、聊天、生成代碼等功能。此后,微軟和英偉達(dá)在2020年10月聯(lián)手發(fā)布了5300億參數(shù)的MegatronTuring自然語言生成模型(MT-NLG)。
2021年1月,谷歌推出的Switch Transformer模型以高達(dá)1.6萬億的參數(shù)量成為史上首個萬億級語言模型;到2022年一大批大模型涌現(xiàn),比如Stability AI發(fā)布的文字到圖像的創(chuàng)新模型Diffusion,以及OpenAI推出的ChatGPT。
在國內(nèi),大模型研究發(fā)展迅速。2021年,商湯發(fā)布了書生(INTERN)大模型,擁有100億的參數(shù)量;2021年4月,華為云聯(lián)合循環(huán)智能發(fā)布盤古NLP超大規(guī)模預(yù)訓(xùn)練語言模型,參數(shù)規(guī)模達(dá)1000億,聯(lián)合北京大學(xué)發(fā)布盤古α超大規(guī)模預(yù)訓(xùn)練模型,參數(shù)規(guī)模達(dá)2000億。
同年4月,阿里達(dá)摩院發(fā)布270億參數(shù)的中文預(yù)訓(xùn)練語言模型PLUG,聯(lián)合清華大學(xué)發(fā)布參數(shù)規(guī)模達(dá)到 1000億的中文多模態(tài)預(yù)訓(xùn)練模型M6;7月,百度推出ERNIE 3.0知識增強(qiáng)大模型,參數(shù)規(guī)模達(dá)到百億;10月,浪潮信息發(fā)布約2500億的超大規(guī)模預(yù)訓(xùn)練模型“源 1.0”;12月,百度推出ERNIE 3.0 Titan模型,參數(shù)規(guī)模達(dá)2600億。
2022 年,基于清華大學(xué)、阿里達(dá)摩院等研究成果以及超算基礎(chǔ)實現(xiàn)的“腦級人工智能模型”八卦爐(BAGUALU)完成建立,其模型參數(shù)規(guī)模突破了174萬億個。可以看到,目前大模型參數(shù)規(guī)模最高已經(jīng)達(dá)到百萬億級別。
大模型研究的重要意義
當(dāng)前人工智能正處在可以用到好用的落地階段,但目前仍處于商業(yè)落地早期,主要面臨著場景需求碎片化、人力研發(fā)和應(yīng)用計算成本高、長尾場景數(shù)據(jù)較少導(dǎo)致模型訓(xùn)練精度不夠、模型算法從實驗室場景到真實場景效果差距大等行業(yè)痛點(diǎn)。
大模型具備大規(guī)模和預(yù)訓(xùn)練的特點(diǎn),一方面有良好的通用性、泛化性,能夠解決傳統(tǒng)AI應(yīng)用中門檻高、部署難的問題,另一方面可以作為技術(shù)底座,支撐智能化產(chǎn)品及應(yīng)用落地。
過去很多年,雖然各大科技公司不斷推出較大規(guī)模的模型,然而直到去年生成式AI逐漸走向商業(yè)化,以及去年底今年初OpenAI推出的ChatGPT爆火,AI大模型才真正迎來發(fā)展的轉(zhuǎn)折點(diǎn)。美國國家工程院外籍院士、北京智源人工智能研究院理事張宏江此前表示,ChatGPT和AIGC,技術(shù)爆火背后,代表著人工智能(AI)大模型進(jìn)入一個新的技術(shù)范式,也是第三波AI浪潮經(jīng)過十幾年發(fā)展之后一個非常重要的拐點(diǎn)。
張宏江認(rèn)為,它其實代表著從以前各自研發(fā)專用小模型到研發(fā)超大規(guī)模通用智能模型的一個范式轉(zhuǎn)變。這個轉(zhuǎn)變的重要意義在于:通過這種比較先進(jìn)的算法架構(gòu),盡可能多的數(shù)據(jù),匯集大量算力,集約化的訓(xùn)練達(dá)模式,從而供大量用戶使用。
大模型的發(fā)展很可能會改變信息產(chǎn)業(yè)的格局,改變以前作坊式AI開發(fā)模式,把AI應(yīng)用帶入基于互聯(lián)網(wǎng)、云計算的大規(guī)模智能云階段。
小結(jié)
雖然過去十幾年人工智能技術(shù)發(fā)展迅速,然而在近幾年卻遇到了一些技術(shù)瓶頸和商業(yè)化難題。而大模型的發(fā)展和普及,尤其是通過大模型+微調(diào)的新技術(shù)開發(fā)范式,人工智能將能夠更好的在各種場景中實現(xiàn)應(yīng)用,當(dāng)然大模型的訓(xùn)練和推理對算力等也提出了很高的要求,因此大模型的研究最終能夠如何推進(jìn)人工智能產(chǎn)業(yè)的發(fā)展,還需要產(chǎn)業(yè)鏈各環(huán)節(jié)的共同努力。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報投訴
-
AI
+關(guān)注
關(guān)注
87文章
29824瀏覽量
268112 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1547瀏覽量
7364
發(fā)布評論請先 登錄
相關(guān)推薦
免費(fèi)時代到來!價格戰(zhàn)帶領(lǐng)AI大模型走出商業(yè)化困局?
試用。 ? 大模型進(jìn)入免費(fèi)時代 ? 5月21日,阿里云宣布通義千問4款商業(yè)化模型和5款開源模型大降價,其中GPT-4級別的主力
AI大模型與傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別
多個神經(jīng)網(wǎng)絡(luò)層組成,每個層都包含大量的神經(jīng)元和權(quán)重參數(shù)。 傳統(tǒng)機(jī)器學(xué)習(xí) :模型規(guī)模相對較小,參數(shù)數(shù)量通常只有幾千到幾百萬個,模型結(jié)構(gòu)相對簡單
英偉達(dá)Blackwell可支持10萬億參數(shù)模型AI訓(xùn)練,實時大語言模型推理
、NVLink交換機(jī)、Spectrum以太網(wǎng)交換機(jī)和Quantum InfiniBand交換機(jī)。 ? 英偉達(dá)稱,Blackwell擁有6項革命性技術(shù),可支持多達(dá)10萬億參數(shù)的模型進(jìn)行
英偉達(dá)震撼發(fā)布:全新AI模型參數(shù)規(guī)模躍升至80億量級
8月23日,英偉達(dá)宣布,其全新AI模型面世,該模型參數(shù)規(guī)模高達(dá)80億,具有精度高、計算效益大等優(yōu)勢,適用于GPU
小鵬匯天獲1.5億美元B1輪融資,加速飛行汽車商業(yè)化進(jìn)程
小鵬匯天近日宣布成功完成1.5億美元的B1輪融資,并同步啟動B2輪融資計劃,標(biāo)志著公司在飛行汽車領(lǐng)域的研發(fā)與商業(yè)化進(jìn)程邁入新階段。此次融資不僅為小鵬匯天提供了堅實的資金保障,更將助力其加速推進(jìn)飛行汽車的研發(fā)、規(guī)模量產(chǎn)及市場布局。
蘿卜快跑爆火的背后,美格智能如何助力無人車商業(yè)化?
無人車商業(yè)化進(jìn)程已經(jīng)邁入加速賽,美格智能將繼續(xù)堅持研發(fā)投入,與產(chǎn)業(yè)伙伴共同構(gòu)建面向智能汽車產(chǎn)業(yè)的新質(zhì)生產(chǎn)力,助力無人車商業(yè)化加速發(fā)展!
蘿卜快跑爆火的背后,美格智能如何助力無人車商業(yè)化?
無人車商業(yè)化進(jìn)程已經(jīng)邁入加速賽,美格智能將繼續(xù)堅持研發(fā)投入,與產(chǎn)業(yè)伙伴共同構(gòu)建面向智能汽車產(chǎn)業(yè)的新質(zhì)生產(chǎn)力,助力無人車商業(yè)化加速發(fā)展!
ai大模型和ai框架的關(guān)系是什么
AI大模型和AI框架是人工智能領(lǐng)域中兩個重要的概念,它們之間的關(guān)系密切且復(fù)雜。 AI大模型的定義和特點(diǎn)
如祺出行香港成功上市,加速自動駕駛商業(yè)化進(jìn)程
近日,廣汽集團(tuán)旗下智慧出行平臺如祺出行在香港聯(lián)合交易所(聯(lián)交所)隆重舉行上市儀式,標(biāo)志著其正式踏入資本市場的新征程,股票代碼定為09680.HK。這一里程碑事件不僅彰顯了如祺出行在出行服務(wù)領(lǐng)域的深厚積累與強(qiáng)勁實力,更為其未來在自動駕駛技術(shù)商業(yè)化道路上的加速奔跑注入了強(qiáng)大動
進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級芯片
計算工作負(fù)載、釋放百億億次計算能力和萬億參數(shù)人工智能模型的全部潛力提供關(guān)鍵基礎(chǔ)。
NVLink釋放數(shù)萬億參數(shù)
發(fā)表于 05-13 17:16
軟銀追加1500億日元,加速AI大模型開發(fā)進(jìn)程
據(jù)了解,軟銀目前已經(jīng)在生成式AI算力基礎(chǔ)設(shè)施方面投資了200億日元(約合9.36億元人民幣),預(yù)計將進(jìn)一步加大投入,力求在本年度內(nèi)打造出參數(shù)達(dá)到390B的最新模型,同時在來年制定萬億
纖納光電與浙能電力舉行戰(zhàn)略簽約儀式 鈣鈦礦商業(yè)化進(jìn)程加速!
4月11日,杭州纖納光電科技股份有限公司(“纖納光電”)與浙能鎮(zhèn)海發(fā)電公司下屬寧波發(fā)電工程有限公司在浙江浙能電力股份有限公司(“浙能電力”)見證下舉行戰(zhàn)略簽約儀式,共同擘畫共同建設(shè)加速賦能鈣鈦礦商業(yè)化進(jìn)程,以創(chuàng)新實踐履行社會責(zé)任
文遠(yuǎn)知行與聯(lián)想車計算戰(zhàn)略合作,推進(jìn)自動駕駛商業(yè)化落地
文遠(yuǎn)知行與聯(lián)想車計算達(dá)成戰(zhàn)略合作,共同推進(jìn)L4級別自動駕駛解決方案的商業(yè)化落地,這一舉措無疑為自動駕駛領(lǐng)域注入了新的活力。這次合作不僅彰顯了雙方在自動駕駛技術(shù)方面的深厚積累,也預(yù)示著自動駕駛技術(shù)商業(yè)化落地的新篇章。
微軟攜手法國AI初創(chuàng)企業(yè)Mistral推動AI模型商業(yè)化
微軟近日與法國人工智能初創(chuàng)企業(yè)Mistral達(dá)成合作協(xié)議,旨在推動AI模型的商業(yè)化應(yīng)用。據(jù)悉,微軟將提供全方位支持,幫助這家成立僅10個月的公司將其先進(jìn)的AI
基于AI大模型,千方科技做了哪些嘗試呢?
AI大模型逐步走入冷靜期,思考大模型如何助力解決實際問題、實現(xiàn)商業(yè)化落地成為新趨勢。
評論