作者:京東科技 李俊兵
各位看官好,我是球神(江湖代號)。
自去年11月30日ChatGPT問世以來,迅速爆火出圈。
起初我依然以為這是和當年Transformer, Bert一樣的“熱點”模型,但是當一篇篇文章/報告不斷推送到我的眼前,我后知后覺地發(fā)現(xiàn)這次真的不一樣。
很直接的一點是,ChatGPT已經(jīng)影響到非AI、非互聯(lián)網(wǎng)、非計算機的每一個人了。
你會看到,眾多科技界大佬,馬斯克、納德拉、李開復、李彥宏、周鴻祎等,都在發(fā)聲稱 ChatGPT 將改變世界;
太多的互聯(lián)網(wǎng)公司,如微軟、谷歌、百度、阿里、騰訊等正在搶占商業(yè)先機;
還有更多的學術(shù)機構(gòu)、高校也開始討論 ChatGPT 生成論文是否符合學術(shù)規(guī)范;
突然之間各行各業(yè)從業(yè)者開始擔憂被 ChatGPT 替代……
「初看以為是熱點,再看已成經(jīng)典…」
于是我決定好好研究它一番,并力爭把它寫得全面而通俗易懂一點,最終就有了這篇萬字長文報告,建議收藏、慢慢閱讀。
文章主題關(guān)于:「ChatGPT背后的AI背景、技術(shù)門道和商業(yè)應用?!?/strong>
以下是目錄和正文內(nèi)容:
引言
我和聊天機器人的小故事
一、 AI背景
1.1 ChatGPT的出圈和能力圈
1.2 人工智能發(fā)展簡史
1.3 ChatGPT背后的NLP和Transformer
二、技術(shù)門道
2.1 GPT-1到ChatGPT的演進和技術(shù)原理
2.2 ChatGPT的局限性
2.3 ChatGPT的優(yōu)化和探索方向
三、商業(yè)應用
3.1 國內(nèi)外資本投入層層加碼
3.2 ChatGPT商業(yè)化序幕已經(jīng)拉開
3.3 ChatGPT助力AIGC浪潮再起
后記
ChatGPT會引領(lǐng)第四次科技革命嗎?
ChatGPT會給人類帶來失業(yè)潮嗎?
ChatGPT適合下海創(chuàng)業(yè)嗎?
ChatGPT以及AIGC產(chǎn)業(yè)鏈有值得投資的機會嗎?
參考文獻
筆者相關(guān)背景簡介
引言
我和聊天機器人的小故事
早在2017年末至2018年上半年,我剛拿到計算機專業(yè)研究生的入場券,同時需要完成本科畢業(yè)設(shè)計。因此,我選擇提前進入研究生實驗室并帶回一個畢設(shè)課題:中文文本對話系統(tǒng)(俗稱:聊天機器人)。
沒錯,從研究方向來說,今天文章的主角ChatGPT正好屬于我那會的研究范疇—自然語言處理(NLP)。只不過后來因為一些不可控因素,我更加關(guān)注于機器學習和計算機視覺領(lǐng)域。
記得最后寫本科畢業(yè)論文和答辯的時候,我的中文文本聊天機器人(基于Seq2Seq + Attention架構(gòu))還很low:只能保持4-5輪對話邏輯;稍微問難點答案就面目全非;對話的文本不能太長…
雖然同樣在2017年,Transformer架構(gòu)已經(jīng)問世,但站在那個時間節(jié)點,即便是一線研究人員和工程師,恐怕也很難想象到5年后的2022年,就會有ChatGPT這樣的現(xiàn)象級通用聊天機器人程序出現(xiàn)。
“科技的發(fā)展不是均勻的,而是以浪潮的形式出現(xiàn)”。---《浪潮之巔》,吳軍
一、AI背景
1.1 ChatGPT的出圈和能力圈
盡管ChatGPT已經(jīng)火爆到讓很多人瘋狂,我們還是希望靜下心來仔細看看它現(xiàn)在到底能做什么,它的邊界又在哪里。
各大熱門平臺產(chǎn)品月活躍用戶數(shù)破億所需時長
先看產(chǎn)品實際應用測試的效果:
再看產(chǎn)品表現(xiàn)背后抽象出的深層次能力:
所以,從發(fā)布到現(xiàn)在2個多月來,ChatGPT已經(jīng)證明了它的能力圈包括:自動問答、多輪聊天、文章創(chuàng)作、語言翻譯、文本摘要、編寫和debug代碼等,同時這些表層能力背后反映了其具備理解人類意圖、敢于質(zhì)疑、承認不知道、不斷學習進化等深層次ability。
并且這些能力表現(xiàn)已經(jīng)遠超過往其他AI機器人,也已經(jīng)得到了包括AI研究者、工程師和各行各業(yè)產(chǎn)業(yè)專家們的一致認可。
不得不承認,從單項性能表現(xiàn)、整體功能覆蓋、穩(wěn)定性、時效性、魯棒性等多個維度評價,目前的ChatGPT已經(jīng)足夠顛覆,它讓通用AI研究和產(chǎn)業(yè)落地成為可能。
1.2 人工智能發(fā)展簡史
提起人工智能和計算機科學,有個名字總是無法繞開。
他是英國人艾倫·圖靈(Alan Turing)。
圖靈(Alan Turing,1912-1954)出生的那年,他的祖國正處在“日不落”的全盛時期,占有的殖民地是本土面積的百倍有余。而在遙遠的東方,中華民國臨時政府在南京成立,中山先生就職臨時大總統(tǒng),屬于中華民族的革命復興才剛剛開始(「ChatGPT應該寫不出這段」)。
1950年,時年38歲的圖靈在數(shù)學和邏輯學領(lǐng)域已經(jīng)成就頗豐,但當他在《計算機與智能》論文中提出著名的“圖靈測試”構(gòu)想時,后世的人們更加不會忘記他對人工智能和計算機科學領(lǐng)域做出的杰出貢獻。
“如果第三者無法辨別人類與人工智能機器反應的差異,則可以論斷該機器具備人工智能”。--- 圖靈, 人工智能之父
時間來到1956年8月,在美國達特茅斯學院,約翰·麥卡錫、馬文·閔斯基、克勞德·香農(nóng)、艾倫·紐厄爾、赫伯特·西蒙等科學家 一起討論了用機器來模仿人類學習以及其他方面的智能等問題,首次提出了“人工智能”這個概念,也就此標志了人工智能學科的誕生。
此后,人工智能的發(fā)展經(jīng)歷了四次大的浪潮。
第一次浪潮(1956-1980):初次繁榮到低谷
初代AI中計算機被用于證明數(shù)學定理、解決代數(shù)應用題等領(lǐng)域。這一時期感知機(1957)、模式識別(1961)、人機對話(1966)、專家系統(tǒng)(1968)、視覺計算(1976)等理論先后被提出來。
好景不長,專家和學者們發(fā)現(xiàn)僅僅具有邏輯推理能力遠遠不夠?qū)崿F(xiàn)人工智能,許多難題并沒有隨著時間推移而被解決,很多AI系統(tǒng)一直停留在了玩具階段。之前的過于樂觀使人們預期過高,又缺乏實質(zhì)性的進展,許多機構(gòu)逐漸停止了對AI研究的資助。人工智能遭遇了第一次低谷。
第二次浪潮(1980-1995):二次復蘇到蕭條
AI 2.0時代專家系統(tǒng)和多層神經(jīng)網(wǎng)絡(luò)得到推廣應用,人機對話機器人、語音控制打字機逐漸問世,這一時期貝葉斯網(wǎng)絡(luò)(1985)、反向傳播(BP,1986)、支持向量機(SVM,1995)等算法先后被提出來。
但是很快,專家系統(tǒng)所存在的應用領(lǐng)域狹窄、知識獲取困難、維護費用居高不下等問題開始暴露出來。AI發(fā)展遭遇了一系列財政問題,進入第二次低谷。
第三次浪潮(1995-2010):平穩(wěn)中積蓄力量
上個世紀90年代中期以來,隨著計算機性能的高速發(fā)展和海量數(shù)據(jù)的累積,人工智能的發(fā)展正式進入現(xiàn)代AI時代。
1997年,IBM的國際象棋機器人深藍(Deep Blue)戰(zhàn)勝國際象棋世界冠軍卡斯帕羅夫,引起世界范圍內(nèi)轟動。 隨后,條件隨機場(CRF,2001)、深度學習(Deep Learning, 2006)、遷移學習(Transfer Learning,2010)等理論先后被提出來。
第四次浪潮(2010-至今):爆發(fā)中走向高潮
進入21世紀的第二個十年以來,工業(yè)界開始陸續(xù)推出實打?qū)嵉娜斯ぶ悄墚a(chǎn)品/應用。
2011年2月,IBM的問答機器人Watson在美國問答節(jié)目《Jeopardy!》上擊敗兩位人類冠軍選手;
2012年10月,微軟就在“21世紀的計算”大會上展示了一個全自動同聲傳譯系統(tǒng),它將演講者的英文演講實時轉(zhuǎn)換成與他的音色相近、字正腔圓的中文;
2016年3月,谷歌的圍棋人工智能系統(tǒng)AlphaGo與圍棋世界冠軍、職業(yè)九段選手李世石進行人機大戰(zhàn),并以4:1的總比分獲勝;
隨后在2016年末-2017年初,AlphaGo又先后與中日韓數(shù)十位圍棋高手進行快棋對決,連勝60局無一敗績,包括3:0完勝世界第一、中國選手柯潔。
與之對應的是,AI學術(shù)界在這十多年來可謂百家爭鳴,各顯神通。
2012年,Hinton(深度學習三巨頭之一)和他的學生Alex Krizhevsky設(shè)計了第一個深度卷積神經(jīng)網(wǎng)絡(luò)--- AlexNet,并摘得了當年ImageNet圖像分類比賽的冠軍;
此后,CV人相繼提出了VGGNet(2014)、Inception Net(2014)、ResNet(2015)、Fast RCNN(2015)、 YOLO(2015)、 Mask RCNN(2017) 、MobileNet(2017)等base model,引領(lǐng)了圖像分類、人臉識別、目標檢測、圖像分割、視頻理解等領(lǐng)域的快速發(fā)展;
NLP人不甘示弱,他們先設(shè)計了Word2Vec(2013)類能將單詞轉(zhuǎn)化為向量表示的工具,隨后利用LSTM(1997)系列循環(huán)神經(jīng)網(wǎng)絡(luò),基于Seq2Seq(2014) + Attention(2015)的架構(gòu)實現(xiàn)了機器翻譯、對話系統(tǒng)等復雜任務,并進一步在2017年提出了Transformer這一大殺器,同時進階產(chǎn)生了BERT(2018)系列性能更優(yōu)更穩(wěn)定的大模型。
還有另一群執(zhí)著的AI者,他們更focus深度生成式網(wǎng)絡(luò)模型。從變分自編碼器(VAE,2013)到生成對抗網(wǎng)絡(luò)(GAN,2014),再到去噪擴散模型(DDPM,2020)和生成式預訓練Transformer (GPT系列,2018-至今),這些具有開創(chuàng)性的模型真正帶動了產(chǎn)業(yè)界AIGC(生成式人工智能技術(shù))的快速發(fā)展。
2017年,微軟“小冰”推出世界首部由人工智能創(chuàng)作的詩集《陽光失了玻璃窗》; 2018年,英偉達發(fā)布StyleGAN模型可自動生成高質(zhì)量圖片; 2019年,Deep Mind發(fā)布DVD-GAN模型可生成連續(xù)性視頻; 直到2022年11月30日,OpenAI發(fā)布ChatGPT,本文的主角終于正式登場。
一部人工智能發(fā)展史也是一部信息技術(shù)革命發(fā)展史。
不同的是,當人工智能發(fā)展到一定階段,它或許終將顛覆“機器幫助人”的信息化時代,引領(lǐng)“機器代替人”的智能化時代。
「多年以后,也許我們會看到,ChatGPT正是第四次科技革命開始的標志性事件之一?!?/strong>
1.3 ChatGPT背后的NLP和Transformer
在了解ChatGPT的能力圈和人工智能的發(fā)展史之后,非AI從業(yè)者也能明白ChatGPT的研究屬于自然語言處理(Natural Language Processing, NLP)領(lǐng)域范疇。
自然語言處理(Natural Language Processing, NLP) 被譽為“人工智能皇冠上的明珠”,一方面表明了它的重要性,另一方面也突出了它的技術(shù)難度。
簡單來說,NLP要做的事就是利用計算機實現(xiàn)自然語言數(shù)據(jù)的智能化處理、分析和生成,以期讓計算機實現(xiàn)聽、說、讀、寫、譯這些人類所具備的語言能力。
更具體一點,NLP領(lǐng)域根據(jù)下游任務不同主要包括以下幾類研究方向:
細心的讀者已經(jīng)發(fā)現(xiàn)了,ChatGPT基本已經(jīng)實現(xiàn)了以上7大類任務的中階目標,所以NLP研究員和工程師們擔心自己發(fā)明工具卻搶了自己飯碗不是沒有道理,其他技術(shù)含量不高的行業(yè)工作者也就更加戰(zhàn)戰(zhàn)兢兢。
NLP的發(fā)展也經(jīng)歷了三個大的階段,即以規(guī)則學習為代表的第一階段(1960-1990)、以統(tǒng)計學習為代表的第二階段(1990-2010)和以深度學習為代表的第三階段(2010-至今)。
而其中真正影響ChatGPT和其他大語言模型產(chǎn)生的無疑是Transformer架構(gòu)。
可以說,Transformer的出現(xiàn)完全打開了大規(guī)模預訓練語言模型(Pre-trained Language Model , PLM)的空間,并且奠定了生成式AI的游戲規(guī)則。
2017 年,Google 機器翻譯團隊在機器學習頂級會議NIPS上發(fā)表了《Attention is All You Need》論文,文章的核心正是 Transformer 模型。
Transformer相比之前論文的novalty在于:大膽地拋棄了傳統(tǒng)的CNN和RNN基礎(chǔ)模型,整個網(wǎng)絡(luò)結(jié)構(gòu)完全是由Attention機制組成。更準確地說,Transformer由且僅由自注意力(self-Attenion)機制和前饋神經(jīng)網(wǎng)絡(luò)(Feed Forward Neural Network)組成。
而從實際應用的角度來看,Transformer的主要貢獻(contribution)在于以下幾個方面:
1.突破了 RNN 模型不能并行計算的限制
2.精度和模型復雜度相比RNN/CNN + Attention系列模型更優(yōu)
3.Transformer本身也可以作為base model擴展
我們站在此刻回想,ChatGPT背后的Transformer,其思想和架構(gòu)恰恰印證了那句: 「大道至簡」。
它首先在機器翻譯任務中取得SOTA,而后成功被應用到NLP和CV等各個任務中,并獲得了穩(wěn)定優(yōu)異的性能表現(xiàn)。
Transformer 模型架構(gòu)圖
后來的故事很多人都知道了,Google人再接再厲, 他們在2018年10月提出來的BERT(Bidirectional Encoder Representation from Transformers)模型再次轟動業(yè)界。
BERT在機器閱讀理解頂級水平測試SQuAD1.1中表現(xiàn)出驚人的成績: 全部兩個衡量指標上全面超越人類,并且在11種不同NLP測試中創(chuàng)出SOTA(業(yè)界最佳)表現(xiàn),包括將GLUE基準推高至80.4% (絕對改進7.6%),MultiNLI準確度達到86.7% (絕對改進5.6%),成為NLP發(fā)展史上的里程碑式的模型成就。
就當所有人以為Google會在大語言模型賽道中一騎絕塵時,最終率先讓世人熟知的卻是來自O(shè)penAI的GPT系列模型。
二、技術(shù)門道
2.1 GPT-1到ChatGPT的演進和技術(shù)原理
GPT(Generative Pre-training Transformer)系列模型首先選擇和BERT繞道而行,盡管GPT-1(2018/06)發(fā)布的時間比BERT(2018/10)還要早。
BERT僅使用了Transformer的編碼器(Encoder)部分進行訓練,而GPT-1則只使用了Transformer的解碼器(Decoder)部分。
由此二者各自走上了不同的道路。
GPT-1: 預訓練+微調(diào)模式,117M參數(shù)、12層、2億單詞
原文:Improving Language Understanding by Generative Pre-Training
預訓練階段:基于Transformer Decoder架構(gòu),以語言建模作為訓練目標(自監(jiān)督,根據(jù)已知的詞預測未知的詞)。
微調(diào)階段:將訓練好的Decoder參數(shù)固定,接上一層線性層,通過有監(jiān)督訓練任務微調(diào)線性層的參數(shù),從而進行預測。
GPT-1的局限:微調(diào)只能用到特定任務中,如果fine-tune一個分類任務,就不能用到句子相似度任務中去。
所以能不能用一個模型去做所有NLP的任務?
這就是后續(xù)GPT-2和GPT-3的改進目標。
GPT-2: 多任務學習 + zero-shot learning,1542M參數(shù)、48層、400億單詞
原文:Language Models are Unsupervised Multitask Learners
GPT-2的目標是試圖用一個模型去做多個NLP任務,它的核心思想就反映在論文標題里:語言模型=無監(jiān)督多任務學習。
通俗地解釋一下: 語言模型實際上是一種自監(jiān)督的方式,根據(jù)已知的詞預測未知的詞,只是不需要顯示地定義哪些字段是要預測的輸出。 那如何用無監(jiān)督多任務的訓練方式實現(xiàn)語言模型自監(jiān)督訓練+多任務微調(diào)的效果呢? 我們只需要將input、output和task都表示為數(shù)據(jù),例如在一個英文翻譯成法語的機器翻譯任務中,我們只需要將樣本、標簽和任務表示成如下格式,就實現(xiàn)了對P(output|input,task)
的建模。
重要的是,這種方式可以實現(xiàn)無監(jiān)督訓練,并且里面的task可以變化,也就是說現(xiàn)在GPT-2可以實現(xiàn)無監(jiān)督多任務訓練而不需要第二階段分不同任務有監(jiān)督的微調(diào)!
所以最后我們看到,GPT-2相對于GPT-1,最大的改進就是去掉了第二階段的微調(diào)(fine-tune)層,實現(xiàn)了多任務訓練和zero-shot方式(Zero-shot learning,零樣本學習)直接接諸多的下游任務,在多個任務下都可以取得很好的效果。
當然肉眼可見的還有數(shù)據(jù)集、網(wǎng)絡(luò)層數(shù)、參數(shù)量、詞匯表大小、初始化和LN(layer normalization)的調(diào)整。
GPT-3:in-context learning + few-shot learning,1750億參數(shù)、96層、5000億單詞
原文:Language Models Are Few-shot Learners
GPT-3 基本繼承了GPT-2的模型架構(gòu)和訓練模式,除了大力出奇跡的海量數(shù)據(jù)和巨型參數(shù)之外,GPT-3在模型設(shè)計層面相對于GPT-1和GPT-2主要的改進點在于:in-context learning(上下文情境學習,ICL) 和 few-shot learning(小樣本學習,F(xiàn)SL)配合服用。
我們已經(jīng)知道,GPT-1和BERT都需要對下游任務進行微調(diào),而GPT-2通過無監(jiān)督多任務和零樣本學習舍棄了微調(diào),并且驗證了性能更加優(yōu)越,那能否在不需要微調(diào)的前提下繼續(xù)提升呢?
答案是可以,引入in-context learning(上下文情境)學習機制。
這種機制可以理解為給模型加一定的先驗知識,適當對模型進行引導,教會它應當輸出什么內(nèi)容。
比如你希望GPT3幫你把中文翻譯成英文,你可以這么向他提問:
用戶輸入到GPT3:請把以下中文翻譯成英文:你覺得球神帥嗎?
如果你希望GPT3回答你的問題,你可以換個方式問:
用戶輸入到GPT3:模型模型你說說:你覺得球神帥嗎?
這樣模型就可以根據(jù)用戶提示的情境,進行針對性的回答了。
這里只是告訴了模型怎么做,能不能先給個示例呢?
用戶輸入到 GPT-3:請回答以下問題:你覺得球神帥嗎?=> 我覺得還挺帥的呢; 你覺得科比打球帥還是歐文打球帥?=>
其中回答球神帥不帥就是一個示例,用于讓模型感知應該輸出什么。
基于以上,只給提示就是zero-shot,給一個示例叫做one-shot,給少量多個示例就是few-shot。
專業(yè)的讀者應該能發(fā)現(xiàn),這里給提示的in-context learning(上下文情境)學習跟prompt learning(提示學習)的思想很相似。
GPT-3論文里提供了3個版本的性能比較:
顯然,in-context learning(情境學習)搭配few-shot learning(小樣本學習)效果更好。
InstructGPT: RLHF(人類反饋強化學習)+ PPO(近端策略優(yōu)化)
原文:Training language models to follow instructions with human feedback
InstructGPT相對GPT-3要解決的是大模型的alignment(對齊)問題。其背景是:大型語言模型會生成一些不真實、有毒(不符合人類道德倫理等)或?qū)τ脩艉翢o幫助的輸出,顯然這些與用戶期待的不一致。
大模型在預訓練過程中見識了各種各樣的數(shù)據(jù),因此針對一個prompt/instruct(提示)會輸出什么東西,也可能是多種多樣的,但是預訓練數(shù)據(jù)中出現(xiàn)的數(shù)據(jù)模式,不代表都是人類在使用模型時希望看到的模式,因此需要一個alignment(對齊)的過程,來規(guī)范模型的“言行舉止”。
而實現(xiàn)這個過程InstructGPT引入了RLHF機制(人類反饋強化學習),實際上6年前的AlphaGo正是充分利用了強化學習,才在圍棋領(lǐng)域?qū)崿F(xiàn)了所到之處無敵手。
簡單點說,InstructGPT就是在GPT-3基礎(chǔ)上利用RLHF機制(人類反饋強化學習)做了微調(diào),以解決大模型的alignment(對齊)問題。
我們不妨先想一下,應該如何解決模型輸出跟人類期待不匹配的問題?
最直接的辦法,就是人工構(gòu)造一大批數(shù)據(jù)(標注員自己寫prompt和期待的輸出),完全符合人類的期待的模式,然后交給模型去學。然而,這代價顯然太大了。因此,我們得想辦法怎么讓這個過程變得更輕松一點,RLHF機制(人類反饋強化學習)做到了這一點。
下面是InstructGPT的流程圖,看懂了它也就能明白RLHF機制是如何實現(xiàn)的。
Step-1: 稱初始模型為V0,也就是GPT-3。我們可以先人工構(gòu)造一批數(shù)據(jù),不用數(shù)量很大,盡其所能,然后先讓模型學一學,稱這個時候模型為V1。
Step-2: 然后讓模型再根據(jù)一堆prompt(提示)輸出,看看效果咋樣,我們讓模型V1對一個prompt進行多個輸出,然后讓人對多個輸出進行打分排序,排序的過程雖然也需要人工,但是比直接讓人寫訓練數(shù)據(jù),還是要方便的多,因此這個過程可以更輕松地標注更多數(shù)據(jù)。然而,這個標注數(shù)據(jù),并不能直接拿來訓練模型,因為這是一個排序,但我們可以訓練一個打分模型,稱為RM(reward-model,也即獎勵模型),RM的作用就是可以對一個 pair打分,評價這個output跟prompt搭不搭。,output>
Step-3: 接下來,我們繼續(xù)訓練V1模型(被一個策略包裝并且用PPO更新),給定一些prompt,得到輸出之后,把prompt和output輸入給RM,得到打分,然后借助強化學習的方法,來訓練V1模型(打分會交給包著V0模型內(nèi)核的策略來更新梯度),如此反復迭代,最終修煉得到V2模型,也就是最終的InstructGPT。
整體理解一下:整個過程就是老師(人類標注員)先注入一些精華知識,然后讓模型試著模仿老師的喜好做出一些嘗試,然后老師對模型的這些嘗試進行打分,打分之后,學習一個打分機器,最后打分機器就可以和模型配合,自動化地進行模型的迭代,總體思路稱為RLHF:基于人類反饋的強化學習。
其中,PPO機制( Proximal Policy Optimization,近端策略優(yōu)化) 是強化學習中AC類(Actor/Critic)的經(jīng)典算法,由OpenAI 2017年提出,既有Policy Gradient方法的優(yōu)勢,同時基于importance sampling實現(xiàn)experience buffer的利用,發(fā)揮類似DQN類算法的數(shù)據(jù)利用優(yōu)勢。
PPO是OpenAI常用的baseline方法,理論部分相當復雜,感興趣的專業(yè)讀者可以閱讀原文和相關(guān)博客。
原文:Proximal policy optimization algorithms
非專業(yè)讀者只需要理解到這是一種適應人類反饋強化學習(RLHF)機制完成整個流程訓練的策略優(yōu)化算法即可。
通過以上流程拆解,我們不難發(fā)現(xiàn)InstructGPT能通過這種RLHF機制實現(xiàn)更好的性能,有一個大的前提:就是初始模型GPT-3已經(jīng)足夠強大。
只有初始模型本身比較強大了,才能實現(xiàn)人類提供少量的精華數(shù)據(jù),就可以開始進行模仿,同時在第二步產(chǎn)出較為合理的輸出供人類打分。
ChatGPT: 聊天升級版InstructGPT
根據(jù)OpenAI官方介紹,2022/11 發(fā)布的ChatGPT和2022/02 發(fā)布的InstructGPT在模型結(jié)構(gòu),訓練方式上都完全一致,只是采集數(shù)據(jù)的方式上有所差異,但是目前沒有更多的資料表明數(shù)據(jù)采集上有哪些細節(jié)不同。
所以,ChatGPT的技術(shù)原理與他的小兄弟InstructGPT基本一致,相當于InstructGPT是ChatGPT的預熱版,也被稱為GPT3.5,而傳言即將發(fā)布的GPT-4是一個多模態(tài)模型(可以處理圖片+文本+語音等多模態(tài)數(shù)據(jù)),期待。
至此,從GPT-1到ChatGPT的演進和技術(shù)原理就解釋得差不多了。
import有點爆肝
最后來一張Instruct/ChatGPT中文架構(gòu)流程圖,更加清晰易懂。
2.2 ChatGPT的局限性
盡管ChatGPT已經(jīng)足夠人工智能了,但是在眾多真實智能人類的鑒定下,它目前還存在不少局限。
功能局限
1.有時答案會出現(xiàn)事實性錯誤
2.仍然會產(chǎn)生有偏見、與人類道德倫理不對齊的內(nèi)容
3.沒有與實時信息建立關(guān)聯(lián)
4.有時對輸入的表達方式表現(xiàn)敏感
5.有時回答過于冗長
以上限制主要基于以下幾點復合原因:
1.ChatGPT乃至所有機器學習模型都是基于已有的數(shù)據(jù)、知識、關(guān)聯(lián)、標簽等做出的預測,因此只要它有所依賴和基于概率預測,錯誤、不準、有偏見的答案理論上都是存在的,只是精度和召回的問題;
2.ChatGPT的人工標注(包括指示和輸出)準確度、表達層度、“價值觀”等還可以提升,目前的AI對齊方式--RLHF機制也未必是最優(yōu);
3.ChatGPT的信息更新停留在了 2021年,它目前還無法連接搜索引擎,將最新、最實時的信息反饋給用戶。
技術(shù)局限
1.再大的模型都不能無限大
2.模型受獎勵模型和人工標注影響較大
這是ChatGPT技術(shù)架構(gòu)的兩大痛點,也是目前深度學習和強化學習研究領(lǐng)域的兩大難點問題。
其他局限
1.數(shù)據(jù)和算力帶來技術(shù)的壟斷
ChatGPT訓練需要的這種數(shù)據(jù)和算力體量,使得玩家基本就國外和國內(nèi)那些科技巨頭企業(yè)。而且目前ChatGPT也不會開源,這就使得學校和中小AI企業(yè)沒得研究,這并不利于ChatGPT本身的進步。
2.模型輕量化和性能的平衡
ChatGPT的參數(shù)量已經(jīng)到達千億級,如此大的模型顯然不適合大規(guī)模真實場景應用,后續(xù)的模型輕量化研究不可回避,而輕量化和性能的平衡也是一個巨大的挑戰(zhàn)。
3.可解釋性背后的AI可信
即使目前的ChatGPT在各項NLP任務上表現(xiàn)驚人,但是模型本身還像一個黑盒,可解釋性依然是專業(yè)算法人需要深入探索的點,用戶的期待依然是更加可信的AI。
2.3 ChatGPT的優(yōu)化和探索方向
1.多模態(tài)擴展
ChatGPT目前所展示出來的能力還主要在文本域和少部分跨模態(tài)/域的內(nèi)容生成。
下一步的趨勢已經(jīng)很明顯,統(tǒng)一集成文本、圖像、語音、視頻等多模態(tài)理解和生成能力,像人一樣,多模態(tài)思考、多模態(tài)處理。
2.不止于RLHF,探索其他AI對齊方式 RLHF(人類反饋強化學習)并不是唯一的AI對齊技術(shù),針對強化學習的AI對齊還有很多方法、很多策略可以探索。
3.提升指示的泛化和糾錯能力
除了人工標注的標簽(ground truth),ChatGPT對指示(prompt)的依賴也非常明顯,進一步提升模型對指示的泛化能力以及對錯誤指示的糾錯能力,不僅能提升用戶使用模型的體驗,也能使模型能夠適應更廣泛的應用場景。
4.模型輕量化技術(shù)探索
自深度學習框架效果被廣泛驗證以來,CV界和NLP界為了追求性能,過去10年的研究工作總體趨勢是模型層數(shù)越來越深、參數(shù)越來越多、數(shù)據(jù)量越來越大。
但是在圈里的每個人其實又都知道,到了某個階段必須得破圈,如今,ChatGPT雖然性能爆棚,但其模型之大之深顯然不適合大規(guī)模真實場景甚至在端上應用,未來對模型輕量化的研究不可回避,而輕量化和性能的平衡也非??简?a href="http://ttokpm.com/soft/data/42-102/" target="_blank">AI技術(shù)是否真的走向成熟。
5.數(shù)據(jù)+算力+人工標注的降本增效
數(shù)據(jù)、算力和算法作為AI三要素,ChatGPT成功地把其中的數(shù)據(jù)、算力附加人工標注的資源成本打到高校、研究機構(gòu)、其他小AI公司無法承受的水平,所以即便眾多專家學者吐槽“大力出奇跡”卻也無可奈何。
技術(shù)似乎又一次走在了科學的前面,這對科技本身的長期進步顯然并不有利。
然而,從OpenAI等大型資本加持的巨頭企業(yè)角度來看,他們也同樣希望在未來能夠逐步降本增效,畢竟AI開發(fā)者的終極目標還是“AI,讓生活更美好”,只不過這其中會有諸如技術(shù)壟斷、商業(yè)競爭等因素夾雜在其中更影響實現(xiàn)的時間。
三、商業(yè)應用
3.1 國內(nèi)外資本投入層層加碼
除了ChatGPT能做什么以及背后的技術(shù)門道,人們或許更關(guān)心它未來的產(chǎn)品化和商業(yè)化的過程。
而復雜且高投入的技術(shù)要想能夠大規(guī)模產(chǎn)品化和商業(yè)化,離不開資本的助力。
事實上,OpenAI的發(fā)展歷程首先證明了這一點。
OpenAI由創(chuàng)業(yè)家埃隆·馬斯克、美國創(chuàng)業(yè)孵化器Y Combinator總裁阿爾特曼、全球在線支付平臺PayPal聯(lián)合創(chuàng)始人彼得·蒂爾等人于2015年12月在舊金山創(chuàng)立。
起初它的定位是一家非盈利的AI研究公司,而后在2019年3月,OpenAI成立了一家叫做 OpenAI LP 的有限合伙公司,正式過度到“封頂盈利”性質(zhì)。
轉(zhuǎn)折點在2019年7月,微軟向OpenAI豪注10億美金,并獲得了OpenAI技術(shù)商業(yè)化的授權(quán)。
所以2020年5月OpenAI成功發(fā)布了1750億參數(shù)+45TB數(shù)據(jù)量的GPT-3語言模型,僅僅訓練階段就花費了大約 1200 萬美元。
真就Money is all you need.
而在ChatGPT大放異彩的2023年初,微軟、谷歌、亞馬遜、百度、騰訊等國內(nèi)外科技巨頭更加不愿意錯過機會,隨之而來的是資本和研發(fā)投入的層層加碼,燒錢 + 燒人。
3.2 ChatGPT商業(yè)化序幕已經(jīng)拉開
2月1日,微軟宣布推出由ChatGPT提供技術(shù)支持的視頻會議及遠程協(xié)作平臺Teams的高級付費版Microsoft Teams Premium,訂閱者可享用OpenAI GPT提供支持的大型語言模型技術(shù),用AI自動生成會議筆記。
2月2日,OpenAI宣布,推出其人工智能聊天機器人ChatGPT的付費訂閱版本,新的訂閱服務名為ChatGPT Plus,月費為20美元。訂閱包括在高峰使用時間訪問聊天機器人。目前的免費版本在使用率高的時間段將限制對用戶的服務。
2月8日,微軟推出了由OpenAI提供最新技術(shù)支持的新版搜索引擎必應(Bing)和Edge瀏覽器。
ChatGPT 已經(jīng)被亞馬遜用于各種不同的工作職能中,包括回答面試問題、編寫軟件代碼和創(chuàng)建培訓文檔等。
文案自動生成平臺Jasper,其技術(shù)底層是 OpenAI 的 GPT-3,在成立僅 18 個月后就達到了 15 億美元的高估值。
2月7日,百度宣布將在3月份完成其ChatGPT產(chǎn)品的內(nèi)測,面向公眾開放,該項目名字為文心一言(ERNIE Bot)。
ChatGPT應用場景廣泛,商業(yè)價值巨大,有望賦能傳媒、影視、營銷、教育、金融、醫(yī)療、科研、游戲等多個行業(yè)。
ChatGPT賦能傳媒:實現(xiàn)智能新聞寫作,提升新聞的時效性
ChatGPT可以幫助新聞媒體工作者智能生成報道,將部分勞動性的采編工作自動化,更快、更準、更智能地生成內(nèi)容。
ChatGPT賦能影視:拓寬創(chuàng)作素材,提升作品質(zhì)量
ChatGPT可以根據(jù)大眾的興趣身定制影視內(nèi)容,從而更有可能吸引大眾的注意力,獲得更好的收視率、票房和口碑。 ChatGPT可以為劇本創(chuàng)作提供新思路,創(chuàng)作者可根據(jù)ChatGPT的生成內(nèi)容再進行篩選和二次加工,從而激發(fā)創(chuàng)作者的靈感,開拓創(chuàng)作思路,縮短創(chuàng)作周期。
ChatGPT賦能營銷:打造虛擬客服,助力售前和售后
ChatGPT賦能教育金融醫(yī)療:促進數(shù)實共生,助力產(chǎn)業(yè)升級
ChatGPT+教育:賦予教育教材新活力,讓教育方式更個性化、更智能;
ChatGPT+金融:幫助金融機構(gòu)降本增效,讓金融服務更有溫度;
ChatGPT+醫(yī)療:賦能醫(yī)療機構(gòu)診療全過程。
另外,ChatGPT和之前熱炒的元宇宙顯然還不太一樣。
元宇宙到目前為止更像是一個美好的想法,還沒有實際的產(chǎn)品和成熟的模式產(chǎn)生,大眾甚至查閱資料都無法明白元宇宙是要做什么。
但ChatGPT以及背后的生成式人工智能(AIGC),不僅有ChatGPT這樣To C觸感非常強烈的產(chǎn)品,而且已經(jīng)能看到如上述一些比較清晰的商業(yè)化模式。
現(xiàn)在缺的就是資本加速和技術(shù)突破。
3.3 ChatGPT助力AIGC浪潮再起
AIGC(Artificial Intelligence Generated Context),是指利用人工智能技術(shù)來生成內(nèi)容,常見如AI繪畫、AI寫作、AI生成圖片、代碼、視頻等。
AIGC順著AI發(fā)展的脈絡(luò),大致經(jīng)歷了三個大的階段:
2010年以來,隨著深度學習的快速突破以及數(shù)字內(nèi)容的海量增長,AIGC領(lǐng)域相關(guān)技術(shù)打破了預定義規(guī)則的局限性,算法模型結(jié)構(gòu)不斷創(chuàng)新,使得快速便捷且智慧地輸出多模態(tài)的數(shù)字內(nèi)容成為可能。
從2017年微軟小冰作詩到2018年英偉達StyleGAN生成高質(zhì)量圖片,再到2019年谷歌DeepMind DVD-E2生成連續(xù)視頻,AIGC正在經(jīng)歷一波蓬勃發(fā)展。
直到本文的主角ChatGPT 2022年年底出場,AIGC終于迎來了突破式的拐點,新一輪的浪潮正在徐徐展開。
AIGC應用場景
AIGC按內(nèi)容生成類別可劃分為文本、代碼、圖像、音視頻四大類,而跨模態(tài)生成技術(shù)是真正實現(xiàn)生成式智能的核心。
AIGC的意義在于提高內(nèi)容生產(chǎn)力、打開內(nèi)容創(chuàng)作想象空間,這或許也是巨頭爭相加碼AIGC的原因所在。從現(xiàn)有的應用場景來看,AIGC已經(jīng)可以替代部分重復勞動力,并協(xié)助部分創(chuàng)造性勞動,未來AI技術(shù)的發(fā)展有望不斷降低內(nèi)容生產(chǎn)成本、提高生產(chǎn)效率并拓展內(nèi)容邊界。
AIGC市場空間
2023年人工智能從學術(shù)研究逐漸走向產(chǎn)業(yè)化,商業(yè)與AI技術(shù)的融合形成互為支點的發(fā)展格局,進入產(chǎn)業(yè)規(guī)模商用期。人工智能技術(shù)將不斷地對AI數(shù)字商業(yè)的各個領(lǐng)域進行滲透。
據(jù)量子位預測,2030年AIGC市場規(guī)模有望超過萬億元。在內(nèi)容領(lǐng)域,人機協(xié)同,對于存量業(yè)務,AIGC的價值在于降本增效,對于增量業(yè)務,其價值在于跨模態(tài)的內(nèi)容生成等。
據(jù)Gartner的“人工智能技術(shù)成熟度曲線”,生成式AI仍處于萌芽期,但其廣闊的應用場景和需求空間吸引大量資本和技術(shù)的投入,預計將在2-5年內(nèi)實現(xiàn)規(guī)模化應用。
AIGC有潛力產(chǎn)生數(shù)萬億元的經(jīng)濟價值,AIGC繁榮發(fā)展,將促進資產(chǎn)服務快速跟進,通過對生成內(nèi)容合規(guī)評估、資產(chǎn)管理、產(chǎn)權(quán)保護、交易服務等構(gòu)成AIGC完整生態(tài)鏈,并進行價值重塑,充分釋放其商業(yè)潛力,至2025年中國生成式AI商業(yè)應用規(guī)模至2070億元。
AIGC商業(yè)模式
過去AI發(fā)展多年,雖然在諸多領(lǐng)域也取得一些顯著成果,但從整個AI產(chǎn)業(yè)來看,過去的應用更多的像是經(jīng)過專業(yè)學習的“??粕保痪邆渫ㄓ脠鼍暗姆夯?。
但ChatGPT的問世,證明了基于大模型的AIGC已經(jīng)像是一位接受過通識教育的“本科生”,雖然在發(fā)展初期在特定專業(yè)領(lǐng)域功能有限,卻有著更強的可拓展性,能夠賦能和落地各個商業(yè)領(lǐng)域。 并且直觀來看,ChatGPT告訴世人,AI變成了一個普通人也可以輕松運用、提升效率的工具。
這意味著AIGC的商業(yè)模式更加顯式化,不僅可以To B也可以To C。
AIGC To B模式主要希望解決的痛點問題在于:用AI代替人工生產(chǎn),幫助企業(yè)實現(xiàn)降本增效。因為對B端帶來的效果是快而顯著的,因此客戶的付費意愿較強。
而 To C模式下,對于個人用戶來說,一方面AIGC應用可以作為效率工具,能夠在信息獲取、格式整理和工作流等各個流程提高個人用戶的效率,并且AI模型作為基礎(chǔ)設(shè)施能夠集成到現(xiàn)有的工作流程中;另一方面可以作為創(chuàng)作工具,類似剪輯、修圖軟件一樣,AIGC能夠在用戶原創(chuàng)流行的今天,大幅度降低大眾用戶的創(chuàng)作門檻,強化個人媒體的IP價值。
從商業(yè)角度而言,將AIGC作為底層基礎(chǔ)設(shè)施的SaaS訂閱將成為中長期趨勢。用戶選擇付費的邏輯在于:更高效的信息獲取方式;從輔助表達到替代表達;集成到已有的工作流;擴大用戶創(chuàng)造力。
AIGC產(chǎn)業(yè)鏈
一方面,AIGC產(chǎn)業(yè)鏈可根據(jù)模型層次劃分為基礎(chǔ)層、中間層、應用層三層架構(gòu)。
(1) 基礎(chǔ)層:利用預訓練模型搭建基礎(chǔ)設(shè)施,該環(huán)節(jié)具備最高的進入門檻,參與者以頭部企業(yè)為主
預訓練模型是眾多小模型的通用基底,為開發(fā)者降低AI開發(fā)與應用的門檻。預訓練模型初始投入成本高、運行成本高,對軟件、硬件均提出較高要求,因此涉足該環(huán)節(jié)的企業(yè)以微軟、谷歌、英偉達、Meta等科技巨頭以及OpenAI、Stability.ai等AI研究機構(gòu)為主。
以O(shè)penAI為例,2020年該機構(gòu)訓練GPT-3的硬件及電力成本達1200萬美元;以Meta為例,為了提供更強大的算力支撐,Meta攜手英偉達、Penguin Computing及Pure Storage打造AI超級計算機RSC,其測試數(shù)據(jù)顯示,RSC訓練大型NLP模型的速度提升3倍,運行計算機視覺工作的速度提升20倍。
(2) 中間層:基于預訓練模型開發(fā)垂直化、場景化、個性化的模型和應用工具
中間層廠商基于預訓練的大模型生成場景化定制化的小模型,幫助不同行業(yè)和垂直領(lǐng)域?qū)崿F(xiàn) AIGC 的快速部署。在預訓練模型基礎(chǔ)之上,開發(fā)者可根據(jù)不同行業(yè)、不同功能場景生成相應的小模型,基礎(chǔ)層企業(yè)向中間層延伸為順勢而為。
此外,基礎(chǔ)層企業(yè)還可扮演MaaS(Model-as-a-Service)服務提供方,將其模型開源給更多企業(yè)以二次開發(fā)模型,如Novel AI基于Stability.ai的開源模型Stable Diffusion開發(fā)出二次元風格AI繪畫工具。
(3) 應用層:面向C端用戶提供文本、圖像、音視頻等內(nèi)容生成服務
應用層是指面向 C 端提供 AIGC 相關(guān)服務,典型企業(yè)包括微軟、Meta、百度、騰訊,阿里巴巴等。基于基礎(chǔ)層、中間層的模型及工具,應用層企業(yè)可將其重心放在滿足用戶需求乃至創(chuàng)造內(nèi)容消費需求上,AI寫作、AI繪畫等AIGC應用已在營銷、娛樂、藝術(shù)收藏等領(lǐng)域落地。
以國內(nèi)企業(yè)為例,視覺中國依托其數(shù)字版權(quán)內(nèi)容優(yōu)勢布局AIGC數(shù)字藏品,借力AI持續(xù)擴充藝術(shù)多元性,截至目前多輪發(fā)售的AIGC數(shù)字藏品均已售罄;藍色光標機器人小藍博面向廣告主推出AI繪畫、AI寫作工具,其中AI繪畫工具創(chuàng)意畫廊可生成抽象風格畫作以適配不同營銷場景。
另一方面,「數(shù)據(jù)算力、算法模型和上層應用」又構(gòu)成了AIGC產(chǎn)業(yè)鏈的直接上中下游關(guān)系。
AIGC上游主要包括數(shù)據(jù)供給方、算法機構(gòu)、創(chuàng)作者生態(tài)以及底層配合工具等,中游主要是文字、圖像、音頻和視頻處理廠商,其中玩家眾多;下游主要是各類內(nèi)容創(chuàng)作及分發(fā)平臺以及內(nèi)容服務機構(gòu)等。
后記
ChatGPT,作為一項影響力出圈的AI技術(shù)應用,是近10年來人工智能和計算機技術(shù)快速發(fā)展、不斷更新迭代、多種技術(shù)疊加在一起形成質(zhì)變的產(chǎn)物,是自然語言處理(NLP)領(lǐng)域近年來研究的結(jié)晶。
ChatGPT實現(xiàn)了一種使機器獲得語言智能的完整有效技術(shù)路線,但這個研究方向仍然面臨諸多挑戰(zhàn),需要在科學和技術(shù)上進一步探索。
同時展望未來,它對AIGC、產(chǎn)業(yè)互聯(lián)網(wǎng)、數(shù)字經(jīng)濟等領(lǐng)域的長足發(fā)展也將影響深遠。
最后附上幾個有爭議性的話題,供讀者思考和交流。
ChatGPT會引領(lǐng)第四次科技革命嗎?
關(guān)鍵詞:生產(chǎn)力、規(guī)模、效率
ChatGPT會給人類帶來失業(yè)潮嗎?
關(guān)鍵詞:情感、創(chuàng)造力、稀缺性
ChatGPT適合下海創(chuàng)業(yè)嗎?
關(guān)鍵詞:技術(shù)、資金、團隊、商業(yè)模式
ChatGPT及AIGC產(chǎn)業(yè)鏈有值得投資的企業(yè)嗎?
關(guān)鍵詞:納指100、中概互聯(lián)、騰訊、百度、科大訊飛
參考文獻
學術(shù)論文:
Transformer: Attention Is All You Need, 2017. BERT: Bidirectional Encoder Representation from Transformers, 2018.
GPT-1: Improving Language Understanding by Generative Pre-Training, 2018.
GPT-2: Language Models are Unsupervised Multitask Learners, 2019.
GPT-3: Language Models Are Few-shot Learners, 2020.
InstructGPT: Training language models to follow instructions with human feedback, 2022.
ChatGPT: Optimizing Language Models for Dialogue, 2022.
證券研報:
1.國泰君安-計算機行業(yè):ChatGPT 研究框架(2023)
2.華西證券-計算機行業(yè)深度研究報告:ChatGPT,開啟AI新紀元
3.銀河證券-計算機行業(yè):聊天機器人頂流ChatGPT,開啟自然語言處理領(lǐng)域新篇章
4.招商證券-計算機行業(yè):ChatGPT快速流行,重構(gòu)AI商業(yè)模式
5.國聯(lián)證券-計算機行業(yè):ChatGPT風口已至,商業(yè)化落地加速
6.東方證券-計算機行業(yè):ChatGPT引領(lǐng)AI新浪潮,AIGC商業(yè)化啟程
7.興業(yè)證券-計算機行業(yè):從AIGC到ChatGPT,原理、前景和機會
8.華泰證券-計算機行業(yè):ChatGPT:深度拆解
9.招銀國際-中國互聯(lián)網(wǎng)行業(yè):ChatGPT & AIGC在中國市場的發(fā)展前景
公眾號文章:
慧博資訊:《ChatGPT行業(yè)深度報告》
慧博資訊:《AIGC行業(yè)深度報告》
TJUNLP:《對ChatGPT的二十點看法》,作者:熊得意老師
知乎文章:
https://zhuanlan.zhihu.com/p/589621442
https://zhuanlan.zhihu.com/p/517219229
https://zhuanlan.zhihu.com/p/34656727
https://zhuanlan.zhihu.com/p/595891945
https://zhuanlan.zhihu.com/p/597264009
https://zhuanlan.zhihu.com/p/563166533
https://zhuanlan.zhihu.com/p/606901798
https://www.zhihu.com/question/570431477/answer/2888747398
https://www.zhihu.com/question/581311491/answer/2882281060
審核編輯 黃宇
-
AI
+關(guān)注
關(guān)注
87文章
29707瀏覽量
268024 -
語言模型
+關(guān)注
關(guān)注
0文章
498瀏覽量
10236 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1544瀏覽量
7334
發(fā)布評論請先 登錄
相關(guān)推薦
評論