從去年ChatGPT重磅發(fā)布到今年的“百模大戰(zhàn)”,大模型賽道可謂熱鬧非凡。
今年8月31日,國內(nèi)首批8家大模型公司通過《生成式人工智能服務(wù)管理暫行辦法》備案,獲批面向公眾開放服務(wù),這些大模型包括上海人工智能實(shí)驗(yàn)室的書生通用大模型、商湯科技“商量”,以及百度“文心一言”等。
ChatGPT從源頭來看是自然語言理解、自然語言處理兩個(gè)技術(shù),之所以引起關(guān)注,在于它是一個(gè)大模型,對應(yīng)大數(shù)據(jù)、強(qiáng)計(jì)算、好算法。有人說,原理是這么個(gè)原理,就像踢足球都是盤帶、射門,但是做到梅西那么好也不容易。
今天,就讓我們來看看,趕上大模型這個(gè)風(fēng)口的“張江版大模型”都有哪些?各自的優(yōu)勢又有何不同?
達(dá)觀數(shù)據(jù):“曹植”大語言模型
3月,基于多年文本智能技術(shù)積累和垂直領(lǐng)域場景業(yè)務(wù)經(jīng)驗(yàn),達(dá)觀數(shù)據(jù)研發(fā)團(tuán)隊(duì)積極探索大語言模型(LLM)的實(shí)踐,研發(fā)國產(chǎn)版GPT模型——“曹植”大語言模型。
7月,在 2023 世界人工智能大會(huì)上,達(dá)觀數(shù)據(jù)正式發(fā)布了名為“曹植”的大模型。這是國內(nèi)首個(gè)垂直行業(yè)專用的自主可控的國產(chǎn)GPT大語言模型,可準(zhǔn)確完成多類型、復(fù)雜結(jié)構(gòu)的長文本寫作,自動(dòng)起草多種類型的文檔,未來將實(shí)現(xiàn)多模態(tài)內(nèi)容生成,如長文檔中的表格、圖表、圖片等。
作為垂直、專用、自主可控的國產(chǎn)版ChatGPT模型,“曹植”是如何誕生的?
達(dá)觀數(shù)據(jù)成立于2015年,一直在NLP(自然語言處理)領(lǐng)域深耕,積累了大量金融、政務(wù)、制造等垂直領(lǐng)域的大量數(shù)據(jù)。2017年,谷歌在發(fā)表的論文中提出NLP關(guān)于“理解”和“生成”的兩個(gè)技術(shù)路線?;谶_(dá)觀數(shù)據(jù)當(dāng)時(shí)的優(yōu)勢資源和未來發(fā)展,他們從一開始就選擇了“理解”這條技術(shù)路線。這一年,運(yùn)用知識圖譜、文字識別等技術(shù)開發(fā)的IDP智能文檔審閱系統(tǒng)進(jìn)入市場。
隨著人工智能的不斷發(fā)展,機(jī)器智能處理長文本的需求日益緊迫。隨后,達(dá)觀數(shù)據(jù)便投入到大語言模型的開發(fā)工作中,而這正是如今的“曹植”大模型誕生的起點(diǎn)。
“長文本”是“曹植”大模型的目標(biāo)任務(wù)。區(qū)別于一問一答的簡單短文本生成,“曹植”大模型可準(zhǔn)確完成多類型、復(fù)雜結(jié)構(gòu)的長文本寫作。
以金融信貸報(bào)告為例,銀行的金融信貸報(bào)告經(jīng)常以40頁起步,60多頁的報(bào)告也是家常便飯,靠員工“埋頭苦干”效率太低,而大模型就會(huì)自動(dòng)起草多種類型的文檔,同時(shí)具有自動(dòng)排版、智能糾錯(cuò)、文本潤色、自動(dòng)生成摘要等特色功能;支持中文、英文、法語、德語、日語、韓語等數(shù)十種語言的寫作,輔助人工大幅提高辦公效率;在長文檔翻譯方面,對原文的標(biāo)題、段落等內(nèi)容實(shí)現(xiàn)1:1版式還原,提供實(shí)時(shí)的翻譯體驗(yàn),廣泛應(yīng)用于多語言文檔密集處理的場景。“未來員工需要做的就是寫提示詞、寫大綱、核實(shí)數(shù)字,剩下的都能交給大模型來完成。”達(dá)觀數(shù)據(jù)創(chuàng)始人兼CEO陳運(yùn)文表示。
這也是國內(nèi)大規(guī)模語言模型中首批可落地的產(chǎn)業(yè)應(yīng)用級模型,目前除了在金融領(lǐng)域應(yīng)用之外,“曹植”還掌握了撰寫白皮書、技術(shù)報(bào)告以及品牌故事的智能協(xié)作本領(lǐng)。
與此同時(shí),為促使“曹植”大模型在各垂直領(lǐng)域中可以更低成本高效能地落地與應(yīng)用,達(dá)觀數(shù)據(jù)正式推出私有化大模型一體機(jī)。私有化“曹植”大模型一體機(jī),內(nèi)置達(dá)觀數(shù)據(jù)全棧自主研發(fā)的“曹植”大模型,支持三方開源模型庫,可在企業(yè)內(nèi)部一鍵部署大模型應(yīng)用,能同時(shí)為多種垂直大模型業(yè)務(wù)提供文檔智能審閱、智能知識管理、知識搜索與問答、文檔智能寫作、智能推薦等智能化服務(wù),支持和具備安全便捷的AI訓(xùn)練、推理、長文檔寫作、機(jī)器翻譯、語義分析審核、知識問答、text-to-sql等場景功能應(yīng)用。“曹植 ”的強(qiáng)大功能讓它甫一出世就大獲好評。
云從科技:從容大模型
5月18日,由云從科技研發(fā)的從容大模型正式亮相,展現(xiàn)了在智能問答、城市管理、智能制造、智慧金融、游戲文創(chuàng)等領(lǐng)域的超級本領(lǐng)。云從科技董事長兼總經(jīng)理周曦指出,從容大模型將以問答、伴隨、托管三種遞進(jìn)的形式顛覆傳統(tǒng)交互方式。其中,“問答”即類似于當(dāng)前的GPT;“伴隨”指AI會(huì)像一個(gè)朋友伴隨你執(zhí)行很多事情;“托管”則意味著一件事主要交給AI來做,類似在網(wǎng)游中的‘掛機(jī)訓(xùn)練’。能走到托管這一步,人就可以‘解放’出來,做更多有意義、有興趣的事?!?。
從算法、算力、數(shù)據(jù)這三個(gè)大模型重要維度看,云從科技的先天優(yōu)勢幫助其建立了技術(shù)門檻。
算法上,云從科技從2020年開始就已經(jīng)陸續(xù)在NLP(自然語言處理)、OCR(光學(xué)字符識別)、機(jī)器視覺、語音等多個(gè)領(lǐng)域開展預(yù)訓(xùn)練大模型的實(shí)踐,不僅進(jìn)一步提升了公司各項(xiàng)核心算法的性能效果,同時(shí)也大幅提升了公司的算法生產(chǎn)效率,已經(jīng)在城市治理、金融、智能制造等行業(yè)應(yīng)用中體現(xiàn)價(jià)值。
算力上,云從科技擁有強(qiáng)大的算力資源儲(chǔ)備,預(yù)計(jì)未來將擴(kuò)展到上萬張卡的規(guī)模,并計(jì)劃聯(lián)合各行頭部企業(yè)打造不同的行業(yè)大模型,推動(dòng)行業(yè)數(shù)智化建設(shè)。
數(shù)據(jù)上,云從科技有行業(yè)專業(yè)數(shù)據(jù)的先發(fā)優(yōu)勢。行業(yè)大模型需要的是專業(yè)領(lǐng)域的知識,如果不是一直耕耘的行業(yè)資深選手,基本很難有相關(guān)的數(shù)據(jù)積累。云從科技恰恰擁有這方面的稀缺優(yōu)勢,其多年來在多個(gè)領(lǐng)域?qū)嵺`“預(yù)訓(xùn)練大模型+下游任務(wù)遷移”的技術(shù)范式,產(chǎn)出多個(gè)百億參數(shù)以內(nèi)規(guī)模的模型。歷經(jīng)長期與各垂直領(lǐng)域企業(yè)的緊密合作,云從通過大量場景數(shù)據(jù)訓(xùn)練不斷優(yōu)化算法平臺,培育出針對不同行業(yè)特有的數(shù)據(jù)分析和應(yīng)用能力。
8月21日,云從發(fā)布從容大模型1.5版本,該版本包含十億級、百億級、千億級多種模型規(guī)格,實(shí)測性能在全球大模型綜合性考試評測(C-Eval)中位居百億級第1,總榜單第4。為解決大模型落地難題,從容1.5版本的重點(diǎn)是參數(shù)量為130億的行業(yè)大模型,該模型從千億大模型中蒸餾產(chǎn)生,在52類測試指標(biāo)中有44類超過ChatGPT、29類超過GPT-4,這距離從容大模型正式發(fā)布僅過去3個(gè)月,可謂是進(jìn)步神速。
百度:文心一言
8月31日,百度生成式人工智能產(chǎn)品“文心一言”正式向公眾開放服務(wù),這也意味著該應(yīng)用已通過《生成式人工智能服務(wù)管理暫行辦法》備案,成為國內(nèi)首個(gè)合規(guī)上線的生成式人工智能產(chǎn)品。
據(jù)悉,百度還將開放一批經(jīng)過全新重構(gòu)的AI原生應(yīng)用,讓用戶充分體驗(yàn)生成式AI的理解、生成、邏輯、記憶四大核心能力。
文心一言在今年3月16日上線測試,隨即引發(fā)廣泛關(guān)注,截至5月,有超過300家生態(tài)伙伴參與內(nèi)測,在400多個(gè)企業(yè)內(nèi)部場景取得測試成效。8月31日開放當(dāng)天,百度的一系列AI原生應(yīng)用也“閃電”上線,并取得不錯(cuò)的戰(zhàn)績:
百度文心一言首日回答用戶3342萬問題,“文心一言App”迅速登上Apple store免費(fèi)應(yīng)用排行榜榜首,首日用戶量破百萬;文心一言開放首日,百度搜索就有超3億次需求由生成式智能引擎解決,百度搜索“AI伙伴”當(dāng)日訪問用戶數(shù)突破400萬;百度文庫“AI做PPT”等文檔創(chuàng)作功能超200萬人次體驗(yàn)。這距離5月百度萬象大會(huì)上“用AI原生思維重構(gòu)百度移動(dòng)生態(tài)”的表態(tài),才過去不過百余天,大模型時(shí)代的技術(shù)進(jìn)展可以說是日新月異。
實(shí)際上,從多年前的“All in AI”開始,百度就開始了在AI領(lǐng)域的全棧布局。近十年,百度累計(jì)研發(fā)投入超1400億元,2022年百度核心研發(fā)費(fèi)用214.16億元,占百度核心收入比例達(dá)到22.4%。壓強(qiáng)式研發(fā)投入讓百度實(shí)現(xiàn)厚積薄發(fā),成為全球?yàn)閿?shù)不多的、有著應(yīng)用、模型、框架、芯片四層全棧布局的AI公司,實(shí)現(xiàn)端到端優(yōu)化,并在各個(gè)層面都有行業(yè)領(lǐng)先的關(guān)鍵自研技術(shù)。
文心一言的基礎(chǔ)模型文心大模型早在2019年就在國內(nèi)率先發(fā)布,近期升級的文心大模型3.5也持續(xù)在十余個(gè)國內(nèi)外權(quán)威測評中位居首位。百度透露,文心大模型4.0預(yù)計(jì)將在年底推出。
編輯:黃飛
-
人工智能
+關(guān)注
關(guān)注
1789文章
46652瀏覽量
237079 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1546瀏覽量
7358 -
文心一言
+關(guān)注
關(guān)注
0文章
123瀏覽量
1241 -
大模型
+關(guān)注
關(guān)注
2文章
2274瀏覽量
2357
原文標(biāo)題:都有誰站在了大模型的風(fēng)口上?
文章出處:【微信號:zjpark,微信公眾號:你好張江】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論