0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

科技云報到:假開源真噱頭?開源大模型和你想的不一樣!

科技云報到 ? 來源:jf_60444065 ? 作者:jf_60444065 ? 2024-11-03 10:46 ? 次閱讀

科技云報到原創(chuàng)。

25年前,著名的計算機程序員、開源軟件運動旗手Eric S·Raymond出版了《大教堂與集市》一書,首次提出了開放源代碼(Open Source)的概念,提倡軟件源代碼能被任何人查看、修改、分發(fā)。開源自此深刻影響了互聯(lián)網(wǎng)行業(yè)的每一個角落。

在大模型和GenAI崛起的當下,開源再次成為業(yè)界關注焦點,對于開源和閉源的爭論也久久未能平息。然而,大模型開源相比傳統(tǒng)軟件開源,情況要更加復雜。在開源的定義、性質(zhì)、開放內(nèi)容和開源策略上都有完全不同的標準和內(nèi)容。因此,“開源派”的帽子并不是那么好戴的。

“開源”大模型再起波瀾

10月29日,全球權威的開放源代碼促進會(Open Source Initiative,OSI)發(fā)布了關于“開源AI定義(OSAID)”1.0版本,正是這一定義引起了業(yè)界不小的波瀾。

根據(jù)OSAID,AI模型若要被視為“開源”,必須提供足夠的信息,使任何人都可以“實質(zhì)性地”重建該模型。根據(jù)新定義,AI大模型若要被視為開源有三個要點:

第一,訓練數(shù)據(jù)透明性。必須提供足夠的信息,使任何人能夠“實質(zhì)性”地重建該模型,包括訓練數(shù)據(jù)的來源、處理方式和獲取方式;

第二,完整代碼。需要公開用于訓練和運行AI的完整源代碼,展示數(shù)據(jù)處理和訓練的規(guī)范;

第三,模型參數(shù)。包括模型的權重和配置,需提供相應的訪問權限。

OSAID還列出了開發(fā)者使用開源AI時應享有的使用權,例如可以為任何目的使用和修改模型,而無需獲得他人許可。

OSI稱,新定義是為了避免當前行業(yè)中對“開源大模型”的過度營銷和使用誤解。據(jù)此標準,當前市場上表面開源的大模型幾乎都“名不副實”,包括大名鼎鼎的“開源大模型”標桿Meta的Llama和谷歌的Gemma。

過去兩三年中,OSI發(fā)現(xiàn)傳統(tǒng)軟件行業(yè)的“開源”與大模型有著本質(zhì)區(qū)別,定義并不適用當前火熱的AI大模型。因為AI大模型遠比傳統(tǒng)開源軟件更復雜:它不僅包含代碼,還涉及大量的數(shù)據(jù)、復雜的模型架構以及訓練過程中的各種參數(shù)等。而這些數(shù)據(jù)的收集、整理、標注等過程都對模型的性能和結果產(chǎn)生重要影響。傳統(tǒng)的開源定義無法全面涵蓋這些新的要素,導致在AI領域的適用性不足。

目前,全球許多初創(chuàng)企業(yè)和大型科技公司,稱其AI模型發(fā)布策略為“開源”,因為將大模型描述為“開源”會被開發(fā)者認為更易開發(fā)、更低成本、更多資源。但研究人員發(fā)現(xiàn),許多開源模型實際上只是名義上開源,它們限制了用戶可以對模型做什么,并且實際訓練模型所需的數(shù)據(jù)是保密的,而且運行這些模型所需要的計算能力超出了許多開發(fā)者的能力范圍。例如,Meta要求月活躍用戶超過7億的平臺獲得特殊許可才能使用其Llama模型。

無獨有偶,今年6月,《Nature》的一篇報道指出,很多科技巨頭宣稱他們的AI模型是開源的,但實際上并不完全透明。這些模型的數(shù)據(jù)和訓練方法往往沒有公開,這種做法被稱為 “開源洗白”,嚴重妨礙了科學研究的可復現(xiàn)性和創(chuàng)新。

荷蘭拉德堡德大學的人工智能研究學者Andreas Liesenfeld和計算語言學家Mark Dingemanse也發(fā)現(xiàn),雖然“開源”一詞被廣泛使用,但許多模型最多只是“開放權重”,關于系統(tǒng)構建的其他大多數(shù)方面都隱藏了起來。

比如Llama和Gemma雖然自稱開源或開放,但實際上只是開放權重,外部研究人員可以訪問和使用預訓練模型,但無法檢查或定制模型,也不知道模型如何針對特定任務進行微調(diào)。

“開源”大模型到底開放了什么?

對于社區(qū)中的開源軟件來說,源代碼是其核心。開發(fā)者通過閱讀源代碼可以掌握該軟件的全部細節(jié),進而可以為該軟件開發(fā)新的功能、提供測試、修復Bug以及做代碼評審等。

開發(fā)者提交自己的代碼到開源項目,合入后就形成了新的版本。這就是開放式協(xié)作開發(fā),它是開源軟件的基本開發(fā)模式,與普通軟件的開發(fā)過程并沒有本質(zhì)的不同,只是開發(fā)人員在地理位置上是分散的,他們依靠一些遠程協(xié)作平臺,比如GitHub、Gitee 等,以開放式治理的方式進行協(xié)作。

但是對于大模型來說,除了源代碼以外,數(shù)據(jù)是更為重要的核心資產(chǎn)。大模型是基于深度學習技術,通過海量數(shù)據(jù)進行訓練而來的深度學習模型,大模型能夠基于自然語言來實現(xiàn)文本的生成和理解,根據(jù)輸入的數(shù)據(jù)得到輸出,從而完成多類型的通用任務。

在大模型的運轉方面,主要就是訓練和推理兩個過程,訓練過程就是大模型產(chǎn)生的過程,訓練過程的基本原理是在深度學習框架上運行特定的模型架構,然后把訓練數(shù)據(jù)集輸入給架構,再通過復雜的計算和多次迭代,最后得到一套想要的權重,而這套權重就是訓練后的結果,也叫預訓練模型。

預訓練模型在經(jīng)過部署之后,以及在得到深度學習框架的支持之下,根據(jù)給定的輸入內(nèi)容得到對應的輸出結果,這一套流程就是推理過程。

但需要說明的是,在大模型訓練和推理過程中,往往所需要的算力和資源的差異很大。在訓練過程中,需要很多次的迭代計算,且需要具備海量GPU算力做支持,這樣才能在合理的時間范圍內(nèi)完成一次完整的訓練過程。另外,在推理過程中,需要的算力資源卻相對較小,因為推理的時候在消費型GPU以及普通的GPU上就可以完成一次一般類型的推理。

根據(jù)目前情況來看,市面上絕大多數(shù)開源大模型開放出來的只是一套權重,也就是預訓練模型,如果開發(fā)者想要復現(xiàn)該開源大模型的訓練過程,需要通過優(yōu)化數(shù)據(jù)集、方法等訓練出一個更優(yōu)質(zhì)的模型,而且需要數(shù)據(jù)集、訓練過程和源代碼,但是大部分開源大模型在開源的時候并未提供上面所需要的這些內(nèi)容,就算開發(fā)者掌握算力也無法復現(xiàn)。

市面上這些類比傳統(tǒng)軟件的開源大模型更像是一個開放了的二進制包,比如.exe文件,只是閉源、免費開放使用的,它其實是一個“免費軟件”而不是一個“開源軟件”。

大模型所謂的“開源”,實際上是有三個對象,源碼只是其中之一,需要同時具備算法、高算力、大數(shù)據(jù)這三大要素,才有可能最終得到一款和ChatGPT類似效果拔群的模型。

大模型的源碼就在算法,算法的核心部分主要包括有模型結構和訓練方法,這兩部分都有對應的源碼。拿到源碼只是第一步,高算力和大數(shù)據(jù)是大多數(shù)企業(yè)無法逾越的門檻。相比高算力而言,大數(shù)據(jù)是最難獲取同時也是價值最高的部分。

那么,開源大模型在不提供數(shù)據(jù)集和源代碼的前提下,是不是就不能進行協(xié)作了呢?并非完全如此。

基于大模型的實現(xiàn)原理和技術特性,開發(fā)者可以通過微調(diào)的方式對預訓練大模型進行能力擴展,通過額外的數(shù)據(jù)集進行進一步的訓練,優(yōu)化模型在特定領域的效果,得到一個新的衍生模型。

微調(diào)數(shù)據(jù)規(guī)??纱罂尚?,但通常比原始訓練數(shù)據(jù)集小得多,所以產(chǎn)生一個微調(diào)模型所需的算力成本也低得多。

因此,在開源大模型界,出現(xiàn)了一些以主流預訓練模型為基礎底座衍生的微調(diào)大模型,并形成了譜系。

大模型根本沒有“真”開源?

從當前各家大模型廠商的宣傳看,大多采用了“以偏概全”“避重就輕”的方式,很容易讓人混淆模型開源和軟件開源的概念,讓開發(fā)者或企業(yè)誤認為開源大模型與開源軟件是同等開源水平。

無論是大模型還是軟件,發(fā)揮開源優(yōu)勢,本質(zhì)上是吸收開發(fā)者對大模型或軟件的改進。但其實,目前所謂的開源大模型無法真正像開源軟件一樣,靠社區(qū)開發(fā)者一起參與來提升效果和性能。應用開源大模型的企業(yè),也很難迭代并優(yōu)化這些模型,以至于無法高效地應用于企業(yè)場景。

至于什么是開源大模型,業(yè)界并沒有像開源軟件一樣達成一個明確的共識。

綜合來看,大模型的開源和軟件開源在理念上的確有相似之處,都是基于開放、共享和協(xié)作的原則,鼓勵社區(qū)共同參與開發(fā)和改進,推動技術進步并提高透明性。

然而,在實現(xiàn)和需求上有顯著區(qū)別。

軟件開源主要針對應用程序和工具,開源的資源需求較低,而大模型的開源則涉及大量計算資源和高質(zhì)量的數(shù)據(jù),并且可能有更多使用限制。因此,雖然兩者的開源都旨在促進創(chuàng)新和技術傳播,但大模型開源面臨更多的復雜性,社區(qū)貢獻形式也有所不同。

國內(nèi)此前也曾爆發(fā)過大模型開源與閉源的討論。百度創(chuàng)始人李彥宏多次強調(diào)了兩者的區(qū)別,大模型開源不等于代碼開源:“模型開源只能拿到一堆參數(shù),還要再做SFT(監(jiān)督微調(diào))、安全對齊,即使是拿到對應源代碼,也不知道是用了多少比例、什么比例的數(shù)據(jù)去訓練這些參數(shù),無法做到眾人拾柴火焰高,拿到這些東西,并不能讓你站在巨人的肩膀上迭代開發(fā)?!?/p>

由此來看,目前對開源大模型的改進主要通過微調(diào)實現(xiàn),但因微調(diào)主要針對模型輸出層調(diào)整不涉及核心構架和參數(shù),無法從根本上改變模型的能力和性能。

即便是“真開源”,受技術特性與訓練成本所限,開放式協(xié)作對大模型性能提升效果也有限。大模型訓練過程需要耗費大量算力,算力成本居高不下,即便創(chuàng)作者開源數(shù)據(jù)集和訓練細節(jié),普通開發(fā)者也很難承擔復現(xiàn)訓練過程的高昂訓練成本,模型能力難以因開放而得到實質(zhì)提升。

數(shù)據(jù)顯示,ChatGPT一次完整的模型訓練成本超過8000萬元。如果進行10次完整的模型訓練,成本便高達8億元。

站在企業(yè)角度,選擇一款大模型產(chǎn)品或應用,需要根據(jù)組織的具體需求和戰(zhàn)略目標來決定。

李彥宏認為,評價一個模型,維度是多方面的,不僅是看到榜單上的多項能力,也要看效果看效率。當大模型加速駛入商業(yè)應用之后,在追求高效率和低成本的情況下,真正的衡量標準應是模型在實際應用中能否滿足用戶需求和產(chǎn)生價值。

大模型應用是涵蓋“技術+服務”的一套完整解決方案,對單一方面的忽略或考慮不足都會影響到企業(yè)的“降本增效”效果,更有甚者會起到“增本降效”的負面效果,因此需要通過“算總賬”進行綜合考量。

對于如何選擇大模型這件事,企業(yè)也無需過于糾結,應該將關注點放在哪個大模型更好用、如何匹配自身的實際業(yè)務需要,從而選擇最適合企業(yè)自身業(yè)務場景的大模型平臺,然后專注于應用開發(fā)。那么企業(yè)如何選擇呢?

首先,要計算硬件資源成本。一些商業(yè)大模型會配套相應的工具鏈,包括訓練工具鏈、推理工具鏈,這些工具鏈能夠起到比較好的降本效果,對企業(yè)來說,訓練環(huán)節(jié)能大約省10~20%的硬件成本,推理環(huán)節(jié)則省得更多,業(yè)務規(guī)模越大,省得越多。

其次,要看模型帶來的業(yè)務收益。一些業(yè)務對于90%還是95%的準確率敏感度沒那么高。但有一些業(yè)務,比如商業(yè)廣告類,CPM、CTR差一個點,對廣告平臺來說一天可能就有上千萬的出入,這時候對模型的效果要求越高的企業(yè),就更愿意去買一個效果更好的模型。

第三,要考慮機會成本和人力成本。在一些商業(yè)大模型中,廠商會根據(jù)企業(yè)業(yè)務需求把模型和硬件進行適配,并調(diào)到最優(yōu)狀態(tài),讓企業(yè)可以直接復制成熟經(jīng)驗,這樣就大大降低了大模型在適配過程中的算力、人力等多項成本。

面對行業(yè)的大模型開源閉源、真假開源之爭,我們無需以道德綁架要求所有大模型都開源,因為這涉及大量技術、資源和安全考量,需要平衡開放與安全、創(chuàng)新與責任。正如科技領域的其他方面一樣,多元化的貢獻方式才能構建一個更豐富的技術生態(tài)系統(tǒng)。

真正的大模型開源時刻還遠未到來,正如開源和專有軟件共同塑造了今天的軟件生態(tài),大模型的開源與否以及開源程度也并非完全對立,多種技術路線并存發(fā)展是推動AI技術不斷進步、滿足不同應用場景需求的重要動力。最終,用戶和市場會作出適合自己的選擇。

【關于科技云報到】

企業(yè)級IT領域Top10新媒體。聚焦云計算、人工智能、大模型、網(wǎng)絡安全、大數(shù)據(jù)、區(qū)塊鏈等企業(yè)級科技領域。原創(chuàng)文章和視頻獲工信部權威認可,是世界人工智能大會、數(shù)博會、國家網(wǎng)安周、可信云大會與全球云計算等大型活動的官方指定傳播媒體之一。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1789

    文章

    46599

    瀏覽量

    236938
  • 開源
    +關注

    關注

    3

    文章

    3212

    瀏覽量

    42294
  • 大模型
    +關注

    關注

    2

    文章

    2262

    瀏覽量

    2342
收藏 人收藏

    評論

    相關推薦

    科技報到:大模型時代下,向量數(shù)據(jù)庫的野望

    科技報到:大模型時代下,向量數(shù)據(jù)庫的野望
    的頭像 發(fā)表于 10-14 17:18 ?184次閱讀

    空載時輸出波形如圖2所示,發(fā)現(xiàn)相位相反,幅度不一樣,為什么?

    空載時輸出波形如圖2所示,發(fā)現(xiàn)相位相反,幅度不一樣。圖3 加8歐姆負載后輸出的波形,再接喇叭后聲音是突然一高一低,懷疑是不是鏡像后幅度不一樣造成的?
    發(fā)表于 08-29 08:06

    為什么不同的片子同相端的電壓不一樣?

    輸出是0V。 但用示波器測同相端電壓,有的LM124同相端電壓會高于4.5V的電壓,有的低于4.5V,示波器表筆搭在LM124的3腳上,電壓會被拉低至約1V的樣子。 我想是我對運算放大器的認識上存在問題,請教大神們,為什么不同的片子同相端的電壓不一樣?謝謝!
    發(fā)表于 08-21 07:45

    TINA-TI仿真,為什么VF1和VG1的波形不一樣?

    為什么VF1和VG1的波形不一樣? 還有就是如果我把波形的下降沿改為100N,VF1的波形就會被削頂,這個有是什么原因?
    發(fā)表于 08-19 07:15

    請問pad和pin有什么不一樣?

    pad 和 pin 有什么不一樣?
    發(fā)表于 06-25 06:08

    用iar debug進去的程序和用STVP燒錄的程序不一樣,為什么?

    我現(xiàn)在發(fā)現(xiàn)個問題,就是用iar debug進去的程序和用STVP燒錄的程序不一樣,STVP燒錄的程序運行速度快于IAR,諸位有誰知道原因的? 定時器的速度并沒有變化,但是程序運行速度卻不一樣 注意:是STVP,不是stvd
    發(fā)表于 05-08 06:53

    Khadas攜新品亮相,定義不一樣的“mini”

    環(huán)球資源消費電子展覽會與中國進出口商品交易會(廣交會)。? 01 不一樣的“Mind” 不一樣的“mini” Khadas Mind 作為本次參展的“C 位產(chǎn)品”,自 2023 年上市以來,便以其輕薄
    的頭像 發(fā)表于 04-22 10:46 ?305次閱讀
    Khadas攜新品亮相,定義<b class='flag-5'>不一樣</b>的“mini”

    STM32的VDD與VDDA不一樣可以嗎?

    STM32 的VDD與VDDA不一樣可以么
    發(fā)表于 04-11 06:34

    MCU冷復位和熱復位有什么不一樣?

    求問MCU冷復位和熱復位有什么不一樣?
    發(fā)表于 02-02 15:52

    不一樣的修復螺旋軸承位磨損方法

    電子發(fā)燒友網(wǎng)站提供《不一樣的修復螺旋軸承位磨損方法.docx》資料免費下載
    發(fā)表于 12-26 09:53 ?0次下載

    拼接屏白底顏色不一樣怎么解決?

    在拼接屏使用過程中,有時會遇到白底顏色不一樣的問題,這可能會影響到整個顯示畫面的質(zhì)量和效果。
    的頭像 發(fā)表于 11-24 10:22 ?757次閱讀

    照著AD8366的datasheet上的P20做了個電路,為什么輸出端的電壓幅度不一樣?

    我最近使用的AD8366的時候出現(xiàn)個很奇怪的現(xiàn)象,我照著AD8366的datasheet上的P20做了個電路,有幾塊電路沒問題,有兩塊出現(xiàn)了AD8366的輸出端的電壓幅度不一樣,后來發(fā)現(xiàn)輸出不一樣
    發(fā)表于 11-24 06:06

    RC和RL電路脈沖波不一樣?

    RC和RL電路脈沖波不一樣? RC和RL電路是兩種常見的電路類型,它們在脈沖波處理方面具有不同的特點和應用。本文將詳細介紹RC和RL電路的基本原理、特性和應用,并探討它們與脈沖波的關系。 首先
    的頭像 發(fā)表于 11-21 15:22 ?1506次閱讀

    AD633在multisim上仿真,結果與預期不一樣怎么解決?

    按照官方提供的除法電路,在multisim上仿真,結果與預期不一樣,求高手解釋
    發(fā)表于 11-17 10:53

    同樣的電機,電壓等級、功率等都一樣,為什么電機的勵磁電壓不一樣呢?

    請教了好多人,都沒有個真正的答案。 同樣的電機,電壓等級、功率等都一樣,為什么電機的勵磁電壓不一樣呢??
    發(fā)表于 11-17 08:28