日韩国产一级成人黄片AV专区在线,国产在线国偷精品产拍免费

編者按：最早人工智能的模型是從2012 年（AlexNet）問世，模型的深度和廣度一直在逐級擴升，龍蜥社區(qū)理事單位浪潮信息于 2019 年也發(fā)布了大規(guī)模預訓練模型——源 1.0。今天，浪潮信息 AI 算法研究員李峰帶大家了解大模型發(fā)展現狀和大模型基礎知識，交流大模型在產業(yè)應用中起到的作用和 AI 服務新態(tài)勢。以下為本次分享原文：

大模型現狀大家可以看到，人工智能的模型其實從最早 2012 年（AlexNet）問世以來，模型的深度和廣度一直在逐級擴升，其中比較典型的是到了 2018 年的時候像 BERT-Large 等這種基于BERT 和 transformer 結構的模型產生之后，興起了一波模型規(guī)模和參數激增的熱潮。從BERT 模型出現到 GPT-3 擁有 1750 億參數規(guī)模的千億級大模型，大規(guī)模預訓練模型成了一個新的技術發(fā)展趨勢。

在 2019 年的時候，浪潮信息也發(fā)布了大規(guī)模預訓練模型——源 1.0。參數量是 2457 億。站在現在的角度回看歷史的發(fā)展長河，模型的尺度和規(guī)模是在逐級擴增的，這個趨勢仍舊是有愈演愈烈的一個情況。

整體大模型的興起繞不開一個基礎模型結構Transformer。Transformer 架構相當于是在接受輸入之后，在內部進行了一個類似于查表的工作，其中的注意力層之所以叫注意力，最大的作用直白的來看就是可以去學習關系，所謂的注意力就是當我們看到一個東西的時候，對他感興趣我們就會多看一會兒，對另外一個東西沒有興趣或者對它的興趣比較低，則對它的關注會更少一點。這種注意力機制就是把所謂關注的程度轉換成了一個可衡量的指標，這就是上面說到的注意力。用這樣的一個注意力層可以更好的去學習所有輸入之間的一個關系，最后的一個前饋層又對輸入的信息進行一個高效的存儲和檢索。這樣的一個模型結構與之前基于 RNN 的模型結構相比不僅是極大地提升了自然語言處理任務的精度，而且在計算性能上也遠超 RNN 類的模型。Transformer 結構的提出極大提升了計算效率和資源利用率?？梢钥吹?，在模型構建和訓練算法的設計過程當中，算力和算法是相輔相成的，二者缺一不可，也就是我們提出的混合架構的一個算法設計。

另外 Transformer 結構之所以能夠做大做強，再創(chuàng)輝煌，另一個根本的原因在于互聯(lián)網上有相當多海量數據可以供模型進行自監(jiān)督學習，這樣才為我們龐大的水庫中投入了龐大的數據資源和知識。

正是這些好處奠定了 Transformer 結構作為大模型基礎架構的堅實的地位。

基于對前人的研究調研以及實證研究之后，我們發(fā)現隨著數據量和參數量的增大，模型的精度仍舊可以進一步的提升，即損失函數值是可以進一步降低的。模型損失函數和模型的參數規(guī)模以及模型訓練的數據量之間是呈現這樣一個關系，現在仍舊處在相對中間的水平上，當模型和數據量的規(guī)模進一步增大的時候仍舊可以得到大模型邊際效益帶來的收益紅利。

大模型正在作為一種新型的算法，成為整個人工智能技術新的一個制高點和一個新型的基礎設施?？梢哉f大模型是一種變革性的技術，他可以顯著的提升我們人工智能模型在應用當中的性能表現，將人工智能的算法開發(fā)的過程由傳統(tǒng)的煙囪式開發(fā)模式轉向一種集中式建模，解決 AI 應用落地過程當中的一些場景碎片化、模型結構和模型訓練需求零散化的痛點。

另外我們能看到的是對于大模型這個領域里面的玩家，主要是來自中美兩國。從 GPT3 發(fā)布以后我們國內也開始相應的有不同的參數規(guī)模的模型來去引領世界大模型業(yè)界的一個浪潮。正如我們之前提到的，在大規(guī)模預訓練模型里面，模型參數提升帶來的邊際收益仍舊存在，所以大家在短期之內仍舊在吃這種大模型參數提升帶來的收益紅利。

浪潮·源 1.0 大規(guī)模中文自然語言模型

浪潮·源 1.0 大規(guī)模中文自然語言處理模型有 2457 億參數，于 2019 年的時候 9 月份發(fā)布，在發(fā)布之時，憑借參數量登頂了業(yè)界規(guī)模最大的中文自然語言的單體模型。在這個模型整個構建的時候，最大的一個問題就是數據，數據集從哪來，怎樣去構建，包含哪些內容。這里給大家列了一個表來簡單闡述，源 1.0 的中文數據集包含了有互聯(lián)網中文社區(qū)近五年的所有數據，以及一些公開數據集、百科、電子書等原始語料，總計超過 800TB。我們對原始語料做了過濾轉換、去重，之后構建了打分模型對所有的樣本語料進行高質量和低質量的判定。經過一系列的處理，最終我們得到了 5T 的高質量中文語料數據集，這個語料數據也是目前中文語料當中規(guī)模最大，質量最高的語料庫。我們的一些合作伙伴也拿我們公開的語料數據進行了一些模型的預訓練，也是成功登頂了 CLUE 等測評榜單。

源大模型的結構上也做了一些創(chuàng)新，一方面是 2457 億的參數，這個參數主要是基于 Transformer 的解碼層結構進行了堆疊，也首次面向計算的效率和精度優(yōu)化方面做了大模型的結構設計，針對 Attention 層和前饋層的模型空間結構也做了一些優(yōu)化。我們改進的注意力機制來聚焦文章內部的聯(lián)系，之后在整個計算過程當中我們也采用了張量并行、流水并行和數據并行三大并行方式來做模型的聯(lián)合優(yōu)化，從而提升模型訓練的效率。

源大模型在整個訓練階段，因為模型結構和模型參數如此巨大，就需要更大規(guī)模的算力跟算力優(yōu)化的能力支持。浪潮信息供給了全球五分之一，中國 50% 的 AI 服務器，并且在 MLPerf 等等這些與AI計算相關的比賽和精度優(yōu)化、計算優(yōu)化的比賽當中也是獲得了非常多的冠軍，也連任了 SpecML 的評委的主席，在這些過程當中我們積累下來的AI計算和性能優(yōu)化方面的這些能力也在源 1.0 的訓練過程當中被重復的賦能，所以我們的源 1.0 在訓練過程當中，有非常強大的 AI 算力支持。

在大模型訓練方面，我們采用了 2128 塊 GPU，在單個 GPU 上的實際性能和理論性能的比值達到了 45%，遠高于 GPT3 和 MT-NLG 等模型的訓練過程。對于計算性能的提升會帶來非常大的綠色環(huán)保的收益以及人力成本、時間成本上的收益。

源 1.0 在中文的自然語言測評的 CLUE 的零樣本學習和小樣本學習測評當中，獲得了業(yè)界第一的水平，在智源指數 CUGE 上面的評測也獲得了總分第一的成績。模型除了可比較、可量化的評價標準以外也表現出非常豐富和出色的中文理解和創(chuàng)作能力，后文也有一些基于源 1.0 落地的應用實例，跟合作伙伴一起開發(fā)和賦能的相關案例，也會做一個簡短的介紹。

我們在 WebQA 和 CMRC 的測評上面也橫向比較了當時業(yè)界我們國內的一些模型的水平，可以看到在這兩個任務上面我們也達到了一個業(yè)界高水平的成績。

基于源 1.0 的技能模型構建

大模型帶來優(yōu)異的精度表現和泛化能力，也帶來一系列的問題。模型太大，部署起來會比較麻煩，因此我們基于源 1.0 在不同領域上面針對不同的任務構建了一些技能模型。

在實際應用當中，有 2000 多億參數的大模型加載所需的顯存空間就非常龐大。千億參數模型需要用 8 張 GPU 卡做部署，推理時間要達到 6 秒多，而用百億參數模型只需要 4 張GPU 卡就可以實現 2 秒鐘的推理效率，推理效率的提升還是比較明顯的，這樣的模型在實際的應用當中，尤其是對實時性要求較高的應用是非常占優(yōu)的。

大模型的更新也比較困難，2000 多億參數的模型，訓練和微調的成本非常高，如果訓練數據量少起不到對于這么龐大模型的所有參數更新的作用，如果訓練數據規(guī)模大，雖然它的參數會被整體進行更新，但是會帶來兩個比較大的問題，一個是訓練成本本身會變得很高，另外一個就是大規(guī)模的數據在訓練過程當中有可能帶來災難性的遺忘，這會導致模型本身原有的泛化能力會有所衰減。還有就是應用困難，大模型的推理耗時相比傳統(tǒng)服務高好多，推理的資源需求也會大很多。千億參數的模型需要超過 600GB 的顯存進行加載，推理時間超過 6 秒。因此我們希望采用知識遷移和模型壓縮的方式來實現模型蒸餾。

為了構建技能模型我們對一些典型場景進行了數據收集，一種是古文，古詩文是中國傳統(tǒng)文化的一個藝術結晶，因此我們希望能夠通過現代的技術去挖掘古代的文學之美，所以我們去收集古文類的所有的數據和樣本，然后去訓練一個古文模型來去實現讓大模型來做吟詩作對的這樣一個能力。另一個是對話場景，我們對于自由對話場景收集了超過 2GB，覆蓋多領域多話題的自由對話數據，以它為基礎，我們后續(xù)要進行模型的蒸餾。

關于中英文翻譯場景，我們收集了超過 145GB 的英文書籍和百科、新聞等國際官方文檔，以及他們對應的中文翻譯，期望在后續(xù)可以做翻譯的模型。還有一個是問答場景。我們共收集了超過 3.9G 的公開知識，包括醫(yī)療、百科、金融等等多個領域。期望在后續(xù)可以去做問答的模型來匹配這樣的一個知識問答場景。

無論是在做什么樣的模型的時候，算法里面叫百算數為先，無論構建什么樣的算法，我們都要從應用場景出手，在我們的模型開發(fā)實踐過程當中都是以場景和場景所需要的數據著手，首先進行數據準備，之后才是相應的模型算法上面的一個開發(fā)工作。

在傳統(tǒng)意義上或者是在過去我們的一些算法實踐當中，模型壓縮一般是壓縮到 60%、50%，甚至相對大一點的時候把模型壓縮到原有模型的 40%，我們想要把千億參數模型進行10 倍壓縮，然后我們去探索在這個壓縮過程當中所使用的方法，從相應的實踐當中去積累經驗，進一步把百億參數模型再往億級參數模型去壓縮。

想要做模型壓縮，第一個是需要確定參數的初始化方法：一種是采用 PKD 的 skip 方式，采用跳層的方式去保留其中需要的層數，使得模型寬度保持不變的情況下讓深度降低，從而達到減少參數量的目的，這種方式會使模型的抽象表達的能力變弱。第二種方式是采用 Hiddensizetransformation，模型的深度不變，而把模型寬度上面進行一個壓縮，但模型特征抽取的能力就會變得非常弱，從我們的實踐當中也發(fā)現采用這樣的線性壓縮變換都會導致模型在訓練過程當中的穩(wěn)定性變差，模型收斂會呈現一個波動的狀態(tài)。第三種方式是基于預訓練的方法，根據期望的訓練時長和模型推理的延遲等要求，預先設定相應的模型結構，在已有的數據上做預訓練，把這個預訓練出來的模型當做學生模型，在此基礎上再用專業(yè)數據集結合千億參數模型，對這個百億參數模型進行進一步的知識蒸餾，采用這樣的方式降低了模型開發(fā)的成本，同時可以很好的保留模型寬度跟深度上的一些結構。

第二個問題是模型的蒸餾的策略。蒸餾的時候究竟是以漸進式的知識遷移方式為主還是以輔助式的知識遷移的方式來進行模型蒸餾。漸進式知識遷移的精度和性能表現是比較好的，但是計算成本很高。

除了以上，還有一種模型壓縮的方式是直接同步的指導 studentmodel 里面對應的對應層，在 loss 層面上面做一個加權，采用這樣的方式叫AKT 的方式，這兩種方式的模型精度表現上面差異不大，但是對于采用 AKT 的方式，在一次訓練過程當中可以同步的去更新所有的 Transformer 結構里面所需要的參數，這樣它的計算就遠比漸進式的方式計算開銷要小很多。所以浪潮信息采用 AKT 的方式來進行模型壓縮。transformer 結構里面包含的主要有三個東西：Embedding、Hiddenstate 還有 Attentionmatrics。如果在 Embedding 跟 Hiddenstate 上面做知識遷移，蒸餾前后的矩陣維度是不匹配的。因此我們對 Attentionmatrics 里面 K、Q、V 三個矩陣做知識蒸餾，可以保證一方面維度不需要去考慮這個問題，另外一方面，在 transformer 當中，在最上面的內容里其實提到過，transformer 里面的 K、Q、V 矩陣，一方面做了知識的存儲，另外一方面，可以最大限度的保留知識跟關系之間的一些信息。

最終的實驗結果，百億參數的模型在 FewCLUE 上面與千億參數模型進行比較，可以看到模型的精度、損失是相對比較小的，是可以接受的。而計算資源的需求從 8 個 GPU 下降到了 4GPU，推理延遲也從 6 秒一直降至 2 秒，推理性能提升非常顯著。在 webQA 的問答數據集上進行測評，可以看到百億參數的模型，因為在構建過程當中，經過了知識蒸餾，得到的性能表現甚至優(yōu)于了原來直接訓練出來的千億參數模型，也是達到了業(yè)界領先的程度。

我們秉承著構建開源社區(qū)，提升大家在大模型里面的應用能力，做了大模型的開源開放計劃，構建了開源的一個官方網站（air.inspur.com），針對大學或科研機構的人工智能研究團隊、浪潮信息的元腦生態(tài)伙伴，還有各種智能計算中心，以及對于中文自然語言理解和大模型感興趣的各類開發(fā)人員和開發(fā)者進行免費開放，大家可以通過官網進行申請注冊。開源開放的內容包括在官網上有模型的 API，以及高質量中文數據集和相應的處理代碼開放出了 1T 的數據，這些只需在官網上進行申請就行。

另外，模型訓練推理和應用的相關代碼也在 github 上進行了開源，我們秉持一個開放的態(tài)度，鼓勵并且面向 AI 芯片的合作伙伴與大家合作，做模型相關的遷移和開發(fā)工作。

上圖展示我們開源開放的一些工具，在官網上面我們構建的一個 APIExp 的線上測試工具，可以零代碼的去實現對應參數 API 的交互和實驗。另外，我們也提供了沙箱，通過簡單的設置，就可以展示出想要設計的開發(fā)應用，在上線之后大概是一個什么樣的交互方式和交互的結果。

源 1.0 大模型創(chuàng)新及實踐

最后，大模型在開源開放之后也迎來了非常多的合作，吸引了超過一千三百多的開發(fā)者，來自不同的行業(yè)和不同的應用場景，注冊并基于我們的源 1.0 大模型，進行不同應用的開發(fā)。這里給大家看到的是一些簡單的事例，如圖是我們和西安筷子幫共同去開發(fā)的公文寫作助手，可以支持總結報告、學習心得等等內容的輔助寫作。針對長篇寫作內容的場景里，我們在可控文本生成上面做了一系列的研究，解決長文本內容偏移的問題，生成的文本的語意的一致性也是比同類技術提升了 26%。

另外我們做了智能問答系統(tǒng)，在內部的智能客戶的機器人上面，問題匹配率也是達到了92.6%，然后依賴客服機器人去解決問題的成功率達到 65%。整體的應用使用也是有所提升，這一個項目也是獲得了今年哈佛商業(yè)評論里面鼎革獎的年度技術突破獎。

還有一些比較典型的應用，這個是和我們的開發(fā)者，一起來做的一個 PoC 項目，面向數字社區(qū)的助理。開發(fā)者面向數字社區(qū)的工作人員，提供了一款數字助理，通過采用大模型來模擬到居委會進行投訴，或者是進行咨詢的居民，然后來模擬他們的對話，并且對工作人員的回答做出一個判斷，并且予以評分。通過這樣的方式來提高工作人員面對突發(fā)情況的應對能力。

在另外一個場景里我們跟香港的浸會大學的教授一起基于大模型自然語言處理能力，開發(fā)一種心理輔導的培訓機器人。這種也是基于這樣的反向思維，讓 AI 去承擔心理咨詢對話當中的求助者的角色，讓咨詢師根據心理來做求助的患者。通過這樣的方式，我們可以用大模型模擬可能存在問題的輸入，通過標準工作者的工作內容去得到相應標準的答案。這其實也是互聯(lián)網思維的一個非常典型的叫羊毛出在豬身上，我們通過這樣的方式，也可以獲取非常多標準的數據集和針對應用場景下的標準數據集，有這些數據的情況下，反過來之后，我們再對大模型做微調之后模型就有能力去扮演工作人員的角色，然后對心理咨詢的患者直接進行輔導。這樣的過程其實就是在 ChatGPT 當中提到的 RLHF 的人環(huán)強化學習的一種合理的運用。

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關注

關注
1787

文章
46060

瀏覽量
234951
模型

模型

+關注

關注
1

文章
3032

瀏覽量
48346
AI算法

AI算法

+關注

關注
0

文章
242

瀏覽量
12177
大模型

大模型

+關注

關注
2

文章
2134

瀏覽量
1971

原文標題：浪潮信息AI算法研究員：解讀人工智能大模型在產業(yè)中的服務新態(tài)勢

文章出處：【微信號：浪潮AIHPC，微信公眾號：浪潮AIHPC】歡迎添加關注！文章轉載請注明出處。

人工智能ai4s試讀申請

目前人工智能在繪畫對話等大模型領域應用廣闊，ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個需要研究的課題，本書對

發(fā)表于 09-09 15:36

【書籍評測活動NO.44】AI for Science：人工智能驅動科學創(chuàng)新

，以及大力發(fā)展AI for Science的原因。第2章從科學研究底層的理論模式與主要困境，以及人工智能三要素（數據、算法、算力）出發(fā)，對AI

發(fā)表于 09-09 13:54

浪潮信息趙帥：開放計算創(chuàng)新應對Scaling Law挑戰(zhàn)

北京2024年8月15日?/美通社/ -- 日前在2024開放計算中國峰會上，浪潮信息服務器產品線總經理趙帥表示，智能時代，開源模型和開放計

發(fā)表于 08-15 16:02 ?176次閱讀

FPGA在人工智能中的應用有哪些？

FPGA（現場可編程門陣列）在人工智能領域的應用非常廣泛，主要體現在以下幾個方面：一、深度學習加速訓練和推理過程加速：FPGA可以用來加速深度學習的訓練和推理過程。由于其高并行性和低延遲特性

發(fā)表于 07-29 17:05