詳解ChatGPT的預(yù)訓(xùn)練模型成長史

近年來，隨著各大廠商的激烈角逐，預(yù)訓(xùn)練模型（The Pretrained Foundation Models ，PFMs）的發(fā)展可謂百花爭鳴，誰都想在這場沒有硝煙的戰(zhàn)爭中力壓群雄，作為下游任務(wù)的基礎(chǔ)，像BERT、GPT-3、MAE、DALLE-E和ChatGPT基于大規(guī)模數(shù)據(jù)訓(xùn)練，可為各種下游應(yīng)用提供合理的參數(shù)初始化。這種遷移學(xué)習(xí)范式，讓預(yù)訓(xùn)練模型以一種高傲的姿態(tài)在各種任務(wù)和應(yīng)用中大放異彩。特別是最近大火ChatGPT，帶著其獨有的"思維”在各大領(lǐng)域亂殺，也將人工智能推向了新一輪高潮。本文也是從預(yù)訓(xùn)練模型成長的幾個關(guān)鍵因素做了系統(tǒng)闡述，旨在帶領(lǐng)大家一起見證預(yù)訓(xùn)練模型的蛻變歷程。

1.簡介

圖 1：PFMs的歷史和演變

目前PFMS已經(jīng)在NLP、CV、GL這三個主要的AI領(lǐng)域得到了廣泛的研究，如圖一所示，通過在大型語料中學(xué)習(xí)通用的特征表示，再針對不同的下游任務(wù)進行微調(diào)，已經(jīng)在文本分類、圖像分類、對象檢測、圖形分類等任務(wù)中表現(xiàn)出色。特別是針對NLP領(lǐng)域，預(yù)訓(xùn)練模型有著獨特的優(yōu)勢，它的訓(xùn)練數(shù)據(jù)可以來自任何沒有標記的文本，得到的語言模型（Language Models，LM）可以捕獲到文本中的長期依賴、層次結(jié)構(gòu)等關(guān)聯(lián)信息。早期的預(yù)訓(xùn)練是一種靜態(tài)技術(shù)，例如NNLM[1]和Word2vec[2]，但靜態(tài)方法難以適應(yīng)不同的語義環(huán)境。因此，像BERT[3]、XLNET[4]這類的動態(tài)預(yù)訓(xùn)練技術(shù)應(yīng)運而生。

PFMs能在nlp中盛行起來，得益于能它同時對單詞的句法和語義表示進行建模，并根據(jù)不同的輸入動態(tài)改變多義詞的表示上下文。PFM能學(xué)習(xí)豐富的語法和語義推理知識，效果更好。表1是對近幾年來NLP領(lǐng)域PFMs相關(guān)信息的匯總。其中，Transforms作為PFMs主流的模型架構(gòu),它使用了Attention機制，將序列中的任意兩個位置之間的距離縮小為一個常量，在分析預(yù)測更長的文本時,捕捉間隔較長的語義關(guān)聯(lián)效果更好；其次它不是類似RNN的順序結(jié)構(gòu)，因此具有更好的并行性，符合現(xiàn)有的GPU框架，能夠利用分布式GPU進行并行訓(xùn)練，提升模型訓(xùn)練效率。

表1：NLP領(lǐng)域的預(yù)訓(xùn)練模型

目前在NLP領(lǐng)域PFMs的學(xué)習(xí)方法主要分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)、自監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)這五種，同時根據(jù)預(yù)訓(xùn)練任務(wù)根據(jù)上述的的學(xué)習(xí)方法可分為五類：掩碼語言建模（MLM）、去噪自動編碼器（DAE）、替換令牌檢測（RTD）、下一句預(yù)測（NSP）、句子順序預(yù)測（SOP）。其中，MLM在輸入序列中隨機擦除一些單詞，然后在預(yù)訓(xùn)練期間預(yù)測這些擦除的單詞，典型的例子包括BERT 和SpanBERT[5]；DAE 用于向原始語料庫添加噪聲，并使用包含噪聲的語料庫重建原始輸入，BART[6] 就是一個典型的例子；RTD 是一個判別任務(wù)，用于確定 LM 是否已替換當前令牌，這項任務(wù)在ELECTRA[7] 中引入；為了使模型理解兩個句子之間的相關(guān)性并捕獲句子級表示，引入了NSP任務(wù)。PFM 輸入來自不同文檔的兩個句子，并檢查句子的順序是否正確，一個典型的例子是BERT；與NSP不同，SOP使用文檔中的兩個連續(xù)片段作為正樣本，并使用兩個片段的交換順序作為負樣本。PFM可以更好地模擬句子之間的相關(guān)性，例如ALBERT[8] 。

2.字表征

當前大規(guī)模的預(yù)訓(xùn)練模型在問答、機器閱讀理解和自然語言推理中取得了比人類更好的性能，表明目前PFM的構(gòu)建方法是實用的?，F(xiàn)有的預(yù)訓(xùn)練語言模型根據(jù)字表征方法主要分為三個分支：（1）自回歸語言模型，（2）上下文語言模型，（3）排列語言模型。其中單詞預(yù)測方向和上下文信息是其中最重要的因素。

2.1 自回歸語言模型

自回歸語言模型基于前一個單詞預(yù)測下一個可能的單詞，或基于后續(xù)單詞預(yù)測最后一個可能的單詞。它被選為特征提取器，并從前一個單詞中提取文本表示。因此，它在自然語言生成（Natural language generation，NLG）任務(wù)中具有更好的性能，例如文本摘要和機器翻譯。對于一個序列，根據(jù)前一個詞計算的給定單詞的概率為前向LM，公式如下：

其中，是輸入序列的長度。此外，雙向LM（Bi-LM）也是基于自回歸語言模型，以及從向前和向后方向提取的文本表示連接在一起模型架構(gòu)設(shè)計方法。GPT[9]采用自監(jiān)督預(yù)訓(xùn)練、監(jiān)督微調(diào)和stacked Transformer [10] 作為其解碼器。后續(xù)，OpenAI提出了GPT-2[11]，并將stacked Transformer層數(shù)增加到48層。參數(shù)總數(shù)達到15億。GPT-2還引入了多任務(wù)學(xué)習(xí)。GPT-2 具有相當大的模型容量，可以針對不同的任務(wù)模型進行調(diào)整，而不是微調(diào)它們。但是，GPT-2 也使用自回歸語言模型。因此，它提高了模型的性能而不會大幅增加成本。由于是單向transformer缺乏上下文建模能力，GPT-2的主要性能提升來自于多任務(wù)的綜合效應(yīng)預(yù)訓(xùn)練、超大型數(shù)據(jù)集和超大型模型。對于特定的下游任務(wù)，仍然需要基于任務(wù)的數(shù)據(jù)集進行微調(diào)。但是，擴大LM的訓(xùn)練規(guī)?？梢燥@著提高與任務(wù)無關(guān)的性能。因此，提出了 GPT-3[12] ，它將模型大小增加到 175億個參數(shù)，并使用 45TB 的數(shù)據(jù)進行訓(xùn)練。因此，它可以實現(xiàn)良好的性能無需針對特定的下游任務(wù)進行微調(diào)。

2.2 上下文語言模型

自回歸語言模型僅使用上文或下文的信息，不能同時使用上下文的信息。ELMO[13] 僅使用雙向長短期記憶（LSTM），它是兩個向后和向前單向 LSTM 的串聯(lián)。上下文LM預(yù)測基于上下文詞。它使用變壓器編碼器，模型的上層和下層由于自注意力機制而直接相互連接。對于單詞序列 T，給定單詞的概率計算如下：

BERT模型輸入由三部分組成：詞嵌入，段嵌入和位置嵌入。它使用雙向transformer作為特征提取器，這抵消了ELMO和GPT的缺陷。但是，BERT的缺點也不容忽視。雙向transformer結(jié)構(gòu)并沒有消除自編碼模型的約束。其大量的模型參數(shù)對計算資源低的設(shè)備非常不友好，并且難以部署和應(yīng)用。大多數(shù)PFM需要更多的訓(xùn)練任務(wù)和更大的語料庫。針對訓(xùn)練不足的問題，后續(xù)提出了RoBERTa[14]。它使用更大的批次大小和未標記的數(shù)據(jù)。此外，它可以訓(xùn)練更長的模型，刪除 NSP 任務(wù)，并添加長序列訓(xùn)練。在處理文本輸入時，采用字節(jié)對編碼（BPE）[15]進行分詞。BPE 對每個輸入序列使用不同的掩碼模式，即使輸入順序相同。

2.3 排列語言模型

使用上下文語言模型的建模方法可以視為自動編碼模型。但是，由于訓(xùn)練階段和微調(diào)階段的不一致，性能的自動編碼模型在自然語言生成（NLG）任務(wù)中很差。排列語言模型旨在結(jié)合了自回歸語言模型和自動編碼器語言模型的優(yōu)點。它改善了兩種模型在很大程度上可以作為未來預(yù)訓(xùn)練目標構(gòu)建的基本思路任務(wù)。對于給定的輸入序列，排列語言模型的目標函數(shù)的形式表示如下：

其中是所有排列中的共享參數(shù)，表示所有可能排列的集合輸入序列和和表示第t個元素和a的元素排列.

以BERT為代表的的MLM可以很好地實現(xiàn)雙向編碼。然而，MLM在預(yù)訓(xùn)練期間使用掩碼標記，但在微調(diào)期間不使用，這導(dǎo)致在預(yù)訓(xùn)練和微調(diào)期間數(shù)據(jù)不一致。為了實現(xiàn)雙向編碼，避免了MLM的問題，提出了排列語言模型。排列語言模型基于自回歸語言模型，避免了不一致數(shù)據(jù)的影響。然而，與傳統(tǒng)的自回歸模型不同，排列語言模型不再按順序?qū)π蛄羞M行建模。它以最大化序列給出了序列的所有可能的排列。通過這種方式，任何位置都可以利用來自所有位置的上下文信息，使排列語言模型實現(xiàn)雙向編碼。最常見的排列語言模型模型是XLNET和MPNet[16]。XLNET是第一個基于LM的排列PFM。此外，XLNet還集成了Transformer-XL的兩個最關(guān)鍵技術(shù)：相對位置編碼和段遞歸機制。MPNet將MLM模型與排列語言模型相結(jié)合，通過排列語言模型預(yù)測tokens之間的依賴關(guān)系。它使用輔助位置信息作為輸入，使模型能夠看到完整的句子，從而減少位置差異。

3.模型架構(gòu)

圖 2：BART架構(gòu)

早期ELMO采用多層RNN結(jié)構(gòu)。每一層都是雙向LSTM結(jié)構(gòu)，有向前和向后 LM。以這兩個方向的最大可能性為目標功能。與詞向量法相比，ELMO引入了上下文信息并改進了多義問題，但ELMO提取語言特征的整體能力較弱。PFMs的應(yīng)用研究主要有兩個方向。一種是具有微調(diào)功能的PFM（例如BERT），另一個是具有zero/few-shot prompts（例如 GPT）的 PFM。BERT使用雙向編碼器以預(yù)測哪些單詞被屏蔽并確定兩個句子是否與上下文相關(guān)。但是，文檔是雙向編碼的，并且被屏蔽的單詞是獨立預(yù)測的，這降低了生成能力。GPT 使用自回歸解碼器作為特征提取器，根據(jù)前幾個單詞預(yù)測下一個單詞，并使用微調(diào)解決下游任務(wù)，因此更適合文本生成任務(wù)。但是，GPT 僅使用前一個詞進行預(yù)測，無法學(xué)習(xí)雙向交互信息。與這些模型不同，BART是由 seq2seq 模型構(gòu)建的降噪自動編碼器，采用編碼器-解碼器結(jié)構(gòu)，如圖2所示。預(yù)訓(xùn)練主要包括使用噪聲銷毀文本并使用 seq2seq 模型重建原始文本。預(yù)訓(xùn)練主要包括使用噪聲銷毀文本和使用 seq2seq 模型重建原始文本。編碼層采用雙向Transformer。它采用五種添加噪聲模式：（1）單字掩碼;（2）字刪除;(3)跨度掩碼;（4）句子改編;（5）文件重新排列。在編碼器部分，序列具有在將其輸入編碼器之前被屏蔽。然后，解碼器根據(jù)編碼器輸出的編碼表示形式和未屏蔽的序列恢復(fù)原始序列。這添加一系列噪聲模式使 BART 在序列生成方面的性能在自然語言推理任務(wù)顯著改善。

4.掩碼設(shè)計

注意力機制首先將基本單詞聚合為句子向量和重要句子向量轉(zhuǎn)換為文本向量，這允許模型對不同的輸入給予不同的關(guān)注。對于BERT來說，作為一個雙向編碼LM，輸入句子中的任意兩個單詞都可以相互看到。但是，它阻礙了BERT模型學(xué)習(xí)NLG任務(wù)的能力。

圖 3：spanBERT架構(gòu)

后續(xù)基于RoBERTa的提出SpanBERT，它采用了動態(tài)掩蔽的思想和單段預(yù)訓(xùn)練，如圖3所示，提出了跨度掩碼和跨度邊界目標（SBO）來屏蔽一定長度的單詞。跨度邊界的目標任務(wù)是通過兩端觀察到的令牌恢復(fù)所有屏蔽的跨度（tokens）。訓(xùn)練階段使用RoBERTa中提出的動態(tài)掩碼策略，而不是數(shù)據(jù)預(yù)處理過程中的掩碼。與BERT不同，SpanBERT隨機覆蓋連續(xù)的文本并添加SBO訓(xùn)練目標。它使用最接近跨度邊界的tokens預(yù)測跨度，并消除 NSP 預(yù)訓(xùn)練任務(wù)。

Song 等提出了掩蔽的 seq2seq 預(yù)訓(xùn)練模型 MASS[17]。在訓(xùn)練階段，編碼器的輸入序列被隨機屏蔽為長度為K的連續(xù)段。掩蓋的片段將通過 MASS 解碼器恢復(fù)。UniLM[18]通過為輸入數(shù)據(jù)中的兩個句子設(shè)計不同的掩碼來建模來完成NLG的學(xué)習(xí)。對于第一個句子，UniLM使用與轉(zhuǎn)換編碼器相同的結(jié)構(gòu)，使每個單詞注意到其前后單詞。對于第二句，每個單詞只能注意到第一句和前面的所有單詞當前句子中的單詞。因此，模型輸入的第一句和第二句構(gòu)成了經(jīng)典seq2seq 模式。

5.提升方式

5.1 提升模型性能

大多數(shù)流行的預(yù)訓(xùn)練模型都需要大量的預(yù)訓(xùn)練數(shù)據(jù)，這對硬件提出了巨大的要求，使得重新訓(xùn)練具有挑戰(zhàn)性，只能做一些模型的微調(diào)。為了解決這些問題，出現(xiàn)了一些模型。例如，百度發(fā)布的ERNIE Tiny就是小型化的ERNIE[19]，它減少了層數(shù)，預(yù)測速度提高了4.3倍，精度略有下降。ALBERT通過減少內(nèi)存消耗和訓(xùn)練速度。但是，不可否認的是，無論哪種壓縮對于這些大型模型，模型在這些任務(wù)中的性能將急劇下降。它要求在以后的工作中注意高級語義和語法信息的高效表示和無損壓縮。通過使用字嵌入?yún)?shù)分解和層之間的隱藏參數(shù)共享，ALBERT顯著減少了模型的參數(shù)數(shù)量，而不會降低性能。它提出了SOP的訓(xùn)練任務(wù)，預(yù)測兩個句子的順序以提高性能。

5.2 多任務(wù)學(xué)習(xí)

ERNIE主要由Transformer編碼器和任務(wù)嵌入兩部分組成。在Transformer編碼器中，自注意機制用于捕獲每個tokens的上下文信息并生成上下文表示嵌入。任務(wù)嵌入是一個將不同特征應(yīng)用于任務(wù)的技術(shù)。ERNIE 2.0 [20] 引入了多任務(wù)學(xué)習(xí)，以實現(xiàn)詞匯、語法和語義的預(yù)訓(xùn)練。ERNIE 2.0 使用七種不同的預(yù)訓(xùn)練任務(wù)，涵蓋三個方面：詞級、句級和語義級。它使用持續(xù)學(xué)習(xí)，使先前訓(xùn)練任務(wù)中的知識得以保留，并使模型能夠獲得遠距離記憶。它使用轉(zhuǎn)換器編碼器并引入任務(wù)嵌入，使模型能夠在持續(xù)學(xué)習(xí)過程中區(qū)分不同的任務(wù)。UniLM使用三個預(yù)訓(xùn)練任務(wù)：單向 LM、雙向 LM 和編碼器-解碼器LM。通過自注意力層掩碼機制，它可以在預(yù)訓(xùn)練階段同時完成三種目標任務(wù)。在訓(xùn)練階段，UniLM采用SpanBERT提出的小段掩模策略，損失函數(shù)由上述三個預(yù)訓(xùn)練任務(wù)的損失函數(shù)組成。為了保持所有損失函數(shù)的貢獻一致性，同時訓(xùn)練了三個預(yù)訓(xùn)練任務(wù)。多個任務(wù)的建模和參數(shù)共享使LM在自然語言理解（NLU）和NLG任務(wù)中實現(xiàn)良好的泛化能力。

5.3 針對下游任務(wù)

預(yù)訓(xùn)練模型往往很大，那么如何匹配不同的下游任務(wù)同樣重要。已經(jīng)出現(xiàn)了一些在專用語料庫上訓(xùn)練的預(yù)訓(xùn)練模型。Cui等人提出了BERT-whole word masking模型（BERT-WWM）。他們直接使用中文中的BERT根據(jù)原始的MLM訓(xùn)練進行隨機屏蔽，導(dǎo)致語義信息的丟失。ZEN[21]是基于BERT的文本編碼器，它采用N-gram 增強性能，有效集成相當細粒度的文本信息，收斂速度快，性能好。Tsai[22]等人提出了一種用于序列標記任務(wù)的定向多語言序列標記模型。針對低質(zhì)量語言，采用知識蒸餾法，在詞性標注和多重形態(tài)屬性預(yù)測兩個任務(wù)中能取得更好的表現(xiàn)，推理時間縮短了27倍。

6.指令對齊

指令對齊方法旨在讓LM遵循人類意圖并生成有意義的輸出。一般方法是以監(jiān)督方式使用高質(zhì)量語料庫微調(diào)預(yù)訓(xùn)練的LM。為了進一步提高學(xué)習(xí)LMs的有用性和無害性，將強化學(xué)習(xí)引入微調(diào)程序，以便學(xué)習(xí)障礙可以根據(jù)人類或人工智能的反饋修改其響應(yīng)。受監(jiān)督和強化學(xué)習(xí)方法可以利用思維鏈風(fēng)格的推理來提高人類判斷的性能和人工智能決策的透明度。

6.1 監(jiān)督式微調(diào) (SFT)

SFT是一種成熟的技術(shù)，可以解鎖知識并應(yīng)用它到特定的現(xiàn)實世界，甚至是看不見的任務(wù)。SFT 的模板由輸入輸出對和指令。例如，給定指令“將此句子翻譯成英文：”和一個輸入“今天天氣不錯”，我們希望LM生成目標"The weather is nice today",該模板通常是人造的，包括非自然指令和自然指令，或基于種子語料庫的引導(dǎo)。LM傷害的倫理和社會風(fēng)險是SFT的重要關(guān)注點。

6.2 人類反饋強化學(xué)習(xí)（RLHF)

RL已被應(yīng)用于增強NLP任務(wù)中的各種模型，例如機器翻譯，摘要，圖像標題，問題生成，文本游戲等。RL通過將語言生成任務(wù)中的不可微分目標視為順序決策問題來優(yōu)化它們。但是，存在過度擬合使用神經(jīng)網(wǎng)絡(luò)的指標的風(fēng)險，從而導(dǎo)致在指標上得分很高的荒謬樣本。同時，其還用于使LM與人類偏好保持一致。

圖 4：ChatGPT框架

InstructGPT 建議使用 PPO[23] 根據(jù)經(jīng)過訓(xùn)練的獎勵模型微調(diào)大模型，以對齊 LM與人類偏好，這與ChatGPT應(yīng)用的方法相同，名為RLHF。具體見圖4，獎勵模型使用人工標記員手動對輸出進行排名的比較數(shù)據(jù)進行訓(xùn)練。對于它們中的每一個，獎勵模型計算一個獎勵，用于使用 PPO 更新 LM。由DeepMind開發(fā)的Sparrow[24]也利用RLHF來降低不安全和不適當答案的風(fēng)險。盡管RLHF 取得了一些有希望的結(jié)果，這一領(lǐng)域的進展因缺乏公開的基準和實現(xiàn)資源，導(dǎo)致人們認為 RL 對于 NLP 來說是一種困難的方法。因此，最近引入了一個名為RL4LMs[25]的開源庫，該庫由用于在基于LM的生成上微調(diào)和評估RL算法的構(gòu)建塊組成。

與傳統(tǒng)的 RL 方法相比，RLHF 的關(guān)鍵優(yōu)勢在于能更好地與人類的意圖保持一致，以及以未來的反饋為條件進行規(guī)劃，從各種類型的反饋中進行流暢的學(xué)習(xí)，并根據(jù)需要對反饋進行整理，所有這些都是創(chuàng)建真正的智能代理所不可缺少的。它還允許機器通過抽象人類的價值來學(xué)習(xí)，而不是簡單地模仿人類的行為，從而使代理具有更強的適應(yīng)性，更強的可解釋性，以及更可靠的決策。

6.3 思維鏈（CoT）

在NLP領(lǐng)域，這幾年模型的規(guī)模是越來越大，幾億參數(shù)量現(xiàn)在都只能算小模型，預(yù)訓(xùn)練模型也已經(jīng)向大模型的方向去演進，那大模型的好處顯而易見：推理能力強，采樣效率高，因為模型參數(shù)大，能儲存很多的知識。最近幾年有學(xué)者通過構(gòu)建這種推理的中間過程，來簡化推理取得了比較好的效果，而我們所知大模型通過prompt進行上下文小樣本學(xué)習(xí)能力也是極強的。但問題就是創(chuàng)建很多的中間步驟用來做監(jiān)督finetune是非常耗時的，而且傳統(tǒng)的prompt方式在數(shù)學(xué)計算、常識推理等做的又不好，怎么結(jié)合上下文小樣本學(xué)習(xí)能力和中間步驟來改善推理能力是一個問題。CoT在此基礎(chǔ)上應(yīng)用而生，其基礎(chǔ)原理就是將多步求解的問題分解出中間步驟, 模型分配額外的計算能力給推理步驟，它可以增加模型的可解釋性, 知道它是如何得出特定答案，并且模型還有機會通過調(diào)試推理路徑中存在錯誤的地方，原則上適用于所有任務(wù)，只需提供少量思維鏈的范例，現(xiàn)有的大規(guī)模語言模型即可使用思維鏈進行推理。

7.總結(jié)

本文主要闡述了PFMs成長歷程，文章大部分內(nèi)容來源于論文[26],原文從NLP、CV、GL這幾個領(lǐng)域的PFMs做了綜合調(diào)研，作者主要針對PFMs在NLP領(lǐng)域的底層基礎(chǔ)到上層技術(shù)進行了梳理。目前來看，PFMs在僅僅在參數(shù)量規(guī)模上已經(jīng)很難讓人產(chǎn)生很大共鳴了，而人們現(xiàn)在更加在意的是PFMs的實際的推理性能和處理復(fù)雜推理任務(wù)的能力，這里面還要額外考慮到對軟硬件資源成本和實際應(yīng)用場景中的合規(guī)性，更加注重PFMs的落地性和實用性，正如chatgpt一出場就能夠驚艷全場，其參數(shù)量已經(jīng)不是輿論的焦點了，這款A(yù)I殺手級的應(yīng)用出現(xiàn)，其驚艷的表現(xiàn)可能會給世界帶來新的產(chǎn)業(yè)革命。當然，還是受限于其模型大小和使用成本，ChatGPT并沒有完全普及開來，但隨著算法技術(shù)和算力技術(shù)的不斷進步，下一代的PFMs也必然會更加完善，在越來越多的領(lǐng)域進行應(yīng)用，為人類帶來更好的體驗感和便利性。

編輯：黃飛

閱讀全文

gpu(126255) gpu(126255)
nlp(21784) nlp(21784)
半監(jiān)督學(xué)習(xí)(2473) 半監(jiān)督學(xué)習(xí)(2473)
ChatGPT(3870) ChatGPT(3870)

AI模型是如何訓(xùn)練的？訓(xùn)練一個模型花費多大？

電子發(fā)燒友網(wǎng)報道（文/李彎彎）在深度學(xué)習(xí)中，經(jīng)常聽到一個詞“模型訓(xùn)練”，但是模型是什么？又是怎么訓(xùn)練的？在人工智能中，面對大量的數(shù)據(jù)，要在雜亂無章的內(nèi)容中，準確、容易地識別，輸出需要的圖像/語音

2022-10-23 00:19:00

24277

類ChatGPT訓(xùn)練需高性能芯片大規(guī)模并聯(lián)，高速接口IP迎紅利時代

發(fā)布類ChatGPT應(yīng)用。眾所周知，類ChatGPT應(yīng)用是一個吞金獸，微軟公司為了訓(xùn)練ChatGPT使用了1萬張英偉達的高端GPU?！皬?b class="flag-6" style="color: red">訓(xùn)練的角度來看，計算性能再好的GPU芯片比如A100如果無法集群在一起去訓(xùn)練，那么訓(xùn)練一個類ChatGPT的大模型可能需要上百年。因此，AI大模型

2023-03-06 09:18:52

1585

一文詳解知識增強的語言預(yù)訓(xùn)練模型

隨著預(yù)訓(xùn)練語言模型(PLMs)的不斷發(fā)展，各種NLP任務(wù)設(shè)置上都取得了不俗的性能。盡管PLMs可以從大量語料庫中學(xué)習(xí)一定的知識，但仍舊存在很多問題，如知識量有限、受訓(xùn)練數(shù)據(jù)長尾分布影響魯棒性不好

2022-04-02 17:21:43

8765

ChatGPT/GPT的原理及ChatGPT的技術(shù)架構(gòu)解析

CAI模型訓(xùn)練過程 Claude 和 ChatGPT 都依賴于強化學(xué)習(xí)(RL)來訓(xùn)練偏好（preference）模型。CAI（Constitutional AI）也是建立在RLHF的基礎(chǔ)之上，不同之處在于，CAI的排序過程使用模型（而非人類）對所有生成的輸出結(jié)果提供一個初始排序結(jié)果。

2023-02-16 14:16:58

3427

基于不同量級預(yù)訓(xùn)練數(shù)據(jù)的RoBERTa模型分析

NLP領(lǐng)域的研究目前由像RoBERTa等經(jīng)過數(shù)十億個字符的語料經(jīng)過預(yù)訓(xùn)練的模型匯主導(dǎo)。那么對于一個預(yù)訓(xùn)練模型，對于不同量級下的預(yù)訓(xùn)練數(shù)據(jù)能夠提取到的知識和能力有何不同？

2023-03-03 11:21:51

1339

如何在SAM時代下打造高效的高性能計算大模型訓(xùn)練平臺

Segment Anything Model (SAM)是Meta 公司最近推出的一個創(chuàng)新AI 模型，專門用于計算機視覺領(lǐng)域圖像分割任務(wù)。借鑒ChatGPT 的學(xué)習(xí)范式，將預(yù)訓(xùn)練和特定任務(wù)結(jié)合

2023-08-21 04:02:50

1293

使用Huggingface創(chuàng)建大語言模型RLHF訓(xùn)練流程

ChatGPT已經(jīng)成為家喻戶曉的名字，而大語言模型在ChatGPT刺激下也得到了快速發(fā)展，這使得我們可以基于這些技術(shù)來改進我們的業(yè)務(wù)。

2023-12-06 17:02:27

719

LLM風(fēng)口背后，ChatGPT的成本問題

，有沒有可能做出下一個ChatGPT？以及打造這樣一個模型所需的研發(fā)成本和運營成本究竟是多少。 ? C hatGPT 背后的成本，以及 GPU 廠商等候多時的增長點 ? 首先，ChatGPT是OpenAI預(yù)訓(xùn)練的對話模型，除去訓(xùn)練本身所需的硬件與時間成本外，運營時的推理成本也要算

2023-02-15 01:19:00

4129

ChatGPT等大模型的發(fā)展，對GPGPU有怎樣的性能要求？

電子發(fā)燒友網(wǎng)報道（文/李彎彎）最近，在ChatGPT火了之后，國內(nèi)互聯(lián)網(wǎng)科技圈不時傳出計劃或者正在研究類ChatGPT大模型的消息。 ? 然而在相關(guān)技術(shù)真正面世之前，近日，OpenAI又放

2023-03-07 09:15:15

1716

ChatGPT系統(tǒng)開發(fā)AI人功智能方案

。ChatGPT是一個由OpenAI開發(fā)的人工智能語言模型，可以實現(xiàn)自然語言處理、對話生成等功能。要開發(fā)一個類似ChatGPT的人工智能系統(tǒng)軟件，可以遵循以下步驟：確定應(yīng)用場景：確定人工智能系統(tǒng)軟件要

2023-05-18 10:16:50

chatGPT一種生產(chǎn)力的變革

主要表現(xiàn)為三個方面：一是代替創(chuàng)作中的重復(fù)環(huán)節(jié)，提升創(chuàng)作效率；二是將創(chuàng)意與創(chuàng)作相分離，內(nèi)容創(chuàng)作者可以從人工智能的生成作品中找尋靈感與思路；三是綜合海量預(yù)訓(xùn)練的數(shù)據(jù)和模型中引入的隨機性，有利于拓展創(chuàng)新

2023-04-25 16:04:09

訓(xùn)練好的ai模型導(dǎo)入cubemx不成功怎么解決？

訓(xùn)練好的ai模型導(dǎo)入cubemx不成功咋辦，試了好幾個模型壓縮了也不行，ram占用過大，有無解決方案？

2023-08-04 09:16:28

GBDT算法原理和模型訓(xùn)練

)，其中y取值1或-1（代表二分類的類別標簽），這也是GBDT可以用來解決分類問題的原因。模型訓(xùn)練代碼地址 https://github.com/qianshuang/ml-expdef train

2019-01-23 14:38:58

Pytorch模型訓(xùn)練實用PDF教程【中文】

本教程以實際應(yīng)用、工程開發(fā)為目的，著重介紹模型訓(xùn)練過程中遇到的實際問題和方法。在機器學(xué)習(xí)模型開發(fā)中，主要涉及三大部分，分別是數(shù)據(jù)、模型和損失函數(shù)及優(yōu)化器。本文也按順序的依次介紹數(shù)據(jù)、模型和損失函數(shù)

2018-12-21 09:18:02

labview可以調(diào)用在python上訓(xùn)練好的分類模型么？

能否直接調(diào)用訓(xùn)練好的模型文件？

2021-06-22 14:51:03

【Sipeed M2 Dock開發(fā)板試用體驗】之家貓檢測模型訓(xùn)練篇

準備開始為家貓做模型訓(xùn)練檢測，要去官網(wǎng)https://maix.sipeed.com/home 注冊帳號，文章尾部的視頻是官方的，與目前網(wǎng)站略有出路，說明訓(xùn)練網(wǎng)站的功能更新得很快。其實整個的過程

2022-06-26 21:19:40

【書籍評測活動NO.30】大規(guī)模語言模型：從理論到實踐

TOP1的桂冠，可想大家對本書的認可和支持！這本書為什么如此受歡迎？它究竟講了什么？下面就給大家詳細~~ 本書主要內(nèi)容本書圍繞大語言模型構(gòu)建的四個主要階段——預(yù)訓(xùn)練、有監(jiān)督微調(diào)、獎勵建模和強化

2024-03-11 15:16:39

【國產(chǎn)FPGA+OMAPL138開發(fā)板體驗】（原創(chuàng)）6.FPGA連接ChatGPT 4

方面。而且，由于ChatGPT 4是一個大型的語言模型。通常，F(xiàn)PGA會用于處理一些底層的數(shù)據(jù)流或執(zhí)行特定的硬件加速任務(wù)，而ChatGPT 4這樣的模型則會在云端或高性能服務(wù)器上運行。不過

2024-02-14 21:58:43

一個對于足球的狂熱者的成長史

一個對于足球的狂熱者的成長史。我們每一個人都不平凡，都有著自己的夢想。你之所以沒有達到你預(yù)期的目標可能是因為，"天時“不夠或者”地利“沒達到，更可能是”人脈“沒掌握。更有可能是你壓根

2014-05-06 13:52:52

三星電子行業(yè)巨頭成長史

據(jù)美國研究公司ICInsights發(fā)布報告預(yù)計，銷售額顯示，三星電子有很大可能性，超過英特爾成為全球最大的芯片商。油柑網(wǎng)利用WMS物流系統(tǒng)在高準確率、優(yōu)化倉儲空間、提高人工效率等方面的特點，為用戶提供極速發(fā)貨體驗：當天16:00前訂單當天發(fā)出，16:00后訂單最遲次日12:00前發(fā)出。油柑網(wǎng)全場電子元器件訂單單筆實付金額滿8.8元包郵。 ICInsights表示，考慮到存儲芯片價格漲幅這一因素的話，英特爾預(yù)計在2017年二季度將實現(xiàn)144億美元的銷售額，而三星電子的銷售額預(yù)計將達到146億美元。因此如果存儲芯片的市場價格在二季度及余下時間里都能持續(xù)增長，三星電子將會取代英特爾成為全球最大芯片制造商。獨占半壁江山但跟核心處理器芯片不同的是，三星的增長是受益于不斷漲價的存儲芯片。數(shù)據(jù)顯示，英特爾預(yù)計在2017年二季度將實現(xiàn)144億美元的銷售額，而三星電子的銷售額預(yù)計將達到146億美元，如果未來存儲芯片價格依舊居高不下，三星將會取代英特爾成為全球最大的芯片制造商。換句話說，在手機領(lǐng)域的存儲元器件方面，三星一家?guī)缀跽紦?jù)了半壁江山。即便在去年因為手機電池爆炸事件遭受重裝，但由于日益高昂的存儲芯片，三星的賺錢能力竟毫發(fā)無損。三星在2017年第一財年報告顯示，受到芯片業(yè)務(wù)強勁表現(xiàn)的提振，三星第一季度凈利潤達到7.68萬億韓元(約合67.8億美元)，同比增長46.3%。而具體到半導(dǎo)體部門，銷售額為15.66萬億韓元(約合138.25億美元)，較上年同期的11.15萬億韓元增長40.4%;營業(yè)利潤為6.31萬億韓元(約合55.70億美元)，較上年同期的2.63萬億韓元更是增長了恐怖的139.9%。但是三星在40多年前進軍芯片行業(yè)時并非一帆風(fēng)順。白手起家的三星電子三星電子是韓國最大的電子工業(yè)企業(yè)，同時也是三星集團旗下最大的子公司。1938年3月它于韓國大邱成立，創(chuàng)始人是李秉喆?，F(xiàn)任會長是李健熙，副會長是李在镕和權(quán)五鉉，社長是崔志成，首席執(zhí)行官是由權(quán)五鉉、申宗鈞、尹富根三位組成的聯(lián)席CEO。在世界上最有名的100個商標的列表中，三星電子是唯一的一個韓國商標，是韓國民族工業(yè)的象征。李秉喆出生富裕家庭，貪玩但聰明，入讀日本早稻田大學(xué)。 1936年，與朋友合開碾米合作廠(協(xié)同精米所)，不久失敗。 1938年，3萬韓元創(chuàng)立三星商會，主要出口干貨、蔬菜、水果到中國東北地區(qū)。 1948年，成立三星物產(chǎn)公司，增加經(jīng)營品種，擴大貿(mào)易地區(qū)。 1953年，他建立了“第一制糖”廠，結(jié)束韓國白糖依賴進口的歷史。 1954年成立了“第一毛織”，滿足國內(nèi)需求。 1960年，進軍肥料工業(yè)，籌建肥料廠。 1969年，把握趨勢進軍電子行業(yè)，“三星三洋電子公司”成立，開始生產(chǎn)電視機。之后與三星電子工業(yè)有限公司合并。主要是為日本三洋公司生產(chǎn)電視機、洗衣機、冰箱等電子。之所以會發(fā)展電子業(yè)，是因為李秉喆根據(jù)當時韓國的技術(shù)、勞動力、附加值、出口預(yù)期等多方面判斷電子業(yè)將是一條康莊大道。 1984年，三星電子工業(yè)公司更名為三星電子。在更名之前，1976年，三星電子機械公司累計生產(chǎn)一千萬臺黑白電視機。 1978年，三星電子工業(yè)累計生產(chǎn)破四千萬臺黑白電視。 1979年，三星電子工業(yè)開始生產(chǎn)微波爐。 1980年，三星電子工業(yè)開始生產(chǎn)空調(diào)。 1981年，生產(chǎn)破一千萬臺彩色電視機。三星能成為世界一流企業(yè)最關(guān)鍵的是李秉喆提出“走開發(fā)尖端科技”路線，之后三星投入巨資發(fā)展尖端科技，還引進美國技術(shù)，使韓國成為了繼美國、日本之后，第三個能獨立開發(fā)半導(dǎo)體的國家，這也是如今三星和蘋果能夠抗衡的資本。把握趨勢進軍電子行業(yè) 在韓國，有句話流傳甚廣：“韓國人的一生無法避免三件事，死亡、稅收和三星?！边@真是一件極恐怖的事! 雖然三星集團業(yè)務(wù)涉及各大領(lǐng)域，但從總的來看三星電子的收入大概占了集團的六成左右，其實主要還是以電子產(chǎn)業(yè)為主，這要歸功于當年李秉喆的眼光。李秉喆是個十分會洞悉市場需求的人，用我們現(xiàn)在的話來說就是很會抓風(fēng)口的人，每當經(jīng)濟轉(zhuǎn)型，產(chǎn)業(yè)升級的時候他都能立即把握住趨勢。七十年代晚期到八十年代初期，是多元化程度逐步提高，三星核心科技業(yè)務(wù)在全球范圍內(nèi)增長的階段。 1978年，三星半導(dǎo)體以及三星電子成為兩個獨立的實體，同時也開始向全球市場提供新產(chǎn)品。在1983年12月成功開發(fā)出64KDRAM(動態(tài)隨機存儲器，DynamicRandomAccessMemory)VLSI芯片，并因此成為世界半導(dǎo)體產(chǎn)品領(lǐng)導(dǎo)者。在此之前，三星只是為本國市場生產(chǎn)半導(dǎo)體。在八十年代中期，三星開始進入系統(tǒng)開發(fā)業(yè)務(wù)領(lǐng)域，在1985年成立了三星數(shù)據(jù)系統(tǒng)(現(xiàn)在的名稱為三星SDS)作為在包括系統(tǒng)集成、系統(tǒng)管理、咨詢，以及網(wǎng)絡(luò)服務(wù)的信息技術(shù)服務(wù)的領(lǐng)導(dǎo)者。在1986年成立的三星經(jīng)濟研究院(SERI)，以及在1987年成立的三星綜合技術(shù)研究院(SAIT)。這兩個作為先驅(qū)的R&D組織，成功地幫助三星將其業(yè)務(wù)甚至進一步擴大到電子、半導(dǎo)體、高分子化學(xué)、基因工程、光纖通訊、航空，以及從納米技術(shù)到先進的網(wǎng)絡(luò)結(jié)構(gòu)等廣闊的領(lǐng)域。在1987年11月19日，三星的創(chuàng)始人李秉喆會長在執(zhí)掌三星集團近50年之后逝世。他的兒子李健熙繼任成為三星新的會長。在1988年三星集團慶祝公司成立50周年的慶典上，他宣布公司開始“二次創(chuàng)業(yè)”，將領(lǐng)導(dǎo)三星進一步發(fā)展，成為世界級的二十一世紀企業(yè)。為了“二次創(chuàng)業(yè)”，三星挑戰(zhàn)自己，重組了舊的業(yè)務(wù)，并開始進入新的業(yè)務(wù)領(lǐng)域，目標是成為世界五大電子公司之一。1988年，三星電子與三星半導(dǎo)體&無線通訊的合并無疑是向這個目標前進的一個關(guān)鍵。因為在公司的歷史上，這是第一次，三星那時走上了最大化技術(shù)資源、開發(fā)增值產(chǎn)品之路。重疊項目的綜合節(jié)約了成本，并有效地運用資金與人力。到八十年代后半葉，三星在創(chuàng)建穩(wěn)固電子與重工業(yè)的努力終于有了回報，公司獲得了與高技術(shù)產(chǎn)品相匹配的聲譽。三星電子邁上世界舞臺二十世紀九十年代初期，高技術(shù)產(chǎn)業(yè)面臨著前所未有的巨大挑戰(zhàn)。兼并、聯(lián)合以及收購等商業(yè)行為非常普遍，競爭與合并風(fēng)起云涌。各個公司都不得不重新思考自己的技術(shù)與服務(wù)的定位。業(yè)務(wù)開始跨出國家與國家、公司與公司之間的界限。為了把握這些機會，三星在1993年提出來“新經(jīng)營”規(guī)劃。 “新經(jīng)營”不僅僅是三星業(yè)務(wù)結(jié)構(gòu)的重新設(shè)計，而是一場旨在制造世界一流產(chǎn)品、提供全體客戶滿意，以及成為一個優(yōu)秀的企業(yè)公民的全面革新運動。回顧過去，“新經(jīng)營”是三星發(fā)展過程中決定性的轉(zhuǎn)折點，是整個公司以“質(zhì)量第一”為基礎(chǔ)重新進行定位的階段。在此期間，17種不同的產(chǎn)品，從半導(dǎo)體到計算機顯示器，從TFT-LCD顯示屏到彩色顯像管，在其各自領(lǐng)域中，產(chǎn)品的全球市場份額躍居前五位。12種其他產(chǎn)品也在其各自領(lǐng)域中名列前茅。在一些領(lǐng)域，比如LCD等，三星從一開始就是第一。自從1993年進入LCD以來，三星就毫無爭議地是世界領(lǐng)導(dǎo)者。另外一個實例是三星重工業(yè)的鉆井船，自從三星開始進入這個領(lǐng)域，就擁有了世界市場60%的份額。毫無疑問，三星在這些領(lǐng)域的成功，一部分歸功于三星在其遍布世界的工廠中嚴格的質(zhì)量控制。由于實行“一站停線(LineStop)”系統(tǒng),任何員工只要在生產(chǎn)流程中發(fā)現(xiàn)不合格產(chǎn)品，都可以立即關(guān)閉組裝生產(chǎn)線。整個生產(chǎn)線會被停下來，直到問題得以解決。在總體質(zhì)量管理過程中，三星還堅持采用“六西格瑪(SixSigma)”方法。當然,“新經(jīng)營”不僅僅是為了獲得優(yōu)質(zhì)產(chǎn)品，同時也是為了獲得優(yōu)秀的人才。無論三星的業(yè)務(wù)開展到世界的什么地方，三星人力開發(fā)院就會專門為所有直接與客戶接觸的人員提供客戶服務(wù)的講座。三星旗下位于首爾市中心的世界級酒店——新羅飯店甚至還為三星生命保險、三星證券和三星信用卡等公司的雇員提供禮儀培訓(xùn)課程。劫后重生的三星電子 1997對于幾乎所有的韓國人來說都是黑暗的。在那一年，幾乎所有的韓國公司都處于萎縮狀態(tài)，三星也不例外。公司通過將下屬公司的數(shù)量減少到45個(附屬公司數(shù)量的標準根據(jù)“公平貿(mào)易法”(FairTradeLaw)確定)，幾乎裁減了50,000人，改善了公司財務(wù)結(jié)構(gòu)的合理性，使公司的負債率從1997年的365%降低到1999年的148%。公司以15億美元的價格將公司原有的10個業(yè)務(wù)單位賣給了國外公司，包括三星重工業(yè)旗下深受好評的施工設(shè)備業(yè)務(wù)賣給了瑞典的VolvoAB，將叉車業(yè)務(wù)賣給了Clark。雖然這個消息令人感到凄涼，但是由于其在數(shù)字以及網(wǎng)絡(luò)技術(shù)方面的領(lǐng)先地位，及其在電子、金融，以及其他相關(guān)服務(wù)方面的穩(wěn)定與專注，使三星成為為數(shù)不多的幾個能夠在經(jīng)濟危機后繼續(xù)增長的公司之一。 1998年2月三星電子開發(fā)出世界第一個128MB同步DRAM以及128MBFlash內(nèi)存。 7月三星電子開發(fā)出世界最小的半導(dǎo)體封裝。同年，三星電子成為世界第一個擁有4-GB半導(dǎo)體處理生產(chǎn)技術(shù)的廠商 1999年7月三星電子世界第一個1GDDRDRAM芯片實現(xiàn)商業(yè)化，并引入世界最快的3DGraphics圖形卡專用222MHz32-MbitSGRAM。 2001年，三星電子移動電話生產(chǎn)量超過5千萬臺，并開發(fā)出世界最大的40英寸TFT-LCD顯示器。 2001年，三星電子銷售額達到247億美元，創(chuàng)利潤22億美元。在存儲器芯片和超薄顯示器市場都是世界第一，并且已經(jīng)穩(wěn)居全球第四大手機生產(chǎn)商位置，三星開始領(lǐng)軍全球電子業(yè)。 2007年，開發(fā)出了世界第一款30nm64GbNANDFlash內(nèi)存。 2010年，三星電子開發(fā)出世界上第一個30nmDRAM，銷售業(yè)績創(chuàng)歷史新高——總銷售額100萬億韓元和營業(yè)利潤10億韓元同時突破。時至今日，三星電子已經(jīng)發(fā)展成為全世界最大的消費電子企業(yè)，除了消費者熟知的智能手機、電視機之外，三星還擁有半導(dǎo)體、顯示面板在內(nèi)的零部件業(yè)務(wù)。今年二季度，三星電子將超越英特爾，成為全球半導(dǎo)體市場的營收霸主。負面不斷，卻觸底反彈 “炸機”和高層賄賂事件曝光后，世人都認為三星要完蛋了。8月，三星股價下跌3.2%至110.4萬韓元，創(chuàng)下自前年10月28日以來新低?？扇请娮庸蓛r在經(jīng)歷了連續(xù)3個月劇烈震蕩后，于11月中旬開始，奇跡般觸底反彈，大漲20%，到12月，股價多次超過180萬韓元，創(chuàng)下自上市以來的新高。一般而言，在手機元器件的分類中，存儲的元器件包括了內(nèi)存和閃存，內(nèi)存即大眾所理解的DRAM，而包括eMMC、UFS都是閃存(NANDFlash)加上控制器的套件，這個解決方案也廣泛應(yīng)用了當下的手機行業(yè)。根據(jù)調(diào)研機構(gòu)trendforce的數(shù)據(jù)，目前三星內(nèi)存(DRAM)整體市場份額超過50%，應(yīng)用在智能手機的內(nèi)存更是超過60%，eMMC、UFS所屬于的閃存(NANDFlash)方面，三星的市場份額接近40%。就市場情況而言，目前可以生產(chǎn)eMMC型號閃存的廠商很多，但能夠生產(chǎn)UFS卻只有三星、東芝、SK海力士三家，而在具體的量產(chǎn)能力上，三星比起其他兩家公司來說更勝一籌。在主流的高端手機上，也會有更多廠商選會選擇UFS，因此可以說國產(chǎn)手機在存儲芯片方面對三星處于絕對依賴的狀態(tài)。價格趨勢方面，trendforce的分析師對36氪記者說，存儲器產(chǎn)品從2016年下半年開始一直呈現(xiàn)大幅上漲狀態(tài)了40%，持續(xù)到今年一季度，從二季度開始上漲趨勢減緩，但是上漲勢頭還會持續(xù)到年底，預(yù)計應(yīng)用于智能手機等產(chǎn)品的行動式內(nèi)存2017年全年漲幅將大于10%。而反映到智能手機產(chǎn)品上，今年以來，包括小米、酷派、魅族等手機公司都有不同程度的漲價，而華為發(fā)布的P10更是比上一代產(chǎn)品P9，貴了將近1000元。所以，雖然三星在2016年遭遇了“Note7爆炸事件”，但其股價在2016年仍然大漲了接近50%。進入2017年，短短的四個來月，股價又上漲了25%。學(xué)習(xí)三星，中國芯片任重而道遠目前，全球芯片生產(chǎn)商主要集中在美國、日本、韓國和中國的***地區(qū)。相比之下，中國內(nèi)地雖然是全球最大的電子消費市場，每年生產(chǎn)銷售了最大量的手機、電腦、汽車和各種家電，但芯片90%依靠進口。雖然也有部分企業(yè)(比如華為)力圖在芯片上實現(xiàn)突破，但取得的進展一直不大。全球每年生產(chǎn)的芯片，50%左右被中國人高價買走。這意味著，中國電子產(chǎn)業(yè)仍然處于全球生產(chǎn)鏈條的中低端，還意味著最豐厚的利潤被芯片生產(chǎn)商拿走了。而中國市場，則淪為了三星、英特爾、高通這些企業(yè)的提款機。你知道中國目前每年進口金額最大的單一商品是什么嗎?估計很多人還以為是石油，事實上過去幾年芯片已經(jīng)超過石油，成為我們從海外購買最多的商品，每年進口額超過2200億美元。換句話說，中國的“芯片安全問題”，已經(jīng)超過了“石油安全問題”。 “薩德入韓”事件后，中韓經(jīng)貿(mào)關(guān)系受到了影響。這時候，很多中國人才驚聞：中國最大的商品進口國竟然是韓國，每年中國從韓國的進口額超過了美國、日本;中國最大的貿(mào)易逆差，也是韓國帶來的，相當于韓國順差來源的73%。 2016年全球主要芯片企業(yè)排名，中國只有***地區(qū)的企業(yè)上榜很顯然，芯片已經(jīng)成為中國經(jīng)濟崛起過程中，下一個急需攻克的陣地。而三星，就是我們實現(xiàn)跨越的最大對手。我們不能為手機在中低端市場擊敗三星而沾沾自喜，而應(yīng)該清醒地看到三星在芯片業(yè)務(wù)上的強大優(yōu)勢。主要來說，中國企業(yè)應(yīng)當學(xué)習(xí)三星“兩頭抓”的戰(zhàn)略。

2019-04-24 17:17:53

不到1分鐘開發(fā)一個GPT應(yīng)用！各路大神瘋狂整活，網(wǎng)友：ChatGPT就是新iPhone

這個說法并不準確。盡管ChatGPT等語言模型已經(jīng)在一定程度上改變了我們獲取信息、學(xué)習(xí)知識的方式，但它們并不能替代人類進行創(chuàng)造性思考和創(chuàng)造性活動。雖然一些人可能會利用ChatGPT等語言模型快速

2023-11-19 12:06:10

醫(yī)療模型人訓(xùn)練系統(tǒng)是什么？

醫(yī)療模型人訓(xùn)練系統(tǒng)是為滿足廣大醫(yī)學(xué)生的需要而設(shè)計的。我國現(xiàn)代醫(yī)療模擬技術(shù)的發(fā)展處于剛剛起步階段，大部分仿真系統(tǒng)產(chǎn)品都源于國外，雖然對于模擬人仿真已經(jīng)出現(xiàn)一些產(chǎn)品，但那些產(chǎn)品只是就模擬人的某一部分，某一個功能實現(xiàn)的仿真，沒有一個完整的系統(tǒng)綜合其所有功能。

2019-08-19 08:32:45

在IC設(shè)計/驗證中怎么應(yīng)用ChatGPT呢？

技術(shù)改變生活。最近一段時間，OpenAI旗下的ChatGPT大火。根據(jù)官網(wǎng)自身的介紹（見圖1），其是由 OpenAI 提出的大型預(yù)訓(xùn)練語言模型，使用了許多深度學(xué)習(xí)技術(shù)，可以生成文本內(nèi)容，也可以進行

2023-02-21 15:16:46

在Ubuntu上使用Nvidia GPU訓(xùn)練模型

問題最近在Ubuntu上使用Nvidia GPU訓(xùn)練模型的時候，沒有問題，過一會再訓(xùn)練出現(xiàn)非?？D，使用nvidia-smi查看發(fā)現(xiàn)，顯示GPU的風(fēng)扇和電源報錯：解決方案自動風(fēng)扇控制在nvidia

2022-01-03 08:24:09

基于Keras利用訓(xùn)練好的hdf5模型進行目標檢測實現(xiàn)輸出模型中的表情或性別gradcam

CV：基于Keras利用訓(xùn)練好的hdf5模型進行目標檢測實現(xiàn)輸出模型中的臉部表情或性別的gradcam(可視化)

2018-12-27 16:48:28

如何使用eIQ門戶訓(xùn)練人臉檢測模型？

我正在嘗試使用 eIQ 門戶訓(xùn)練人臉檢測模型。我正在嘗試從 tensorflow 數(shù)據(jù)集 (tfds) 導(dǎo)入數(shù)據(jù)集，特別是 coco/2017 數(shù)據(jù)集。但是，我只想導(dǎo)入 wider_face。但是，當我嘗試這樣做時，會出現(xiàn)導(dǎo)入程序錯誤，如下圖所示。任何幫助都可以。

2023-04-06 08:45:14

怎樣使用PyTorch Hub去加載YOLOv5模型

PyTorch Hub 加載預(yù)訓(xùn)練的 YOLOv5s 模型，model并傳遞圖像進行推理。'yolov5s'是最輕最快的 YOLOv5 型號。有關(guān)所有可用模型的詳細信息，請參閱自述文件。詳細示例此示例

2022-07-22 16:02:42

探索一種降低ViT模型訓(xùn)練成本的方法

Transformers已成為計算機視覺最新進展的核心。然而，從頭開始訓(xùn)練ViT模型可能會耗費大量資源和時間。在本文中旨在探索降低ViT模型訓(xùn)練成本的方法。引入了一些算法改進，以便能夠在有限的硬件

2022-11-24 14:56:31

用tflite接口調(diào)用tensorflow模型進行推理

tensorflow模型部署系列的一部分，用于tflite實現(xiàn)通用模型的部署。本文主要使用pb格式的模型文件，其它格式的模型文件請先進行格式轉(zhuǎn)換，參考tensorflow模型部署系列————預(yù)訓(xùn)練模型導(dǎo)出。從...

2021-12-22 06:51:18

科技大廠競逐AIGC，中國的ChatGPT在哪？

。圖源：OpenAI官網(wǎng) 中國AI水平與ChatGPT有多大的差距？中國如何訓(xùn)練出這樣的GPT大模型？難點又在哪里？ ChatGPT是AIGC的一種實現(xiàn)。在AIGC的大模型建設(shè)和應(yīng)用層面，國內(nèi)

2023-03-03 14:28:48

算法原理與模型訓(xùn)練

)，其中y取值1或-1（代表二分類的類別標簽），這也是GBDT可以用來解決分類問題的原因。模型訓(xùn)練代碼地址 https://github.com/qianshuang/ml-expdef train

2019-01-25 15:02:15

請問K510設(shè)備什么時候可以支持線上模型訓(xùn)練？

目前官方的線上模型訓(xùn)練只支持K210，請問K510什么時候可以支持

2023-09-13 06:12:13

黃尚慶：電機工程師的成長史，學(xué)習(xí)經(jīng)驗分享

學(xué)習(xí)過程成長到了現(xiàn)在的資深電子工程師？我從事電機行業(yè)已經(jīng)有5年的實際經(jīng)驗，從參加工作就開始接觸電機控制。主要是做電機控制的相關(guān)工作，如工業(yè)機器人的伺服電機，工業(yè)控制的異步電動機，以及變頻器。在做項目

2019-09-26 17:01:14

德信成長史：模擬IC公司如何擺脫同質(zhì)化

德信成長史：模擬IC公司如何擺脫同質(zhì)化在今天的半導(dǎo)體市場上，同質(zhì)化是一個非常突出的問題，尤其以電源產(chǎn)品為甚。而且，因為電源市場較大，該市場又吸引了中

2010-02-05 08:52:04

781

MOS管模型分類 NMOS的模型圖詳解

MOS管常需要偏置在弱反型區(qū)和中反型區(qū)，就是未來在相同的偏置電流下獲得更高的增益。目前流行的MOS管模型大致可分為兩類，本文將詳解MOS管模型的類型和NMOS的模型圖。

2018-02-23 08:44:00

51664

一位軟件工程師的成長史

前段時間，我寫了很多關(guān)于嵌入式學(xué)習(xí)的文章，通過不少學(xué)習(xí)者的反饋使我有成就感。分享的樂趣使我決定繼續(xù)寫下去。在接下來的時間，我計劃也開始寫關(guān)于Java的內(nèi)容。希望對你或多或少提供方向，當然，老規(guī)矩，遇到問題或者想發(fā)展確沒方向的新手都可以私我。話不多說，給大家?guī)硪粋€軟件工程師的成長史：

2018-06-19 15:28:00

2386

關(guān)于語言模型和對抗訓(xùn)練的工作

本文把對抗訓(xùn)練用到了預(yù)訓(xùn)練和微調(diào)兩個階段，對抗訓(xùn)練的方法是針對embedding space，通過最大化對抗損失、最小化模型損失的方式進行對抗，在下游任務(wù)上取得了一致的效果提升。有趣的是，這種對抗

2020-11-02 15:26:49

1802

Pytorch量化感知訓(xùn)練的詳解

量化感知訓(xùn)練（Quantization Aware Training ）是在模型中插入偽量化模塊（fake\_quant module）模擬量化模型在推理過程中進行的舍入（r...

2020-12-08 22:57:05

1722

小米在預(yù)訓(xùn)練模型的探索與優(yōu)化

導(dǎo)讀：預(yù)訓(xùn)練模型在NLP大放異彩，并開啟了預(yù)訓(xùn)練-微調(diào)的NLP范式時代。由于工業(yè)領(lǐng)域相關(guān)業(yè)務(wù)的復(fù)雜性，以及工業(yè)應(yīng)用對推理性能的要求，大規(guī)模預(yù)訓(xùn)練模型往往不能簡單直接地被應(yīng)用于NLP業(yè)務(wù)中。本文將為

2020-12-31 10:17:11

2217

多模態(tài)圖像-文本預(yù)訓(xùn)練模型

在某一方面的智能程度。具體來說是，領(lǐng)域?qū)＜胰斯?gòu)造標準數(shù)據(jù)集，然后在其上訓(xùn)練及評價相關(guān)模型及方法。但由于相關(guān)技術(shù)的限制，要想獲得效果更好、能力更強的模型，往往需要在大量的有標注的數(shù)據(jù)上進行訓(xùn)練。近期預(yù)訓(xùn)練模型的

2021-09-06 10:06:53

3351

如何實現(xiàn)更綠色、經(jīng)濟的NLP預(yù)訓(xùn)練模型遷移

NLP中，預(yù)訓(xùn)練大模型Finetune是一種非常常見的解決問題的范式。利用在海量文本上預(yù)訓(xùn)練得到的Bert、GPT等模型，在下游不同任務(wù)上分別進行finetune，得到下游任務(wù)的模型。然而，這種方式

2022-03-21 15:33:30

1843

一種基于亂序語言模型的預(yù)訓(xùn)練模型-PERT

由于亂序語言模型不使用[MASK]標記，減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap，并由于預(yù)測空間大小為輸入序列長度，使得計算效率高于掩碼語言模型。PERT模型結(jié)構(gòu)與BERT模型一致，因此在下游預(yù)訓(xùn)練時，不需要修改原始BERT模型的任何代碼與腳本。

2022-05-10 15:01:27

1173

AI模型是如何訓(xùn)練的？訓(xùn)練一個模型花費多大？

2022-10-23 00:20:03

7253

最近大火的高性能計算ChatGPT究竟是什么？

ChatGPT是OpenAI開發(fā)的大型預(yù)訓(xùn)練語言模型，GPT-3模型的一個變體，經(jīng)過訓(xùn)練可以在對話中生成類似人類的文本響應(yīng)。

2022-12-15 12:28:56

1368

講一講ChatGPT的技術(shù)細節(jié)

通過人工標注等方式，使用監(jiān)督學(xué)習(xí)的模式對GPT3模型（對這個是chatGPT模型的base）進行初步訓(xùn)練（有監(jiān)督微調(diào)，SFT），從而得到一個初步能夠理解語言的模型，尤其是prompt的模式。

2023-01-03 17:38:58

1909

ChatGPT是什么時候發(fā)布的 ChatGPT投資案例

ChatGPT中GPT的意思是generative pre-training，（關(guān)于語言模型的）生成式預(yù)訓(xùn)練，這也是這款聊天機器人奠基的理論模型。GPT理論最早2018年在OpenAI上分享，2020年，OpenAI發(fā)布了GPT-3，已經(jīng)可以連貫地形成即興文本。

2023-02-08 17:23:46

23581

ChatGPT背后的原理簡析

　chatGPT是一種基于轉(zhuǎn)移學(xué) 習(xí)的大型語言模型，它使用GPT-2 （Generative PretrainedTransformer2）模型的技術(shù)，并進行了進一步的訓(xùn)練和優(yōu)化。

2023-02-09 15:09:56

7657

ChatGPT自動化操作

　　近日， ChatGPT在圈內(nèi)大火。那么什么是ChatGPT呢？ ChatGPT是一種自然語言生成模型，由OpenAI開發(fā)。它基于GPT（Generative

2023-02-10 11:58:40

ChatGPT注冊以及使用教程

　　ChatGPT使用基于人類反饋的強化學(xué)習(xí)進行訓(xùn)練，這種方法通過人類干預(yù)以增強機器學(xué)習(xí)的效果，從而獲得更為逼真的結(jié)果。其使用基于GPT-3.5架構(gòu)的語言模型。在訓(xùn)練過程中，人類訓(xùn)練師扮演著用戶與人

2023-02-10 11:30:32

一文看懂ChatGPT模型原理

　　這兩天，ChatGPT模型真可謂稱得上是狂拽酷炫D炸天的存在了。一度登上了知乎熱搜，這對科技類話題是非常難的存在。不光是做人工智能、機器學(xué)習(xí)的人關(guān)注，而是大量的各行各業(yè)從業(yè)人員都來關(guān)注這個模型

2023-02-10 11:15:06

ChatGPT入門指南

是基于聊天的生成預(yù)訓(xùn)練transformer模型的縮寫，是一個強大的工具，可以以各種方式使用，以提高您在許多領(lǐng)域的生產(chǎn)力。 ChatGPT是一種人工智能（AI）技術(shù)，被稱為自然語言處理（NLP）模型　　由人工智能研發(fā)公司OpenAI創(chuàng)建。它使用機器學(xué)習(xí)算法來分析和理解書面或口頭語言，然后根據(jù)該輸

2023-02-10 11:19:06

看海泰方圓類ChatGPT技術(shù)模型！

撰寫郵件、視頻腳本、文案、翻譯、代碼等任務(wù)，有望成為提高辦公、學(xué)習(xí)效率的工具，應(yīng)用場景廣闊。 ? ChatGPT：“殺手級”AI應(yīng)用的出圈 ChatGPT是一個“萬事通”：基于GPT 3.5架構(gòu)的大型語言模型（LLM），通過與用戶的自然互動對話完成各種復(fù)雜的任務(wù)，如求解數(shù)學(xué)方程式、寫

2023-02-10 10:38:20

482

chatgpt國內(nèi)怎么用

如此受歡迎，是因為它具有如下優(yōu)秀特點： 1、強大的語言生成能力：ChatGPT是一種被訓(xùn)練有素的語言模型，可以生成各種文本內(nèi)容，如問答、對話、描述等。 2、語言知識豐富：ChatGPT是在大量語料庫上進行訓(xùn)練的，因此它對語言知識的理解非常深刻，可以產(chǎn)生高質(zhì)量的文

2023-02-10 14:11:58

195750

chatgpt怎么用

chatgpt怎么用 chatgpt怎么用？chatgpt 簡介 ChatGPT是一種語言模型，它被訓(xùn)練來對對話進行建模。它能夠通過學(xué)習(xí)和理解人類語言來進行對話，并能夠生成適當?shù)捻憫?yīng)。ChatGPT

2023-02-10 14:22:27

57024

ChatGPT使用初探

　　最近一直聽到ChatGPT，如雷貫耳，目前只能在國外用。近期找了個時間專門研究了怎么使用ChatGPT. 　　ChatGPT是一種大型語言模型，由 OpenAI 訓(xùn)練。它可以生成

2023-02-13 10:11:07

如何用ChatGPT高效完成工作

話式人工智能的預(yù)期。因此一經(jīng)推出就驚艷世界，引爆了全球?qū)?ChatGPT的關(guān)注。ChatGPT的模型架構(gòu)基于生成預(yù)訓(xùn)練轉(zhuǎn)換器（Generative Pre-training Transformer），并基于大量文本數(shù)據(jù)進行訓(xùn)練。因此除了對話，ChatGPT還能夠理解復(fù)雜問題并執(zhí)行高級任務(wù)。　　

2023-02-13 09:57:17

ChatGPT實現(xiàn)原理

）是由OpenAI發(fā)明的一種自然語言處理技術(shù)。它是一種預(yù)訓(xùn)練的深度學(xué)習(xí)模型，可以用來生成文本，識別語義，做文本分類等任務(wù)。 ChatGPT實現(xiàn)原理火爆的ChatGPT，得益于AIGC 背后的關(guān)鍵技術(shù)NLP

2023-02-13 17:32:36

74276

ChatGPT介紹和代碼智能

一. ChatGPT 1. ChatGPT的自我介紹 2. ChatGPT的前世 2.1GPT-3是啥？General Pre-Training(GPT)，即通用預(yù)訓(xùn)練語言模型，是一種利用

2023-02-14 09:33:23

如何打造我們自己的ChatGPT

離強大到危險的人工智能不遠了”。　　自2018年的BERT預(yù)訓(xùn)練模型被提出后，迅速刷新了各大NLP

2023-02-14 09:14:34

關(guān)于ChatGPT的自我介紹

　　ChatGPT是由OpenAI開發(fā)的一個人工智能聊天機器人程序，由 OpenAI 公司于2022年11月推出。該程序使用基于GPT-3.5架構(gòu)的大型語言模型并通過強化學(xué)習(xí)進行訓(xùn)練

2023-02-14 09:19:19

ChatGPT需要怎樣的芯片？

），而在中國以百度等為代表的互聯(lián)網(wǎng)科技公司也紛紛表示正在研發(fā)此類技術(shù)并且將于近期上線。以ChatGPT為代表的生成類模型有一個共同的特點，就是使用了海量數(shù)據(jù)做預(yù)訓(xùn)練，并且往往會搭配一個較為強大的語言模型。語言模型主要的功能是從海量的現(xiàn)有語料庫中進行

2023-02-17 09:45:07

521

淺析預(yù)訓(xùn)練模型的起源與發(fā)展

2022年下半年開始，涌現(xiàn)出一大批“大模型”的優(yōu)秀應(yīng)用，其中比較出圈的當屬AI作畫與ChatGPT，刷爆了各類社交平臺，其讓人驚艷的效果，讓AI以一個鮮明的姿態(tài)，站到了廣大民眾面前，讓不懂AI的人也能直觀地體會到AI的強大。大模型即大規(guī)模預(yù)訓(xùn)練模型。

2023-02-20 14:09:11

1391

詳解ChatGPT數(shù)據(jù)集之謎

隨著新型 AI 技術(shù)的快速發(fā)展，模型訓(xùn)練數(shù)據(jù)集的相關(guān)文檔質(zhì)量有所下降。模型內(nèi)部到底有什么秘密？它們又是如何組建的？本文綜合整理并分析了現(xiàn)代大型語言模型的訓(xùn)練數(shù)據(jù)集。

2023-02-21 10:06:23

1432

ChatGPT是什么意思？如何將chatgpt應(yīng)用到兒童對話

　ChatGPT是一種由OpenAI開發(fā)的通用聊天機器人模型。

2023-02-21 15:32:46

3294

ChatGPT/GPT的原理 ChatGPT的技術(shù)架構(gòu)

ChatGPT 是基于GPT-3.5（Generative Pre-trained Transformer 3.5）架構(gòu)開發(fā)的對話AI模型，是InstructGPT 的兄弟模型。 ChatGPT很可能是OpenAI 在GPT-4 正式推出之前的演練，或用于收集大量對話數(shù)據(jù)。

2023-02-24 10:05:13

1421

詳細介紹ChatGPT技術(shù)原理和架構(gòu)

模型選擇：ChatGPT 的開發(fā)人員選擇了 GPT-3.5 系列中的預(yù)訓(xùn)練模型，而不是對原始 GPT-3 模型進行調(diào)優(yōu)。使用的基線模型是最新版的 text-davinci-003（通過對程序代碼調(diào)優(yōu)的 GPT-3 模型）。

2023-03-08 09:28:00

352

ChatGPT升級　OpenAI史上最強大模型GPT-4發(fā)布

ChatGPT升級史上最強大模型GPT-4發(fā)布 OpenAI正式推出了ChatGPT升級版本，號稱史上最強大模型GPT-4發(fā)布。OpenAI期待GPT-4成為一個更有價值的AI工具。 GPT-4

2023-03-15 18:15:58

2363

ChatGPT商業(yè)化意義 AIGC產(chǎn)業(yè)生態(tài)體系架構(gòu)分析

ChatGPT是自然語言處理（NLP）下的AI大模型，通過大算力、大規(guī)模訓(xùn)練數(shù)據(jù)突破AI瓶頸。2022年11月，OpenAI推出ChatGPT，ChatGPT基于GPT-3.5，使用人類反饋強化學(xué)習(xí)技術(shù)，將人類偏好作為獎勵信號并微調(diào)模型，實現(xiàn)有邏輯的對話能力。

2023-03-16 11:16:55

1815

ChatGPT是什么？普通人應(yīng)該如何去使用ChatGPT

ChatGPT的最強輸出能力便是他的文字輸出能力，而文字輸出變現(xiàn)的軟件有很多例如知乎百家號等，ChatGPT的語言生成模型，它能夠通過訓(xùn)練集自動生成文本。這使得利用ChatGPT進行文字變現(xiàn)成為一種可能性ChatGPT可以從給定主題生成無數(shù)種可能的文章。

2023-03-17 10:28:55

3247

什么是預(yù)訓(xùn)練 AI 模型？

預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用，也可以根據(jù)不同行業(yè)的應(yīng)用需求進行自定義。如果要教一個剛學(xué)會走路的孩子什么是獨角獸，那么我們首先應(yīng)

2023-04-04 01:45:02

1025

微軟開源“傻瓜式”類ChatGPT模型訓(xùn)練工具

DeepSpeed-RLHF 模塊：DeepSpeed-RLHF 復(fù)刻了 InstructGPT 論文中的訓(xùn)練模式，并確保包括 a) 監(jiān)督微調(diào)（SFT），b) 獎勵模型微調(diào)和 c) 基于人類反饋

2023-04-14 09:36:28

782

聆心智能聯(lián)合洪恩打造“AI問答”| 國內(nèi)首批兒童啟蒙成長領(lǐng)域類ChatGPT式應(yīng)用

ChatGPT 的出現(xiàn)讓人類見證了大預(yù)言模型的能力，正在影響著多個行業(yè)的發(fā)展。作為 AI 技術(shù)的重要應(yīng)用場景之一，“AI+教育”已經(jīng)到了一個從結(jié)合過渡到融合的關(guān)鍵節(jié)點。如何將 AI 技術(shù)融入啟蒙成長

2023-05-11 15:12:18

607

大模型及ChatGPT核心技術(shù)論文

從Transformer提出到“大規(guī)模預(yù)訓(xùn)練模型”GPT（Generative Pre-Training）的誕生，再到GPT2的迭代標志Open AI成為營利性公司，以及GPT3和ChatGPT的“出圈”；再看產(chǎn)業(yè)界

2023-05-16 09:56:00

523

什么是預(yù)訓(xùn)練AI模型？

預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用，也可以根據(jù)不同行業(yè)的應(yīng)用需求進行自定義。

2023-05-25 17:10:09

595

支持 ChatGPT 的機器學(xué)習(xí)模型的概況

本文介紹了支持 ChatGPT 的機器學(xué)習(xí)模型的概況，文章將從大型語言模型的介紹開始，深入探討用來訓(xùn)練 GPT-3 的革命性自我注意機制，然后深入研究由人類反饋的強化學(xué)習(xí)機制這項讓 ChatGPT 與眾不同的新技術(shù)。

2023-05-26 11:44:32

541

不翻墻，怎么免費和直接使用ChatGPT？

ChatGPT（Chat Generative Pre-trained Transformer）是一種基于Transformer架構(gòu)的預(yù)訓(xùn)練語言模型，其目標是生成自然流暢的對話文本。它由OpenAI

2023-05-29 09:41:13

14486

ChatGPT背后的大模型技術(shù)

由于ChatGPT可以適用于非常多的任務(wù)，很多人認為 AI 已經(jīng)迎來拐點。李開復(fù)將此前的 AI 定義為 AI 1.0，此后的AI定義為AI 2.0。AI 1.0 中模型適用于單領(lǐng)域，AI 2.0

2023-05-29 11:16:05

858

大模型訓(xùn)練和部署的關(guān)鍵技術(shù)

電子發(fā)燒友網(wǎng)報道（文/李彎彎）ChatGPT的出現(xiàn)讓大模型迅速出圈，事實上，在過去這些年中，模型規(guī)模在快速提升。數(shù)據(jù)顯示，自2016年至今，模型大小每18個月增長40倍，自2019年到現(xiàn)在，更是

2023-05-30 13:56:09

1502

ChatGPT浪潮下，看中國大語言模型產(chǎn)業(yè)發(fā)展

ChatGPT的橫空出世拉開了大語言模型產(chǎn)業(yè)和生成式AI產(chǎn)業(yè)蓬勃發(fā)展的序幕。本報告將著重分析“OpenAI ChatGPT的成功之路”、“中國類ChatGPT產(chǎn)業(yè)發(fā)展趨勢”、“ChatGPT應(yīng)用場景與生態(tài)建設(shè)”、“ChatGPT浪潮下的‘?！c‘機’”四個問題。

2023-06-01 16:49:42

777

ChatGPT是什么？ChatGPT寫代碼的原理你知道嗎

ChatGPT是什么 ChatGPT是一種人工智能聊天機器人，可以與用戶進行自然語言對話，回答問題，提供建議和娛樂等服務(wù)。它的名字"GPT"代表著"生成預(yù)訓(xùn)練模型

2023-06-04 17:01:57

2330

ChatGPT技術(shù)總結(jié)

ChatGPT實際上是一個大型語言預(yù)訓(xùn)練模型（即Large Language Model，后面統(tǒng)一簡稱LLM）。什么叫LLM？LLM指的是利用大量文本數(shù)據(jù)來訓(xùn)練的語言模型，這種模型可以產(chǎn)生出強大

2023-06-06 17:39:10

chatgpt是什么東西？chatgpt在國內(nèi)能用嗎

問題并幫助您完成撰寫電子郵件、論文和代碼等任務(wù)。這種類型的生成式 AI 模型根據(jù)來自互聯(lián)網(wǎng)的大量信息進行訓(xùn)練，包括網(wǎng)站、書籍、新聞文章等。 chatgpt國內(nèi)能用嗎? chatgpt國內(nèi)暫時無法直接使用，企業(yè)辦公場景需要使用ChatGPT時，需要開通國際專線。國際專線為企業(yè)

2023-06-16 09:24:30

9768

ChatGPT在電磁領(lǐng)域的能力到底有多強？

ChatGPT簡介ChatGPT（GenerativePre-trainedTransformer）是由OpenAI開發(fā)的一個包含了1750億個參數(shù)的大型自然語言處理模型。它基于互聯(lián)網(wǎng)可用數(shù)據(jù)訓(xùn)練

2023-02-02 15:10:33

715

chatgpt是什么原理

上具有更優(yōu)的表現(xiàn)。它代表了 OpenAI 最新一代的大型語言模型，并且在設(shè)計上非常注重交互性。 OpenAI 使用監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)的組合來調(diào)優(yōu) ChatGPT，其中的強化學(xué)習(xí)組件使 ChatGPT 獨一無二。OpenAI 使用了「人類反饋強化學(xué)習(xí)」（RLHF）的訓(xùn)練方法，該方法在訓(xùn)練中使用人類反饋，以最

2023-06-27 13:57:09

197

chatgpt是什么意思 ChatGPT背后的技術(shù)原理

　　今天我們?yōu)榇蠹規(guī)淼奈恼?，深入淺出地闡釋了ChatGPT背后的技術(shù)原理，沒有NLP或算法經(jīng)驗的小伙伴，也可以輕松理解ChatGPT是如何工作的。　　ChatGPT是一種機器學(xué)習(xí)自然語言處理模型

2023-07-18 17:12:30

chatgpt是什么意思 chatgpt有什么用

有不少教程，搜索觀看即可。　　ChatGPT 是一款由 OpenAI 開發(fā)的大型語言模型，主要功能是回答用戶的問題和完成各種語言任務(wù)，如對話生成、文本摘要、翻譯、生成文本等。它使用了先進的深度學(xué)習(xí)技術(shù)和海量的語言數(shù)據(jù)進行訓(xùn)練，可以在各種語言領(lǐng)域提供高質(zhì)量的語言處理服務(wù)

2023-07-19 14:21:00

ChatGPT的工作原理

　　ChatGPT 的工作原理可以分為兩個主要步驟：預(yù)訓(xùn)練和微調(diào)?！　。?）預(yù)訓(xùn)練階段　　ChatGPT 使用大量的文本數(shù)據(jù)進行訓(xùn)練，以了解不同語言結(jié)構(gòu)和上下文之間的關(guān)系。這樣它就能夠?qū)W習(xí)到自然語言

2023-07-20 11:29:58

ChatGPT：人工智能的交互式對話伙伴

ChatGPT作為智能對話生成模型，可以幫助打造智能客服體驗的重要工具。以下是一些方法和步驟： 1.數(shù)據(jù)收集和準備：收集和整理與客服相關(guān)的數(shù)據(jù)，包括常見問題、回答示例、客戶對話記錄等。這將用于訓(xùn)練

2023-08-06 16:02:36

308

ChatGPT原理 ChatGPT模型訓(xùn)練 chatgpt注冊流程相關(guān)簡介

的影響，其注冊相對繁瑣。那么國內(nèi)如何注冊ChatGPT賬號？本文跟大家詳細分享GPT賬戶注冊教程，手把手教你成功注冊ChatGPT。 ChatGPT是一種自然語言處理模型，ChatGPT全稱Chat

2023-12-06 16:28:00

315

卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練步驟

卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練步驟? 卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network, CNN）是一種常用的深度學(xué)習(xí)算法，廣泛應(yīng)用于圖像識別、語音識別、自然語言處理等諸多領(lǐng)域。CNN

2023-08-21 16:42:00

885

盤古大模型和ChatGPT4的區(qū)別

盤古大模型和ChatGPT4的區(qū)別對于大家尤其是人工智能領(lǐng)域的從業(yè)者而言，盤古大模型（PanGu-α）和ChatGPT-4是兩個大家的比較關(guān)注的模型，這是因為它們都是在當前最先進的自然語言處理領(lǐng)域

2023-08-30 18:27:44

3558

盤古大模型和ChatGPT4

盤古大模型和ChatGPT4 盤古大模型和ChatGPT4：人工智能領(lǐng)域重要的兩大進展隨著人工智能技術(shù)的不斷發(fā)展，越來越多的模型和算法被開發(fā)出來，相繼出現(xiàn)了眾多重要的技術(shù)突破。其中，盤古大模型

2023-08-31 10:15:42

3484

訓(xùn)練大語言模型帶來的硬件挑戰(zhàn)

生成式AI和大語言模型（LLM）正在以難以置信的方式吸引全世界的目光，本文簡要介紹了大語言模型，訓(xùn)練這些模型帶來的硬件挑戰(zhàn)，以及GPU和網(wǎng)絡(luò)行業(yè)如何針對訓(xùn)練的工作負載不斷優(yōu)化硬件。

2023-09-01 17:14:56

1046

盤古大模型與ChatGPT的模型基礎(chǔ)架構(gòu)

華為盤古大模型以Transformer模型架構(gòu)為基礎(chǔ)，利用深層學(xué)習(xí)技術(shù)進行訓(xùn)練。模型的每個數(shù)量達到2.6億個，是目前世界上最大的漢語預(yù)備訓(xùn)練模型之一。這些模型包含許多小模型，其中最大的模型包含1億4千萬個參數(shù)。

2023-09-05 09:55:56

1229