0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大模型技術(shù)及趨勢(shì)總結(jié)

京東云 ? 來(lái)源:jf_75140285 ? 作者:jf_75140285 ? 2024-06-21 17:38 ? 次閱讀

本篇文章旨在希望大家對(duì)大模型的本質(zhì)、技術(shù)和發(fā)展趨勢(shì)有簡(jiǎn)單的了解。由于近期大模型技術(shù)發(fā)展很快,這里對(duì)大模型的技術(shù)、本質(zhì)及未來(lái)趨勢(shì)進(jìn)行總結(jié)和探討時(shí),因?yàn)樗接邢?,疏漏在所難免。請(qǐng)大家諒解。

引言

大模型將成為通用人工智能的重要途徑。在這個(gè)由0和1編織的數(shù)字時(shí)代,人工智能的騰飛已不是科技夢(mèng)想,而是日益切實(shí)的現(xiàn)實(shí)。其中,大模型作為人工智能的核心力量,正以前所未有的方式重塑著我們的生活、學(xué)習(xí)和工作。無(wú)論是智能語(yǔ)音助手、自動(dòng)駕駛汽車(chē),還是醫(yī)療診斷系統(tǒng),大模型都是幕后英雄,讓這些看似不可思議的事情變?yōu)榭赡堋?/p>

人工智能的發(fā)展歷史

1.1950s-1970s:AI的誕生和早期發(fā)展

?1950年,圖靈測(cè)試的提出,為機(jī)器智能提供了一個(gè)評(píng)估標(biāo)準(zhǔn)。

?1956年,達(dá)特茅斯會(huì)議標(biāo)志著人工智能作為一門(mén)學(xué)科的正式誕生。

?1960年代,早期的AI研究集中在邏輯推理和問(wèn)題解決上。

2.1980s:專(zhuān)家系統(tǒng)的興起

?專(zhuān)家系統(tǒng)的成功應(yīng)用,如MYCIN在醫(yī)學(xué)診斷領(lǐng)域的應(yīng)用。

?機(jī)器學(xué)習(xí)算法開(kāi)始發(fā)展,如決策樹(shù)和早期的神經(jīng)網(wǎng)絡(luò)。

3.1990s:機(jī)器學(xué)習(xí)的進(jìn)展

?反向傳播算法的提出,極大地推動(dòng)了神經(jīng)網(wǎng)絡(luò)的研究。

?1997年,IBM的深藍(lán)擊敗國(guó)際象棋世界冠軍,展示了AI在策略游戲中的能力。

4.2000s:大數(shù)據(jù)和計(jì)算能力的提升

?互聯(lián)網(wǎng)的普及帶來(lái)了海量數(shù)據(jù),為機(jī)器學(xué)習(xí)提供了豐富的訓(xùn)練素材。

?計(jì)算能力的提升,尤其是GPU的廣泛應(yīng)用,加速了深度學(xué)習(xí)的發(fā)展。

5.2010s:深度學(xué)習(xí)革命

?2012年,AlexNet在ImageNet競(jìng)賽中的勝利,標(biāo)志著深度學(xué)習(xí)在圖像識(shí)別領(lǐng)域的突破。

?深度學(xué)習(xí)在語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域取得顯著進(jìn)展。

wKgZomZ1SfWAKix6ABD9IU04ggM691.png

6.2017年:Transformer和自注意力機(jī)制

?2017年,Transformer模型的提出,引入了自注意力機(jī)制,極大地提升了模型的性能。

?Transformer模型在自然語(yǔ)言處理任務(wù)中取得了革命性的成果,如BERT、GPT等模型。

7.2020s:大模型和多模態(tài)學(xué)習(xí)

?大模型如chatGPT、Claude、Gemini、Llama、chatglm、Kimi等等都展示了強(qiáng)大的能力。

?多模態(tài)學(xué)習(xí)的發(fā)展,如CLIP模型,能夠理解和生成跨模態(tài)內(nèi)容。

大模型的本質(zhì)

大模型是能夠從海量數(shù)據(jù)中學(xué)習(xí)、利用這些數(shù)據(jù)進(jìn)行推理,并使用這些推理來(lái)回答用戶(hù)的問(wèn)題或是執(zhí)行特定的任務(wù)。大模型(如ChatGPT、LLM等)在人工智能領(lǐng)域中被廣泛應(yīng)用,其核心理念和工作原理可以總結(jié)為以下幾個(gè)方面:

1. LLM的組成 - 兩個(gè)文件

大模型由以下兩個(gè)關(guān)鍵部分構(gòu)成:一個(gè)是 參數(shù),另一個(gè)是 執(zhí)行代碼。

?參數(shù)集:這是模型的"大腦",包含了通過(guò)訓(xùn)練學(xué)習(xí)到的神經(jīng)網(wǎng)絡(luò)權(quán)重。

?執(zhí)行代碼:這是模型的"引擎",包含用于運(yùn)行參數(shù)集的軟件代碼,可以采用任何編程語(yǔ)言實(shí)現(xiàn)。

訓(xùn)練大模型需要對(duì)大量互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行有損壓縮,是一項(xiàng)計(jì)算量更大的任務(wù),通常需要一個(gè)巨大的GPU集群。

有趣的是,你只需要一臺(tái)標(biāo)準(zhǔn)的計(jì)算機(jī)就可以運(yùn)行像Llama-3這樣的LLM并得出推論。在本地服務(wù)器上運(yùn)行,因此,甚至不需要互聯(lián)網(wǎng)連接。

2. LLM的神經(jīng)網(wǎng)絡(luò)究竟在“想”什么 - 預(yù)測(cè)下一個(gè)單詞

大模型的核心功能之一是預(yù)測(cè)文本序列中的下一個(gè)單詞:

?輸入一個(gè)“部分”句子,如“cat sat on a”。

?利用分布在網(wǎng)絡(luò)中的參數(shù)及其連接關(guān)系預(yù)測(cè)下一個(gè)最可能的單詞,并給出概率。如“mat(97%)”

?模擬了人類(lèi)語(yǔ)言生成的方式,使得模型能夠生成連貫和符合語(yǔ)境的句子,如生成完整的句子“cat sat on a mat”

模型根據(jù)它所獲得的大量訓(xùn)練數(shù)據(jù),生成“合理的延續(xù)”,即生成符合人類(lèi)語(yǔ)言習(xí)慣的文本。

注:Transformer架構(gòu)為這個(gè)神經(jīng)網(wǎng)絡(luò)提供了動(dòng)力。

wKgZomZ1SfeAX2u2AAUkcqgHAuo536.png

3. 神經(jīng)網(wǎng)絡(luò)“真正”的工作方式仍然是個(gè)謎

盡管我們可以將數(shù)十億個(gè)參數(shù)輸入到網(wǎng)絡(luò)中,并通過(guò)反復(fù)微調(diào)訓(xùn)練這些參數(shù),從而獲得更好的預(yù)測(cè)效果,但我們并不完全理解這些參數(shù)在網(wǎng)絡(luò)中是如何準(zhǔn)確協(xié)作的,以及為什么它們能夠生成如此準(zhǔn)確的回答??茖W(xué)上,這種現(xiàn)象被稱(chēng)為涌現(xiàn)。

我們知道,這些參數(shù)構(gòu)建并維護(hù)了某種形式的知識(shí)數(shù)據(jù)庫(kù)。然而,這種數(shù)據(jù)庫(kù)有時(shí)表現(xiàn)得既奇怪又不完美。例如,一個(gè)大型語(yǔ)言模型(LLM)可能會(huì)正確回答“誰(shuí)是小明的母親?”這個(gè)問(wèn)題,但如果你問(wèn)它“X的兒子是誰(shuí)?”,它可能會(huì)回答“我不知道”。這種現(xiàn)象通常被稱(chēng)為遞歸詛咒。

4. 訓(xùn)練大模型的步驟

預(yù)訓(xùn)練,訓(xùn)練需要對(duì)大量互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行有損壓縮,輸出參數(shù)文件

?收集大量互聯(lián)網(wǎng)文本數(shù)據(jù)。

?準(zhǔn)備強(qiáng)大的計(jì)算資源,如GPU集群。

?執(zhí)行訓(xùn)練,生成基本模型。

微調(diào)階段

?準(zhǔn)備高質(zhì)量的訓(xùn)練數(shù)據(jù),如問(wèn)答對(duì)。

?在這些數(shù)據(jù)上調(diào)整模型參數(shù),優(yōu)化性能。

?進(jìn)行評(píng)估和部署,確保模型達(dá)到預(yù)期效果。

wKgaomZ1SfiASQIuAAkmvwkGL-Y298.png

微調(diào)階段 - 比較

對(duì)于每個(gè)問(wèn)題,人工標(biāo)注者都會(huì)比較輔助模型的多個(gè)答案,并標(biāo)注出最佳答案。這一步驟稱(chēng)為從人類(lèi)反饋中強(qiáng)化學(xué)習(xí)(RLHF)。

5. 模型性能提升

1.模型越大,能力越強(qiáng):

?參數(shù)量:模型的規(guī)模通常與其參數(shù)量成正比。參數(shù)是模型學(xué)習(xí)到的知識(shí)的載體,參數(shù)越多,模型能夠捕捉的信息和模式就越豐富,從而能夠處理更復(fù)雜的任務(wù)。

?學(xué)習(xí)能力:大模型通常擁有更強(qiáng)的學(xué)習(xí)能力。它們能夠從大量數(shù)據(jù)中學(xué)習(xí)到更深層次的特征和規(guī)律,這使得它們?cè)谥T如自然語(yǔ)言處理、圖像識(shí)別等任務(wù)上表現(xiàn)更佳。

?泛化能力:大模型往往有更好的泛化能力,即在面對(duì)未見(jiàn)過(guò)的數(shù)據(jù)時(shí),也能做出準(zhǔn)確的預(yù)測(cè)和判斷。

2.工具越多,能力越強(qiáng):

?功能擴(kuò)展:為AI模型提供各種工具,可以使其功能得到顯著擴(kuò)展。例如,集成搜索引擎可以讓模型訪問(wèn)互聯(lián)網(wǎng)信息,增強(qiáng)其回答問(wèn)題的能力。

?多任務(wù)處理:工具的集成使得AI模型能夠同時(shí)處理多種任務(wù)。例如,集成計(jì)算器功能可以讓模型執(zhí)行數(shù)學(xué)計(jì)算,集成編程接口則可以讓模型編寫(xiě)代碼。

?靈活性和適應(yīng)性:擁有多種工具的AI模型更加靈活和適應(yīng)性強(qiáng),能夠根據(jù)任務(wù)需求快速調(diào)整其行為和策略。類(lèi)似于人類(lèi)通過(guò)使用工具解決各種任務(wù)。

面臨的問(wèn)題

幻覺(jué)

幻覺(jué)問(wèn)題指的是大模型在生成文本時(shí)可能會(huì)產(chǎn)生與現(xiàn)實(shí)世界事實(shí)不一致的內(nèi)容。這種現(xiàn)象可以分為幾種類(lèi)型:

1.事實(shí)性幻覺(jué)(Factuality Hallucination):模型生成的內(nèi)容與可驗(yàn)證的現(xiàn)實(shí)世界事實(shí)不一致。大模型可能生成聽(tīng)起來(lái)合理但實(shí)際上錯(cuò)誤的信息,例如,生成一篇關(guān)于一個(gè)不存在的歷史事件的文章,模型可能生成一篇關(guān)于“拿破侖在月球上宣布法國(guó)勝利”的文章,盡管這在現(xiàn)實(shí)中從未發(fā)生過(guò)。

2.忠實(shí)性幻覺(jué)(Faithfulness Hallucination):模型生成的內(nèi)容與用戶(hù)的指令或上下文不一致。例如在一個(gè)關(guān)于健康飲食的討論中,模型可能突然開(kāi)始討論健身運(yùn)動(dòng),盡管這與用戶(hù)的問(wèn)題不直接相關(guān)。

產(chǎn)生幻覺(jué)的原因可能包括:

?使用的數(shù)據(jù)集存在錯(cuò)誤信息或偏見(jiàn)。

?模型過(guò)度依賴(lài)訓(xùn)練數(shù)據(jù)中的模式,可能導(dǎo)致錯(cuò)誤的關(guān)聯(lián)。

?預(yù)訓(xùn)練階段的架構(gòu)缺陷,如基于前一個(gè)token預(yù)測(cè)下一個(gè)token的方式可能阻礙模型捕獲復(fù)雜的上下文關(guān)系。

?對(duì)齊階段的能力錯(cuò)位,即模型的內(nèi)在能力與標(biāo)注數(shù)據(jù)中描述的功能之間可能存在錯(cuò)位。

為了緩解幻覺(jué)問(wèn)題,研究者們提出了多種方法,如改進(jìn)預(yù)訓(xùn)練策略、數(shù)據(jù)清理以消除偏見(jiàn)、知識(shí)編輯、檢索增強(qiáng)生成(RAG)等。

安全性問(wèn)題

安全性問(wèn)題涉及大模型可能遭受的惡意攻擊和濫用,以及它們對(duì)用戶(hù)隱私和數(shù)據(jù)安全的潛在威脅:

1.對(duì)抗樣本攻擊:攻擊者可能構(gòu)造特殊的輸入樣本,導(dǎo)致模型做出錯(cuò)誤的預(yù)測(cè)。

2.后門(mén)攻擊:在模型中植入后門(mén),使得在特定觸發(fā)條件下模型表現(xiàn)出異常行為。

3.成員推斷攻擊:攻擊者嘗試推斷出訓(xùn)練集中是否包含特定的數(shù)據(jù)點(diǎn)。

4.模型竊?。和ㄟ^(guò)查詢(xún)模型來(lái)復(fù)制其功能,侵犯模型版權(quán)。

5.數(shù)據(jù)隱私泄露:模型可能泄露訓(xùn)練數(shù)據(jù)中的敏感信息。

為了提高大模型的安全性,業(yè)界和研究界正在探索多種安全防護(hù)策略,包括:

?加強(qiáng)數(shù)據(jù)的采集和清洗過(guò)程,確保數(shù)據(jù)質(zhì)量和安全性。

?對(duì)模型進(jìn)行加固,提高其抗攻擊能力。

?采用加密存儲(chǔ)和差分隱私技術(shù)來(lái)保護(hù)數(shù)據(jù)隱私。

?增強(qiáng)模型的可解釋性,以便更好地理解和控制模型行為。

相關(guān)技術(shù)

Prompt Engineering (提示詞工程)

是什么

提示詞(prompt)是人與大模型交互的重要媒介。因此,對(duì)提示詞的掌握、使用、研究,便具有非常重大的意義。從人機(jī)交互出發(fā),將大模型視為一種特殊的、很強(qiáng)大的計(jì)算設(shè)備,那么,提示詞之于我們:“prompt是一種新型的自然用戶(hù)界面”。

大多數(shù)的prompt具有以下的形式:由「指令」(instruction)和「內(nèi)容」(content)兩部分構(gòu)成。其中,指令部分為我們需要大模型做的事,如“判斷下列句子的情感”,而內(nèi)容則為真正的句子,如“我今天很高興”。注意,并不是所有的prompt都必須是這樣的形式,如比較簡(jiǎn)短的prompt:“中國(guó)的首都在哪里”、“模仿百年孤獨(dú)的開(kāi)頭寫(xiě)一段話”等這種言簡(jiǎn)意賅的prompt就只有指令、內(nèi)容為空。

wKgaomZ1SfqAOgtjAAEeZr4MYXI678.png

?

Prompt的不同分類(lèi)

Prompt千變?nèi)f化、不可名狀,其主要由以下幾種常見(jiàn)形式構(gòu)成:

?Zero-shot prompt:零樣本的prompt。此為最常見(jiàn)的使用形式。之所以叫zero-shot,是因?yàn)槲覀冎苯佑么竽P妥鋈蝿?wù)而不給其參考示例。這也被視為評(píng)測(cè)大模型能力的重要場(chǎng)景之一。

?Few-shot prompt:與zero-shot相對(duì),在與大模型交互時(shí),在prompt中給出少量示例。

?Role prompt:與大模型玩“角色扮演”游戲。讓大模想象自己是某方面專(zhuān)家、因而獲得更好的任務(wù)效果。

?Instruction prompt:指令形式的prompt。

?Chain-of-thought prompt:常見(jiàn)于推理任務(wù)中,通過(guò)讓大模型“Let's think step by step”來(lái)逐步解決較難的推理問(wèn)題。

?Multimodal prompt:多模態(tài)prompt。顧名思義,輸入不再是單一模態(tài)的prompt,而是包含了眾多模態(tài)的信息。如同時(shí)輸入文本和圖像與多模態(tài)大模型進(jìn)行交互,現(xiàn)在的4o就能做到。

Prompt技巧(后續(xù)章節(jié)詳解)

Prompt或許并不是人類(lèi)與大模型進(jìn)行交互的唯一和最好的方式,但一定是當(dāng)下使用最多的方式。

RAG(Retrieval-Augmented Generation)

什么是RAG

RAG(Retrieval-Augmented Generation)技術(shù)是一種結(jié)合檢索和生成的方法,用于提升大語(yǔ)言模型(LLM)在知識(shí)密集型任務(wù)中的性能。通過(guò)一個(gè)兩階段的過(guò)程提升LLMs的輸出質(zhì)量:

?檢索(Retrieval)階段,可以從各種數(shù)據(jù)源檢索相關(guān)信息;

?生成(Generation)階段,將檢索到的文檔與原始查詢(xún),形成提示模板,一起輸入到生成模型中,產(chǎn)生最終的回答。

這種方法使模型擁有了利用實(shí)時(shí)和外部的知識(shí)庫(kù)(非訓(xùn)練時(shí)使用的數(shù)據(jù))的能力,提高了其在特定問(wèn)題處理上的靈活性和準(zhǔn)確性。

wKgZomZ1SfuAaYRMAAIw7QLPrzg194.png

?

RAG解決什么問(wèn)題

大型語(yǔ)言模型(LLM)雖然在多個(gè)領(lǐng)域展現(xiàn)出了卓越的性能,但在實(shí)際業(yè)務(wù)場(chǎng)景中仍面臨一些挑戰(zhàn):

?知識(shí)的局限性:LLM的知識(shí)僅限于其訓(xùn)練數(shù)據(jù),對(duì)于實(shí)時(shí)性、非公開(kāi)或離線數(shù)據(jù)的獲取存在困難。

?幻覺(jué)問(wèn)題:基于概率的輸出可能導(dǎo)致模型生成不準(zhǔn)確的信息。

?數(shù)據(jù)安全性:企業(yè)對(duì)于數(shù)據(jù)泄露風(fēng)險(xiǎn)的擔(dān)憂(yōu)限制了對(duì)第三方平臺(tái)的依賴(lài)。

為了解決這些問(wèn)題,RAG作為一套有效的解決方案應(yīng)運(yùn)而生。

RAG工作原理

分為三個(gè)部分:索引、檢索、生成。

1.索引 Indexing:處理外部知識(shí)源,將知識(shí)源分割為chunk,編碼為向量,存儲(chǔ)在向量數(shù)據(jù)庫(kù) Vetor-DataBase 中。

2.檢索 Retrieval: 接受用戶(hù)問(wèn)題,將問(wèn)題編碼為向量,用這些向量去向量數(shù)據(jù)庫(kù)中找到最相關(guān)的文檔庫(kù) top-k chunks。

3.生成 Generation: 將檢索到的文檔與原始問(wèn)題一起作為提示 (Promot)輸入到LLM中,生成回答。

wKgaomZ1SfyAE-58AAKRWHwJY9w348.png

?

RAG的優(yōu)勢(shì)

?知識(shí)豐富:RAG能夠訪問(wèn)和利用大量的外部知識(shí),提供更全面的回答。

?上下文相關(guān)性:通過(guò)檢索到的信息,RAG能夠生成與用戶(hù)查詢(xún)高度相關(guān)的響應(yīng)。

?靈活性:適用于問(wèn)答系統(tǒng)、內(nèi)容創(chuàng)作等多種應(yīng)用場(chǎng)景。

?減少幻覺(jué):結(jié)合實(shí)際數(shù)據(jù),降低生成錯(cuò)誤信息的風(fēng)險(xiǎn)。

RAG 的應(yīng)用場(chǎng)景

?問(wèn)答系統(tǒng):RAG可以用于問(wèn)答系統(tǒng),其中檢索模型可以根據(jù)用戶(hù)的問(wèn)題從大規(guī)模的文本數(shù)據(jù)庫(kù)或者互聯(lián)網(wǎng)中檢索相關(guān)答案,生成模型則可以將檢索到的信息轉(zhuǎn)化為自然語(yǔ)言的回答。

?文本摘要:RAG可以用于文本摘要任務(wù),其中檢索模型可以檢索與原文相關(guān)的摘要信息,生成模型則可以基于檢索到的信息生成更準(zhǔn)確和完整的摘要。

?對(duì)話系統(tǒng):RAG可以應(yīng)用于對(duì)話系統(tǒng),其中檢索模型可以檢索與對(duì)話歷史相關(guān)的信息,生成模型則可以基于檢索到的信息生成更連貫和準(zhǔn)確的回復(fù)。

?事實(shí)核查:RAG 可以幫助識(shí)別和生成基于證據(jù)的解釋?zhuān)则?yàn)證陳述的真實(shí)性。

?內(nèi)容推薦在推薦系統(tǒng)中,RAG 可以根據(jù)用戶(hù)的歷史行為和偏好,檢索并生成個(gè)性化的內(nèi)容推薦。

RAG 是一種強(qiáng)大的技術(shù),但它也有一些局限性,比如對(duì)檢索系統(tǒng)性能的依賴(lài),以及可能生成的答案質(zhì)量受限于檢索到的文檔片段的質(zhì)量。隨著技術(shù)的進(jìn)步,RAG 及其變體在處理復(fù)雜的認(rèn)知任務(wù)方面展現(xiàn)出了巨大的潛力。

Agent智能體

為什么出現(xiàn)LLM Agent

近年來(lái),人工智能(AI)和自然語(yǔ)言處理(NLP)技術(shù)迅猛發(fā)展,特別是大型語(yǔ)言模型(LLM)的出現(xiàn),如 OpenAI 的 GPT 系列。這些模型展示了在各種任務(wù)中的卓越表現(xiàn),從文本生成到對(duì)話系統(tǒng)。然而,盡管 LLM 擁有強(qiáng)大的處理和理解能力,它們的應(yīng)用仍然需要進(jìn)一步的優(yōu)化和具體化。LLM Agent 的出現(xiàn)正是為了解決這些需求,實(shí)現(xiàn)更靈活、更智能的自動(dòng)化任務(wù)處理。

1.復(fù)雜任務(wù)需求:傳統(tǒng)的 AI 系統(tǒng)在處理復(fù)雜任務(wù)時(shí)往往需要大量的領(lǐng)域知識(shí)和手工調(diào)試。LLM Agent 通過(guò)預(yù)訓(xùn)練模型和少量的微調(diào),可以更好地適應(yīng)各種復(fù)雜任務(wù)。

2.人機(jī)交互提升:隨著用戶(hù)對(duì)于智能助手和對(duì)話系統(tǒng)的需求不斷增加,LLM Agent 可以提供更自然、更流暢的交互體驗(yàn)。

3.自動(dòng)化和效率:在企業(yè)和個(gè)人生活中,自動(dòng)化任務(wù)需求逐漸增加。LLM Agent 能夠通過(guò)自然語(yǔ)言指令執(zhí)行多種任務(wù),提升效率。

LLM Agent是什么

簡(jiǎn)單來(lái)說(shuō),LLM Agent是基于大型語(yǔ)言模型(如GPT-4)開(kāi)發(fā)的智能代理。它不僅能理解和生成自然語(yǔ)言,還能執(zhí)行一系列復(fù)雜的任務(wù),如回答問(wèn)題、生成文本、進(jìn)行對(duì)話等。想象一下,你的計(jì)算機(jī)能夠像人類(lèi)一樣理解你的問(wèn)題并提供有用的答案。

LLM充當(dāng) Agent 大腦的角色,并由幾個(gè)關(guān)鍵組件組成:規(guī)劃(Planning)、記憶(Memory)、工具(Tool Use)

wKgZomZ1Sf2AWl8uAASVwBs9TAc966.png

?規(guī)劃

?子目標(biāo)拆解復(fù)雜任務(wù)不是一次性就能解決的,需要拆分成多個(gè)并行或串行的子任務(wù)來(lái)進(jìn)行求解,任務(wù)規(guī)劃的目標(biāo)是找到一條最優(yōu)的、能夠解決問(wèn)題的路線。

?反思和完善:智能體可以對(duì)過(guò)去的行為進(jìn)行自我批評(píng)和自我反思,從錯(cuò)誤中吸取教訓(xùn),并針對(duì)未來(lái)的步驟進(jìn)行完善,從而提高最終結(jié)果的質(zhì)量。

?記憶

?短期記憶:所有的上下文學(xué)習(xí)(提示詞工程)都是利用模型的短期記憶來(lái)學(xué)習(xí)。

?長(zhǎng)期記憶:為 Agent 提供了長(zhǎng)時(shí)間保留和回憶(無(wú)限)信息的能力,通常是通過(guò)利用外部向量存儲(chǔ)和快速檢索。

?工具

?調(diào)用外部 API 來(lái)獲取模型權(quán)重中缺失的額外信息(通常在預(yù)訓(xùn)練后很難更改),包括當(dāng)前信息、代碼執(zhí)行能力、對(duì)專(zhuān)有信息源的訪問(wèn)等。

LLM Agent 的優(yōu)勢(shì)

1.高效性:LLM Agent 可以快速理解和處理自然語(yǔ)言指令,減少了任務(wù)處理的時(shí)間和復(fù)雜度。

2.靈活性:通過(guò)少量的微調(diào),LLM Agent 可以適應(yīng)不同的應(yīng)用場(chǎng)景,從而具有很高的靈活性。

3.用戶(hù)體驗(yàn)提升:得益于強(qiáng)大的自然語(yǔ)言處理能力,LLM Agent 能夠提供更加自然和智能的交互體驗(yàn),提升用戶(hù)滿(mǎn)意度。

4.可擴(kuò)展性:LLM Agent 可以不斷學(xué)習(xí)和擴(kuò)展新的功能和知識(shí),使得它在長(zhǎng)期使用中表現(xiàn)越來(lái)越好。

LLM Agent 的應(yīng)用

?自動(dòng)化客服:LLM Agent可以提供24/7的客戶(hù)服務(wù),自動(dòng)回答用戶(hù)的查詢(xún),提高服務(wù)效率和用戶(hù)滿(mǎn)意度。

?內(nèi)容創(chuàng)作:從博客文章到營(yíng)銷(xiāo)文案,LLM Agent可以幫助內(nèi)容創(chuàng)作者生成初稿或提供寫(xiě)作靈感。

?數(shù)據(jù)分析與摘要:LLM Agent可以從大量文本數(shù)據(jù)中提取關(guān)鍵信息,生成報(bào)告摘要,幫助決策者快速獲取信息。

?教育和培訓(xùn):在教育領(lǐng)域,LLM Agent可以提供個(gè)性化的學(xué)習(xí)材料,輔助語(yǔ)言學(xué)習(xí),或者作為智能輔導(dǎo)員。

?研究助手:對(duì)于研究人員,LLM Agent可以幫助文獻(xiàn)搜索、信息整理,甚至參與創(chuàng)造性的研究過(guò)程。

多模態(tài)

多模態(tài)定義

什么是多模態(tài)呢?簡(jiǎn)單來(lái)說(shuō),多模態(tài)就像是一個(gè)多才多藝的藝術(shù)家,能夠同時(shí)使用多種藝術(shù)形式來(lái)創(chuàng)作作品。在AI領(lǐng)域,多模態(tài)模型能夠同時(shí)處理和理解多種類(lèi)型的數(shù)據(jù),比如文字、圖像、聲音和視頻

為什么需要多模態(tài)

為什么我們需要能夠處理多種數(shù)據(jù)類(lèi)型的AI模型呢?原因很簡(jiǎn)單:我們的世界是多模態(tài)的。我們交流和感知世界不僅僅通過(guò)語(yǔ)言,還包括視覺(jué)、聽(tīng)覺(jué)等多種方式。多模態(tài)模型能夠更全面地理解和模擬人類(lèi)的交流和感知方式,使得AI能夠更自然地與人類(lèi)互動(dòng)。

多模態(tài)的作用和特點(diǎn)

多模態(tài)模型就像是我們的大腦,能夠同時(shí)處理和理解來(lái)自眼睛(視覺(jué)信息)、耳朵(聽(tīng)覺(jué)信息)和其他感官的數(shù)據(jù)。作用主要體現(xiàn)在以下幾個(gè)方面:

1.信息整合:能夠?qū)⒉煌?lèi)型的信息整合在一起,提高理解和分析的準(zhǔn)確性。

2.增強(qiáng)表現(xiàn)力:通過(guò)結(jié)合多種數(shù)據(jù)源,模型可以表現(xiàn)出更強(qiáng)的感知和認(rèn)知能力。

3.提高魯棒性:多模態(tài)模型可以在某種類(lèi)型數(shù)據(jù)缺失或不完整的情況下,依靠其他數(shù)據(jù)類(lèi)型來(lái)彌補(bǔ),從而提高整體性能。

與單一模態(tài)的模型相比,多模態(tài)模型具有以下特點(diǎn):

1.多源數(shù)據(jù)處理:能夠同時(shí)處理圖像、文字、聲音等多種數(shù)據(jù)類(lèi)型。

2.更強(qiáng)的泛化能力:在不同的應(yīng)用場(chǎng)景下表現(xiàn)更好,因?yàn)樗鼈兡軌蛘细嗟男畔ⅰ?/p>

多模態(tài)模型的應(yīng)用案例

多模態(tài)模型在很多領(lǐng)域有著廣泛的應(yīng)用。以下是幾個(gè)典型的例子:

1.醫(yī)療診斷:通過(guò)結(jié)合病人的影像數(shù)據(jù)(如X光片)、文字?jǐn)?shù)據(jù)(病歷)和生理數(shù)據(jù)(心電圖),多模態(tài)模型可以提供更準(zhǔn)確的診斷結(jié)果。

2.自動(dòng)駕駛:多模態(tài)模型可以結(jié)合攝像頭圖像、雷達(dá)數(shù)據(jù)和GPS信息,幫助自動(dòng)駕駛汽車(chē)更好地理解周?chē)h(huán)境,提高安全性。

3.智能客服:通過(guò)整合語(yǔ)音識(shí)別、自然語(yǔ)言處理和情感分析,多模態(tài)模型可以提供更自然、更人性化的客服服務(wù)。

多模態(tài)大模型是人工智能領(lǐng)域的重要進(jìn)展,它們通過(guò)整合多種類(lèi)型的數(shù)據(jù),顯著提升了模型的表現(xiàn)力和魯棒性。這不僅使得人工智能系統(tǒng)能夠更好地理解復(fù)雜的現(xiàn)實(shí)世界,也為未來(lái)的技術(shù)發(fā)展帶來(lái)了無(wú)限可能。無(wú)論是在醫(yī)療、交通還是日常生活中,多模態(tài)大模型正逐步改變我們的生活方式。

應(yīng)用實(shí)例(簡(jiǎn)單列舉)

斯坦福小鎮(zhèn)

wKgaomZ1Sf-AFRv2AAhViXXad6c071.png

文生圖 圖生圖 圖生視頻

?

wKgaomZ1SpiAOTROAAKPJtQ4MG4438.png

LLM OS

wKgaomZ1SgKAZjsFAAH1OqcBTtU032.png

上古卷軸破解

wKgaomZ1SgWAboSgABrygJ-qe2s616.png

未來(lái)

wKgaomZ1SgeATjXrAAV-vjj0_As037.png

?

隨著AI技術(shù)的不斷發(fā)現(xiàn)和進(jìn)步,AI與人類(lèi)的協(xié)同關(guān)系將不斷演進(jìn)和深化。我們期待著在未來(lái),AI能夠成為我們最得力的助手和伙伴,共同迎接更加智能和高效的未來(lái)。我們可以預(yù)見(jiàn)以下幾個(gè)趨勢(shì):

?更高的自主性:AI將逐步從輔助工具發(fā)展為能夠獨(dú)立完成復(fù)雜任務(wù)的智能代理。這將解放人類(lèi)的生產(chǎn)力,使我們能夠?qū)W⒂诟邉?chuàng)造性和戰(zhàn)略性的工作。

?更緊密的協(xié)同:AI與人類(lèi)的協(xié)同方式將更加多樣化和靈活化。通過(guò)改進(jìn)人機(jī)交互界面和協(xié)同算法,AI將能夠更好地理解人類(lèi)的意圖和需求,實(shí)現(xiàn)更高效的合作。

?廣泛的應(yīng)用場(chǎng)景:AI技術(shù)將滲透到各行各業(yè),從醫(yī)療、教育到金融、制造業(yè),AI將成為推動(dòng)行業(yè)變革的重要力量。特別是在Agent模式下,AI將能夠在更多領(lǐng)域中自主完成任務(wù),帶來(lái)前所未有的效率提升和創(chuàng)新機(jī)會(huì)。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29806

    瀏覽量

    268103
  • 人工智能
    +關(guān)注

    關(guān)注

    1789

    文章

    46652

    瀏覽量

    237067
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8349

    瀏覽量

    132312
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2274

    瀏覽量

    2356
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    智能駕駛技術(shù)發(fā)展趨勢(shì)

    智能駕駛技術(shù)是當(dāng)前汽車(chē)行業(yè)的重要發(fā)展趨勢(shì)之一,它融合了傳感器技術(shù)、人工智能、大數(shù)據(jù)和云計(jì)算等多種先進(jìn)技術(shù),旨在實(shí)現(xiàn)車(chē)輛的自主駕駛和智能化管理。以下是對(duì)智能駕駛
    的頭像 發(fā)表于 10-23 15:41 ?437次閱讀

    未來(lái)AI大模型的發(fā)展趨勢(shì)

    未來(lái)AI大模型的發(fā)展趨勢(shì)將呈現(xiàn)多元化和深入化的特點(diǎn),以下是對(duì)其發(fā)展趨勢(shì)的分析: 一、技術(shù)驅(qū)動(dòng)與創(chuàng)新 算法與架構(gòu)優(yōu)化 : 隨著Transformer架構(gòu)的廣泛應(yīng)用,AI大
    的頭像 發(fā)表于 10-23 15:06 ?388次閱讀

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    一些局限性。例如,模型可能無(wú)法完全理解文本中的深層含義和語(yǔ)境信息;同時(shí),由于訓(xùn)練數(shù)據(jù)可能存在偏差和噪聲,生成的答案也可能存在不準(zhǔn)確或誤導(dǎo)性的情況。 總結(jié)以下,大語(yǔ)言模型通過(guò)深度學(xué)習(xí)和自然語(yǔ)言處理
    發(fā)表于 08-02 11:03

    AI大模型與傳統(tǒng)AI的區(qū)別

    AI大模型(如LLM,即大型語(yǔ)言模型)與傳統(tǒng)AI在多個(gè)方面存在顯著的區(qū)別。以下將從技術(shù)層面、應(yīng)用場(chǎng)景、性能表現(xiàn)、計(jì)算資源和成本、以及發(fā)展趨勢(shì)和挑戰(zhàn)等角度進(jìn)行詳細(xì)闡述。
    的頭像 發(fā)表于 07-15 11:37 ?2133次閱讀

    模型發(fā)展趨勢(shì):多模態(tài)、自主智能、邊緣智能…

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)近一年多以來(lái),大模型技術(shù)和應(yīng)用都在快速發(fā)展。無(wú)論是OpenAI、谷歌,還是百度、騰訊、字節(jié)等,大模型產(chǎn)品都已經(jīng)經(jīng)過(guò)了多次迭代,應(yīng)用也在不斷拓展。而接下來(lái),大模型
    的頭像 發(fā)表于 06-12 00:06 ?2922次閱讀

    模擬電子技術(shù)知識(shí)點(diǎn)問(wèn)題總結(jié)概覽

    給大家分享模擬電子技術(shù)知識(shí)點(diǎn)問(wèn)題總結(jié)。
    的頭像 發(fā)表于 05-08 15:16 ?1080次閱讀
    模擬電子<b class='flag-5'>技術(shù)</b>知識(shí)點(diǎn)問(wèn)題<b class='flag-5'>總結(jié)</b>概覽

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

    實(shí)際應(yīng)用前需解決的挑戰(zhàn)。為提升大語(yǔ)言模型的性能,高級(jí)的提示詞技術(shù)可以促進(jìn)大語(yǔ)言模型與環(huán)境進(jìn)行動(dòng)態(tài)交互,引導(dǎo)其生成和推理規(guī)劃。 檢索增強(qiáng)生成技術(shù)(RAG)的核心理念在于從知識(shí)庫(kù)或互聯(lián)網(wǎng)
    發(fā)表于 05-07 17:21

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    全面剖析大語(yǔ)言模型的核心技術(shù)與基礎(chǔ)知識(shí)。首先,概述自然語(yǔ)言的基本表示,這是理解大語(yǔ)言模型技術(shù)的前提。接著,詳細(xì)介紹自然語(yǔ)言處理預(yù)訓(xùn)練的經(jīng)典結(jié)構(gòu)Transformer,以及其工作原理,
    發(fā)表于 05-05 12:17

    【大語(yǔ)言模型:原理與工程實(shí)踐】核心技術(shù)綜述

    我也不打算把網(wǎng)上相關(guān)的信息在總結(jié)一下,這樣的話,工作量很大。 我主要看了-大語(yǔ)言模型基礎(chǔ)技術(shù)這節(jié) 大語(yǔ)言模型(Large Language Models,LLMs)的核心
    發(fā)表于 05-05 10:56

    【大語(yǔ)言模型:原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

    大語(yǔ)言模型(LLM)是人工智能領(lǐng)域的尖端技術(shù),憑借龐大的參數(shù)量和卓越的語(yǔ)言理解能力贏得了廣泛關(guān)注。它基于深度學(xué)習(xí),利用神經(jīng)網(wǎng)絡(luò)框架來(lái)理解和生成自然語(yǔ)言文本。這些模型通過(guò)訓(xùn)練海量的文本數(shù)據(jù)集,如
    發(fā)表于 05-04 23:55

    【大語(yǔ)言模型:原理與工程實(shí)踐】探索《大語(yǔ)言模型原理與工程實(shí)踐》

    《大語(yǔ)言模型》是一本深入探討人工智能領(lǐng)域中語(yǔ)言模型的著作。作者通過(guò)對(duì)語(yǔ)言模型的基本概念、基礎(chǔ)技術(shù)、應(yīng)用場(chǎng)景分析,為讀者揭開(kāi)了這一領(lǐng)域的神秘面紗。本書(shū)不僅深入討論了語(yǔ)言
    發(fā)表于 04-30 15:35

    中軟國(guó)際模型工廠:釋放AI紅利,開(kāi)啟大模型普惠黃金時(shí)代

    ? ? 大模型作為當(dāng)前人工智能技術(shù)發(fā)展的前沿趨勢(shì),具備深度學(xué)習(xí)、數(shù)據(jù)處理和模式識(shí)別的強(qiáng)大能力,在這一趨勢(shì)下,大模型正改變著行業(yè)和組織的運(yùn)作方
    的頭像 發(fā)表于 12-07 18:15 ?493次閱讀
    中軟國(guó)際<b class='flag-5'>模型</b>工廠:釋放AI紅利,開(kāi)啟大<b class='flag-5'>模型</b>普惠黃金時(shí)代

    模型數(shù)據(jù)集:構(gòu)建、挑戰(zhàn)與未來(lái)趨勢(shì)

    隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,大型預(yù)訓(xùn)練模型如GPT-4、BERT等在各個(gè)領(lǐng)域取得了顯著的成功。這些大模型背后的關(guān)鍵之一是龐大的數(shù)據(jù)集,為模型提供了豐富的知識(shí)和信息。本文將探討大
    的頭像 發(fā)表于 12-06 15:28 ?1480次閱讀

    情感語(yǔ)音識(shí)別:技術(shù)前沿與未來(lái)趨勢(shì)

    一、引言 情感語(yǔ)音識(shí)別是當(dāng)前人工智能領(lǐng)域的前沿技術(shù),它通過(guò)分析人類(lèi)語(yǔ)音中的情感信息,實(shí)現(xiàn)更加智能化和個(gè)性化的人機(jī)交互。本文將探討情感語(yǔ)音識(shí)別技術(shù)的最新進(jìn)展和未來(lái)趨勢(shì)。 二、情感語(yǔ)音識(shí)別的技術(shù)
    的頭像 發(fā)表于 11-28 18:35 ?537次閱讀

    光束偏轉(zhuǎn)技術(shù)研究現(xiàn)狀及趨勢(shì)分析

    本文系統(tǒng)總結(jié)了機(jī)械式和非機(jī)械式六類(lèi)光束偏轉(zhuǎn)技術(shù)的國(guó)內(nèi)外研究進(jìn)展,根據(jù)不同技術(shù)的偏轉(zhuǎn)特性,從關(guān)鍵指標(biāo)方面比較分析了各類(lèi)光束偏轉(zhuǎn)技術(shù)的特點(diǎn),并從空間應(yīng)用性能需求的角度給出了發(fā)展
    的頭像 發(fā)表于 11-14 09:40 ?941次閱讀
    光束偏轉(zhuǎn)<b class='flag-5'>技術(shù)</b>研究現(xiàn)狀及<b class='flag-5'>趨勢(shì)</b>分析