边摸边爱边吃奶免费视频,日日夜夜欧洲亚洲国产,18禁美女裸体无遮挡免费网站

近來，AI領域迎來各個領域的大突破，ChatGPT展現(xiàn)出強大的語言問答能力和推理能力，然而作為一個自然語言模型，它無法處理視覺信息。

與此同時，視覺基礎模型如Visual Transformer或者Stable Diffusion等，則展現(xiàn)出強大的視覺理解和生成能力。

Visual Transformer將ChatGPT作為邏輯處理中心，集成若干視覺基礎模型，從而達到如下效果：

視覺聊天系統(tǒng)Visual ChatGPT可以接收和發(fā)送文本和圖像

提供復雜的視覺問答，或者視覺編輯指令，可以通過多步推理調(diào)用工具來解決復雜視覺任務

可以提供反饋，總結(jié)答案，主動詢問模糊的指令等

這個工作開啟了ChatGPT借助視覺基礎模型作為工具，進行視覺任務處理的研究方向。

論文鏈接：

https://arxiv.org/abs/2303.04671

開源代碼：

https://github.com/microsoft/visual-chatgpt

論文作者：

Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan

機構(gòu)：微軟亞洲研究院

模型效果

工作流程

記對話，第i輪的回復，是通過若干次思考調(diào)用工具的結(jié)果來最終總結(jié)出來的。我們記第i輪對話中，第j次的工具調(diào)用中間答案記作，那么

其中，是全局原則，是各個視覺基礎模型，是歷史會話記憶，是這一輪的用戶輸入，是這輪對話里思考和的歷史，是中間答案，是prompt manager，用于把上面各個功能轉(zhuǎn)化成合理的文本prompt，從而可以交給ChatGPT進行處理。以下圖為例進行講解：

對于用戶輸入，添加于全局原則prompt，工具描述prompt，歷史會話prompt之后，送給ChatGPT進行邏輯推理（Use VFM?）得到推理結(jié)果（就是這一次得到的GPT文本輸出）。經(jīng)過正則匹配進行分析，如果工具調(diào)用結(jié)束，則直接提取總結(jié)輸出作為最終回復，如果是需要繼續(xù)調(diào)用工具，則將提取到的工具名稱、工作參數(shù)，輸入視覺基礎模型，從而得到，置于思考歷史中，進行下一輪推理?；蛘哒f喂給GPT的內(nèi)容為：

第一次問答里，第一個API：

第一次問答里，第二個API:

第一次問答里，第三個API:

第二次問答里，第一個API:

第二次問答里，第二個API:

得到GPT的輸出后，正則匹配進行工具的判斷和解析，最終決定流程。API調(diào)用歷史在每次回答后清空，其中只有最后總結(jié)性的回復被記錄進入對話歷史

細節(jié)描述

: 系統(tǒng)原則的提示符，“Visual ChatGPT是一個可以處理廣泛語言和視覺任務的助手，xxxxxx”。在這個prompt的部分，以下內(nèi)容被強調(diào)：Visual ChatGPT的角色，可以訪問且需要盡可能使用視覺基礎模型，要對文件名稱非常敏感不可以捏造，可以且必須遵循嚴格的Chain-of-Thought思考鏈的格式進行思考（不然正則匹配不出來是否使用函數(shù)和函數(shù)名稱參數(shù)），可靠性等描述。

: 對每個視覺基礎模型的描述，包含工具名稱，使用方法，輸入輸出格式，實例

: 用戶的輸入會被改寫，用來理解圖片和強制GPT思考

：對輸出的處理，鏈式的文件命名，"imaga/{Name}_{Operation}_{Prev_Name}_{Org_Name}.png"，強制修改GPT內(nèi)容，讓GPT降低思考難度，在指代不清時二次詢問用戶等。

Case Study

論文分析了在各個模塊，如果prompt manager設計不到位，會各自出現(xiàn)什么問題：

在中，如果不強調(diào)對圖片文件名的敏感，可能會發(fā)生指代錯誤。如果不強調(diào)思考鏈的格式嚴格，可能正則匹配匹不上。如果不強調(diào)可靠性，不要基于文本上下文腦補，可能會出現(xiàn)不讀圖片直接回答的情況。如果不強調(diào)可以鏈式使用工具，則可能出現(xiàn)一口吃個大胖子而不能一步一步思考的情況。

類似的，對于工具包的描述，也應該對名稱、功能、輸入輸出格式進行嚴格的設計。其中，for example進行舉例影響不大，只要前面描述足夠清楚，GPT可以理解，可以刪掉保存token長度。

對于用戶輸入和工具包輸出的后處理，如圖。比較神奇的是，右上角的舉例里，用ChatGPT自己的口吻來說一些原則（從而讓ChatGPT以為是它自己說的，然后順著說），以及直接讓ChatGPT說到"Thought: Do I need a tool"繼續(xù)生成，能強制進入思考鏈，從而大幅度降低思考難度。左下角的舉例里，對于鏈式的文件命名，問Visual ChatGPT能不能總結(jié)出來文件命名原則，基本總結(jié)正確，這說明此種命名方法，確實可以幫助Visual ChatGPT理解文件的內(nèi)容和依賴關(guān)系，生成路徑。

有意義的啟發(fā)

開啟了ChatGPT處理視覺任務的新大門

NLP --> Natural Language PhotoShop，自然語言文本描述下的圖片創(chuàng)作編輯和問答

可以通過系統(tǒng)設計和工具包設計的Prompt，做到無監(jiān)督的工具調(diào)用，類似于zero-shot的toolformer

ChatGPT本身對仿真場景的能力很強，也讀過圖片路徑和函數(shù)關(guān)系，從而善于使用基礎視覺模型

Prompt很重要，作為純語言模型，前文說它是啥他就仿照啥，除了細致的要求，一定要多夸一夸他，是能力很強的處理模型，那它順著說，能力才會真的強

Visual ChatGPT本身是一個語言模型，所謂的兩方多輪對話只是一個Human: AI: 的多輪特殊形式前文的繼續(xù)生產(chǎn)，所以，完全可以強行給前文AI: 讓ai自己說一些東西出來，是它信了是它自己說的，這能夠極大的降低生成難度。這在本篇論文里對幾個場景的幫助很大。例如，用戶輸入圖片后，改寫為“Human: 上傳了一張圖片，描述為：{}。注意，這里的描述是幫助你理解圖片的，你不能基于它幻想而不調(diào)用工具。如果你理解了，就恢復收到。AI：收到?！弊⒁?，這里AI回復的收到，并不是真的GPT的生成內(nèi)容，而是我們強行寫入進dialogue history memory的，而且可以發(fā)現(xiàn)，AI真的相信了。另外一個點是，在用戶的輸入后面，挨著的應該是GPT自己的思考內(nèi)容，如果我們借它的口，自己說“推理信息僅自己可見，需要在最后總結(jié)的時候把重要信息復述給讀者”，效果比在最前文的prompt里效果好很多，可能是因為距離的原因，也可能是AI自己說出來的原因。另外，可以直接給到"Thought: do i need a tool?"去讓GPT繼續(xù)生成，從而一定進入推理鏈，可以匹配到遠處描述思維鏈格式的prompt內(nèi)容，極大的降低思考難度。

外網(wǎng)評價

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

微軟

微軟

+關(guān)注

關(guān)注
4

文章
6516

瀏覽量
103599
AI

AI

+關(guān)注

關(guān)注
87

文章
28875

瀏覽量
266191
ChatGPT

ChatGPT

+關(guān)注

關(guān)注
28

文章
1517

瀏覽量
6915

原文標題：微軟發(fā)布Visual ChatGPT：視覺模型加持ChatGPT實現(xiàn)絲滑聊天

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

大模型LLM與ChatGPT的技術(shù)原理

與機器的交互方式。這些技術(shù)通過深度學習和自然語言生成（Natural Language Generation, NLG）的結(jié)合，實現(xiàn)了對復雜語言任務的高效處理。本文將深入探討大模型LLM和ChatGPT的技術(shù)原理，并通過代碼示例

發(fā)表于 07-10 10:38 ?403次閱讀

llm模型和chatGPT的區(qū)別

，有許多不同的LLM模型，如BERT、GPT、T5等。 ChatGPT是一種基于GPT（Generative Pre-trained Transformer）模型的聊天機器人。GPT

發(fā)表于 07-09 09:55 ?457次閱讀

OpenAI 深夜拋出王炸 “ChatGPT- 4o”， “她” 來了

當?shù)貢r間5月13日OpenAI推出ChatGPT-4o，代表了人工智能向前邁出的一大步。在GPT-4turbo的強大基礎上，這種迭代擁有顯著的改進。在發(fā)布會的演示中，OpenAI展示該模型的高級

發(fā)表于 05-27 15:43

【Longan Pi 3H 開發(fā)板試用連載體驗】給ChatGPT裝上眼睛，還可以語音對話

結(jié)果整合，整合后再輸入ChatGPT或其他大語言模型。最后再將大語言模型的輸出結(jié)果利用TTS轉(zhuǎn)化為語音進行播放。實現(xiàn)Chatgpt多模態(tài)輸入

發(fā)表于 04-12 12:41

在FPGA設計中是否可以應用ChatGPT生成想要的程序呢

當下AI人工智能崛起，很多開發(fā)領域都可看到ChatGPT的身影，F(xiàn)PGA設計中，是否也可以用ChatGPT輔助設計呢？

發(fā)表于 03-28 23:41

微軟和OpenAI面臨關(guān)于ChatGPT和Copilot的更多訴訟指控

這三家媒體指責 OpenAI 聊天機器人 ChatGPT（微軟Copilot也使用此項技術(shù)）在訓練過程中，未經(jīng)授權(quán)便擅自拷貝了發(fā)布于自家網(wǎng)站的文章。他們宣稱，若用戶知曉

發(fā)表于 02-29 11:28 ?415次閱讀

【國產(chǎn)FPGA+OMAPL138開發(fā)板體驗】（原創(chuàng)）6.FPGA連接ChatGPT 4

訪問ChatGPT 4這樣的AI模型是非常復雜的，因為這涉及到大量的數(shù)據(jù)傳輸、協(xié)議實現(xiàn)、并行處理、優(yōu)化等等。更重要的是，ChatGPT 4這樣的模型

發(fā)表于 02-14 21:58

OpenAI推出Vision Pro版ChatGPT

OpenAI近日宣布，其知名聊天機器人ChatGPT已正式進駐蘋果Vision Pro的visionOS App Store，用戶現(xiàn)在可以直接在visionOS上下載并使用這款應用。盡管在visionOS上的顯示效果與iPad版本相似，但

發(fā)表于 02-06 16:01 ?703次閱讀

微軟推出Copilot安卓應用類似ChatGPT功能

微軟在安卓系統(tǒng)上的Copilot應用程序與ChatGPT非常相似，可以訪問聊天機器人功能，通過DALL-E 3生成圖像，并可以為電子郵件和文檔起草文本。它還包括免費訪問OpenAI最新的GPT-4

發(fā)表于 12-28 16:59 ?906次閱讀

ChatGPT原理 ChatGPT模型訓練 chatgpt注冊流程相關(guān)簡介

ChatGPT注冊沒有外國手機號驗證怎么辦？ ChatGPT作為近期火爆網(wǎng)絡的AI項目，受到了前所未有的關(guān)注。我們可以與AI機器人實時聊天，獲得問題的答案。但受ChatGPT服務器及相

發(fā)表于 12-06 16:28 ?712次閱讀

不到1分鐘開發(fā)一個GPT應用！各路大神瘋狂整活，網(wǎng)友：ChatGPT就是新iPhone

這個說法并不準確。盡管ChatGPT等語言模型已經(jīng)在一定程度上改變了我們獲取信息、學習知識的方式，但它們并不能替代人類進行創(chuàng)造性思考和創(chuàng)造性活動。雖然一些人可能會利用ChatGPT等語言模型

發(fā)表于 11-19 12:06

怎么和ChatGPT語音聊天？

ChatGPT語音聊天免打字輸入、訓練外語口說能力的好幫手。 ChatGPT手機App的語音聊天功能是陸續(xù)開放給全球Plus用戶，ChatGPT

發(fā)表于 11-14 17:36 ?2945次閱讀

突發(fā) ！微軟員工被禁止使用ChatGPT

許多大公司都限制訪問ChatGPT，通常是為了防止員工與其共享機密數(shù)據(jù)。經(jīng)過廣泛的互聯(lián)網(wǎng)數(shù)據(jù)訓練，ChatGPT可以對人們的聊天信息做出類似真人的回應。該服務擁有超過1億用戶。

發(fā)表于 11-10 15:57 ?876次閱讀

微軟內(nèi)部禁止員工使用ChatGPT

近期消息報道，微軟內(nèi)部禁止員工使用OpenAI產(chǎn)品ChatGPT。最新的微軟內(nèi)部網(wǎng)站消息顯示，：“出于安全和數(shù)據(jù)方面的考慮，許多AI工具不再供員工使用?！?/div>
發(fā)表于 11-10 15:39 ?797次閱讀

因安全和數(shù)據(jù)問題，微軟短暫禁用ChatGPT

對此，微軟方面解釋說：“暫時關(guān)閉chatgpt是在測試大型語言模型系統(tǒng)的過程中發(fā)生的錯誤?！睋?jù)微軟發(fā)言人透露，微軟方面正在測試端點控制器系統(tǒng)

發(fā)表于 11-10 14:31 ?516次閱讀