亚洲av日韩综合一区二区三区,人妻97在线精品无码视频

最近在GitHub上發(fā)現(xiàn)了一個(gè)爆火的開源項(xiàng)目，star數(shù)一頓暴增。

好家伙，湊近一看，居然還是由微軟開源，并且和最近炙手可熱的ChatGPT息息相關(guān)。

項(xiàng)目的名字叫做：Visual ChatGPT。

https://github.com/microsoft/visual-chatgpt

這個(gè)項(xiàng)目最早是3月上旬微軟開源的，項(xiàng)目宣布開源后僅用了短短一周，就斬獲了2w+ star。

截止到目前，距離當(dāng)初項(xiàng)目開源僅僅過去了3周多，倉庫star數(shù)則來到了27k+，亦可謂是火箭式上漲。

眾所周知，ChatGPT自2022年11月推出以來，持續(xù)走紅。

ChatGPT具備強(qiáng)大的會(huì)話能力，可以理解文字、聊天、寫小說、解答問題、編寫代碼... 但是目前還并不能直接處理或生成圖像。

而Visual ChatGPT這個(gè)項(xiàng)目則可以把ChatGPT和一系列視覺基礎(chǔ)模型（VFM，Visual Foundation Model）給聯(lián)系起來，以便實(shí)現(xiàn)在ChatGPT聊天的過程中來發(fā)送和接收?qǐng)D像，也使得ChatGPT能夠處理更為復(fù)雜的視覺任務(wù)。

講白了，就是通過Visual ChatGPT，可以把一系列視覺基礎(chǔ)模型給接入ChatGPT，使得ChatGPT能勝任更為復(fù)雜的視覺處理任務(wù)。

Visual ChatGPT的整體技術(shù)架構(gòu)圖如上所示，我們可以清楚地看到ChatGPT和視覺基礎(chǔ)模型（VFM，Visual Foundation Model）分別位于其中的位置。

一方面，ChatGPT(或LLM)作為一個(gè)通用接口，繼續(xù)發(fā)揮它本身的優(yōu)勢(shì)，提供對(duì)不同話題的智能理解。

另一方面，基礎(chǔ)視覺模型VFM則通過提供特定領(lǐng)域的深入知識(shí)來充當(dāng)領(lǐng)域?qū)＜?，它們通過交互管理模塊（Prompt Manger）進(jìn)行連接和適配。

這樣聊可能比較抽象，我們可以拿官方給的一個(gè)例子來進(jìn)行說明：

1、首先是用戶：輸入一張黃色的向日葵圖片，并且要求ChatGPT根據(jù)該圖像預(yù)測(cè)深度來生成一朵紅花，然后再一步一步將其做成卡通畫。

2、接著是交互管理模塊（Prompt Manger）發(fā)揮作用，在它的協(xié)調(diào)和控制下，VFM模塊開始發(fā)揮作用：

首先需要運(yùn)用深度估計(jì)模型來預(yù)測(cè)并生成圖像的深度信息；

然后需要運(yùn)用深度圖像模型來生成對(duì)應(yīng)空間深度的紅花圖像；

最后運(yùn)用Stable Diffusion的風(fēng)格遷移模型來完成圖像風(fēng)格的變換。

3、最后Visual ChatGPT系統(tǒng)再將最終結(jié)果返回給用戶，完成本次對(duì)話。

說到這里，有興趣的小伙伴可以可以看看微軟給出的一篇有關(guān)Visual ChatGPT的論文：https://arxiv.org/pdf/2303.04671.pdf

https://arxiv.org/pdf/2303.04671.pdf

里面關(guān)于這部分的流程解釋得非常詳細(xì)，而且還給出了多輪對(duì)話的案例、以及實(shí)驗(yàn)結(jié)果，有興趣的小伙伴可以看看。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴