大家好,我是程序羊。
上個(gè)月GPT-4發(fā)布時(shí),我曾寫過一篇文章分享過有關(guān)GPT-4的幾個(gè)關(guān)鍵信息。
當(dāng)時(shí)的分享就提到了GPT-4的一個(gè)重要特性,那就是多模態(tài)能力。
比如發(fā)布會(huì)上演示的,輸入一幅圖(手套掉下去會(huì)怎么樣?)。
GPT-4可以理解并輸出給到:它會(huì)掉到木板上,并且球會(huì)被彈飛。
再比如給GPT-4一張長相奇怪的充電器圖片,問為什么這很可笑?
GPT-4回答道,VGA 線充 iPhone。
用戶甚至還可以直接畫一個(gè)網(wǎng)站草圖拍照丟給GPT-4,它就可以立馬幫助生成代碼。
但是時(shí)間過去了這么久,GPT-4像這樣的識(shí)圖功能也遲遲沒有開放。
就在大家都在等待這個(gè)功能開放的時(shí)候,一個(gè)名為MiniGPT-4的開源項(xiàng)目悄悄做了這件事情。
沒錯(cuò),就是為了增強(qiáng)視覺語言理解。
MiniGPT-4背后團(tuán)隊(duì)來自KAUST(沙特阿卜杜拉國王科技大學(xué)),項(xiàng)目是幾位博士開發(fā)的。
項(xiàng)目除了是開源的之外,而且還提供了網(wǎng)頁版的demo,用戶可以直接進(jìn)去體驗(yàn)。
在線體驗(yàn):https://minigpt-4.github.io
GitHub倉庫:https://github.com/Vision-CAIR/MiniGPT-4
論文:https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf
MiniGPT-4也是基于一些開源大模型來訓(xùn)練得到的。 團(tuán)隊(duì)把圖像編碼器與開源語言模型Vicuna(小羊駝)整合起來,并且凍結(jié)了兩者的大部分參數(shù),只需要訓(xùn)練很少一部分。
訓(xùn)練分為兩個(gè)階段。
傳統(tǒng)預(yù)訓(xùn)練階段,在4張A100上使用500萬圖文對(duì),10個(gè)小時(shí)內(nèi)就可以完成,此時(shí)訓(xùn)練出來的Vicuna已能夠理解圖像,但生成能力有限。
然后在第二個(gè)調(diào)優(yōu)階段再用一些小的高質(zhì)量數(shù)據(jù)集進(jìn)行訓(xùn)練。這時(shí)候的計(jì)算效率很高,單卡A100只需要7分鐘。
并且團(tuán)隊(duì)正在準(zhǔn)備一個(gè)更輕量級(jí)的版本,部署起來只需要23GB顯存,這也就意味著未來可以在一些消費(fèi)級(jí)的顯卡中或許就可以進(jìn)行本地訓(xùn)練了。
這里也給大家看幾個(gè)例子。
比如丟一張食物的照片進(jìn)去來獲得菜譜。
或者給出一張商品的照片來讓其幫忙寫一篇文案。
當(dāng)然也可以像之前GPT-4發(fā)布會(huì)上演示的那樣,畫出一個(gè)網(wǎng)頁,讓其幫忙生成代碼。
可以說,GPT-4發(fā)布會(huì)上演示過的功能,MiniGPT-4基本也都有。
這一點(diǎn)可以說非常amazing了!
可能由于目前使用的人比較多,在MiniGPT-4網(wǎng)頁demo上試用時(shí)會(huì)遇到排隊(duì)的情況,需要在隊(duì)列中等待。
但是用戶也可以自行本地部署服務(wù),過程并不復(fù)雜。
首先是下載項(xiàng)目&準(zhǔn)備環(huán)境:
gitclonehttps://github.com/Vision-CAIR/MiniGPT-4.git cdMiniGPT-4 condaenvcreate-fenvironment.yml condaactivateminigpt4
然后下載預(yù)訓(xùn)練模型:
最后在本地啟動(dòng)Demo:
pythondemo.py--cfg-patheval_configs/minigpt4_eval.yaml
通過這個(gè)項(xiàng)目我們也再一次看出大模型在視覺領(lǐng)域的可行性,未來在圖像、音頻、視頻等方面的應(yīng)用前景應(yīng)該也是非常不錯(cuò)的,我們可以期待一下。
審核編輯 :李倩
-
開源
+關(guān)注
關(guān)注
3文章
3218瀏覽量
42329 -
模型
+關(guān)注
關(guān)注
1文章
3116瀏覽量
48660 -
GPT
+關(guān)注
關(guān)注
0文章
351瀏覽量
15283
原文標(biāo)題:MiniGPT-4,開源了!
文章出處:【微信號(hào):CodeSheep,微信公眾號(hào):CodeSheep】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論