0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

MiniGPT-4,開源了!

CodeSheep ? 來源:CodeSheep ? 2023-04-24 11:34 ? 次閱讀

大家好,我是程序羊。

上個(gè)月GPT-4發(fā)布時(shí),我曾寫過一篇文章分享過有關(guān)GPT-4的幾個(gè)關(guān)鍵信息。

當(dāng)時(shí)的分享就提到了GPT-4的一個(gè)重要特性,那就是多模態(tài)能力。

比如發(fā)布會(huì)上演示的,輸入一幅圖(手套掉下去會(huì)怎么樣?)。

007e6b54-df25-11ed-bfe3-dac502259ad0.gif

GPT-4可以理解并輸出給到:它會(huì)掉到木板上,并且球會(huì)被彈飛。

再比如給GPT-4一張長相奇怪的充電器圖片,問為什么這很可笑?

00994992-df25-11ed-bfe3-dac502259ad0.png

GPT-4回答道,VGA 線充 iPhone。

用戶甚至還可以直接畫一個(gè)網(wǎng)站草圖拍照丟給GPT-4,它就可以立馬幫助生成代碼。

00c3b556-df25-11ed-bfe3-dac502259ad0.gif

01369ab2-df25-11ed-bfe3-dac502259ad0.gif

但是時(shí)間過去了這么久,GPT-4像這樣的識(shí)圖功能也遲遲沒有開放。

就在大家都在等待這個(gè)功能開放的時(shí)候,一個(gè)名為MiniGPT-4的開源項(xiàng)目悄悄做了這件事情。

01593b58-df25-11ed-bfe3-dac502259ad0.png

沒錯(cuò),就是為了增強(qiáng)視覺語言理解。

MiniGPT-4背后團(tuán)隊(duì)來自KAUST(沙特阿卜杜拉國王科技大學(xué)),項(xiàng)目是幾位博士開發(fā)的。

01737b8a-df25-11ed-bfe3-dac502259ad0.png

項(xiàng)目除了是開源的之外,而且還提供了網(wǎng)頁版的demo,用戶可以直接進(jìn)去體驗(yàn)。

0191295a-df25-11ed-bfe3-dac502259ad0.png

在線體驗(yàn):https://minigpt-4.github.io

GitHub倉庫:https://github.com/Vision-CAIR/MiniGPT-4

論文:https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

MiniGPT-4也是基于一些開源大模型來訓(xùn)練得到的。 團(tuán)隊(duì)把圖像編碼器與開源語言模型Vicuna(小羊駝)整合起來,并且凍結(jié)了兩者的大部分參數(shù),只需要訓(xùn)練很少一部分。

訓(xùn)練分為兩個(gè)階段。

傳統(tǒng)預(yù)訓(xùn)練階段,在4張A100上使用500萬圖文對(duì),10個(gè)小時(shí)內(nèi)就可以完成,此時(shí)訓(xùn)練出來的Vicuna已能夠理解圖像,但生成能力有限。

然后在第二個(gè)調(diào)優(yōu)階段再用一些小的高質(zhì)量數(shù)據(jù)集進(jìn)行訓(xùn)練。這時(shí)候的計(jì)算效率很高,單卡A100只需要7分鐘。

01ac601c-df25-11ed-bfe3-dac502259ad0.png

并且團(tuán)隊(duì)正在準(zhǔn)備一個(gè)更輕量級(jí)的版本,部署起來只需要23GB顯存,這也就意味著未來可以在一些消費(fèi)級(jí)的顯卡中或許就可以進(jìn)行本地訓(xùn)練了。

這里也給大家看幾個(gè)例子。

比如丟一張食物的照片進(jìn)去來獲得菜譜。

01c5f180-df25-11ed-bfe3-dac502259ad0.gif

或者給出一張商品的照片來讓其幫忙寫一篇文案。

024aa880-df25-11ed-bfe3-dac502259ad0.gif

當(dāng)然也可以像之前GPT-4發(fā)布會(huì)上演示的那樣,畫出一個(gè)網(wǎng)頁,讓其幫忙生成代碼。

028fe8aa-df25-11ed-bfe3-dac502259ad0.gif

可以說,GPT-4發(fā)布會(huì)上演示過的功能,MiniGPT-4基本也都有。

這一點(diǎn)可以說非常amazing了!

可能由于目前使用的人比較多,在MiniGPT-4網(wǎng)頁demo上試用時(shí)會(huì)遇到排隊(duì)的情況,需要在隊(duì)列中等待。

02cb7104-df25-11ed-bfe3-dac502259ad0.png

但是用戶也可以自行本地部署服務(wù),過程并不復(fù)雜。

首先是下載項(xiàng)目&準(zhǔn)備環(huán)境:

gitclonehttps://github.com/Vision-CAIR/MiniGPT-4.git cdMiniGPT-4 condaenvcreate-fenvironment.yml condaactivateminigpt4

然后下載預(yù)訓(xùn)練模型:

02dc6c02-df25-11ed-bfe3-dac502259ad0.png

最后在本地啟動(dòng)Demo:

pythondemo.py--cfg-patheval_configs/minigpt4_eval.yaml

通過這個(gè)項(xiàng)目我們也再一次看出大模型在視覺領(lǐng)域的可行性,未來在圖像、音頻視頻等方面的應(yīng)用前景應(yīng)該也是非常不錯(cuò)的,我們可以期待一下。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3218

    瀏覽量

    42329
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3116

    瀏覽量

    48660
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    351

    瀏覽量

    15283

原文標(biāo)題:MiniGPT-4,開源了!

文章出處:【微信號(hào):CodeSheep,微信公眾號(hào):CodeSheep】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    開源硬件板塊正式開版,回帖有獎(jiǎng)?。?!

    @ 開源雜志《openbook》入駐論壇!期待更多的創(chuàng)客們加入我們!回帖獎(jiǎng)勵(lì)2積分,“美人”限一次!{:4_103:}
    發(fā)表于 10-07 21:52

    開源4G遠(yuǎn)程GPS定位器

    概述: ? SB-FL01 是一款基于《ShineBlink 低代碼核心模組》開發(fā)的《4G遠(yuǎn)程GPS定位器》設(shè)備,可實(shí)現(xiàn)GPS定位信息獲取、UTC時(shí)間獲取功能。該設(shè)備的配置方式極其簡(jiǎn)單,用戶無需在
    發(fā)表于 05-30 11:54

    開源】智慧氣象盒子(4G_GPS)

    大量的教程以供學(xué)習(xí)。 (2)關(guān)于樣機(jī)的制作(幫忙) 請(qǐng)聯(lián)系本開源設(shè)計(jì)的作者 (3)需要特殊定制其他功能或者批量 請(qǐng)聯(lián)系本開源設(shè)計(jì)的作者 關(guān)于作者: gitee 站內(nèi)私信(推薦) 如果喜歡本項(xiàng)
    發(fā)表于 06-05 09:36

    iOS版餓么使用的開源項(xiàng)目

    前不久,猿妹才發(fā)現(xiàn)支付寶使用了三十多款開源軟件,今天打開餓么發(fā)現(xiàn),餓么也使用了33款開源軟件。
    的頭像 發(fā)表于 05-31 14:24 ?8669次閱讀

    4路交通燈開源項(xiàng)目

    電子發(fā)燒友網(wǎng)站提供《4路交通燈開源項(xiàng)目.zip》資料免費(fèi)下載
    發(fā)表于 07-07 14:37 ?2次下載
    <b class='flag-5'>4</b>路交通燈<b class='flag-5'>開源</b>項(xiàng)目

    4位加法器開源分享

    電子發(fā)燒友網(wǎng)站提供《4位加法器開源分享.zip》資料免費(fèi)下載
    發(fā)表于 07-08 09:33 ?3次下載
    <b class='flag-5'>4</b>位加法器<b class='flag-5'>開源</b>分享

    iv-4數(shù)碼時(shí)鐘開源項(xiàng)目

    電子發(fā)燒友網(wǎng)站提供《iv-4數(shù)碼時(shí)鐘開源項(xiàng)目.zip》資料免費(fèi)下載
    發(fā)表于 07-11 15:46 ?0次下載
    iv-<b class='flag-5'>4</b>數(shù)碼時(shí)鐘<b class='flag-5'>開源</b>項(xiàng)目

    名片大小4位時(shí)鐘開源項(xiàng)目

    電子發(fā)燒友網(wǎng)站提供《名片大小4位時(shí)鐘開源項(xiàng)目.zip》資料免費(fèi)下載
    發(fā)表于 07-12 11:03 ?0次下載
    名片大小<b class='flag-5'>4</b>位時(shí)鐘<b class='flag-5'>開源</b>項(xiàng)目

    樹莓派4RGB帽子開源

    電子發(fā)燒友網(wǎng)站提供《樹莓派4RGB帽子開源.zip》資料免費(fèi)下載
    發(fā)表于 07-25 14:34 ?0次下載
    樹莓派<b class='flag-5'>4</b>RGB帽子<b class='flag-5'>開源</b>

    模擬開關(guān)模塊4通道開源

    電子發(fā)燒友網(wǎng)站提供《模擬開關(guān)模塊4通道開源.zip》資料免費(fèi)下載
    發(fā)表于 07-26 09:50 ?2次下載
    模擬開關(guān)模塊<b class='flag-5'>4</b>通道<b class='flag-5'>開源</b>

    4ChannelLedStrip控制與Nodemcu開源分享

    電子發(fā)燒友網(wǎng)站提供《4ChannelLedStrip控制與Nodemcu開源分享.zip》資料免費(fèi)下載
    發(fā)表于 08-18 10:02 ?3次下載
    <b class='flag-5'>4</b>ChannelLedStrip控制與Nodemcu<b class='flag-5'>開源</b>分享

    ProDOS ROM Drive v4開源

    電子發(fā)燒友網(wǎng)站提供《ProDOS ROM Drive v4開源.zip》資料免費(fèi)下載
    發(fā)表于 08-22 16:19 ?2次下載
    ProDOS ROM Drive v<b class='flag-5'>4</b><b class='flag-5'>開源</b>

    44鍵盤開源分享

    電子發(fā)燒友網(wǎng)站提供《44鍵盤開源分享.zip》資料免費(fèi)下載
    發(fā)表于 10-19 14:55 ?0次下載
    <b class='flag-5'>4</b>乘<b class='flag-5'>4</b>鍵盤<b class='flag-5'>開源</b>分享

    4位RTC時(shí)鐘開源分享

    電子發(fā)燒友網(wǎng)站提供《4位RTC時(shí)鐘開源分享.zip》資料免費(fèi)下載
    發(fā)表于 10-31 10:33 ?0次下載
    <b class='flag-5'>4</b>位RTC時(shí)鐘<b class='flag-5'>開源</b>分享

    4芯18650充電模塊開源分享

    電子發(fā)燒友網(wǎng)站提供《4芯18650充電模塊開源分享.zip》資料免費(fèi)下載
    發(fā)表于 06-09 09:17 ?0次下載
    <b class='flag-5'>4</b>芯18650充電模塊<b class='flag-5'>開源</b>分享