0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI又放大招:連接文本與圖像的CLIP

新機(jī)器視覺 ? 來源:AI科技評(píng)論 ? 作者:AI科技評(píng)論 ? 2021-04-18 10:42 ? 次閱讀

2020年,通用模型產(chǎn)生了經(jīng)濟(jì)價(jià)值,特別是GPT-3,它的出現(xiàn)證明了大型語言模型具有驚人的語言能力,并且在執(zhí)行其他任務(wù)方面也毫不遜色。

2021年,OpenAI 聯(lián)合創(chuàng)始人 Ilya Sutskever預(yù)測(cè)語言模型會(huì)轉(zhuǎn)向視覺領(lǐng)域。他說:“下一代模型,或許可以針對(duì)文本輸入,從而編輯和生成圖像?!?/p>

cbdba506-9fbb-11eb-8b86-12bb97331649.png

聽話聽音!OpenAI 踐行了這一想法,幾個(gè)小時(shí)前,OpenAI通過官方推特發(fā)布了兩個(gè)嶄新的網(wǎng)絡(luò),一個(gè)叫DALL-E(參見今天推送的頭條),能夠通過給定的文本創(chuàng)建出圖片;一個(gè)叫CLIP,能夠?qū)D像映射到文本描述的類別中。

其中,CLIP可以通過自然語言監(jiān)督有效學(xué)習(xí)視覺概念,從而解決目前深度學(xué)習(xí)主流方法存在的幾個(gè)問題:

1.需要大量的訓(xùn)練數(shù)據(jù)集,從而導(dǎo)致較高的創(chuàng)建成本。

2.標(biāo)準(zhǔn)的視覺模型,往往只擅長(zhǎng)一類任務(wù),遷移到其他任務(wù),需要花費(fèi)巨大的成本。

3.在基準(zhǔn)上表現(xiàn)良好的模型,在測(cè)試中往往不盡人意。

具體而言,OpenAI從互聯(lián)網(wǎng)收集的4億(圖像、文本)對(duì)的數(shù)據(jù)集,在預(yù)訓(xùn)練之后,用自然語言描述所學(xué)的視覺概念,從而使模型能夠在zero-shot狀態(tài)下轉(zhuǎn)移到下游任務(wù)。這種設(shè)計(jì)類似于GPT-2和GPT-3的“zero-shot”。

這一點(diǎn)非常關(guān)鍵,因?yàn)檫@意味著,可以不直接針對(duì)基準(zhǔn)進(jìn)行優(yōu)化,同時(shí)表現(xiàn)出了優(yōu)越的性能:穩(wěn)健性差距(robustness gap)縮小了75%,性能和ResNet507相當(dāng)。換句話說。無需使用其訓(xùn)練的128萬個(gè)訓(xùn)練樣本中的任何一個(gè),即可與原始ResNet-50 在 Image Net Zero-shot的精確度相匹配。

cc10765a-9fbb-11eb-8b86-12bb97331649.png

如上圖所示,雖然兩個(gè)模型在ImageNet測(cè)試集上的準(zhǔn)確度相差無幾,但CLIP的性能更能代表在非ImageNet設(shè)置下的表現(xiàn)。

CLIP網(wǎng)絡(luò)中做了大量的工作是關(guān)于zero-shot 遷移的學(xué)習(xí)、自然語言監(jiān)督、多模態(tài)學(xué)習(xí)。其實(shí),關(guān)于零數(shù)據(jù)學(xué)習(xí)的想法可以追溯到十年前,但是最近在計(jì)算機(jī)視覺中火了起來。零數(shù)據(jù)學(xué)習(xí)的一個(gè)重點(diǎn)是:利用自然語言作為靈活的預(yù)測(cè)空間,從而實(shí)現(xiàn)泛化和遷移。另外,在2013年,斯坦福大學(xué)的Richer Socher通過訓(xùn)練CIFAR-10上的一個(gè)模型,在詞向量嵌入空間中進(jìn)行預(yù)測(cè),并表明模型可以預(yù)測(cè)兩個(gè)“未見過”的類別。Richer的工作提供了一個(gè)概念證明。

CLIP是過去一年,從自然語言監(jiān)督中學(xué)習(xí)視覺表征工作中的一部分。CLIP使用了更現(xiàn)代的架構(gòu),如Transformer,包括探索自回歸語言建模的Virtex,研究掩蔽語言建模的ICMLM等等。

1

方法

前面也提到,CLIP訓(xùn)練的數(shù)據(jù)來源于互聯(lián)網(wǎng)上4億數(shù)據(jù)對(duì)。用這些數(shù)據(jù),CLIP需要完成的任務(wù)是:給定一幅圖像,在32,768個(gè)隨機(jī)抽樣的文本片段中,找到能夠匹配的那一個(gè)。

完成這個(gè)任務(wù),需要CLIP模型學(xué)會(huì)識(shí)別圖像中的各種視覺概念,并將概念和圖片相關(guān)聯(lián)。因此,CLIP模型可以應(yīng)用于幾乎任意的視覺分類任務(wù)。

例如,如果一個(gè)數(shù)據(jù)集的任務(wù)是對(duì)狗與貓的照片進(jìn)行分類,而CLIP模型預(yù)測(cè) “一張狗的照片 ”和 “一張貓的照片 ”這兩個(gè)文字描述哪個(gè)更匹配。

cc99980e-9fbb-11eb-8b86-12bb97331649.png

如上圖所示,CLIP網(wǎng)絡(luò)工作流程:預(yù)訓(xùn)練圖編碼器和文本編碼器,以預(yù)測(cè)數(shù)據(jù)集中哪些圖像與哪些文本配對(duì)。然后,將CLIP轉(zhuǎn)換為zero-shot分類器。

此外,將數(shù)據(jù)集的所有類轉(zhuǎn)換為諸如“一只狗的照片”之類的標(biāo)簽,并預(yù)測(cè)最佳配對(duì)的圖像。

總體而言,CLIP能夠解決:

1.昂貴的數(shù)據(jù)集:ImageNet中1400萬張圖片的標(biāo)注,動(dòng)用了25,000名勞動(dòng)力。相比之下,CLIP使用的是已經(jīng)在互聯(lián)網(wǎng)上公開提供的文本-圖像對(duì)。自我監(jiān)督學(xué)習(xí)、對(duì)比方法、自我訓(xùn)練方法和生成式建模也可以減少對(duì)標(biāo)注圖像的依賴。

2.任務(wù)單一:CLIP可以適用于執(zhí)行各種視覺分類任務(wù),而不需要額外的訓(xùn)練。

3.實(shí)際應(yīng)用性能不佳:深度學(xué)習(xí)中“基準(zhǔn)性能”與“實(shí)際性能”之間存在差距是一直以來的“痛”。這種差距之所以會(huì)出現(xiàn),是因?yàn)槟P汀白鞅住?,即僅優(yōu)化其在基準(zhǔn)上的性能,就像一個(gè)學(xué)生僅僅通過研究過去幾年的試題就能通過考試一樣。

CLIP模型可以不必在數(shù)據(jù)上訓(xùn)練,而是直接在基準(zhǔn)上進(jìn)行評(píng)估,因此無法以這種方式來“作弊”。此外,為了驗(yàn)證“作弊的假設(shè)”,測(cè)量了CLIP在有能力“研究” ImageNet時(shí)性能會(huì)如何變化。

當(dāng)線性分類器根據(jù)CLIP的特性安裝時(shí),線性分類器能夠?qū)LIP在ImageNet測(cè)試儀上的準(zhǔn)確性提高近10%。但是,在評(píng)估“魯棒性”的性能時(shí),這個(gè)分類器在其余7個(gè)數(shù)據(jù)集的評(píng)估套件中并沒有取得更好的平均表現(xiàn)。

2

優(yōu)勢(shì)1. CLIP非常高效

CLIP從未經(jīng)過濾的、變化多端的、極其嘈雜的數(shù)據(jù)中學(xué)習(xí),且希望能夠在零樣本的情況下使用。從GPT-2和GPT-3中,我們可以知道,基于此類數(shù)據(jù)訓(xùn)練的模型可以實(shí)現(xiàn)出色的零樣本性能;但是,這類模型需要大量的訓(xùn)練計(jì)算。為了減少所需的計(jì)算,我們專注研究算法,以提高我們所使用方法的訓(xùn)練效率。我們介紹了兩種能夠節(jié)省大量計(jì)算的算法。

第一個(gè)算法是采用對(duì)比目標(biāo)(contrastive objective),將文本與圖像連接起來。最初我們探索了一種類似于VirTex的圖像到文本的方法,但這種方法在拓展以實(shí)現(xiàn)最先進(jìn)的性能時(shí)遇到了困難。在一些小型與中型實(shí)驗(yàn)中,我們發(fā)現(xiàn)CLIP所使用的對(duì)比目標(biāo)在零樣本ImageNet分類中的效率提高了4到10倍。

第二個(gè)算法是采用Vision Transformer,這個(gè)算法使我們的計(jì)算效率比在標(biāo)準(zhǔn)ResNet上提高了3倍。最后,性能最好的CLIP模型與現(xiàn)有的大規(guī)模圖像模型相似,在256個(gè)GPU上訓(xùn)練了2周。我們最初是嘗試訓(xùn)練圖像到字幕的語言模型,但發(fā)現(xiàn)這種方法在零樣本遷移方面遇到了困難。在16 GPU的日實(shí)驗(yàn)中,一個(gè)語言在訓(xùn)練了4億張圖像后,在ImageNet上僅達(dá)到16%的準(zhǔn)確性。CLIP的效率更高,且以大約快10倍的速度達(dá)到了相同的準(zhǔn)確度。

2. CLIP靈活且通用

由于CLIP模型可以直接從自然語言中學(xué)習(xí)許多視覺概念,因此它們比現(xiàn)有的ImageNet模型更加靈活與通用。我們發(fā)現(xiàn),CLIP模型能夠在零樣本下執(zhí)行許多不同的任務(wù)。為了驗(yàn)證這一點(diǎn),我們?cè)?0多個(gè)數(shù)據(jù)集上測(cè)量了CLIP的零樣本性能,任務(wù)包括細(xì)粒度物體分類,地理定位,視頻中的動(dòng)作識(shí)別和OCR等。其中,學(xué)習(xí)OCR時(shí),CLIP取得了在標(biāo)準(zhǔn)ImageNet模型中所無法實(shí)現(xiàn)的令人興奮的效果。

比如,我們對(duì)每個(gè)零樣本分類器的隨機(jī)非櫻桃采摘預(yù)測(cè)進(jìn)行了可視化。這一發(fā)現(xiàn)也反映在使用線性探測(cè)學(xué)習(xí)評(píng)估的標(biāo)準(zhǔn)表示中。

我們測(cè)試了26個(gè)不同的遷移數(shù)據(jù)集,其中最佳的CLIP模型在20個(gè)數(shù)據(jù)集上的表現(xiàn)都比最佳的公開ImageNet模型(Noisy Student EfficientNet-L2)出色。

在27個(gè)測(cè)試任務(wù)的數(shù)據(jù)集中,測(cè)試任務(wù)包括細(xì)粒度物體分類,OCR,視頻活動(dòng)識(shí)別以及地理定位,我們發(fā)現(xiàn)CLIP模型學(xué)會(huì)了使用效果更廣泛的圖像表示。與先前的10種方法相比,CLIP模型的計(jì)算效率也更高。

3

局限性

盡管CLIP在識(shí)別常見物體上的表現(xiàn)良好,但在一些更抽象或系統(tǒng)的任務(wù)(例如計(jì)算圖像中的物體數(shù)量)和更復(fù)雜的任務(wù)(例如預(yù)測(cè)照片中距離最近的汽車有多近)上卻遇到了困難。

在這兩個(gè)數(shù)據(jù)集上,零樣本CLIP僅僅比隨機(jī)猜測(cè)要好一點(diǎn)點(diǎn)。與其他模型相比,在非常細(xì)粒度分類的任務(wù)上,例如區(qū)分汽車模型、飛機(jī)型號(hào)或花卉種類時(shí),零樣本CLIP的表現(xiàn)也不好。

對(duì)于不包含在其預(yù)訓(xùn)練數(shù)據(jù)集內(nèi)的圖像,CLIP進(jìn)行泛化的能力也很差。

例如,盡管CLIP學(xué)習(xí)了功能強(qiáng)大的OCR系統(tǒng),但從MNIST數(shù)據(jù)集的手寫數(shù)字上進(jìn)行評(píng)估時(shí),零樣本CLIP只能達(dá)到88%的準(zhǔn)確度,遠(yuǎn)遠(yuǎn)低于人類在數(shù)據(jù)集中的99.75%精確度。

最后,我們觀察到,CLIP的零樣本分類器對(duì)單詞構(gòu)造或短語構(gòu)造比較敏感,有時(shí)還需要試驗(yàn)和錯(cuò)誤“提示引擎”才能表現(xiàn)良好。

4

更廣的影響

CLIP允許人們?cè)O(shè)計(jì)自己的分類器,且無需使用任務(wù)特定的訓(xùn)練數(shù)據(jù)。

設(shè)計(jì)分類的方式會(huì)嚴(yán)重影響模型的性能和模型的偏差。例如,我們發(fā)現(xiàn),如果給定一組標(biāo)簽,其中包括Fairface種族標(biāo)簽和少數(shù)令人討厭的術(shù)語,例如“犯罪”,“動(dòng)物”等,那么該模型很可能將大約32.3%的年齡為0至20歲的人的圖像化為糟糕的類別。但是,當(dāng)我們添加“兒童”這一類別時(shí),分類比率將下降到大約8.7%。

此外,由于CLIP不需要任務(wù)特定的訓(xùn)練數(shù)據(jù),因此它可以更輕松地解鎖某些任務(wù)。

一些任務(wù)可能會(huì)增加隱私或監(jiān)視相關(guān)的風(fēng)險(xiǎn),因此我們通過研究CLIP在名人識(shí)別方面的表現(xiàn)來探索這一擔(dān)憂。對(duì)100個(gè)名人圖像進(jìn)行識(shí)別時(shí),CLIP實(shí)際分類的準(zhǔn)確率最高為59.2%,對(duì)1000個(gè)名人進(jìn)行識(shí)別時(shí),準(zhǔn)確率最高為43.3%。值得注意的是,盡管通過任務(wù)不可知的預(yù)訓(xùn)練可以達(dá)到這些效果,但與廣泛使用的生產(chǎn)級(jí)別模型相比,該性能并不具有競(jìng)爭(zhēng)力。

5

結(jié)論

借助CLIP,我們測(cè)試了互聯(lián)網(wǎng)的自然語言上與任務(wù)無關(guān)的預(yù)訓(xùn)練(這種預(yù)訓(xùn)練為NLP的最新突破提供了動(dòng)力)是否可以用來改善其他領(lǐng)域的深度學(xué)習(xí)性能。

目前,CLIP應(yīng)用于計(jì)算機(jī)視覺所取得的效果令我們非常興奮。像GPT家族一樣,CLIP在預(yù)訓(xùn)練期間學(xué)習(xí)了我們通過零樣本遷移所展示的各種任務(wù)。

CLIP在ImageNet上的表現(xiàn)也令人驚喜,其中零樣本評(píng)估展示了CLIP模型的強(qiáng)大功能。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    487

    瀏覽量

    10201
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1197

    瀏覽量

    24538
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    988

    瀏覽量

    6252

原文標(biāo)題:OpenAI又放大招:連接文本與圖像的CLIP,在ImageNet上效果媲美ResNet50

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    OpenAI承認(rèn)正研發(fā)ChatGPT文本水印

    據(jù)外媒報(bào)道,OpenAI已經(jīng)證實(shí)正在研究一種用于ChatGPT的文本水印技術(shù),該技術(shù)已經(jīng)能夠高精度地識(shí)別出由ChatGPT生成的文章,但是在面對(duì)諸如翻譯系統(tǒng)、重寫或特殊字符插入等篡改手段時(shí)該技術(shù)
    的頭像 發(fā)表于 08-05 15:56 ?802次閱讀

    OpenAI正深入探索文本水印技術(shù)的前沿領(lǐng)域

    8月5日最新資訊透露,OpenAI正積極投身于文本水印技術(shù)的尖端探索,但與此同時(shí),公司也坦誠地指出了這一創(chuàng)新領(lǐng)域所面臨的艱巨技術(shù)障礙與未解之謎。
    的頭像 發(fā)表于 08-05 12:59 ?431次閱讀

    OpenAI發(fā)布GPT-4o模型,供全體用戶免費(fèi)使用

    OpenAI首席技術(shù)官穆里·穆拉蒂(Muri Murati)指出,GPT-4o具備與GPT-4相同的智能水平,且在文本、圖像及語音處理方面有顯著進(jìn)步。
    的頭像 發(fā)表于 05-14 11:17 ?357次閱讀

    OpenAI發(fā)布圖像檢測(cè)分類器,可區(qū)分AI生成圖像與實(shí)拍照片

    據(jù)OpenAI介紹,初步測(cè)試結(jié)果表明,該分類器在辨別非AI生成圖像與DALL·E 3生成圖像時(shí),成功率高達(dá)近98%,僅有不到0.5%的非AI圖像誤判為DALL·E 3生成。此外,該工具
    的頭像 發(fā)表于 05-09 09:57 ?334次閱讀

    谷歌Gemini 1.5深夜爆炸上線,史詩級(jí)多模態(tài)硬剛GPT-5!最強(qiáng)MoE首破100萬極限上下文紀(jì)錄

    沒幾天,谷歌又放大招了。就在剛剛,谷歌DeepMind首席科學(xué)家JeffDean,以及聯(lián)創(chuàng)兼CEO的DemisHassabis激動(dòng)地
    的頭像 發(fā)表于 02-19 12:28 ?635次閱讀
    谷歌Gemini 1.5深夜爆炸上線,史詩級(jí)多模態(tài)硬剛GPT-5!最強(qiáng)MoE首破100萬極限上下文紀(jì)錄

    OpenAI要約收購協(xié)議已完成 OpenAI估值超800億美元

    。可以說OpenAI 目前是全球最有價(jià)值初創(chuàng)科技公司之一。 而且在2月16日OpenAI還推出了新的文生視頻模型Sora,Sora模型可以把簡(jiǎn)短的文本描述轉(zhuǎn)換為長(zhǎng)達(dá)60秒的高清視頻,這使得AI更具想象空間。
    的頭像 發(fā)表于 02-18 18:19 ?1077次閱讀

    圖像放大后,圖像中心顯示在 ,圖像框中心,

    大家好,視覺 顯示 相機(jī)圖像時(shí),點(diǎn)擊 放大工具放大后,如何將大圖像的中心 對(duì)準(zhǔn)圖像顯示框的中心,,
    發(fā)表于 01-24 15:49

    更強(qiáng)!Alpha-CLIP:讓CLIP關(guān)注你想要的任何地方!

    然而CLIP必須以整張圖片作為輸入并進(jìn)行特征提取,無法關(guān)注到指定的任意區(qū)域。然而,自然的2D圖片中往往包含不同的物體,part和thing。如果能由用戶或檢測(cè)模型指定需要關(guān)注的區(qū)域,在圖像編碼的過程就確定需要關(guān)注的對(duì)象,將會(huì)提升CLIP
    的頭像 發(fā)表于 12-10 10:28 ?819次閱讀
    更強(qiáng)!Alpha-<b class='flag-5'>CLIP</b>:讓<b class='flag-5'>CLIP</b>關(guān)注你想要的任何地方!

    OpenAI發(fā)布的GPT-4 Turbo版本ChatGPT plus有什么功能?

    GPT-4的最新版本。OpenAI憑借承諾增強(qiáng)功能和成本效率的模型實(shí)現(xiàn)了巨大飛躍,為人工智能行業(yè)樹立了新標(biāo)準(zhǔn)。 我們來看看OpenAI帶來了什么: 文本圖像理解 GPT-4 Turb
    的頭像 發(fā)表于 12-05 17:57 ?2212次閱讀
    <b class='flag-5'>OpenAI</b>發(fā)布的GPT-4 Turbo版本ChatGPT plus有什么功能?

    馬里蘭&amp;NYU合力解剖神經(jīng)網(wǎng)絡(luò),CLIP模型神經(jīng)元形似骷髏頭

    對(duì)于大多數(shù)圖像生成模型來說,會(huì)輸出正面的圖像。但是優(yōu)化算法,可以讓模型生成更多詭異、恐怖的圖像。 就拿CLIP模型來說,可以衡量一段文本和一
    的頭像 發(fā)表于 11-23 17:29 ?503次閱讀
    馬里蘭&amp;NYU合力解剖神經(jīng)網(wǎng)絡(luò),<b class='flag-5'>CLIP</b>模型神經(jīng)元形似骷髏頭

    李開復(fù)4個(gè)多月后“放大招”:對(duì)標(biāo)OpenAI、谷歌,發(fā)布“全球最強(qiáng)”開源大模型

    在語言模型中,上下文窗口是大模型綜合運(yùn)算能力的金指標(biāo)之一,對(duì)于理解和生成與特定上下文相關(guān)的文本至關(guān)重要,擁有更長(zhǎng)窗口的語言模型可以處理更豐富的知識(shí)庫信息,生成更連貫、準(zhǔn)確的文本。
    的頭像 發(fā)表于 11-06 15:47 ?523次閱讀
    李開復(fù)4個(gè)多月后“<b class='flag-5'>放大招</b>”:對(duì)標(biāo)<b class='flag-5'>OpenAI</b>、谷歌,發(fā)布“全球最強(qiáng)”開源大模型

    基于AX650N+CLIP的以文搜圖展示

    能否有一種“識(shí)別萬物”的圖像識(shí)別大模型呢?今天就借此機(jī)會(huì),通過實(shí)操來重溫下由OpenAI在2021年初發(fā)布的Zero-Shot視覺分類模型CLIP,并移植到愛芯派Pro上實(shí)現(xiàn)簡(jiǎn)單的以圖搜文示例。
    的頭像 發(fā)表于 11-01 16:44 ?1185次閱讀
    基于AX650N+<b class='flag-5'>CLIP</b>的以文搜圖展示

    可以提取圖像文本的5大Python庫

    光學(xué)字符識(shí)別是一個(gè)古老但依然具有挑戰(zhàn)性的問題,涉及從非結(jié)構(gòu)化數(shù)據(jù)中(包括圖像和PDF文檔)檢測(cè)和識(shí)別文本。它在銀行、電子商務(wù)和社交媒體內(nèi)容管理等領(lǐng)域具有廣泛的應(yīng)用。
    的頭像 發(fā)表于 10-30 10:30 ?2299次閱讀
    可以提取<b class='flag-5'>圖像</b><b class='flag-5'>文本</b>的5大Python庫

    如何利用CLIP 的2D 圖像-文本預(yù)習(xí)知識(shí)進(jìn)行3D場(chǎng)景理解

    自我監(jiān)督學(xué)習(xí)的目的是獲得有利于下游任務(wù)的良好表現(xiàn)。主流的方法是使用對(duì)比學(xué)習(xí)來與訓(xùn)練網(wǎng)絡(luò)。受CLIP成功的啟發(fā),利用CLIP的預(yù)訓(xùn)練模型來完成下游任務(wù)引起了廣泛的關(guān)注。本文利用圖像文本預(yù)
    的頭像 發(fā)表于 10-29 16:54 ?1174次閱讀
    如何利用<b class='flag-5'>CLIP</b> 的2D <b class='flag-5'>圖像</b>-<b class='flag-5'>文本</b>預(yù)習(xí)知識(shí)進(jìn)行3D場(chǎng)景理解

    在英特爾開發(fā)套件上用OpenVIN實(shí)現(xiàn)中文圖文檢索

    本文演示了使用 OpenVINO 與 Chinese-Clip 進(jìn)行中文圖文相似性匹配任務(wù):CLIP 模型以自監(jiān)督的方式在數(shù)億或數(shù)十億(圖像,文本)對(duì)上進(jìn)行訓(xùn)練,它從輸入
    的頭像 發(fā)表于 10-27 11:06 ?660次閱讀
    在英特爾開發(fā)套件上用OpenVIN實(shí)現(xiàn)中文圖文檢索