0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

精準(zhǔn)圖片搜索 OpenAI最新技術(shù) CLIP

工程師鄧生 ? 來(lái)源:凹非寺 ? 作者:金磊 ? 2021-02-11 09:13 ? 次閱讀

別再怕圖片搜索結(jié)果牛頭不對(duì)馬嘴了,你可以試試這個(gè) 精準(zhǔn)圖片搜索,來(lái)自 OpenAI最新的技術(shù) CLIP。

只需一句 “大白話”描述,便能給出想要的圖片。

例如輸入:

The word love written on the wall

就會(huì)得到這樣的結(jié)果:

可以說是相當(dāng)?shù)?精準(zhǔn)了!這就是今天在Reddit上爆火的一個(gè)項(xiàng)目。

這個(gè)項(xiàng)目利用到的,便是 OpenAI前不久頻頻刷屏的DALL·E 中的核心模塊—— CLIP,一個(gè)負(fù)責(zé)重排序 (rerank)的模型。

這個(gè)項(xiàng)目使用谷歌Colab Notebook,而且在線、免費(fèi),包含200萬(wàn)圖片數(shù)據(jù)集,最重要的是效果還非常的精準(zhǔn)。

不禁引得網(wǎng)友直呼“ Amazing”。

簡(jiǎn)單幾步,“大白話”在線精準(zhǔn)搜圖

這個(gè)項(xiàng)目之所以如此火爆, 操作簡(jiǎn)單是很重要的一個(gè)原因之一。

首先要做的,就是點(diǎn)開該項(xiàng)目在Colab Notebook中的地址 (見文末鏈接),登陸自己的賬號(hào)。

至于環(huán)境配置、包或庫(kù)的調(diào)用,這個(gè)項(xiàng)目非常貼心的已經(jīng)做好了,只需要依次點(diǎn)擊cell左側(cè)的小三角,等待運(yùn)行完成即可。

最后,來(lái)到包含如下代碼的cell:

search_query = “Two dogs playing inthe snow”

點(diǎn)擊運(yùn)行這個(gè)cell,便可得到搜索圖片的結(jié)果,例如:

當(dāng)然,這個(gè)程序似乎很懂人,若是輸入“當(dāng)你的代碼跑通時(shí)的情緒”:

The feeling when your program finallyworks

得到的結(jié)果,和正常人想象中的應(yīng)該是一致的:

為什么CLIP搜圖能如此精準(zhǔn)?

OpenAI前不久推出的DALL·E,主要能實(shí)現(xiàn)的功能就是 可以按照文字描述、生成對(duì)應(yīng)圖片。

而其呈現(xiàn)給我們的最終作品,其實(shí)是它生成大量圖片中的一部分。

在中間過程中,其實(shí)也有排名、打分的帥選過程。

這部分的任務(wù),便是由 CLIP來(lái)完成:

越是它看得懂、匹配度最高的作品,分?jǐn)?shù)就會(huì)越高,排名也會(huì)越靠前。

這種結(jié)構(gòu),有點(diǎn)像是利用生成對(duì)抗文本,以合成圖像的 GAN。

不過,相比于利用GAN擴(kuò)大圖像分辨率、匹配圖像-文本特征等方法,CLIP則選擇了直接對(duì)輸出進(jìn)行排名。

據(jù)研究人員表示,CLIP網(wǎng)絡(luò)的 最大意義在于,它緩解了深度學(xué)習(xí)在視覺任務(wù)中,最大的兩個(gè)問題。

首先,它 降低了深度學(xué)習(xí)需要的數(shù)據(jù)標(biāo)注量。

相比于手動(dòng)在ImageNet上,用文字描述1400萬(wàn)張圖像,CLIP直接從網(wǎng)上已有的“文字描述圖像”數(shù)據(jù)中進(jìn)行學(xué)習(xí)。

此外,CLIP還能“身兼多職”,在各種數(shù)據(jù)集上的表現(xiàn)都很好 (包括沒見過的數(shù)據(jù)集)。

但此前的大部分視覺神經(jīng)網(wǎng)絡(luò),只能在訓(xùn)練的數(shù)據(jù)集上有不錯(cuò)的表現(xiàn)。

例如,CLIP與ResNet101相比,在各項(xiàng)數(shù)據(jù)集上都有不錯(cuò)的檢測(cè)精度,然而ResNet101在除了ImageNet以外的檢測(cè)精度上,表現(xiàn)都不太好。

具體來(lái)說,CLIP用到了零樣本學(xué)習(xí) (zero-shot learning)、自然語(yǔ)言理解和多模態(tài)學(xué)習(xí)等技術(shù),來(lái)完成圖像的理解。

例如,描述一只斑馬,可以用“馬的輪廓+虎的皮毛+熊貓的黑白”。這樣,網(wǎng)絡(luò)就能從沒見過的數(shù)據(jù)中,找出“斑馬”的圖像。

最后,CLIP將文本和圖像理解結(jié)合起來(lái),預(yù)測(cè)哪些圖像,與數(shù)據(jù)集中的哪些文本能完成最好的配對(duì)。

網(wǎng)友:機(jī)器人(bot)可能不太高興

在驚嘆CLIP用“大白話”搜索圖片效果之余,一位Reddit網(wǎng)友還發(fā)現(xiàn)了一個(gè)比較有意思的搜索結(jié)果。

他在文本描述的代碼部分輸入:

What image best represents how you feel right now?

這句話在我們?nèi)祟愌壑?,?yīng)當(dāng)是詢問AI的語(yǔ)氣了,然后出來(lái)的圖片結(jié)果是這樣的:

還有這樣的:

嗯,看來(lái)是被“玩多了”,AI寶寶有點(diǎn)小脾氣了。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 搜索
    +關(guān)注

    關(guān)注

    0

    文章

    69

    瀏覽量

    16638
  • OpenAT
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    8639
  • 圖片
    +關(guān)注

    關(guān)注

    0

    文章

    203

    瀏覽量

    15847
  • Clip
    +關(guān)注

    關(guān)注

    0

    文章

    30

    瀏覽量

    6612
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    988

    瀏覽量

    6252
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    OpenAI將推出在線搜索工具“SearchGPT”

    科技巨頭OpenAI正悄然醞釀一場(chǎng)搜索領(lǐng)域的變革,其最新推出的在線搜索工具“SearchGPT”正悄然挑戰(zhàn)著Alphabet旗下谷歌的搜索霸主地位。這款被寄予厚望的新工具,目前正處于緊
    的頭像 發(fā)表于 07-26 16:54 ?567次閱讀

    OpenAI推出SearchGPT原型,正式向Google搜索引擎發(fā)起挑戰(zhàn)

    在人工智能領(lǐng)域的持續(xù)探索中,OpenAI 邁出了重大一步,發(fā)布了其最新的 SearchGPT 原型,直接瞄準(zhǔn)了 Google 的核心業(yè)務(wù)——搜索引擎。這一舉動(dòng)不僅標(biāo)志著 OpenAI技術(shù)
    的頭像 發(fā)表于 07-26 15:11 ?467次閱讀

    OpenAI計(jì)劃下周一宣布對(duì)標(biāo)谷歌搜索的競(jìng)品

    OpenAI即將在下周一揭曉一項(xiàng)重大創(chuàng)新,他們計(jì)劃推出一款全新的AI搜索產(chǎn)品,以挑戰(zhàn)當(dāng)前搜索領(lǐng)域的巨頭谷歌。這一決定無(wú)疑將加劇雙方在搜索市場(chǎng)的競(jìng)爭(zhēng)態(tài)勢(shì)。雖然具體的發(fā)布日期之前并未公開,
    的頭像 發(fā)表于 05-11 09:22 ?280次閱讀

    OpenAI下周或推人工智能搜索挑戰(zhàn)谷歌

    The Information此前曾在今年2月份報(bào)道,OpenAI正在秘密研發(fā)自己的網(wǎng)絡(luò)搜索服務(wù),并得到了微軟Bing搜索引擎的支持。微軟自去年起便在Bing中融入了OpenAI
    的頭像 發(fā)表于 05-10 11:27 ?216次閱讀

    OpenAI正在為ChatGPT開發(fā)全新的搜索功能

    OpenAI近日傳來(lái)令人振奮的消息,其正在為旗下明星產(chǎn)品ChatGPT研發(fā)一項(xiàng)全新的搜索功能。據(jù)悉,這項(xiàng)功能將極大地拓寬ChatGPT的應(yīng)用范圍,并為用戶帶來(lái)更為全面、準(zhǔn)確的回答。
    的頭像 發(fā)表于 05-10 11:18 ?435次閱讀

    OpenAI的AI搜索也要來(lái)了,但我們需要這么多AI搜索

    OpenAI要做AI搜索挑戰(zhàn)谷歌這件事已經(jīng)傳了很久,傳說中的SearchGPT似乎真的要來(lái)了。據(jù)軟件開發(fā)者TiborBlaho爆料,OpenAI的AI搜索產(chǎn)品Sonic-SNC(Sea
    的頭像 發(fā)表于 05-10 08:05 ?348次閱讀
    <b class='flag-5'>OpenAI</b>的AI<b class='flag-5'>搜索</b>也要來(lái)了,但我們需要這么多AI<b class='flag-5'>搜索</b>么

    OpenAI發(fā)布全新搜尋引擎,引領(lǐng)搜索體驗(yàn)新高度

    據(jù)彭博社報(bào)道,OpenAI正在研發(fā)一款新型搜索引擎,利用生成式AI實(shí)現(xiàn)更人性化的問答互動(dòng)。據(jù)悉,此項(xiàng)產(chǎn)品將于不久后正式上線,用戶只需以自然語(yǔ)言提問,ChatGPT即可根據(jù)維基百科及博客文章等資源進(jìn)行解答。
    的頭像 發(fā)表于 05-09 10:40 ?416次閱讀

    OpenAI推出專用的AI檢測(cè)工具

    OpenAI最近推出了一款全新的AI檢測(cè)工具,這款工具專門針對(duì)由DALL·E 3模型生成的圖片。令人印象深刻的是,該工具能夠精準(zhǔn)識(shí)別出這類圖片,其準(zhǔn)確率高達(dá)98%。這一舉措的主要目的是
    的頭像 發(fā)表于 05-09 10:01 ?391次閱讀

    OpenAI或?qū)⑻魬?zhàn)谷歌,推出基于ChatGPT的搜索引擎

    據(jù)悉,此項(xiàng)功能將允許用戶向ChatGPT提問,獲取包括維基百科內(nèi)容及博客文章在內(nèi)的互聯(lián)網(wǎng)信息。此外,部分版本的產(chǎn)品還將提供文字、圖片結(jié)合的回答方式。OpenAI還計(jì)劃擴(kuò)展現(xiàn)有ChatGPT功能,以容納新的搜索功能。
    的頭像 發(fā)表于 05-09 10:00 ?301次閱讀

    OpenAI注冊(cè)新域名,準(zhǔn)備推出結(jié)合AI技術(shù)搜索引擎挑戰(zhàn)谷歌

    OpenAI最近注冊(cè)了“search.chatgpt.com”域名,看起來(lái)是要推出一款新的搜索引擎。
    的頭像 發(fā)表于 05-08 10:41 ?350次閱讀

    OpenAI或?qū)⑼瞥鯟hatGPT搜索引擎

    據(jù)可靠消息透露,OpenAI正秘密研發(fā)一款以ChatGPT為基礎(chǔ)的大型產(chǎn)品,其核心功能將是一款新型搜索引擎,旨在為用戶提供更便捷的上網(wǎng)體驗(yàn)。
    的頭像 發(fā)表于 05-08 10:19 ?390次閱讀

    OpenAI或?qū)⒃?月9日發(fā)布ChatGPT版搜索引擎

    OpenAI可能即將與谷歌展開正面競(jìng)爭(zhēng),推出基于ChatGPT的搜索引擎。根據(jù)Reddit網(wǎng)友的最新爆料,OpenAI有望在5月9日公布其全新的搜索產(chǎn)品。據(jù)悉,與這一新產(chǎn)品相對(duì)應(yīng)的
    的頭像 發(fā)表于 05-07 09:28 ?522次閱讀

    百度搜索重磅推出AI圖片助手

    近日,百度搜索全新上線了一款名為“百度AI圖片助手”的智能工具,該工具賦予了用戶一鍵處理圖片的強(qiáng)大能力。無(wú)論是搜索中的圖片還是用戶自主上傳的
    的頭像 發(fā)表于 05-06 10:20 ?970次閱讀

    更強(qiáng)!Alpha-CLIP:讓CLIP關(guān)注你想要的任何地方!

    然而CLIP必須以整張圖片作為輸入并進(jìn)行特征提取,無(wú)法關(guān)注到指定的任意區(qū)域。然而,自然的2D圖片中往往包含不同的物體,part和thing。如果能由用戶或檢測(cè)模型指定需要關(guān)注的區(qū)域,在圖像編碼的過程就確定需要關(guān)注的對(duì)象,將會(huì)提升
    的頭像 發(fā)表于 12-10 10:28 ?819次閱讀
    更強(qiáng)!Alpha-<b class='flag-5'>CLIP</b>:讓<b class='flag-5'>CLIP</b>關(guān)注你想要的任何地方!

    基于AX650N+CLIP的以文搜圖展示

    能否有一種“識(shí)別萬(wàn)物”的圖像識(shí)別大模型呢?今天就借此機(jī)會(huì),通過實(shí)操來(lái)重溫下由OpenAI在2021年初發(fā)布的Zero-Shot視覺分類模型CLIP,并移植到愛芯派Pro上實(shí)現(xiàn)簡(jiǎn)單的以圖搜文示例。
    的頭像 發(fā)表于 11-01 16:44 ?1185次閱讀
    基于AX650N+<b class='flag-5'>CLIP</b>的以文搜圖展示