0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用Keras構(gòu)建基于關(guān)鍵字和圖像的搜索引擎

汽車玩家 ? 來(lái)源:人工智能遇見磐創(chuàng) ? 作者:人工智能遇見磐創(chuàng) ? 2020-05-05 08:43 ? 次閱讀

動(dòng)機(jī)

想象一下,如果有數(shù)十萬(wàn)到數(shù)百萬(wàn)張圖像的數(shù)據(jù)集,卻沒有描述每張圖像內(nèi)容的元數(shù)據(jù)。我們?nèi)绾谓⒁粋€(gè)系統(tǒng),能夠找到這些圖像的子集來(lái)更好地回答用戶的搜索查詢?

我們基本上需要的是一個(gè)搜索引擎,它能夠根據(jù)圖像與搜索查詢的對(duì)應(yīng)程度對(duì)圖像結(jié)果進(jìn)行排序,可以用一種自然語(yǔ)言表示,,也可以用其他查詢圖像表示。

我們將在本文中解決問題的方法是訓(xùn)練一個(gè)深度神經(jīng)模型,該模型學(xué)習(xí)任何輸入圖像和文本的固定長(zhǎng)度表示形式(或嵌入形式),使得如果文本-圖像或圖像-圖像是“相似的”,則他們?cè)跉W氏空間中接近,。

數(shù)據(jù)集

我找不到足夠大的搜索結(jié)果排名數(shù)據(jù)集,但我能夠得到這個(gè)數(shù)據(jù)集:http://jmcauley.ucsd.edu/data/amazon/它將電子商務(wù)項(xiàng)目的圖像鏈接到它們的標(biāo)題和描述。我們將使用這些元數(shù)據(jù)作為監(jiān)督源來(lái)學(xué)習(xí)有意義的聯(lián)合文本-圖像表示。為了管理計(jì)算和存儲(chǔ)成本,這些實(shí)驗(yàn)僅限于時(shí)尚(服裝、鞋子和珠寶)物品和50萬(wàn)張圖像。

問題設(shè)置

我們的數(shù)據(jù)集將每個(gè)圖像與用自然語(yǔ)言編寫的描述鏈接起來(lái)。因此,我們定義了一個(gè)任務(wù),在該任務(wù)中,我們要學(xué)習(xí)圖像和文本的固定長(zhǎng)度的聯(lián)合表示,以便每個(gè)圖像表示都接近其描述的表示。

模型

該模型有3個(gè)輸入:圖像(即錨點(diǎn))、圖像標(biāo)題與描述(即正例)和第三個(gè)輸入是一些隨機(jī)采樣的文本(即負(fù)例)。

然后定義兩個(gè)子模型:

圖像編碼器:Resnet50預(yù)訓(xùn)練的ImageNet+GlobalMaxpooling2D

文本編碼器:GRU+GlobalMaxpooling1D

圖像子模型產(chǎn)生錨點(diǎn)E_a的嵌入,文本子模型輸出正標(biāo)題和描述E_p的嵌入和負(fù)例文本E_n的嵌入。

然后,我們通過優(yōu)化以下?lián)p失函數(shù)進(jìn)行訓(xùn)練:

L = max( d(Ea, Ep)-d(Ea, En)+alpha, 0)

其中d為歐氏距離,alpha為超參數(shù),在本實(shí)驗(yàn)中為0.4。

基本上,這種損失允許做的是使d(E_a,E_p)變小,使d(E_a,E_n)變大,這樣每個(gè)圖像的嵌入就接近于它的描述的嵌入,而遠(yuǎn)離隨機(jī)文本的嵌入。

可視化結(jié)果

一旦我們學(xué)習(xí)了圖像嵌入模型和文本嵌入模型,我們就可以通過使用tsne (https://scikit-learn.org/stable/modules/generated/sklearn.manifold.TSNE.html)將它們投影到二維空間中來(lái)實(shí)現(xiàn)可視化。測(cè)試圖像及其對(duì)應(yīng)的文本描述用綠線連接

從圖中可以看出,通常在嵌入空間中,圖像及其對(duì)應(yīng)的描述是接近的。考慮到使用的訓(xùn)練損失,這是我們期望的。

文字圖片搜索

在這里,我們使用幾個(gè)文本查詢示例來(lái)在一組70,000張圖像中搜索最佳匹配。我們計(jì)算查詢的文本嵌入,然后計(jì)算集合中每個(gè)圖像的嵌入。我們最終在嵌入空間中選擇最接近查詢的前9張圖像。

這些例子表明,嵌入模型能夠?qū)W習(xí)圖像的有用表示形式和簡(jiǎn)單單詞組成的嵌入。

圖像搜索

在這里,我們將使用圖像作為查詢,然后在包含70,000張圖像的數(shù)據(jù)庫(kù)中搜索與之最相似的示例。排序是由每對(duì)圖像在嵌入空間內(nèi)的歐氏距離決定的。

結(jié)果表明,生成的嵌入是圖像的高級(jí)表示,它捕獲了所表示對(duì)象的最重要特征,而不受方向、光照或局部細(xì)節(jié)的過度影響,也沒有經(jīng)過明確的訓(xùn)練。

結(jié)論:在這個(gè)項(xiàng)目中,我們研究了機(jī)器學(xué)習(xí)模塊,它允許我們構(gòu)建一個(gè)基于關(guān)鍵字和圖像的搜索引擎,應(yīng)用于圖像集合。其基本思想是學(xué)習(xí)一個(gè)有意義的文本和圖像的聯(lián)合嵌入函數(shù),然后利用嵌入空間中項(xiàng)之間的距離對(duì)搜索結(jié)果進(jìn)行排序。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 存儲(chǔ)
    +關(guān)注

    關(guān)注

    13

    文章

    4123

    瀏覽量

    85275
  • keras
    +關(guān)注

    關(guān)注

    2

    文章

    20

    瀏覽量

    6074
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    月訪問量超2億,增速113%!360AI搜索成為全球增速最快的AI搜索引擎

    與傳統(tǒng)搜索引擎不同,作為AI原生搜索引擎的360AI搜索基于公開網(wǎng)絡(luò)、知識(shí)庫(kù)、大模型三大支柱。借助首創(chuàng)的 CoE 技術(shù)架構(gòu),360AI搜索整合了國(guó)內(nèi)主流的16家廠商51款大模型,支持用
    的頭像 發(fā)表于 09-09 13:44 ?167次閱讀
    月訪問量超2億,增速113%!360AI<b class='flag-5'>搜索</b>成為全球增速最快的AI<b class='flag-5'>搜索引擎</b>

    OpenAI推出SearchGPT原型,正式向Google搜索引擎發(fā)起挑戰(zhàn)

    在人工智能領(lǐng)域的持續(xù)探索中,OpenAI 邁出了重大一步,發(fā)布了其最新的 SearchGPT 原型,直接瞄準(zhǔn)了 Google 的核心業(yè)務(wù)——搜索引擎。這一舉動(dòng)不僅標(biāo)志著 OpenAI 在技術(shù)上的又一次飛躍,也預(yù)示著搜索引擎市場(chǎng)即將迎來(lái)一場(chǎng)前所未有的變革。
    的頭像 發(fā)表于 07-26 15:11 ?467次閱讀

    微軟計(jì)劃在搜索引擎Bing中引入AI摘要功能

    近期,科技界傳來(lái)新動(dòng)向,微軟緊隨百度與谷歌的步伐,宣布計(jì)劃在其搜索引擎Bing中引入先進(jìn)的AI摘要功能,旨在為用戶帶來(lái)更加智能、豐富的搜索體驗(yàn)。
    的頭像 發(fā)表于 07-26 14:23 ?370次閱讀

    快速掌握C語(yǔ)言關(guān)鍵字

    C語(yǔ)言中的32個(gè)關(guān)鍵字你知道多少個(gè)呢?根據(jù)關(guān)鍵字的作用分為四類:數(shù)據(jù)類型關(guān)鍵字、控制語(yǔ)句關(guān)鍵字、存儲(chǔ)類型關(guān)鍵字和其它
    的頭像 發(fā)表于 07-06 08:04 ?194次閱讀
    快速掌握C語(yǔ)言<b class='flag-5'>關(guān)鍵字</b>

    OpenAI注冊(cè)新域名,準(zhǔn)備推出結(jié)合AI技術(shù)的搜索引擎挑戰(zhàn)谷歌

    OpenAI最近注冊(cè)了“search.chatgpt.com”域名,看起來(lái)是要推出一款新的搜索引擎。
    的頭像 發(fā)表于 05-08 10:41 ?347次閱讀

    OpenAI或?qū)⑼瞥鯟hatGPT搜索引擎

    據(jù)可靠消息透露,OpenAI正秘密研發(fā)一款以ChatGPT為基礎(chǔ)的大型產(chǎn)品,其核心功能將是一款新型搜索引擎,旨在為用戶提供更便捷的上網(wǎng)體驗(yàn)。
    的頭像 發(fā)表于 05-08 10:19 ?390次閱讀

    OpenAI或?qū)⒃?月9日發(fā)布ChatGPT版搜索引擎

    OpenAI可能即將與谷歌展開正面競(jìng)爭(zhēng),推出基于ChatGPT的搜索引擎。根據(jù)Reddit網(wǎng)友的最新爆料,OpenAI有望在5月9日公布其全新的搜索產(chǎn)品。據(jù)悉,與這一新產(chǎn)品相對(duì)應(yīng)的搜索網(wǎng)頁(yè)search.chatgpt.com的域
    的頭像 發(fā)表于 05-07 09:28 ?521次閱讀

    潤(rùn)和軟件與新財(cái)富聯(lián)合發(fā)布金融AI對(duì)話式搜索引擎“金融搜一搜”產(chǎn)品

    3月29日,新財(cái)富投顧嘉年華活動(dòng)中,江蘇潤(rùn)和軟件股份有限公司(以下簡(jiǎn)稱“潤(rùn)和軟件”)與深圳市新財(cái)富數(shù)字科技有限責(zé)任公司(以下簡(jiǎn)稱“新財(cái)富”)聯(lián)合發(fā)布了金融AI對(duì)話式搜索引擎——“金融搜一搜”產(chǎn)品,助力金融投資場(chǎng)景智能化升級(jí)。
    的頭像 發(fā)表于 04-02 10:15 ?321次閱讀
    潤(rùn)和軟件與新財(cái)富聯(lián)合發(fā)布金融AI對(duì)話式<b class='flag-5'>搜索引擎</b>“金融搜一搜”產(chǎn)品

    Redis官方搜索引擎來(lái)了,性能炸裂!

    RediSearch 是一個(gè) Redis 模塊,為 Redis 提供查詢、二級(jí)索引和全文搜索功能。
    的頭像 發(fā)表于 02-21 10:01 ?1833次閱讀
    Redis官方<b class='flag-5'>搜索引擎</b>來(lái)了,性能炸裂!

    生成式AI恐使搜索引擎衰退,預(yù)計(jì)2026年搜索量將下滑25%

    據(jù)市場(chǎng)分析機(jī)構(gòu)Gartner報(bào)道,生成式AI對(duì)傳統(tǒng)搜索引擎構(gòu)成重大威脅,預(yù)計(jì)至2026年搜索量將降低25%。為此,企業(yè)需調(diào)整營(yíng)銷策略。
    的頭像 發(fā)表于 02-20 10:04 ?549次閱讀

    關(guān)鍵字搜索文件夾中某個(gè)TXT文件

    文件夾中隨時(shí)創(chuàng)造TXT文件,如何及時(shí)選出剛創(chuàng)造的文件?或關(guān)鍵字搜索出需要的TXT文件?
    發(fā)表于 02-06 15:22

    鴻蒙OS開發(fā)之 融合搜索概述

    HarmonyOS 融合搜索為開發(fā)者提供搜索引擎級(jí)的全文搜索能力,可支持應(yīng)用內(nèi)搜索和系統(tǒng)全局搜索,為用戶提供更加準(zhǔn)確、高效的
    的頭像 發(fā)表于 01-29 16:24 ?401次閱讀
    鴻蒙OS開發(fā)之  融合<b class='flag-5'>搜索</b>概述

    谷歌搜索引擎優(yōu)化的各個(gè)方面和步驟

    谷歌搜索引擎是最受歡迎和廣泛使用的搜索引擎之一,為了使你的網(wǎng)站在谷歌上更好地排名并提高曝光度,你可以采取一些谷歌搜索引擎優(yōu)化的步驟。 使用關(guān)鍵字研究工具,如Google AdWords
    的頭像 發(fā)表于 01-25 10:29 ?714次閱讀

    IAR能否在整個(gè)工程中搜索關(guān)鍵字?

    像mdk可以在整個(gè)工程中搜索關(guān)鍵字 IAR應(yīng)該也有類似的功能吧,但是我貌似沒有找到
    發(fā)表于 11-08 07:21

    基于BERT算法搭建一個(gè)問答搜索引擎

    學(xué)習(xí)的新手發(fā)現(xiàn)BERT模型并不好搭建,上手難度很高,普通人可能要研究幾天才能勉強(qiáng)搭建出一個(gè)模型。 沒關(guān)系,今天我們介紹的這個(gè)模塊,能讓你在3分鐘內(nèi)基于BERT算法搭建一個(gè)問答搜索引擎。它就是 bert-as-service 項(xiàng)目。這個(gè)開源項(xiàng)目,能夠讓你基于多GPU機(jī)器快速搭建BERT服務(wù)(支持微
    的頭像 發(fā)表于 10-30 11:46 ?506次閱讀
    基于BERT算法搭建一個(gè)問答<b class='flag-5'>搜索引擎</b>