亚洲成l人在线观看线路,精品久久久久久妇女自卫喷水,日韩精品无码片一区二区

9 月 5 日，谷歌發(fā)布了一個(gè)幫助研究者查找在線數(shù)據(jù)的免費(fèi)搜索引擎 Dataset Search。谷歌表示，該引擎面向「科學(xué)家、數(shù)據(jù)記者、數(shù)據(jù)極客等人群」。該引擎有助于促進(jìn)數(shù)據(jù)的開(kāi)放利用和重復(fù)利用。

Dataset Search 與谷歌的其他專用搜索引擎（如用于搜索新聞和圖像的引擎，以及 Google Scholar 和 Google Books）一樣可以免費(fèi)使用，它基于擁有者對(duì)文件和數(shù)據(jù)庫(kù)的分類方式來(lái)查找文件和數(shù)據(jù)集。該引擎讀取文件內(nèi)容的方式與搜索引擎搜索網(wǎng)頁(yè)的方式不同。有專家表示，該引擎填補(bǔ)了這一領(lǐng)域的空白，可以極大地促進(jìn)開(kāi)放數(shù)據(jù)運(yùn)動(dòng)的發(fā)展，這一運(yùn)動(dòng)旨在實(shí)現(xiàn)數(shù)據(jù)的開(kāi)放利用和重復(fù)利用。

政府機(jī)構(gòu)、科學(xué)出版社、研究機(jī)構(gòu)甚至是個(gè)人研究者在全世界維護(hù)著成千上萬(wàn)的開(kāi)源數(shù)據(jù)資源庫(kù)，包含了數(shù)百萬(wàn)個(gè)數(shù)據(jù)集。

但那些想知道哪些類型的數(shù)據(jù)可用，或者那些希望定位已經(jīng)存在的數(shù)據(jù)的研究者，通常依賴于口耳相傳的信息。來(lái)自加州山景城的 Google AI 計(jì)算機(jī)科學(xué)家 Natasha Noy 說(shuō)。

對(duì)于那些處于研究生涯早期階段且還沒(méi)有建立專業(yè)聯(lián)系網(wǎng)絡(luò)的研究者而言，這個(gè)問(wèn)題尤其嚴(yán)重，Noy 說(shuō)。這對(duì)于那些做交叉學(xué)科研究的人而言也是個(gè)嚴(yán)重的缺陷。例如，流行病學(xué)家需要訪問(wèn)氣候數(shù)據(jù)，其可能與某種病毒的傳播相關(guān)。

分類搜索

2017 年 1 月，Noy 及其谷歌同事 Dan Brickley 在一篇谷歌博客（https://ai.googleblog.com/2017/01/facilitating-discovery-of-public.html）中首次介紹了解決該問(wèn)題的策略。

典型的搜索引擎分兩個(gè)階段運(yùn)行。第一個(gè)階段是通過(guò)在互聯(lián)網(wǎng)上持續(xù)搜索來(lái)索引可用網(wǎng)頁(yè)。第二個(gè)階段是對(duì)索引網(wǎng)頁(yè)進(jìn)行排序，以使用戶輸入搜索詞時(shí)，搜索引擎能夠按相關(guān)度排序來(lái)提供搜索結(jié)果。

Noy 和 Brickley 寫道，為了幫助搜索引擎索引現(xiàn)有數(shù)據(jù)集，擁有數(shù)據(jù)集的人應(yīng)該使用一個(gè)叫作 Schema.org 的標(biāo)準(zhǔn)化詞匯表來(lái)「標(biāo)記」數(shù)據(jù)集，Schema.org 是谷歌和另外三個(gè)搜索引擎巨頭（微軟、雅虎和 Yandex）一起發(fā)起的項(xiàng)目，由 Brickley 管理。谷歌團(tuán)隊(duì)還開(kāi)發(fā)了一種特殊算法來(lái)對(duì)搜索結(jié)果中的數(shù)據(jù)集進(jìn)行排序。

由于谷歌在網(wǎng)頁(yè)搜索中的主導(dǎo)地位，谷歌正在快速轉(zhuǎn)入數(shù)據(jù)生態(tài)系統(tǒng)的消息刺激主要搜索引擎巨頭進(jìn)入該戰(zhàn)場(chǎng)，對(duì)元數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理，倫敦?cái)?shù)據(jù)共享公司 Figshare CEO Mark Hahnel 說(shuō)道。（Figshare 由霍爾茨布林克出版集團(tuán)管理，該集團(tuán)也對(duì) Nature 的出版公司持有大量股份。）

「到 11 月，我們接觸的所有大學(xué)的數(shù)據(jù)都已經(jīng)標(biāo)記完成。我認(rèn)為這對(duì)學(xué)界的開(kāi)放數(shù)據(jù)而言是一項(xiàng)重要變革?！笻ahnel 說(shuō)道。

Hahnel 認(rèn)為，融資機(jī)構(gòu)有時(shí)強(qiáng)制要求研究數(shù)據(jù)必須可獲取，而只要信息能夠高效獲取，他們就能達(dá)到其最終目的?！高@使得投資機(jī)構(gòu)一直嘗試做的事合法化?！?/p>

谷歌為用戶提供了能夠同時(shí)搜索多個(gè)存儲(chǔ)區(qū)的單個(gè)界面，希望借此改變用戶發(fā)布和運(yùn)用數(shù)據(jù)的方式。谷歌表示這個(gè)項(xiàng)目能夠帶來(lái)下列好處：

形成數(shù)據(jù)共享生態(tài)系統(tǒng)，鼓勵(lì)數(shù)據(jù)發(fā)布者依照最佳做法來(lái)存儲(chǔ)和發(fā)布數(shù)據(jù)；

為科學(xué)家提供相應(yīng)平臺(tái)，方便大眾引用他們創(chuàng)建的數(shù)據(jù)集，展現(xiàn)他們的研究成果所帶來(lái)的影響力。

搜索試驗(yàn)

目前谷歌已經(jīng)正式對(duì)外測(cè)試開(kāi)源數(shù)據(jù)集搜索引擎，用戶在鍵入數(shù)據(jù)集名稱或關(guān)鍵信息后，該搜索引擎會(huì)給出一系列數(shù)據(jù)源列表，每一個(gè)數(shù)據(jù)源都會(huì)有簡(jiǎn)要的介紹，例如更新日期、作者、版權(quán)和內(nèi)容說(shuō)明等。值得注意的是，除了數(shù)據(jù)集資源，該搜索引擎還能檢索到很多 Kaggle 上的預(yù)訓(xùn)練模型。在機(jī)器之心的嘗試中，我們分別以 CIFAR-10、Object Detection 和 SQuAD 為關(guān)鍵詞搜索數(shù)據(jù)集，發(fā)現(xiàn)了一些很有意思的結(jié)果。

首先我們檢索了十分常用的圖像分類數(shù)據(jù)集 CIFAR-10，該數(shù)據(jù)集包含 10 個(gè)類別共 60000 張 32x32 的彩色圖像，且分為 50000 張訓(xùn)練圖像和 10000 張測(cè)試圖像。搜索結(jié)果共給出了 9 項(xiàng)來(lái)源，包括數(shù)據(jù)集、預(yù)訓(xùn)練模型和對(duì)比結(jié)果。

例如在排名第一的搜索結(jié)果中，數(shù)據(jù)集來(lái)自 Kaggle 的 CIFAR-10 Python。在搜索引擎的簡(jiǎn)介頁(yè)中，除了給出該數(shù)據(jù)集的簡(jiǎn)要信息（包括引用此數(shù)據(jù)集的論文），它甚至還展示了該數(shù)據(jù)集的使用指南。例如，如下展示頁(yè)介紹了該數(shù)據(jù)集在 Keras 的使用方法：

fromosimportlistdir,makedirsfromos.pathimportjoin,exists,expandusercache_dir=expanduser(join('~','.keras'))ifnotexists(cache_dir):makedirs(cache_dir)datasets_dir=join(cache_dir,'datasets')#/cifar-10-batches-pyifnotexists(datasets_dir):makedirs(datasets_dir)#Ifyouhavemultipleinputdatasets,changethebelowcpcommandaccordingly,typically:#!cp../input/cifar10-python/cifar-10-python.tar.gz~/.keras/datasets/!cp../input/cifar-10-python.tar.gz~/.keras/datasets/!ln-s~/.keras/datasets/cifar-10-python.tar.gz~/.keras/datasets/cifar-10-batches-py.tar.gz!tarxzvf~/.keras/datasets/cifar-10-python.tar.gz-C~/.keras/datasets/

點(diǎn)擊第一條數(shù)據(jù)源就能跳轉(zhuǎn)到對(duì)應(yīng)的 Kaggle 頁(yè)面，下載和額外信息都展示在原頁(yè)面中。

在采用關(guān)鍵詞「Object Detection」進(jìn)行搜索的過(guò)程中，我們會(huì)發(fā)現(xiàn)搜索結(jié)果遠(yuǎn)遠(yuǎn)要比上面多得多，大約會(huì)有上百條數(shù)據(jù)來(lái)源。依靠關(guān)鍵詞同樣檢索到了非常多流行的開(kāi)源數(shù)據(jù)集，它們都適用于目標(biāo)檢測(cè)這一領(lǐng)域。例如 Microsoft COCO、Face Detection 和 Vehicle Number Plate Detection 等。

從「Object Detection」的搜索結(jié)果來(lái)看，來(lái)自 Kaggle 的數(shù)據(jù)集占了一小半，它們都會(huì)在 Kaggle 上提供下載與使用指南。其實(shí)瀏覽這么多數(shù)據(jù)源，搜索引擎給出的簡(jiǎn)介頁(yè)面就顯得非常重要了。我們不需要跳轉(zhuǎn)到每一個(gè)數(shù)據(jù)集的原地址，僅根據(jù)簡(jiǎn)介就能了解該數(shù)據(jù)集的大概應(yīng)用領(lǐng)域與內(nèi)容。如下展示了 COCO 數(shù)據(jù)集的簡(jiǎn)介頁(yè)面：

最后我們檢索了斯坦福的問(wèn)答數(shù)據(jù)集「SQuAD」，搜索結(jié)果不僅給出了挑戰(zhàn)賽地址和數(shù)據(jù)集地址，同時(shí)還提供了相似數(shù)據(jù)集和挑戰(zhàn)賽的地址。但是在我們檢索「SQuAD 2.0」的時(shí)候，并沒(méi)有搜索到斯坦福大學(xué)發(fā)布的機(jī)器閱讀理解問(wèn)答數(shù)據(jù)集 SQuAD 2.0，也可能是該數(shù)據(jù)集太新，還沒(méi)有被搜索引擎收錄。

合作機(jī)構(gòu)

谷歌這一嘗試的早期支持者是美國(guó)國(guó)家海洋和大氣管理局（NOAA）。該機(jī)構(gòu)的職權(quán)范圍從漁業(yè)到日冕，其檔案包含近 7 萬(wàn)個(gè)數(shù)據(jù)集，包括 19 世紀(jì)的船舶日志。這些數(shù)據(jù)的總?cè)萘砍^(guò) 35 PB，相當(dāng)于 35000 個(gè)典型硬盤的容量。

谷歌這一工具 Dataset Search 將幫助 NOAA 完成數(shù)據(jù)開(kāi)放的使命，NOAA 首席數(shù)據(jù)官 Edward Kearns 表示?！肝覀兿胩剿餍碌姆椒?，使其他人也能使用這些數(shù)據(jù)?！?/p>

與數(shù)據(jù)擁有者展開(kāi)合作是運(yùn)行 Dataset Search 的關(guān)鍵步驟。盡管這一系統(tǒng)未來(lái)可能變得更加復(fù)雜，谷歌目前不打算像處理網(wǎng)頁(yè)和圖像那樣讀取或分析數(shù)據(jù)。Noy 表示，「只有數(shù)據(jù)發(fā)布者提供的元數(shù)據(jù)足夠好，這種搜索工具才能夠好?！?/p>

和 Google Scholar 一樣，Dataset Search 目前不提供自動(dòng)化查詢或應(yīng)用程序編程接口（API），盡管谷歌表示將來(lái)可能會(huì)增加這一功能。

Noy 表示當(dāng)研究人員開(kāi)始使用 Dataset Search 時(shí)，谷歌將會(huì)觀察他們?nèi)绾闻c其交互，并利用這些信息來(lái)改進(jìn)搜索結(jié)果。她還表示，公司尚未打算把該服務(wù)商業(yè)化。

隨著 Dataset Search 的不斷改進(jìn)，未來(lái)它也許會(huì)跟 Google Scholar 整合，將特定研究領(lǐng)域的搜索結(jié)果關(guān)聯(lián)到相關(guān)數(shù)據(jù)集。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6128

瀏覽量
104950
搜索引擎

搜索引擎

+關(guān)注

關(guān)注
0

文章
115

瀏覽量
13347

原文標(biāo)題：AI研發(fā)者福利！谷歌推出數(shù)據(jù)集搜索專用引擎Dataset Search

文章出處：【微信號(hào)：gh_211d74f707ff，微信公眾號(hào)：重慶人工智能】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

Meta開(kāi)發(fā)新搜索引擎，減少對(duì)谷歌和必應(yīng)的依賴

將基于Meta AI聊天機(jī)器人進(jìn)行生成。據(jù)一位曾與Meta搜索引擎團(tuán)隊(duì)交流過(guò)的人士透露，Meta希望通過(guò)這款搜索引擎降低對(duì)谷歌搜索和微軟必應(yīng)的依賴。目前，這兩家

發(fā)表于 10-29 11:49 ?279次閱讀

月訪問(wèn)量超2億，增速113%！360AI搜索成為全球增速最快的AI搜索引擎

與傳統(tǒng)搜索引擎不同，作為AI原生搜索引擎的360AI搜索基于公開(kāi)網(wǎng)絡(luò)、知識(shí)庫(kù)、大模型三大支柱。借助首創(chuàng)的 CoE 技術(shù)架構(gòu)，360AI搜索整合了國(guó)內(nèi)主流的16家廠商51款大模型，支持用

發(fā)表于 09-09 13:44 ?367次閱讀

月訪問(wèn)量超2億，增速113%！360AI<b class='flag-5'>搜索</b>成為全球增速最快的AI<b class='flag-5'>搜索引擎</b>

OpenAI推出SearchGPT原型,正式向Google搜索引擎發(fā)起挑戰(zhàn)

在人工智能領(lǐng)域的持續(xù)探索中，OpenAI 邁出了重大一步，發(fā)布了其最新的 SearchGPT 原型，直接瞄準(zhǔn)了 Google 的核心業(yè)務(wù)——搜索引擎。這一舉動(dòng)不僅標(biāo)志著 OpenAI 在技術(shù)上的又一次飛躍，也預(yù)示著搜索引擎市場(chǎng)即

發(fā)表于 07-26 15:11 ?540次閱讀

微軟計(jì)劃在搜索引擎Bing中引入AI摘要功能

近期，科技界傳來(lái)新動(dòng)向，微軟緊隨百度與谷歌的步伐，宣布計(jì)劃在其搜索引擎Bing中引入先進(jìn)的AI摘要功能，旨在為用戶帶來(lái)更加智能、豐富的搜索體驗(yàn)。

發(fā)表于 07-26 14:23 ?422次閱讀

新火種AI|谷歌推出AI搜索引擎惹得出版商擔(dān)憂！新聞流量的至暗時(shí)刻要來(lái)了嗎？

作者：小巖編輯：彩云在數(shù)字化浪潮的推動(dòng)下，AI技術(shù)正逐漸滲透到我們生活的方方面面。最近，谷歌宣布推出一款全新的AI搜索引擎，這在使我們見(jiàn)識(shí)到了科技巨頭所擁有的超能力和“鈔”能力的同時(shí)，也讓我們

發(fā)表于 05-17 09:40 ?317次閱讀

新火種AI|<b class='flag-5'>谷歌</b>推出AI<b class='flag-5'>搜索引擎</b>惹得出版商擔(dān)憂！新聞流量的至暗時(shí)刻要來(lái)了嗎？

OpenAI否認(rèn)將推出搜索產(chǎn)品或GPT-5

此消息對(duì)致力于將ChatGPT嵌入必應(yīng)搜索引擎的微軟或許有所積極影響。早期已有報(bào)導(dǎo)披露，該AI企業(yè)有意研發(fā)競(jìng)品以抗衡谷歌搜索引擎。

發(fā)表于 05-13 15:14 ?355次閱讀

OpenAI注冊(cè)新域名，準(zhǔn)備推出結(jié)合AI技術(shù)的搜索引擎挑戰(zhàn)谷歌

OpenAI最近注冊(cè)了“search.chatgpt.com”域名，看起來(lái)是要推出一款新的搜索引擎。

發(fā)表于 05-08 10:41 ?417次閱讀

OpenAI或?qū)⑼瞥鯟hatGPT搜索引擎

據(jù)可靠消息透露，OpenAI正秘密研發(fā)一款以ChatGPT為基礎(chǔ)的大型產(chǎn)品，其核心功能將是一款新型搜索引擎，旨在為用戶提供更便捷的上網(wǎng)體驗(yàn)。

發(fā)表于 05-08 10:19 ?446次閱讀

新火種AI|挑戰(zhàn)谷歌，OpenAI要推出搜索引擎？

新的搜索引擎，幫助用書(shū)輕松上網(wǎng)。 OpenAI的這一動(dòng)向引起了業(yè)界的廣泛關(guān)注。作為OpenAI開(kāi)發(fā)的一款強(qiáng)大的AI大語(yǔ)言模型，ChatGPT已經(jīng)在自然語(yǔ)言處理的領(lǐng)域取得了顯著的成果，并給了人們?nèi)碌墨@取信息的體驗(yàn)。因此，自誕生以來(lái)，ChatGPT一直都被不少人視為能夠給予谷歌

發(fā)表于 05-07 22:06 ?330次閱讀

OpenAI或?qū)⒃?月9日發(fā)布ChatGPT版搜索引擎

OpenAI可能即將與谷歌展開(kāi)正面競(jìng)爭(zhēng)，推出基于ChatGPT的搜索引擎。根據(jù)Reddit網(wǎng)友的最新爆料，OpenAI有望在5月9日公布其全新的搜索產(chǎn)品。據(jù)悉，與這一新產(chǎn)品相對(duì)應(yīng)的搜索

發(fā)表于 05-07 09:28 ?579次閱讀

潤(rùn)和軟件與新財(cái)富聯(lián)合發(fā)布金融AI對(duì)話式搜索引擎“金融搜一搜”產(chǎn)品

3月29日，新財(cái)富投顧嘉年華活動(dòng)中，江蘇潤(rùn)和軟件股份有限公司（以下簡(jiǎn)稱“潤(rùn)和軟件”）與深圳市新財(cái)富數(shù)字科技有限責(zé)任公司（以下簡(jiǎn)稱“新財(cái)富”）聯(lián)合發(fā)布了金融AI對(duì)話式搜索引擎——“金融搜一搜”產(chǎn)品，助力金融投資場(chǎng)景智能化升級(jí)。

發(fā)表于 04-02 10:15 ?428次閱讀

Redis官方搜索引擎來(lái)了，性能炸裂！

RediSearch 是一個(gè) Redis 模塊，為 Redis 提供查詢、二級(jí)索引和全文搜索功能。

發(fā)表于 02-21 10:01 ?2116次閱讀

生成式AI恐使搜索引擎衰退，預(yù)計(jì)2026年搜索量將下滑25%

據(jù)市場(chǎng)分析機(jī)構(gòu)Gartner報(bào)道，生成式AI對(duì)傳統(tǒng)搜索引擎構(gòu)成重大威脅，預(yù)計(jì)至2026年搜索量將降低25%。為此，企業(yè)需調(diào)整營(yíng)銷策略。

發(fā)表于 02-20 10:04 ?645次閱讀

鴻蒙OS開(kāi)發(fā)之融合搜索概述

索引。全文搜索通過(guò)全文索引進(jìn)行匹配查找結(jié)果的一種搜索引擎技術(shù)。全局搜索可以在系統(tǒng)全局統(tǒng)一

發(fā)表于 01-29 16:24 ?487次閱讀

谷歌搜索引擎優(yōu)化的各個(gè)方面和步驟

谷歌搜索引擎是最受歡迎和廣泛使用的搜索引擎之一，為了使你的網(wǎng)站在谷歌上更好地排名并提高曝光度，你可以采取一些谷歌

發(fā)表于 01-25 10:29 ?817次閱讀