0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌推出數(shù)據(jù)集搜索黑科技,再也不用發(fā)愁找數(shù)據(jù)!

ExMh_zhishexues ? 來(lái)源:未知 ? 作者:胡薇 ? 2018-09-14 14:09 ? 次閱讀

旨在整合全球互聯(lián)網(wǎng)信息的谷歌,其首要目標(biāo)本來(lái)是林林總總的商業(yè)網(wǎng)站。但最近,它推出了一種新型的數(shù)據(jù)集搜索引擎,將服務(wù)目標(biāo)延展到了科研社群。這就是屬于科研工作者等數(shù)據(jù)狂的黑科技——Google Dataset Search(谷歌數(shù)據(jù)集搜索)。

谷歌數(shù)據(jù)集搜索發(fā)起了一次數(shù)據(jù)搜索的革命,它讓人們能夠迅速獲取分散在全互聯(lián)網(wǎng)的各式數(shù)據(jù)集。無(wú)論是網(wǎng)站、數(shù)字圖書館還是專業(yè)數(shù)據(jù)庫(kù),只要是存在于線上的共享數(shù)據(jù)集,就能夠被引擎找到。用戶鍵入搜索信息后,谷歌會(huì)分析比對(duì)相同數(shù)據(jù)集的不同版本,并盡可能地檢索有價(jià)值的相關(guān)信息。

實(shí)際上,這次革命的核心工具非常純粹,就是一個(gè)可以將各式數(shù)據(jù)集集中在一起加以描述檢索的開放標(biāo)準(zhǔn)(http://schema.org)。數(shù)據(jù)發(fā)布者按照這個(gè)標(biāo)準(zhǔn)所定義的標(biāo)簽框架,對(duì)發(fā)布的數(shù)據(jù)內(nèi)容進(jìn)行標(biāo)簽式的描述。定義的標(biāo)簽包括發(fā)布時(shí)間、發(fā)布方、數(shù)據(jù)收集方式等等。而引擎隨后會(huì)將這些標(biāo)簽信息編入索引,并與谷歌知識(shí)譜圖結(jié)合使用,從而使本來(lái)分布零散的數(shù)據(jù)集成為一個(gè)能夠統(tǒng)一檢索的強(qiáng)大系統(tǒng)。

Figure.1Google Dataset Search使用實(shí)例

Figure.2Google Dataset Search使用實(shí)例

谷歌的人工智能科學(xué)家娜塔莎·諾伊(Natasha Noy)接受采訪時(shí)表示,創(chuàng)建數(shù)據(jù)集搜索的目標(biāo)是將數(shù)以萬(wàn)計(jì)的在線數(shù)據(jù)集統(tǒng)合展示,并非自行建立數(shù)據(jù)庫(kù)收集數(shù)據(jù),她說:“我們只是希望這些數(shù)據(jù)能夠被人們輕松獲取,并不是想將其收集挪動(dòng)到其他地方?!?/p>

目前,互聯(lián)網(wǎng)上的數(shù)據(jù)集資料分布極其零散。不同的學(xué)科領(lǐng)域各自擁有自己的首選資源庫(kù),各政府機(jī)構(gòu)和地方當(dāng)局更是如此。諾伊說:“科學(xué)家們當(dāng)然知道能在哪些專業(yè)數(shù)據(jù)庫(kù)找到他們自己領(lǐng)域的數(shù)據(jù),但他們有時(shí)想要的并不是這一類數(shù)據(jù)。而一旦他們將視野拓展到專業(yè)領(lǐng)域之外,數(shù)據(jù)搜尋就會(huì)變得十分困難。”

諾伊舉了一個(gè)她親歷親聞的例子,一位氣象學(xué)家在為即將開展的研究尋找海洋溫度的特定數(shù)據(jù)集,但怎么也找不到。她沒有繼續(xù)追蹤,直到她在遇到了相關(guān)方面的同事,在同事的幫助下她才找到那個(gè)數(shù)據(jù)庫(kù)。然后她的研究工作才得以繼續(xù)。諾伊說:“雖然保存數(shù)據(jù)的地方算是很顯見,數(shù)據(jù)描述也寫得很清晰,但仍然很難被找到?!?/p>

該搜索引擎的初始版本主要包括來(lái)自ProPublica等新聞機(jī)構(gòu)以及政府機(jī)構(gòu)的數(shù)據(jù)和數(shù)據(jù)集。 但是,如果這項(xiàng)搜索服務(wù)最終流行起來(lái),那么隨著機(jī)構(gòu)和科學(xué)家爭(zhēng)相開放數(shù)據(jù)的訪問權(quán)限,它所囊括的數(shù)據(jù)量肯定會(huì)呈現(xiàn)滾雪球式的成長(zhǎng)。

而近年來(lái),世界各地關(guān)于數(shù)據(jù)開放共享的倡議正在蓬勃發(fā)展,這將有助于數(shù)據(jù)集搜索引擎的實(shí)現(xiàn)。諾伊認(rèn)為,在過去的幾年里,可共享數(shù)據(jù)的存量已經(jīng)爆炸,她將此歸功于科學(xué)文獻(xiàn)中數(shù)據(jù)的重要性在日益增長(zhǎng)——因?yàn)槠诳瘯?huì)要求作者將數(shù)據(jù)集發(fā)布出來(lái)。而除此之外,美國(guó)政府和歐洲政府的法律法規(guī)也在進(jìn)一步引導(dǎo)數(shù)據(jù)開放共享。

開放數(shù)據(jù)研究所(ODI)首席執(zhí)行官Jeni Tennison表示,Google參與到開放數(shù)據(jù)行動(dòng)中來(lái),將更有利于這項(xiàng)運(yùn)動(dòng)獲得成功。數(shù)據(jù)集搜索一直是一個(gè)很困難的事情,希望谷歌能讓它變得更加容易。她進(jìn)一步說,要?jiǎng)?chuàng)建一個(gè)像樣的搜索引擎,你需要知道如何構(gòu)建對(duì)用戶友好的系統(tǒng),并了解人們?cè)阪I入某些短語(yǔ)時(shí)的真實(shí)所想。而谷歌對(duì)這些了如指掌。事實(shí)上,對(duì)于搜索引擎來(lái)說,最重要的是用戶所產(chǎn)生的行為數(shù)據(jù),這才是促進(jìn)引擎快速成長(zhǎng)的活力源泉。所以,雖然搜索引擎賴以抓取數(shù)據(jù)集的元數(shù)據(jù)標(biāo)簽是一個(gè)開放標(biāo)準(zhǔn),任何競(jìng)爭(zhēng)對(duì)手(如Bing或Yandex等)都可以使用它來(lái)構(gòu)建自己的競(jìng)爭(zhēng)服務(wù),但谷歌從沒有喪失自己的真正優(yōu)勢(shì)。Tennison也表示:“直觀地了解人們的搜索方式很重要,譬如,他們?cè)跈z索時(shí)會(huì)使用什么樣的術(shù)語(yǔ),又會(huì)如何表述這些術(shù)語(yǔ)。從了解人們?nèi)绾嗡阉鲾?shù)據(jù),并據(jù)此進(jìn)一步推進(jìn)數(shù)據(jù)開放的角度說,如果谷歌能夠開放自己的用戶行為數(shù)據(jù),將會(huì)大有裨益?!?/p>

總而言之,更多的數(shù)據(jù)開放共享是值得期待的潮流,而谷歌無(wú)疑又一次扛起了領(lǐng)頭的大旗。當(dāng)然,在谷歌完全回歸中國(guó)之前,我們距離便利還會(huì)多一個(gè)梯子的距離。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6128

    瀏覽量

    104979
  • 搜索引擎
    +關(guān)注

    關(guān)注

    0

    文章

    115

    瀏覽量

    13347

原文標(biāo)題:谷歌新推數(shù)據(jù)搜索,科學(xué)研究還爬樓么?

文章出處:【微信號(hào):zhishexueshuquan,微信公眾號(hào):知社學(xué)術(shù)圈】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    谷歌取消“站點(diǎn)鏈接搜索框”,適應(yīng)新搜索需求

    近日,谷歌發(fā)布了一則通知,決定取消搜索結(jié)果中的“站點(diǎn)鏈接搜索框”。這一功能已經(jīng)陪伴了用戶十多年,它允許用戶在特定網(wǎng)站上進(jìn)行更深入的搜索,為許多網(wǎng)民提供了便利。然而,隨著時(shí)代的變遷和技術(shù)
    的頭像 發(fā)表于 10-23 11:20 ?286次閱讀

    OpenAI將推出在線搜索工具“SearchGPT”

    科技巨頭OpenAI正悄然醞釀一場(chǎng)搜索領(lǐng)域的變革,其最新推出的在線搜索工具“SearchGPT”正悄然挑戰(zhàn)著Alphabet旗下谷歌搜索
    的頭像 發(fā)表于 07-26 16:54 ?632次閱讀

    SMT32F429頻繁接收數(shù)據(jù)之后,發(fā)送會(huì)報(bào)錯(cuò)ERR_MEM(-1)的原因?

    in ../Middlewares/Third_Party/LwIP/src/core/pbuf.c 頻繁接收數(shù)據(jù)之后,發(fā)送會(huì)報(bào)錯(cuò)ERR_MEM(-1),后面就再也不能正常收發(fā)數(shù)據(jù)了。 各位大佬,請(qǐng)問這是什么原因?qū)е碌??或者?/div>
    發(fā)表于 07-05 06:23

    PyTorch如何訓(xùn)練自己的數(shù)據(jù)

    PyTorch是一個(gè)廣泛使用的深度學(xué)習(xí)框架,它以其靈活性、易用性和強(qiáng)大的動(dòng)態(tài)圖特性而聞名。在訓(xùn)練深度學(xué)習(xí)模型時(shí),數(shù)據(jù)是不可或缺的組成部分。然而,很多時(shí)候,我們可能需要使用自己的數(shù)據(jù)
    的頭像 發(fā)表于 07-02 14:09 ?1218次閱讀

    請(qǐng)問NanoEdge AI數(shù)據(jù)該如何構(gòu)建?

    我想用NanoEdge來(lái)識(shí)別異常的聲音,但我目前沒有辦法生成模型,我感覺可能是數(shù)據(jù)的問題,請(qǐng)問我該怎么構(gòu)建數(shù)據(jù)?或者生成模型失敗還會(huì)有哪些原因?
    發(fā)表于 05-28 07:27

    谷歌將在AI搜索中加入廣告

    谷歌近日宣布,將在美國(guó)測(cè)試在人工智能生成的答案中嵌入搜索和購(gòu)物廣告。這一創(chuàng)新舉措緊隨其年度I/O大會(huì)上推出的人工智能概覽功能之后。
    的頭像 發(fā)表于 05-23 09:23 ?421次閱讀

    谷歌推出新一代AI數(shù)據(jù)中心芯片Trillium

    2024年5月,谷歌母公司Alphabet在業(yè)界掀起了一股技術(shù)革新的浪潮,其最新推出的人工智能數(shù)據(jù)中心芯片“Trillium”備受矚目。這款芯片作為谷歌的第六代產(chǎn)品,相較于前代TPUv
    的頭像 發(fā)表于 05-16 10:44 ?511次閱讀

    OpenAI計(jì)劃下周一宣布對(duì)標(biāo)谷歌搜索的競(jìng)品

    OpenAI即將在下周一揭曉一項(xiàng)重大創(chuàng)新,他們計(jì)劃推出一款全新的AI搜索產(chǎn)品,以挑戰(zhàn)當(dāng)前搜索領(lǐng)域的巨頭谷歌。這一決定無(wú)疑將加劇雙方在搜索市場(chǎng)
    的頭像 發(fā)表于 05-11 09:22 ?334次閱讀

    谷歌Vertex AI搜索在醫(yī)療保健領(lǐng)域正式推出

    谷歌公司近日宣布,其Vertex AI搜索功能在醫(yī)療保健領(lǐng)域正式亮相,并已成功與MedLM以及醫(yī)療保健數(shù)據(jù)引擎(HDE)完成集成。這一創(chuàng)新功能專為醫(yī)護(hù)人員設(shè)計(jì),旨在從繁雜的醫(yī)療記錄中快速且精準(zhǔn)地提取出關(guān)鍵的臨床信息。
    的頭像 發(fā)表于 03-22 14:08 ?554次閱讀

    蘋果微軟曾洽購(gòu)必應(yīng),因谷歌搜索質(zhì)量未果

    CNBC及其他媒體引述的美國(guó)司法部反壟斷公訴書詳細(xì)列舉了谷歌搜索領(lǐng)域所持的壟斷角色。訴狀中透露,盡管微軟多次試圖將必應(yīng)用戶作為Safari瀏覽器的默認(rèn)搜索引擎,但每一次均因搜索結(jié)果質(zhì)
    的頭像 發(fā)表于 02-25 10:39 ?620次閱讀

    谷歌搜索引擎優(yōu)化的各個(gè)方面和步驟

    谷歌搜索引擎是最受歡迎和廣泛使用的搜索引擎之一,為了使你的網(wǎng)站在谷歌上更好地排名并提高曝光度,你可以采取一些谷歌
    的頭像 發(fā)表于 01-25 10:29 ?820次閱讀

    自動(dòng)駕駛領(lǐng)域的數(shù)據(jù)匯總

    發(fā)自動(dòng)駕駛論文哪少的了數(shù)據(jù),今天筆者將為大家推薦一篇最新的綜述,總結(jié)了200多個(gè)自動(dòng)駕駛領(lǐng)域的數(shù)據(jù),大家堆工作量的時(shí)候也可以一些小眾的
    的頭像 發(fā)表于 01-19 10:48 ?930次閱讀
    自動(dòng)駕駛領(lǐng)域的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>匯總

    語(yǔ)音數(shù)據(jù)在智能語(yǔ)音搜索中的應(yīng)用與挑戰(zhàn)

    一、引言 隨著互聯(lián)網(wǎng)的普及和移動(dòng)設(shè)備的興起,智能語(yǔ)音搜索已經(jīng)成為人們獲取信息的重要方式之一。智能語(yǔ)音搜索通過語(yǔ)音交互的方式,為用戶提供更加便捷、高效的信息查詢服務(wù)。語(yǔ)音數(shù)據(jù)在智能語(yǔ)音
    的頭像 發(fā)表于 01-18 15:09 ?506次閱讀

    再也不用手動(dòng)關(guān)燈了,用安信可的小安派做一個(gè)智能家居中控

    本作品由安信可社區(qū)用戶 noonezero 制作 以下是我的項(xiàng)目之再也不用手動(dòng)關(guān)燈系列,為了方便小伙伴們看效果,大家可以先點(diǎn)擊看視頻。 https://www.bilibili.com/video
    的頭像 發(fā)表于 01-08 17:26 ?514次閱讀
    <b class='flag-5'>再也不用</b>手動(dòng)關(guān)燈了,用安信可的小安派做一個(gè)智能家居中控

    大模型數(shù)據(jù):力量的源泉,進(jìn)步的階梯

    一、引言 在? ? 的繁榮發(fā)展中,大模型數(shù)據(jù)的作用日益凸顯。它們?nèi)琮嫶蟮闹R(shí)庫(kù),為AI提供了豐富的信息和理解能力。本文將用一種獨(dú)特的風(fēng)格來(lái)探討大模型數(shù)據(jù)的魅力和潛力。 二、大模型
    的頭像 發(fā)表于 12-07 17:18 ?619次閱讀