旨在整合全球互聯(lián)網(wǎng)信息的谷歌,其首要目標(biāo)本來(lái)是林林總總的商業(yè)網(wǎng)站。但最近,它推出了一種新型的數(shù)據(jù)集搜索引擎,將服務(wù)目標(biāo)延展到了科研社群。這就是屬于科研工作者等數(shù)據(jù)狂的黑科技——Google Dataset Search(谷歌數(shù)據(jù)集搜索)。
谷歌數(shù)據(jù)集搜索發(fā)起了一次數(shù)據(jù)搜索的革命,它讓人們能夠迅速獲取分散在全互聯(lián)網(wǎng)的各式數(shù)據(jù)集。無(wú)論是網(wǎng)站、數(shù)字圖書館還是專業(yè)數(shù)據(jù)庫(kù),只要是存在于線上的共享數(shù)據(jù)集,就能夠被引擎找到。用戶鍵入搜索信息后,谷歌會(huì)分析比對(duì)相同數(shù)據(jù)集的不同版本,并盡可能地檢索有價(jià)值的相關(guān)信息。
實(shí)際上,這次革命的核心工具非常純粹,就是一個(gè)可以將各式數(shù)據(jù)集集中在一起加以描述檢索的開放標(biāo)準(zhǔn)(http://schema.org)。數(shù)據(jù)發(fā)布者按照這個(gè)標(biāo)準(zhǔn)所定義的標(biāo)簽框架,對(duì)發(fā)布的數(shù)據(jù)內(nèi)容進(jìn)行標(biāo)簽式的描述。定義的標(biāo)簽包括發(fā)布時(shí)間、發(fā)布方、數(shù)據(jù)收集方式等等。而引擎隨后會(huì)將這些標(biāo)簽信息編入索引,并與谷歌知識(shí)譜圖結(jié)合使用,從而使本來(lái)分布零散的數(shù)據(jù)集成為一個(gè)能夠統(tǒng)一檢索的強(qiáng)大系統(tǒng)。
Figure.1Google Dataset Search使用實(shí)例
Figure.2Google Dataset Search使用實(shí)例
谷歌的人工智能科學(xué)家娜塔莎·諾伊(Natasha Noy)接受采訪時(shí)表示,創(chuàng)建數(shù)據(jù)集搜索的目標(biāo)是將數(shù)以萬(wàn)計(jì)的在線數(shù)據(jù)集統(tǒng)合展示,并非自行建立數(shù)據(jù)庫(kù)收集數(shù)據(jù),她說:“我們只是希望這些數(shù)據(jù)能夠被人們輕松獲取,并不是想將其收集挪動(dòng)到其他地方?!?/p>
目前,互聯(lián)網(wǎng)上的數(shù)據(jù)集資料分布極其零散。不同的學(xué)科領(lǐng)域各自擁有自己的首選資源庫(kù),各政府機(jī)構(gòu)和地方當(dāng)局更是如此。諾伊說:“科學(xué)家們當(dāng)然知道能在哪些專業(yè)數(shù)據(jù)庫(kù)找到他們自己領(lǐng)域的數(shù)據(jù),但他們有時(shí)想要的并不是這一類數(shù)據(jù)。而一旦他們將視野拓展到專業(yè)領(lǐng)域之外,數(shù)據(jù)搜尋就會(huì)變得十分困難。”
諾伊舉了一個(gè)她親歷親聞的例子,一位氣象學(xué)家在為即將開展的研究尋找海洋溫度的特定數(shù)據(jù)集,但怎么也找不到。她沒有繼續(xù)追蹤,直到她在遇到了相關(guān)方面的同事,在同事的幫助下她才找到那個(gè)數(shù)據(jù)庫(kù)。然后她的研究工作才得以繼續(xù)。諾伊說:“雖然保存數(shù)據(jù)的地方算是很顯見,數(shù)據(jù)描述也寫得很清晰,但仍然很難被找到?!?/p>
該搜索引擎的初始版本主要包括來(lái)自ProPublica等新聞機(jī)構(gòu)以及政府機(jī)構(gòu)的數(shù)據(jù)和數(shù)據(jù)集。 但是,如果這項(xiàng)搜索服務(wù)最終流行起來(lái),那么隨著機(jī)構(gòu)和科學(xué)家爭(zhēng)相開放數(shù)據(jù)的訪問權(quán)限,它所囊括的數(shù)據(jù)量肯定會(huì)呈現(xiàn)滾雪球式的成長(zhǎng)。
而近年來(lái),世界各地關(guān)于數(shù)據(jù)開放共享的倡議正在蓬勃發(fā)展,這將有助于數(shù)據(jù)集搜索引擎的實(shí)現(xiàn)。諾伊認(rèn)為,在過去的幾年里,可共享數(shù)據(jù)的存量已經(jīng)爆炸,她將此歸功于科學(xué)文獻(xiàn)中數(shù)據(jù)的重要性在日益增長(zhǎng)——因?yàn)槠诳瘯?huì)要求作者將數(shù)據(jù)集發(fā)布出來(lái)。而除此之外,美國(guó)政府和歐洲政府的法律法規(guī)也在進(jìn)一步引導(dǎo)數(shù)據(jù)開放共享。
開放數(shù)據(jù)研究所(ODI)首席執(zhí)行官Jeni Tennison表示,Google參與到開放數(shù)據(jù)行動(dòng)中來(lái),將更有利于這項(xiàng)運(yùn)動(dòng)獲得成功。數(shù)據(jù)集搜索一直是一個(gè)很困難的事情,希望谷歌能讓它變得更加容易。她進(jìn)一步說,要?jiǎng)?chuàng)建一個(gè)像樣的搜索引擎,你需要知道如何構(gòu)建對(duì)用戶友好的系統(tǒng),并了解人們?cè)阪I入某些短語(yǔ)時(shí)的真實(shí)所想。而谷歌對(duì)這些了如指掌。事實(shí)上,對(duì)于搜索引擎來(lái)說,最重要的是用戶所產(chǎn)生的行為數(shù)據(jù),這才是促進(jìn)引擎快速成長(zhǎng)的活力源泉。所以,雖然搜索引擎賴以抓取數(shù)據(jù)集的元數(shù)據(jù)標(biāo)簽是一個(gè)開放標(biāo)準(zhǔn),任何競(jìng)爭(zhēng)對(duì)手(如Bing或Yandex等)都可以使用它來(lái)構(gòu)建自己的競(jìng)爭(zhēng)服務(wù),但谷歌從沒有喪失自己的真正優(yōu)勢(shì)。Tennison也表示:“直觀地了解人們的搜索方式很重要,譬如,他們?cè)跈z索時(shí)會(huì)使用什么樣的術(shù)語(yǔ),又會(huì)如何表述這些術(shù)語(yǔ)。從了解人們?nèi)绾嗡阉鲾?shù)據(jù),并據(jù)此進(jìn)一步推進(jìn)數(shù)據(jù)開放的角度說,如果谷歌能夠開放自己的用戶行為數(shù)據(jù),將會(huì)大有裨益?!?/p>
總而言之,更多的數(shù)據(jù)開放共享是值得期待的潮流,而谷歌無(wú)疑又一次扛起了領(lǐng)頭的大旗。當(dāng)然,在谷歌完全回歸中國(guó)之前,我們距離便利還會(huì)多一個(gè)梯子的距離。
-
谷歌
+關(guān)注
關(guān)注
27文章
6128瀏覽量
104979 -
搜索引擎
+關(guān)注
關(guān)注
0文章
115瀏覽量
13347
原文標(biāo)題:谷歌新推數(shù)據(jù)搜索,科學(xué)研究還爬樓么?
文章出處:【微信號(hào):zhishexueshuquan,微信公眾號(hào):知社學(xué)術(shù)圈】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論