美國(guó)阿爾法股權(quán)管理公司(Alpha Eqiuty Mangement)高級(jí)國(guó)際資產(chǎn)分析師Vince Fioramonti在2001年突然意識(shí)到,由于有價(jià)值的投資信息在網(wǎng)絡(luò)上將會(huì)越來(lái)越多,今后越來(lái)越多的廠商將根據(jù)信息的重要性和關(guān)聯(lián)性提供可搜集和解譯這些信息的軟件。
語(yǔ)義網(wǎng)絡(luò)將成為企業(yè)發(fā)展的利器
Fioramonti稱(chēng):“我曾經(jīng)擁有一支專(zhuān)門(mén)為公司搜集和分析金融信息的分析團(tuán)隊(duì)。不過(guò),他們的處理速度極為緩慢,得出的結(jié)論往往也過(guò)于主觀,甚至有時(shí)會(huì)前后矛盾。”
第二年,F(xiàn)ioramonti改用Autonomy集團(tuán)的語(yǔ)義平臺(tái)——智能數(shù)據(jù)操作層(IDOL)來(lái)自動(dòng)處理各種形式的數(shù)字化信息。他們?cè)诓渴鹬杏龅搅艘粋€(gè)障礙:IDOL僅提供了常用的語(yǔ)義算法。Fioramonti稱(chēng),阿爾法股權(quán)管理公司為此不得不組建了一個(gè)由程序員和金融分析師組成的團(tuán)隊(duì),專(zhuān)門(mén)研發(fā)適用于金融學(xué)的算法和元數(shù)據(jù)。由于耗資過(guò)于巨大,公司最后放棄了這一項(xiàng)目。
阿爾法股權(quán)管理公司在2008年迎來(lái)了新的契機(jī),當(dāng)時(shí)他們參加了湯森路透的機(jī)器可讀新聞(Machine Readable News)服務(wù)。該服務(wù)可從3000多名路透社記者,以及網(wǎng)絡(luò)報(bào)紙和博客等第三方資源那里收集、分析網(wǎng)絡(luò)新聞。然后,根據(jù)影響力(如果公眾對(duì)公司或產(chǎn)品的印象)、關(guān)聯(lián)性和新穎性,對(duì)這些材料進(jìn)行分析和評(píng)分。
這些結(jié)果會(huì)源源不斷的提供給客戶(hù),包括公共關(guān)系和營(yíng)銷(xiāo)人員、使用自動(dòng)化“黑匣子交易(black box trading)”系統(tǒng)的股票交易商、為長(zhǎng)期投資決策收集整理數(shù)據(jù)的基金經(jīng)理。
Fioramonti稱(chēng)該服務(wù)每月收費(fèi)并不便宜。據(jù)估計(jì),實(shí)時(shí)數(shù)據(jù)更新的成本每月在15000至50000英鎊之間。不過(guò),對(duì)于阿爾法股權(quán)管理公司來(lái)說(shuō),該服務(wù)確實(shí)物有所值。他稱(chēng),這些信息不僅幫助提升了公司的資產(chǎn)收益,還幫助公司擊敗了許多競(jìng)爭(zhēng)對(duì)手。
阿爾法股權(quán)管理公司的經(jīng)歷并不是唯一的案例。無(wú)論公司決定建造一個(gè)類(lèi)似的內(nèi)部系統(tǒng),還是決定雇用服務(wù)提供商,通常都要花費(fèi)巨資才能利用語(yǔ)義網(wǎng)技術(shù)。如果所搜索和分析的信息包括有針對(duì)特定商業(yè)領(lǐng)域的行話(huà)、概念和縮略語(yǔ)信息,那么同樣可以實(shí)現(xiàn)。
以下我們將為大家介紹一下那些能夠幫助進(jìn)行商業(yè)部署和利用語(yǔ)義網(wǎng)基礎(chǔ)的工具,以及要想發(fā)揮這一技術(shù)的潛能還需要哪些東西。
關(guān)鍵標(biāo)準(zhǔn)
根據(jù)Tim Berners-Lee提出的概念,語(yǔ)義網(wǎng)的核心是聯(lián)合搜索(Federated Search)。其可搜索引擎、代理或應(yīng)用詢(xún)問(wèn)網(wǎng)絡(luò)上成千上萬(wàn)個(gè)信息源,發(fā)現(xiàn)并在語(yǔ)義上分析相關(guān)內(nèi)容,準(zhǔn)確檢索用戶(hù)尋找的產(chǎn)品、答案或信息。
盡管聯(lián)合搜索正逐漸流行起來(lái),特別是出現(xiàn)在了Windows 7上,但是要在整個(gè)網(wǎng)絡(luò)上廣泛普及還有很長(zhǎng)的路要走。
為了有效的推動(dòng)聯(lián)合搜索,萬(wàn)維網(wǎng)聯(lián)盟(W3C)制定了幾個(gè)關(guān)鍵標(biāo)準(zhǔn),定義了基本的語(yǔ)義基礎(chǔ)設(shè)施。它們包括:
?簡(jiǎn)單協(xié)議與RDF 查詢(xún)語(yǔ)言(SPARQL),其定義了用于查詢(xún)和訪(fǎng)問(wèn)數(shù)據(jù)的標(biāo)準(zhǔn)語(yǔ)言。
?資源描述框架(RDF)和RDF模式(RDFS),其規(guī)范了在語(yǔ)義本體(又稱(chēng)為詞匯表)中如何陳述和組織信息。
?網(wǎng)絡(luò)本體語(yǔ)言(OWL),其對(duì)本體論和部分RDFS原理進(jìn)行了詳細(xì)陳述。
目前這些標(biāo)準(zhǔn)的最終定稿已經(jīng)得到了Cambridge Semantics、Expert System、Revelytix、Endeca、Lexalytics、Autonomy 和Topquadrant等主要語(yǔ)義網(wǎng)平臺(tái)廠商的支持。
谷歌、雅虎和微軟必應(yīng)等主要網(wǎng)絡(luò)搜索引擎已經(jīng)開(kāi)始使用語(yǔ)義元數(shù)據(jù)區(qū)分搜索結(jié)果,并開(kāi)始支持RDF等W3C標(biāo)準(zhǔn)。
如今甲骨文、企業(yè)軟件廠商和IBM也加入到語(yǔ)義網(wǎng)的研發(fā)中,并分別推出了甲骨文Database 11g 語(yǔ)義技術(shù)、SAS 本體管理工具和IBM InfoSphere BigInsights工具。
W3C標(biāo)準(zhǔn)的推出目的是解決不同機(jī)構(gòu)在組織、描述、呈現(xiàn)信息中的不一致性,為跨域語(yǔ)義查詢(xún)和聯(lián)合搜索鋪平道路。
本體管理工具制造商Revelytix的首席執(zhí)行官M(fèi)ichael Lang為我們描述了使用W3C標(biāo)準(zhǔn)的好處。他稱(chēng),如果200家網(wǎng)上家用電子產(chǎn)品銷(xiāo)售商使用諸如RDF的語(yǔ)義網(wǎng)標(biāo)準(zhǔn)描述他們產(chǎn)品庫(kù),Revelytix的軟件則可以讓這些信息通過(guò)SPARQL查詢(xún)方式被訪(fǎng)問(wèn)。網(wǎng)絡(luò)商家可以使用兼容W3C標(biāo)準(zhǔn)的瀏覽器工具在不同網(wǎng)站搜索產(chǎn)品,如通過(guò)輸入“根據(jù)價(jià)格排列并顯示所有42-52英寸平板電視”進(jìn)行查詢(xún)。
搜索引擎和一些第三方網(wǎng)絡(luò)購(gòu)物網(wǎng)站可提供產(chǎn)品對(duì)比,不過(guò)這些對(duì)比僅限于所搜索到的結(jié)果的屬性。購(gòu)物者經(jīng)常發(fā)現(xiàn)由第三方所提供數(shù)據(jù)已經(jīng)過(guò)時(shí),甚至不正確,如無(wú)法準(zhǔn)確提供有效的尺寸和顏色信息?;跇?biāo)準(zhǔn)的跨網(wǎng)站查詢(xún)可為購(gòu)物者提供由商家自己提供的更為豐富的對(duì)比信息和更新的介紹信息。
W3C SPARQL工作組聯(lián)合組長(zhǎng)Lee Feigenbaum 稱(chēng),W3C SPARQL工作組目前正在研發(fā)SPARQL服務(wù)描述,旨在標(biāo)準(zhǔn)化SPARQL“終端”或信息源提供數(shù)據(jù)的方式,特別是詳細(xì)規(guī)定了如何描述數(shù)據(jù)的類(lèi)型和數(shù)量。
模塊和軟件工具
工具、平臺(tái)、預(yù)置組件和服務(wù)均可有效縮短部署時(shí)間,降低技術(shù)復(fù)雜性,減少成本。
Jena為開(kāi)發(fā)語(yǔ)義網(wǎng)應(yīng)用的開(kāi)源Java架構(gòu),其包括有RDF、RDFS和OWL的API,一個(gè)SPARQL查詢(xún)引擎和一個(gè)推理引擎。Sesame為存儲(chǔ)、推理和查詢(xún)RDF數(shù)據(jù)的開(kāi)源架構(gòu)。
主流語(yǔ)義網(wǎng)平臺(tái)都帶有用于描述常用術(shù)語(yǔ)、概念、縮略語(yǔ)的“知識(shí)庫(kù)”,讓用戶(hù)在使用時(shí)創(chuàng)建本體知識(shí)庫(kù)。Lexalytics產(chǎn)品管理副總裁Seth Redmore稱(chēng):“客戶(hù)的需求往往相互矛盾:讓平臺(tái)能夠反饋精確信息,對(duì)這些信息進(jìn)行整編讓其更適合自己的業(yè)務(wù)。”
為了解決這一矛盾,Lexalytics選擇將他們的語(yǔ)義平臺(tái)主要銷(xiāo)售給服務(wù)提供商,由服務(wù)提供商再對(duì)特定商業(yè)領(lǐng)域和應(yīng)用進(jìn)行微調(diào)。湯森路透的機(jī)器可讀新聞服務(wù)就是一個(gè)很好的例子。
部分平臺(tái)廠商推出了專(zhuān)門(mén)針對(duì)商業(yè)的解決方案。比如,Endeca推出了用于電子商務(wù)和企業(yè)語(yǔ)義應(yīng)用的應(yīng)用開(kāi)發(fā)工具包。
此外,還有一些可以自動(dòng)將語(yǔ)義元數(shù)據(jù)和W3C標(biāo)準(zhǔn)整合到現(xiàn)有信息庫(kù)中的工具。據(jù)Lang稱(chēng),Revelytix的Spyder工具可自動(dòng)將結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成RDF。作為能夠被兼容SPARQL的瀏覽器訪(fǎng)問(wèn)的SPARQL終端,其可在網(wǎng)頁(yè)上顯示這些信息。
名為D2RQ的開(kāi)源工具可以將所選擇的數(shù)據(jù)庫(kù)映射到RDF和OWL本體知識(shí)庫(kù)中,讓兼容SPARQL的應(yīng)用訪(fǎng)問(wèn)這些數(shù)據(jù),
Revelytix還推出了名為Knoodl.com的兼容W3C的知識(shí)庫(kù)模塊。該模塊為基于維基的架構(gòu),主要是幫助技術(shù)專(zhuān)家和商業(yè)用戶(hù)共同開(kāi)發(fā)一個(gè)語(yǔ)義詞匯表,描述和引導(dǎo)不同網(wǎng)站中的特殊信息。Lang稱(chēng),相關(guān)社區(qū)可以通過(guò)Knoodl.com訪(fǎng)問(wèn)、共享和挑選有關(guān)的信息。
咨詢(xún)公司Dachis集團(tuán)歐洲業(yè)務(wù)部主管Lee Bryant稱(chēng),他們開(kāi)發(fā)了一個(gè)名為Social Business Design的架構(gòu),該架構(gòu)的目的是幫助用戶(hù)協(xié)作、分享想法,然后限制和明確某一商業(yè)機(jī)構(gòu)或是社區(qū)中的數(shù)據(jù)含義。
上述這些產(chǎn)品都可以大幅減輕語(yǔ)義基礎(chǔ)設(shè)施的研發(fā)任務(wù)。如,布依格建筑集團(tuán)電子服務(wù)與知識(shí)管理總監(jiān)Eric Juin稱(chēng),他們通過(guò)Sinequa的語(yǔ)義平臺(tái)Context Engine,在六個(gè)月的時(shí)間內(nèi)就建立起了一個(gè)初具規(guī)模的語(yǔ)義系統(tǒng)。
Juin稱(chēng),布依格建筑集團(tuán)已經(jīng)開(kāi)發(fā)出了一個(gè)語(yǔ)義搜索應(yīng)用,其可幫助員工迅速內(nèi)部系統(tǒng)和外部互聯(lián)網(wǎng)中的信息。他稱(chēng),Context Engine可以從會(huì)議紀(jì)要、產(chǎn)品說(shuō)明書(shū)、培訓(xùn)材料和項(xiàng)目文檔等海量文件中查找到要找的相關(guān)的人員和概念。該平臺(tái)包括了一個(gè)收錄有常用詞匯和術(shù)語(yǔ)的“通用語(yǔ)義學(xué)詞典”,并且可在多種語(yǔ)言之間轉(zhuǎn)換。如法國(guó)雇員能夠在德語(yǔ)文件中進(jìn)行語(yǔ)義搜索。
此外,特殊的商業(yè)縮略詞和術(shù)語(yǔ)還可以手動(dòng)添加,不過(guò)這需要語(yǔ)義專(zhuān)家和商業(yè)用戶(hù)共同完成。Juin稱(chēng),由于語(yǔ)義引擎能夠使用其它相關(guān)詞匯確定針對(duì)特殊主題的術(shù)語(yǔ),因此他的團(tuán)隊(duì)只添加了很少一部分關(guān)鍵詞的定義。
選擇SaaS
對(duì)于那些缺乏內(nèi)部資源建立自己的語(yǔ)義網(wǎng)基礎(chǔ)設(shè)施的公司來(lái)說(shuō),他們可以像阿爾法股權(quán)管理公司那樣選擇由第三方提供語(yǔ)義服務(wù)。
服務(wù)提供商湯森路透除了提供機(jī)器可讀新聞服務(wù)外,還提供名為OpenCalais的服務(wù)。該服務(wù)可為客戶(hù)提交的內(nèi)容創(chuàng)建語(yǔ)義元數(shù)據(jù)。據(jù)湯森路透副總裁Thomas Tague稱(chēng),客戶(hù)可為搜索、新聞聚合、博客、目錄和應(yīng)用部署經(jīng)標(biāo)記的內(nèi)容。
OpenCalais包括一個(gè)免費(fèi)的工具包,用戶(hù)可創(chuàng)建自己的語(yǔ)義基礎(chǔ)設(shè)施和元數(shù)據(jù),與其他網(wǎng)絡(luò)提供商建立鏈接。Tague稱(chēng),該服務(wù)目前每天處理超過(guò)500萬(wàn)份文檔。
DNA13、Lithium技術(shù)和Cymfony均為語(yǔ)義服務(wù)提供商,提供查詢(xún)、收集和分析網(wǎng)絡(luò)新聞、社交媒體,為用戶(hù)在品牌、信譽(yù)管理、客戶(hù)關(guān)系管理和市場(chǎng)營(yíng)銷(xiāo)等領(lǐng)域提供幫助。
評(píng)論
查看更多