美國阿爾法股權(quán)管理公司(Alpha Eqiuty Mangement)高級國際資產(chǎn)分析師Vince Fioramonti在2001年突然意識到,由于有價值的投資信息在網(wǎng)絡(luò)上將會越來越多,今后越來越多的廠商將根據(jù)信息的重要性和關(guān)聯(lián)性提供可搜集和解譯這些信息的軟件。
語義網(wǎng)絡(luò)將成為企業(yè)發(fā)展的利器
Fioramonti稱:“我曾經(jīng)擁有一支專門為公司搜集和分析金融信息的分析團隊。不過,他們的處理速度極為緩慢,得出的結(jié)論往往也過于主觀,甚至有時會前后矛盾?!?/p>
第二年,F(xiàn)ioramonti改用Autonomy集團的語義平臺——智能數(shù)據(jù)操作層(IDOL)來自動處理各種形式的數(shù)字化信息。他們在部署中遇到了一個障礙:IDOL僅提供了常用的語義算法。Fioramonti稱,阿爾法股權(quán)管理公司為此不得不組建了一個由程序員和金融分析師組成的團隊,專門研發(fā)適用于金融學的算法和元數(shù)據(jù)。由于耗資過于巨大,公司最后放棄了這一項目。
阿爾法股權(quán)管理公司在2008年迎來了新的契機,當時他們參加了湯森路透的機器可讀新聞(Machine Readable News)服務(wù)。該服務(wù)可從3000多名路透社記者,以及網(wǎng)絡(luò)報紙和博客等第三方資源那里收集、分析網(wǎng)絡(luò)新聞。然后,根據(jù)影響力(如果公眾對公司或產(chǎn)品的印象)、關(guān)聯(lián)性和新穎性,對這些材料進行分析和評分。
這些結(jié)果會源源不斷的提供給客戶,包括公共關(guān)系和營銷人員、使用自動化“黑匣子交易(black box trading)”系統(tǒng)的股票交易商、為長期投資決策收集整理數(shù)據(jù)的基金經(jīng)理。
Fioramonti稱該服務(wù)每月收費并不便宜。據(jù)估計,實時數(shù)據(jù)更新的成本每月在15000至50000英鎊之間。不過,對于阿爾法股權(quán)管理公司來說,該服務(wù)確實物有所值。他稱,這些信息不僅幫助提升了公司的資產(chǎn)收益,還幫助公司擊敗了許多競爭對手。
阿爾法股權(quán)管理公司的經(jīng)歷并不是唯一的案例。無論公司決定建造一個類似的內(nèi)部系統(tǒng),還是決定雇用服務(wù)提供商,通常都要花費巨資才能利用語義網(wǎng)技術(shù)。如果所搜索和分析的信息包括有針對特定商業(yè)領(lǐng)域的行話、概念和縮略語信息,那么同樣可以實現(xiàn)。
以下我們將為大家介紹一下那些能夠幫助進行商業(yè)部署和利用語義網(wǎng)基礎(chǔ)的工具,以及要想發(fā)揮這一技術(shù)的潛能還需要哪些東西。
關(guān)鍵標準
根據(jù)Tim Berners-Lee提出的概念,語義網(wǎng)的核心是聯(lián)合搜索(Federated Search)。其可搜索引擎、代理或應(yīng)用詢問網(wǎng)絡(luò)上成千上萬個信息源,發(fā)現(xiàn)并在語義上分析相關(guān)內(nèi)容,準確檢索用戶尋找的產(chǎn)品、答案或信息。
盡管聯(lián)合搜索正逐漸流行起來,特別是出現(xiàn)在了Windows 7上,但是要在整個網(wǎng)絡(luò)上廣泛普及還有很長的路要走。
為了有效的推動聯(lián)合搜索,萬維網(wǎng)聯(lián)盟(W3C)制定了幾個關(guān)鍵標準,定義了基本的語義基礎(chǔ)設(shè)施。它們包括:
?簡單協(xié)議與RDF 查詢語言(SPARQL),其定義了用于查詢和訪問數(shù)據(jù)的標準語言。
?資源描述框架(RDF)和RDF模式(RDFS),其規(guī)范了在語義本體(又稱為詞匯表)中如何陳述和組織信息。
?網(wǎng)絡(luò)本體語言(OWL),其對本體論和部分RDFS原理進行了詳細陳述。
目前這些標準的最終定稿已經(jīng)得到了Cambridge Semantics、Expert System、Revelytix、Endeca、Lexalytics、Autonomy 和Topquadrant等主要語義網(wǎng)平臺廠商的支持。
谷歌、雅虎和微軟必應(yīng)等主要網(wǎng)絡(luò)搜索引擎已經(jīng)開始使用語義元數(shù)據(jù)區(qū)分搜索結(jié)果,并開始支持RDF等W3C標準。
如今甲骨文、企業(yè)軟件廠商和IBM也加入到語義網(wǎng)的研發(fā)中,并分別推出了甲骨文Database 11g 語義技術(shù)、SAS 本體管理工具和IBM InfoSphere BigInsights工具。
W3C標準的推出目的是解決不同機構(gòu)在組織、描述、呈現(xiàn)信息中的不一致性,為跨域語義查詢和聯(lián)合搜索鋪平道路。
本體管理工具制造商Revelytix的首席執(zhí)行官Michael Lang為我們描述了使用W3C標準的好處。他稱,如果200家網(wǎng)上家用電子產(chǎn)品銷售商使用諸如RDF的語義網(wǎng)標準描述他們產(chǎn)品庫,Revelytix的軟件則可以讓這些信息通過SPARQL查詢方式被訪問。網(wǎng)絡(luò)商家可以使用兼容W3C標準的瀏覽器工具在不同網(wǎng)站搜索產(chǎn)品,如通過輸入“根據(jù)價格排列并顯示所有42-52英寸平板電視”進行查詢。
搜索引擎和一些第三方網(wǎng)絡(luò)購物網(wǎng)站可提供產(chǎn)品對比,不過這些對比僅限于所搜索到的結(jié)果的屬性。購物者經(jīng)常發(fā)現(xiàn)由第三方所提供數(shù)據(jù)已經(jīng)過時,甚至不正確,如無法準確提供有效的尺寸和顏色信息?;跇藴实目缇W(wǎng)站查詢可為購物者提供由商家自己提供的更為豐富的對比信息和更新的介紹信息。
W3C SPARQL工作組聯(lián)合組長Lee Feigenbaum 稱,W3C SPARQL工作組目前正在研發(fā)SPARQL服務(wù)描述,旨在標準化SPARQL“終端”或信息源提供數(shù)據(jù)的方式,特別是詳細規(guī)定了如何描述數(shù)據(jù)的類型和數(shù)量。
模塊和軟件工具
工具、平臺、預(yù)置組件和服務(wù)均可有效縮短部署時間,降低技術(shù)復(fù)雜性,減少成本。
Jena為開發(fā)語義網(wǎng)應(yīng)用的開源Java架構(gòu),其包括有RDF、RDFS和OWL的API,一個SPARQL查詢引擎和一個推理引擎。Sesame為存儲、推理和查詢RDF數(shù)據(jù)的開源架構(gòu)。
主流語義網(wǎng)平臺都帶有用于描述常用術(shù)語、概念、縮略語的“知識庫”,讓用戶在使用時創(chuàng)建本體知識庫。Lexalytics產(chǎn)品管理副總裁Seth Redmore稱:“客戶的需求往往相互矛盾:讓平臺能夠反饋精確信息,對這些信息進行整編讓其更適合自己的業(yè)務(wù)。”
為了解決這一矛盾,Lexalytics選擇將他們的語義平臺主要銷售給服務(wù)提供商,由服務(wù)提供商再對特定商業(yè)領(lǐng)域和應(yīng)用進行微調(diào)。湯森路透的機器可讀新聞服務(wù)就是一個很好的例子。
部分平臺廠商推出了專門針對商業(yè)的解決方案。比如,Endeca推出了用于電子商務(wù)和企業(yè)語義應(yīng)用的應(yīng)用開發(fā)工具包。
此外,還有一些可以自動將語義元數(shù)據(jù)和W3C標準整合到現(xiàn)有信息庫中的工具。據(jù)Lang稱,Revelytix的Spyder工具可自動將結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成RDF。作為能夠被兼容SPARQL的瀏覽器訪問的SPARQL終端,其可在網(wǎng)頁上顯示這些信息。
名為D2RQ的開源工具可以將所選擇的數(shù)據(jù)庫映射到RDF和OWL本體知識庫中,讓兼容SPARQL的應(yīng)用訪問這些數(shù)據(jù),
Revelytix還推出了名為Knoodl.com的兼容W3C的知識庫模塊。該模塊為基于維基的架構(gòu),主要是幫助技術(shù)專家和商業(yè)用戶共同開發(fā)一個語義詞匯表,描述和引導(dǎo)不同網(wǎng)站中的特殊信息。Lang稱,相關(guān)社區(qū)可以通過Knoodl.com訪問、共享和挑選有關(guān)的信息。
咨詢公司Dachis集團歐洲業(yè)務(wù)部主管Lee Bryant稱,他們開發(fā)了一個名為Social Business Design的架構(gòu),該架構(gòu)的目的是幫助用戶協(xié)作、分享想法,然后限制和明確某一商業(yè)機構(gòu)或是社區(qū)中的數(shù)據(jù)含義。
上述這些產(chǎn)品都可以大幅減輕語義基礎(chǔ)設(shè)施的研發(fā)任務(wù)。如,布依格建筑集團電子服務(wù)與知識管理總監(jiān)Eric Juin稱,他們通過Sinequa的語義平臺Context Engine,在六個月的時間內(nèi)就建立起了一個初具規(guī)模的語義系統(tǒng)。
Juin稱,布依格建筑集團已經(jīng)開發(fā)出了一個語義搜索應(yīng)用,其可幫助員工迅速內(nèi)部系統(tǒng)和外部互聯(lián)網(wǎng)中的信息。他稱,Context Engine可以從會議紀要、產(chǎn)品說明書、培訓材料和項目文檔等海量文件中查找到要找的相關(guān)的人員和概念。該平臺包括了一個收錄有常用詞匯和術(shù)語的“通用語義學詞典”,并且可在多種語言之間轉(zhuǎn)換。如法國雇員能夠在德語文件中進行語義搜索。
此外,特殊的商業(yè)縮略詞和術(shù)語還可以手動添加,不過這需要語義專家和商業(yè)用戶共同完成。Juin稱,由于語義引擎能夠使用其它相關(guān)詞匯確定針對特殊主題的術(shù)語,因此他的團隊只添加了很少一部分關(guān)鍵詞的定義。
選擇SaaS
對于那些缺乏內(nèi)部資源建立自己的語義網(wǎng)基礎(chǔ)設(shè)施的公司來說,他們可以像阿爾法股權(quán)管理公司那樣選擇由第三方提供語義服務(wù)。
服務(wù)提供商湯森路透除了提供機器可讀新聞服務(wù)外,還提供名為OpenCalais的服務(wù)。該服務(wù)可為客戶提交的內(nèi)容創(chuàng)建語義元數(shù)據(jù)。據(jù)湯森路透副總裁Thomas Tague稱,客戶可為搜索、新聞聚合、博客、目錄和應(yīng)用部署經(jīng)標記的內(nèi)容。
OpenCalais包括一個免費的工具包,用戶可創(chuàng)建自己的語義基礎(chǔ)設(shè)施和元數(shù)據(jù),與其他網(wǎng)絡(luò)提供商建立鏈接。Tague稱,該服務(wù)目前每天處理超過500萬份文檔。
DNA13、Lithium技術(shù)和Cymfony均為語義服務(wù)提供商,提供查詢、收集和分析網(wǎng)絡(luò)新聞、社交媒體,為用戶在品牌、信譽管理、客戶關(guān)系管理和市場營銷等領(lǐng)域提供幫助。
語義網(wǎng)何時真正普及?
在皮尤研究中心2010年度報告中,該中心對895名語義技術(shù)專家和利益相關(guān)者 進行了調(diào)查,結(jié)果顯示47%的受訪者認為,到2020年,Berners-Lee的語義網(wǎng)設(shè)想不會實現(xiàn),或與終端用戶有著巨大分歧。另一方面, 41%的受訪者認為這一設(shè)想能夠?qū)崿F(xiàn)。剩下的受訪者表示無法回答這一問題。
W3C基礎(chǔ)性標準目前最終定稿并獲得了支持。目前平臺和軟件工具數(shù)量也在不斷增加。專家表示,盡管如此,語義網(wǎng)技術(shù)和標準遠沒有獲得能夠充分展示其優(yōu)勢的足夠支持。
重要的是,在通用語義技術(shù)和符合W3C標準與專用于網(wǎng)絡(luò)信息資源的語義網(wǎng)技術(shù)之間有著明顯的界限。
專家表示,語義技術(shù)正在普及,特別是在企業(yè)知識管理和商業(yè)智能領(lǐng)域。市場研究公司IDC分析師Susan Feldman稱,“幫助用戶查找他們想找的非結(jié)構(gòu)性信息”的語義內(nèi)容分析工具市場正在以每年20%的速度增長。她指出,目前大多數(shù)企業(yè)搜索平臺正在包含語義技術(shù)。
與傳統(tǒng)的商業(yè)智能工具相比,語義技術(shù)的一個最大優(yōu)勢是讓主題專家(SME)能夠創(chuàng)建他們自己的查詢架構(gòu),無需經(jīng)歷苛刻而耗時的創(chuàng)建和重建數(shù)據(jù)倉庫與數(shù)據(jù)集市任務(wù)。Project10X總經(jīng)理Mills Davis舉例稱:“一個精通標準的專家能夠在兩周內(nèi),而不是在9個月里創(chuàng)建一個語義架構(gòu),然后輕松而快速的進行調(diào)整?!?/p>
與傳統(tǒng)商業(yè)智能工具相比,語義技術(shù)另一個優(yōu)勢是具有執(zhí)行更為復(fù)雜而模糊的查詢,能夠?qū)Ψ墙Y(jié)構(gòu)化數(shù)據(jù)進行分析,并且可先從小范圍的精確查詢開始,然后逐漸擴展。
在網(wǎng)絡(luò)上,語義技術(shù)已經(jīng)在日漸增長的商業(yè)市場中站穩(wěn)了腳跟。在電子出版物市場,在線新聞服務(wù)商DBpedia、Geonames、RealTravel 和 MetaWeb都已經(jīng)率先采用了該技術(shù)。在在線金融信息服務(wù)業(yè)務(wù)中,湯森路透和道瓊斯也已經(jīng)部署語義技術(shù)。其中湯森路透OpenCalais 的大客戶中包括美國哥倫比亞廣播傳媒集團(CBS)旗下互動媒體集團和CNET 集團,老牌電子雜志Slate、赫芬頓郵報和網(wǎng)絡(luò)新聞聚合公司Moreover 技術(shù)。另外,大約9000家在線書城目前正在使用OpenPublish。OpenPublish將OpenCalais 與開源內(nèi)容管理系統(tǒng)Drupal整合在了一起。
近期,網(wǎng)絡(luò)零售商開始部署語義網(wǎng)平臺,幫助優(yōu)化產(chǎn)品和品牌在搜索結(jié)果中的排名,為客戶提供更多、更豐富的購物體驗。
需克服的障礙
如今W3C 標準還缺乏更為廣泛的支持,并且缺乏便于跨網(wǎng)絡(luò)和商業(yè)領(lǐng)域進行語義查詢的常用詞匯表。數(shù)語義網(wǎng)圖式主體還在開發(fā)之中。專業(yè)人士指出,由于這類框架通常包括特定的商業(yè)和功能術(shù)語,行話和縮略語,因此其他行業(yè)無法很好的理解它們。這也使得跨領(lǐng)域查詢、語義應(yīng)用和服務(wù)必須每個信息資源的本體知識庫聯(lián)系起來。
下面以為大家介紹一下全球知名的能源公司Eni的案例。據(jù)Eni的語義技術(shù)主管Daniele Montanari稱,該公司的技術(shù)和主題專家花了12年開發(fā)和調(diào)整Expert System的Cogito語義商業(yè)智能平臺。該平臺可支持與石油、天然氣和電力有關(guān)的交易、生產(chǎn)和物流處理。
Montanari 稱,Cogito 允許Eni的終端用戶前往網(wǎng)絡(luò)上預(yù)選和預(yù)定的信息資源,查找關(guān)于特定主題的重要信息,然后生成一個可以下載、自動更新和進行語義查詢的“語料庫”。
Montanari 稱,語義圖式趨向于針對特定的商業(yè)領(lǐng)域。比如,公司的精煉部門開發(fā)了可在大量文檔中快速定位信息的語義框架和分類。在這些文檔中,許多由Eni的研發(fā)團隊所編寫,另一些則來自團隊定購的網(wǎng)絡(luò)資源。
對于石油工業(yè)最新的技術(shù)研發(fā)來說,由于每個網(wǎng)站都有自己的專用本體知識庫,因此通用的網(wǎng)絡(luò)搜索存在許多問題。Montanari 稱:“在一個信息領(lǐng)域內(nèi)包含有多個來源,因此你必須要定義一個普用的語義模式。”
Montanari 稱,相同的問題還存在于內(nèi)部語義查詢中。他的團隊曾經(jīng)嘗試創(chuàng)建一個適用于整個公司的語義圖式,能夠為公司的數(shù)據(jù)庫和數(shù)據(jù)集中的每件事物準確找到對應(yīng)物,但是公司最終無法解決石油、天然氣、研發(fā)、營銷等業(yè)務(wù)領(lǐng)域中存在的差異。
他稱:“即使在邏輯上,這也是一個難題?!币虼?,在特殊的業(yè)務(wù)部門和行業(yè)中還是傾向于保留內(nèi)部查詢。
發(fā)展前景展望
在行業(yè)管控和客戶壓力下,標準化的本體知識庫已經(jīng)出現(xiàn)。電子商務(wù)公司是否會真正團結(jié)在一個通用圖式下還有待觀察。
其中一個嘗試是GoodRelations 電子商務(wù)詞匯表。目前,僅有BestBuy.com和Overstock.com等少數(shù)公司加入其中。不過,谷歌在近期也宣布他們支持該詞匯表。
《新一波技術(shù)浪潮》作者Phil Simon稱:“與電話和互聯(lián)網(wǎng)一樣,隨著越來越多的人使用新技術(shù),它們才會變得更具價值?!彼赋?,對于許多公司來說,目前仍然缺乏一個明確的投資回報,這是部署的主要成本。Simon稱,那些希望能夠訪問內(nèi)部和互聯(lián)網(wǎng)中大量非結(jié)構(gòu)化信息的公司在得到回報前往往要花上數(shù)年時間設(shè)置語義網(wǎng)基礎(chǔ)設(shè)施。除了新技術(shù)需要投資外,清理和標記數(shù)據(jù)等工作也需要大量的資金。
實際上,與之前許多突破性信息技術(shù)一樣,語義網(wǎng)可能會陷入《第22條軍規(guī)》所描述的困境中:在新技術(shù)體現(xiàn)出優(yōu)勢前需要有大量的用戶使用,但是公司,尤其是電子商務(wù)公司在用戶數(shù)量達到一定規(guī)模后,才會部署新技術(shù)。
BestBuy.com網(wǎng)絡(luò)研發(fā)總工程師Jay Myers在博客中稱:“產(chǎn)品目錄對于零售/制造商都是獨一無二的,由于有著數(shù)十億種產(chǎn)品,通用產(chǎn)品目錄是一個不可能實現(xiàn)的目標。我看到了一些在產(chǎn)品目錄方面的嘗試,但是我沒有看到這些嘗試取得什么進展。目前業(yè)內(nèi)已達成共識,即產(chǎn)品目錄定義看起來沒有用處,應(yīng)用避免。”
不過,Myers表示:“正是由于沒有任何通用標準,這并不意味著我們無法通過W3C 標準和GoodRelations等本體知識庫為機器設(shè)置某種類似的產(chǎn)品目錄。這是一種雙贏的舉措,因為公司將會讓客戶感到滿意,而客戶也將通過相關(guān)的產(chǎn)品數(shù)據(jù)權(quán)衡自己的購買決定?!?/p>
實際上,許多語義網(wǎng)社團仍然認為語義技術(shù)將最終會為網(wǎng)絡(luò)帶來一場革命。
Davis稱:“隨著用戶數(shù)量和數(shù)據(jù)移動性的增加,以及互聯(lián)網(wǎng)服務(wù)和數(shù)字化數(shù)據(jù)信息滲入到我們的日常生活中,迫使我們將研發(fā)方向轉(zhuǎn)向語義。由于錯誤的網(wǎng)絡(luò)信息源快速擴散,現(xiàn)在已經(jīng)不再是在干草堆中找一針那樣了,你的首要任務(wù)是找到是正確的那一垛干草堆。語義學為我們帶來了一個重要的分離方法?!?/p>
Simon 稱:“當我在技術(shù)圈里提到語義網(wǎng)時,90%的人不知道我在說什么。有人問我,我是否相信它的實力,是否相信它會成為游戲規(guī)則的改變者?我的答案是‘絕對是’?!?/p>
評論
查看更多