0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

知識(shí)圖譜——技術(shù)與行業(yè)應(yīng)用

恬靜簡(jiǎn)樸1 ? 來(lái)源:恬靜簡(jiǎn)樸1 ? 作者:恬靜簡(jiǎn)樸1 ? 2022-10-14 10:40 ? 次閱讀

從一開(kāi)始的Google搜索,到現(xiàn)在的聊天機(jī)器人、大數(shù)據(jù)風(fēng)控、證券投資、智能醫(yī)療、自適應(yīng)教育、推薦系統(tǒng),無(wú)一不跟知識(shí)圖譜相關(guān)。

隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,萬(wàn)物互聯(lián)成為了可能,這種互聯(lián)所產(chǎn)生的數(shù)據(jù)也在爆發(fā)式地增長(zhǎng),而且這些數(shù)據(jù)恰好可以作為分析關(guān)系的有效原料。如果說(shuō)以往的智能分析專注在每一個(gè)個(gè)體上,在移動(dòng)互聯(lián)網(wǎng)時(shí)代則除了個(gè)體,這種個(gè)體之間的關(guān)系也必然成為我們需要深入分析的很重要一部分。 在一項(xiàng)任務(wù)中,只要有關(guān)系分析的需求,知識(shí)圖譜就“有可能”派的上用場(chǎng)。

知識(shí)圖譜的表示

知識(shí)圖譜應(yīng)用的前提是已經(jīng)構(gòu)建好了知識(shí)圖譜,也可以把它認(rèn)為是一個(gè)知識(shí)庫(kù)。這也是為什么它可以用來(lái)回答一些搜索相關(guān)問(wèn)題的原因,比如在Google搜索引擎里輸入“Who is the wife of Bill Gates?”,我們直接可以得到答案-“Melinda Gates”。這是因?yàn)槲覀冊(cè)谙到y(tǒng)層面上已經(jīng)創(chuàng)建好了一個(gè)包含“Bill Gates”和“Melinda Gates”的實(shí)體以及他倆之間關(guān)系的知識(shí)庫(kù)。所以,當(dāng)我們執(zhí)行搜索的時(shí)候,就可以通過(guò)關(guān)鍵詞提取("Bill Gates", "Melinda Gates", "wife")以及知識(shí)庫(kù)上的匹配可以直接獲得最終的答案。這種搜索方式跟傳統(tǒng)的搜索引擎是不一樣的,一個(gè)傳統(tǒng)的搜索引擎它返回的是網(wǎng)頁(yè)、而不是最終的答案,所以就多了一層用戶自己篩選并過(guò)濾信息的過(guò)程。

poYBAGNIzBKAaTkxAAIlyThzrBw436.png

在現(xiàn)實(shí)世界中,實(shí)體和關(guān)系也會(huì)擁有各自的屬性,比如人可以有“姓名”和“年齡”。當(dāng)一個(gè)知識(shí)圖譜擁有屬性時(shí),我們可以用屬性圖(Property Graph)來(lái)表示。下面的圖表示一個(gè)簡(jiǎn)單的屬性圖。李明和李飛是父子關(guān)系,并且李明擁有一個(gè)138開(kāi)頭的電話號(hào),這個(gè)電話號(hào)開(kāi)通時(shí)間是2018年,其中2018年就可以作為關(guān)系的屬性。類似的,李明本人也帶有一些屬性值比如年齡為25歲、職位是總經(jīng)理等。

pYYBAGNIzBSAQNLKAAIACxc8tZc445.png

這種屬性圖的表達(dá)很貼近現(xiàn)實(shí)生活中的場(chǎng)景,也可以很好地描述業(yè)務(wù)中所包含的邏輯。除了屬性圖,知識(shí)圖譜也可以用RDF來(lái)表示,它是由很多的三元組(Triples)來(lái)組成。RDF在設(shè)計(jì)上的主要特點(diǎn)是易于發(fā)布和分享數(shù)據(jù),但不支持實(shí)體或關(guān)系擁有屬性,如果非要加上屬性,則在設(shè)計(jì)上需要做一些修改。目前來(lái)看,RDF主要還是用于學(xué)術(shù)的場(chǎng)景,在工業(yè)界我們更多的還是采用圖數(shù)據(jù)庫(kù)(比如用來(lái)存儲(chǔ)屬性圖)的方式。感興趣的讀者可以參考RDF的相關(guān)文獻(xiàn),在文本里不多做解釋。

知識(shí)抽取

知識(shí)圖譜的構(gòu)建是后續(xù)應(yīng)用的基礎(chǔ),而且構(gòu)建的前提是需要把數(shù)據(jù)從不同的數(shù)據(jù)源中抽取出來(lái)。對(duì)于垂直領(lǐng)域的知識(shí)圖譜來(lái)說(shuō),它們的數(shù)據(jù)源主要來(lái)自兩種渠道:一種是業(yè)務(wù)本身的數(shù)據(jù),這部分?jǐn)?shù)據(jù)通常包含在公司內(nèi)的數(shù)據(jù)庫(kù)表并以結(jié)構(gòu)化的方式存儲(chǔ);另一種是網(wǎng)絡(luò)上公開(kāi)、抓取的數(shù)據(jù),這些數(shù)據(jù)通常是以網(wǎng)頁(yè)的形式存在所以是非結(jié)構(gòu)化的數(shù)據(jù)。

前者一般只需要簡(jiǎn)單預(yù)處理即可以作為后續(xù)AI系統(tǒng)的輸入,但后者一般需要借助于自然語(yǔ)言處理等技術(shù)來(lái)提取出結(jié)構(gòu)化信息。比如在上面的搜索例子里,Bill Gates和Malinda Gate的關(guān)系就可以從非結(jié)構(gòu)化數(shù)據(jù)中提煉出來(lái),比如維基百科等數(shù)據(jù)源。

pYYBAGNIzBWAD60gAAG3JGg5ERU878.png

信息抽取的難點(diǎn)在于處理非結(jié)構(gòu)化數(shù)據(jù)。在下面的圖中,我們給出了一個(gè)實(shí)例。左邊是一段非結(jié)構(gòu)化的英文文本,右邊是從這些文本中抽取出來(lái)的實(shí)體和關(guān)系。在構(gòu)建類似的圖譜過(guò)程當(dāng)中,主要涉及以下幾個(gè)方面的自然語(yǔ)言處理技術(shù):

a. 實(shí)體命名識(shí)別(Name Entity Recognition)

b. 關(guān)系抽?。≧elation Extraction)

c. 實(shí)體統(tǒng)一(Entity Resolution)

d. 指代消解(Coreference Resolution)

知識(shí)圖譜的存儲(chǔ)

知識(shí)圖譜主要有兩種存儲(chǔ)方式:一種是基于RDF的存儲(chǔ);另一種是基于圖數(shù)據(jù)庫(kù)的存儲(chǔ)。它們之間的區(qū)別如下圖所示。RDF一個(gè)重要的設(shè)計(jì)原則是數(shù)據(jù)的易發(fā)布以及共享,圖數(shù)據(jù)庫(kù)則把重點(diǎn)放在了高效的圖查詢和搜索上。其次,RDF以三元組的方式來(lái)存儲(chǔ)數(shù)據(jù)而且不包含屬性信息,但圖數(shù)據(jù)庫(kù)一般以屬性圖為基本的表示形式,所以實(shí)體和關(guān)系可以包含屬性,這就意味著更容易表達(dá)現(xiàn)實(shí)的業(yè)務(wù)場(chǎng)景。

poYBAGNIzBaAKwfhAAGWlMzuoKY396.png

根據(jù)最新的統(tǒng)計(jì)(2018年上半年),圖數(shù)據(jù)庫(kù)仍然是增長(zhǎng)最快的存儲(chǔ)系統(tǒng)。相反,關(guān)系型數(shù)據(jù)庫(kù)的增長(zhǎng)基本保持在一個(gè)穩(wěn)定的水平。同時(shí),我們也列出了常用的圖數(shù)據(jù)庫(kù)系統(tǒng)以及他們最新使用情況的排名。 其中Neo4j系統(tǒng)目前仍是使用率最高的圖數(shù)據(jù)庫(kù),它擁有活躍的社區(qū),而且系統(tǒng)本身的查詢效率高,但唯一的不足就是不支持準(zhǔn)分布式。相反,OrientDB和JanusGraph(原Titan)支持分布式,但這些系統(tǒng)相對(duì)較新,社區(qū)不如Neo4j活躍,這也就意味著使用過(guò)程當(dāng)中不可避免地會(huì)遇到一些刺手的問(wèn)題。如果選擇使用RDF的存儲(chǔ)系統(tǒng),Jena或許一個(gè)比較不錯(cuò)的選擇。

pYYBAGNIzBeAHp_sAAH9wf4RM1k801.png

知識(shí)圖譜在其他行業(yè)中的應(yīng)用

除了金融領(lǐng)域,知識(shí)圖譜的應(yīng)用可以涉及到很多其他的行業(yè),包括醫(yī)療、教育、證券投資、推薦等等。其實(shí),只要有關(guān)系存在,則有知識(shí)圖譜可發(fā)揮價(jià)值的地方。 在這里簡(jiǎn)單舉幾個(gè)垂直行業(yè)中的應(yīng)用。

比如對(duì)于教育行業(yè),我們經(jīng)常談?wù)搨€(gè)性化教育、因材施教的理念。其核心在于理解學(xué)生當(dāng)前的知識(shí)體系,而且這種知識(shí)體系依賴于我們所獲取到的數(shù)據(jù)比如交互數(shù)據(jù)、評(píng)測(cè)數(shù)據(jù)、互動(dòng)數(shù)據(jù)等等。為了分析學(xué)習(xí)路徑以及知識(shí)結(jié)構(gòu),我們則需要針對(duì)于一個(gè)領(lǐng)域的概念知識(shí)圖譜,簡(jiǎn)單來(lái)講就是概念拓?fù)浣Y(jié)構(gòu)。在下面的圖中,我們給出了一個(gè)非常簡(jiǎn)單的概念圖譜:比如為了學(xué)習(xí)邏輯回歸則需要先理解線性回歸;為了學(xué)習(xí)CNN,得對(duì)神經(jīng)網(wǎng)絡(luò)有所理解等等。所有對(duì)學(xué)生的評(píng)測(cè)、互動(dòng)分析都離不開(kāi)概念圖譜這個(gè)底層的數(shù)據(jù)。

poYBAGNIzBiAHYW3AAFlnZCiH4o564.png

在證券領(lǐng)域,我們經(jīng)常會(huì)關(guān)心比如“一個(gè)事件發(fā)生了,對(duì)哪些公司產(chǎn)生什么樣的影響?” 比如有一個(gè)負(fù)面消息是關(guān)于公司1的高管,而且我們知道公司1和公司2有種很密切的合作關(guān)系,公司2有個(gè)主營(yíng)產(chǎn)品是由公司3提供的原料基礎(chǔ)上做出來(lái)的。

poYBAGNIzBmAcRIMAAJehHxE9cs206.png

其實(shí)有了這樣的一個(gè)知識(shí)圖譜,我們很容易回答哪些公司有可能會(huì)被這次的負(fù)面事件所影響。當(dāng)然,僅僅是“有可能”,具體會(huì)不會(huì)有強(qiáng)相關(guān)性必須由數(shù)據(jù)來(lái)驗(yàn)證。所以在這里,知識(shí)圖譜的好處就是把我們所需要關(guān)注的范圍很快給我們?nèi)Χ?。接下?lái)的問(wèn)題會(huì)更復(fù)雜一些,比如既然我們知道公司3有可能被這次事件所影響,那具體影響程度有多大? 對(duì)于這個(gè)問(wèn)題,光靠知識(shí)圖譜是很難回答的,必須要有一個(gè)影響模型、以及需要一些歷史數(shù)據(jù)才能在知識(shí)圖譜中做進(jìn)一步推理以及計(jì)算。

實(shí)踐上的幾點(diǎn)建議

首先,知識(shí)圖譜是一個(gè)比較新的工具,它的主要作用還是在于分析關(guān)系,尤其是深度的關(guān)系。所以在業(yè)務(wù)上,首先要確保它的必要性,其實(shí)很多問(wèn)題可以用非知識(shí)圖譜的方式來(lái)解決。

知識(shí)圖譜領(lǐng)域一個(gè)最重要的話題是知識(shí)的推理。 而且知識(shí)的推理是走向強(qiáng)人工智能的必經(jīng)之路。但很遺憾的,目前很多語(yǔ)義網(wǎng)絡(luò)的角度討論的推理技術(shù)(比如基于深度學(xué)習(xí),概率統(tǒng)計(jì))很難在實(shí)際的垂直應(yīng)用中落地。其實(shí)目前最有效的方式還是基于一些規(guī)則的方法論,除非我們有非常龐大的數(shù)據(jù)集。

最后,還是要強(qiáng)調(diào)一點(diǎn),知識(shí)圖譜工程本身還是業(yè)務(wù)為重心,以數(shù)據(jù)為中心。不要低估業(yè)務(wù)和數(shù)據(jù)的重要性。

總之知識(shí)圖譜是一個(gè)既充滿挑戰(zhàn)而且非常有趣的領(lǐng)域。只要有正確的應(yīng)用場(chǎng)景,對(duì)于知識(shí)圖譜所能發(fā)揮的價(jià)值還是可以期待的。我相信在未來(lái)不到2,3年時(shí)間里,知識(shí)圖譜技術(shù)會(huì)普及到各個(gè)領(lǐng)域當(dāng)中。

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    革新未來(lái)智能版圖,神州數(shù)碼榮登IDC生成式AI圖譜

    6月19日,國(guó)際權(quán)威市場(chǎng)研究機(jī)構(gòu)IDC正式發(fā)布了《2024年第二季度生成式AI生態(tài)圖譜》,其中,神州數(shù)碼憑借在生成式AI領(lǐng)域的領(lǐng)先布局,以其深度整合算力、模型、知識(shí)與應(yīng)用的核心能力,成功占據(jù)生態(tài)圖譜
    的頭像 發(fā)表于 07-29 15:20 ?289次閱讀
    革新未來(lái)智能版圖,神州數(shù)碼榮登IDC生成式AI<b class='flag-5'>圖譜</b>

    三星電子成功收購(gòu)英國(guó)初創(chuàng)公司,致力開(kāi)發(fā)AI核心技術(shù)

    7月18日,三星電子正式對(duì)外宣布了一項(xiàng)重要戰(zhàn)略舉措——成功收購(gòu)英國(guó)新興科技企業(yè)Oxford Semantic Technologies。這家初創(chuàng)公司成立于2017年,專注于前沿的知識(shí)圖譜技術(shù)領(lǐng)域,致力于開(kāi)發(fā)能夠賦能更復(fù)雜AI應(yīng)用的核心
    的頭像 發(fā)表于 07-18 15:40 ?424次閱讀

    三星電子將收購(gòu)英國(guó)知識(shí)圖譜技術(shù)初創(chuàng)企業(yè)

    在人工智能技術(shù)日新月異的今天,三星電子公司再次展現(xiàn)了其前瞻性的戰(zhàn)略布局與技術(shù)創(chuàng)新實(shí)力。近日,三星正式宣布完成了對(duì)英國(guó)領(lǐng)先的人工智能(AI)與知識(shí)圖譜技術(shù)初創(chuàng)企業(yè)Oxford Seman
    的頭像 發(fā)表于 07-18 14:46 ?436次閱讀

    知識(shí)圖譜與大模型之間的關(guān)系

    在人工智能的廣闊領(lǐng)域中,知識(shí)圖譜與大模型是兩個(gè)至關(guān)重要的概念,它們各自擁有獨(dú)特的優(yōu)勢(shì)和應(yīng)用場(chǎng)景,同時(shí)又相互補(bǔ)充,共同推動(dòng)著人工智能技術(shù)的發(fā)展。本文將從定義、特點(diǎn)、應(yīng)用及相互關(guān)系等方面深入探討知識(shí)圖譜與大模型之間的關(guān)系。
    的頭像 發(fā)表于 07-10 11:39 ?650次閱讀

    維智科技入選《2024中國(guó)數(shù)據(jù)智能產(chǎn)業(yè)圖譜1.0》

    近日,數(shù)據(jù)猿與上海大數(shù)據(jù)聯(lián)盟聯(lián)合發(fā)布了《2024中國(guó)數(shù)據(jù)智能產(chǎn)業(yè)圖譜1.0》,旨在以大數(shù)據(jù)與AI為代表的智能技術(shù)為主要視角,聚焦全產(chǎn)業(yè)鏈為業(yè)內(nèi)提供更為專業(yè)直觀的行業(yè)指導(dǎo)。維智科技憑借在政務(wù)數(shù)字化
    的頭像 發(fā)表于 06-14 19:27 ?857次閱讀
    維智科技入選《2024中國(guó)數(shù)據(jù)智能產(chǎn)業(yè)<b class='flag-5'>圖譜</b>1.0》

    利用知識(shí)圖譜與Llama-Index技術(shù)構(gòu)建大模型驅(qū)動(dòng)的RAG系統(tǒng)(下)

    對(duì)于語(yǔ)言模型(LLM)幻覺(jué),知識(shí)圖譜被證明優(yōu)于向量數(shù)據(jù)庫(kù)。知識(shí)圖譜提供更準(zhǔn)確、多樣化、有趣、邏輯和一致的信息,減少了LLM中出現(xiàn)幻覺(jué)的可能性。
    的頭像 發(fā)表于 02-22 14:13 ?955次閱讀
    利用<b class='flag-5'>知識(shí)圖譜</b>與Llama-Index<b class='flag-5'>技術(shù)</b>構(gòu)建大模型驅(qū)動(dòng)的RAG系統(tǒng)(下)

    利用知識(shí)圖譜與Llama-Index技術(shù)構(gòu)建大模型驅(qū)動(dòng)的RAG系統(tǒng)(上)

    向量數(shù)據(jù)庫(kù)是一組高維向量的集合,用于表示實(shí)體或概念,例如單詞、短語(yǔ)或文檔。向量數(shù)據(jù)庫(kù)可以根據(jù)實(shí)體或概念的向量表示來(lái)度量它們之間的相似性或關(guān)聯(lián)性。
    的頭像 發(fā)表于 02-22 14:07 ?888次閱讀
    利用<b class='flag-5'>知識(shí)圖譜</b>與Llama-Index<b class='flag-5'>技術(shù)</b>構(gòu)建大模型驅(qū)動(dòng)的RAG系統(tǒng)(上)

    知識(shí)圖譜基礎(chǔ)知識(shí)應(yīng)用和學(xué)術(shù)前沿趨勢(shì)

    知識(shí)圖譜(Knowledge Graph)以結(jié)構(gòu)化的形式描述客觀世界中概念、實(shí)體及其關(guān)系。是融合了認(rèn)知計(jì)算、知識(shí)表示與推理、信息檢索與抽取、自然語(yǔ)言處理、Web技術(shù)、機(jī)器學(xué)習(xí)與大數(shù)據(jù)挖掘等等方向的交叉學(xué)科。人工智能是以傳統(tǒng)符號(hào)派
    的頭像 發(fā)表于 01-08 10:57 ?722次閱讀
    <b class='flag-5'>知識(shí)圖譜</b>基礎(chǔ)<b class='flag-5'>知識(shí)</b>應(yīng)用和學(xué)術(shù)前沿趨勢(shì)

    電氣技術(shù)基礎(chǔ)知識(shí)

    電氣技術(shù)基礎(chǔ)知識(shí)
    的頭像 發(fā)表于 12-14 09:11 ?1358次閱讀
    電氣<b class='flag-5'>技術(shù)</b>基礎(chǔ)<b class='flag-5'>知識(shí)</b>

    智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜

    智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜智慧燈桿產(chǎn)業(yè)鏈企業(yè)
    發(fā)表于 12-11 17:36 ?1次下載

    《電子工程師必備——九大系統(tǒng)電路識(shí)圖寶典》+附錄2化整為零和集零為整電路分析方法

    感謝提供的試讀機(jī)會(huì)! 感謝作者 胡斌! 感謝作者 胡松! 感謝人民郵電出版社! 感謝中國(guó)工信出版集團(tuán)! 感謝電子發(fā)燒友論壇! 接上四篇: 《電子工程師必備——九大系統(tǒng)電路識(shí)圖寶典》+視頻講解附錄6
    發(fā)表于 11-18 21:06

    知識(shí)圖譜與大模型結(jié)合方法概述

    本文作者 |? 黃巍 《Unifying Large Language Models and Knowledge Graphs: A Roadmap》總結(jié)了大語(yǔ)言模型和知識(shí)圖譜融合的三種路線:1
    的頭像 發(fā)表于 10-29 15:50 ?849次閱讀
    <b class='flag-5'>知識(shí)圖譜</b>與大模型結(jié)合方法概述

    手機(jī)電路方框圖識(shí)圖

    電子發(fā)燒友網(wǎng)站提供《手機(jī)電路方框圖識(shí)圖.ppt》資料免費(fèi)下載
    發(fā)表于 10-24 14:27 ?0次下載
    手機(jī)電路方框圖<b class='flag-5'>識(shí)圖</b>

    《電子工程師必備——九大系統(tǒng)電路識(shí)圖寶典》+附錄5學(xué)習(xí)方法

    jf_39110170 網(wǎng)名“還沒(méi)吃飯”閱讀《電子工程師必備 九大系統(tǒng)電路識(shí)圖寶典第2版》附錄5的讀后感:探索科學(xué)學(xué)習(xí)方法 作為一名對(duì)電子技術(shù)學(xué)科充滿熱情的嵌入式工程師,你是否曾因?qū)W習(xí)方法的不明確而感到困惑?你是否曾在
    發(fā)表于 10-06 23:25

    《電子工程師必備——九大系統(tǒng)電路識(shí)圖寶典》+附錄4讀后感

    接上一篇:《電子工程師必備——九大系統(tǒng)電路識(shí)圖寶典》+視頻講解附錄6 - 電子元器件論壇 - 電子技術(shù)論壇- 廣受歡迎的專業(yè)電子論壇! https://bbs.elecfans.com
    發(fā)表于 09-28 13:44