0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

通用領(lǐng)域大規(guī)模條件性知識圖譜數(shù)據(jù)集

深度學(xué)習(xí)自然語言處理 ? 來源:哈工大SCIR 張寧 ? 作者:哈工大SCIR 張寧 ? 2021-06-08 15:23 ? 次閱讀

1.摘要

本數(shù)據(jù)集由哈爾濱工業(yè)大學(xué)社會計算與信息檢索研究中心(哈工大SCIR)秦兵教授和劉銘教授主持開發(fā),是一個通用領(lǐng)域大規(guī)模條件性知識圖譜數(shù)據(jù)集。本數(shù)據(jù)集源自于AG News文本分類語料,包含四個類別,2440 條數(shù)據(jù),每條數(shù)據(jù)都是人工標(biāo)注的條件知識圖譜。該數(shù)據(jù)集的提出能夠為條件性知識圖譜的研究提供數(shù)據(jù)支持。

2.條件性知識圖譜

在大多數(shù)情況下,事實的成立都是有條件的。條件和事實起著同樣重要的作用,然而目前的知識圖譜只關(guān)注事實而忽略了條件的存在。與此同時,信息提取技術(shù)也只關(guān)注從給定文本中提取事實,而忽略了條件信息。

為了能夠讓知識圖譜建模條件信息更加充分,我們提出了一個三層的網(wǎng)絡(luò)結(jié)構(gòu)條件性知識圖譜(Conditional-KG)。條件性知識圖譜和傳統(tǒng)知識圖譜都是由三元組組成,但是條件性知識圖譜同時包含事實元組和條件元組,以及元組之間的條件關(guān)系。

3.數(shù)據(jù)集

為了支持條件性知識圖譜的研究,我們手動標(biāo)注了一個條件性知識圖譜數(shù)據(jù)集。我們選擇了AG News文本分類語料作為條件性知識圖譜的語料。AG News語料具有三大優(yōu)勢:

AG News中的數(shù)據(jù)是新聞的標(biāo)題和一部分正文,每條數(shù)據(jù)平均包含2.1個句子、6.4個元組和3.5個條件關(guān)系;

AG News中的數(shù)據(jù)具有完整的語法結(jié)構(gòu),長度較長,語言嚴(yán)謹(jǐn),代詞、口語、習(xí)語等較少。

AG News的文本數(shù)量足夠大,多樣性豐富。它包含12萬條訓(xùn)練數(shù)據(jù)和7600條測試數(shù)據(jù),涉及World、Sports、Business、 和Sci/Tech四個類別。

我們標(biāo)注的數(shù)據(jù)集追求信息的完整性和元組的原子性。完整性的意思是標(biāo)注者應(yīng)該嘗試從句子中提取所有斷言和條件,我們將原子性定義為每個元組必須是一個不可分割的單元。只要有可能,標(biāo)注者必須從帶有連詞的句子中提取多個原子元組。

我們通過兩輪標(biāo)注最終得到了人工標(biāo)注的通用領(lǐng)域條件性知識圖譜數(shù)據(jù)集。本數(shù)據(jù)集源自于AG News文本分類語料,包含四個類別,2440 條數(shù)據(jù),每條數(shù)據(jù)都是人工標(biāo)注的條件知識圖譜。

4.結(jié)語

為了建模條件信息,我們提出了一個具有三層網(wǎng)絡(luò)結(jié)構(gòu)的條件性知識圖譜,并且為社區(qū)貢獻(xiàn)了一個人工標(biāo)注的通用領(lǐng)域大規(guī)模條件性知識圖譜。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1197

    瀏覽量

    24552
  • 知識圖譜
    +關(guān)注

    關(guān)注

    2

    文章

    132

    瀏覽量

    7665

原文標(biāo)題:賽爾筆記 | 通用領(lǐng)域條件性知識圖譜數(shù)據(jù)集

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    通用汽車中國裁員并籌劃大規(guī)模業(yè)務(wù)改革

    據(jù)外媒最新報道,通用汽車(GM)正在中國市場進(jìn)行一系列重大調(diào)整,以應(yīng)對全球最大汽車市場的快速變化。知情人士透露,通用汽車已啟動裁員計劃,并計劃在未來幾周內(nèi)與合作伙伴上汽集團(tuán)會面,共同探討更大規(guī)模的結(jié)構(gòu)性改革方案。
    的頭像 發(fā)表于 08-14 16:24 ?317次閱讀

    三星電子將收購英國知識圖譜技術(shù)初創(chuàng)企業(yè)

    在人工智能技術(shù)日新月異的今天,三星電子公司再次展現(xiàn)了其前瞻性的戰(zhàn)略布局與技術(shù)創(chuàng)新實力。近日,三星正式宣布完成了對英國領(lǐng)先的人工智能(AI)與知識圖譜技術(shù)初創(chuàng)企業(yè)Oxford Semantic Technologies的收購,此舉標(biāo)志著三星在提升設(shè)備端AI能力、深化個性化用戶體驗方面邁出了重要一步。
    的頭像 發(fā)表于 07-18 14:46 ?436次閱讀

    知識圖譜與大模型之間的關(guān)系

    在人工智能的廣闊領(lǐng)域中,知識圖譜與大模型是兩個至關(guān)重要的概念,它們各自擁有獨特的優(yōu)勢和應(yīng)用場景,同時又相互補(bǔ)充,共同推動著人工智能技術(shù)的發(fā)展。本文將從定義、特點、應(yīng)用及相互關(guān)系等方面深入探討知識圖譜與大模型之間的關(guān)系。
    的頭像 發(fā)表于 07-10 11:39 ?652次閱讀

    Al大模型機(jī)器人

    理解能力強(qiáng)大: AI大模型機(jī)器人可以理解和生成自然語言,能夠進(jìn)行復(fù)雜的對話和語言任務(wù)。它們能夠識別語言中的語義、語境和情感,并據(jù)此作出適當(dāng)?shù)幕貞?yīng)。廣泛的知識儲備: 這些模型基于大規(guī)模數(shù)據(jù)
    發(fā)表于 07-05 08:52

    40億,今年芯片領(lǐng)域大規(guī)模融資誕生

    或許,遲到的IPO就要來了就在5月底,國家集成電路產(chǎn)業(yè)投資基金三期股份有限公司正式成立,規(guī)模為3440億元人民幣,是最大規(guī)模的芯片基金。該消息的傳出猶如一支強(qiáng)心劑,扎在了芯片領(lǐng)域各個企業(yè)心上。彼時
    的頭像 發(fā)表于 06-26 08:04 ?425次閱讀
    40億,今年芯片<b class='flag-5'>領(lǐng)域</b>最<b class='flag-5'>大規(guī)模</b>融資誕生

    大模型應(yīng)用之路:從提示詞到通用人工智能(AGI)

    鋪平道路。 基于AI大模型的推理功能,結(jié)合了RAG(檢索增強(qiáng)生成)、智能體(Agent)、知識庫、向量數(shù)據(jù)庫、知識圖譜等先進(jìn)技術(shù),我們向?qū)崿F(xiàn)真正的AGI(通用人工智能)邁出了重要步伐。
    的頭像 發(fā)表于 06-14 10:20 ?1870次閱讀
    大模型應(yīng)用之路:從提示詞到<b class='flag-5'>通用</b>人工智能(AGI)

    專用集成電路都是大規(guī)模的嗎為什么呢

    專用集成電路(Application Specific Integrated Circuit,ASIC)是根據(jù)特定應(yīng)用領(lǐng)域的需求而設(shè)計和定制的集成電路。與通用集成電路相比,專用集成電路具有更高
    的頭像 發(fā)表于 04-21 09:15 ?401次閱讀

    專用集成電路都是大規(guī)模的嗎對嗎

    。與通用型集成電路(General Purpose Integrated Circuit,簡稱GPIC)相比,專用集成電路在特定的應(yīng)用領(lǐng)域中更為專注和高效。在關(guān)于專用集成電路是否都是大規(guī)模的這個問題上,答案
    的頭像 發(fā)表于 04-14 10:45 ?358次閱讀

    名單公布!【書籍評測活動NO.30】大規(guī)模語言模型:從理論到實踐

    為目的。國內(nèi)的文心一言就屬于這一類。 垂直大模型,聚焦解決垂直領(lǐng)域問題,是在通用大模型的基礎(chǔ)上訓(xùn)練行業(yè)專用模型,應(yīng)用到金融、醫(yī)療、教育、養(yǎng)老、交通等垂直行業(yè),使大模型領(lǐng)域化、商業(yè)化,做到實際應(yīng)用落地
    發(fā)表于 03-11 15:16

    大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)演進(jìn)的七大主流趨勢

    自動駕駛已經(jīng)變成可能,大規(guī)模應(yīng)用只是一個時間問題。大規(guī)模網(wǎng)絡(luò)運(yùn)維的自動化也必然是業(yè)界的趨勢,要達(dá)到自動駕駛或自動化運(yùn)維都需要兩個共同的條件:一是有足夠有效的數(shù)據(jù),二是要有對
    發(fā)表于 03-11 11:21 ?340次閱讀

    利用知識圖譜與Llama-Index技術(shù)構(gòu)建大模型驅(qū)動的RAG系統(tǒng)(下)

    對于語言模型(LLM)幻覺,知識圖譜被證明優(yōu)于向量數(shù)據(jù)庫。知識圖譜提供更準(zhǔn)確、多樣化、有趣、邏輯和一致的信息,減少了LLM中出現(xiàn)幻覺的可能性。
    的頭像 發(fā)表于 02-22 14:13 ?955次閱讀
    利用<b class='flag-5'>知識圖譜</b>與Llama-Index技術(shù)構(gòu)建大模型驅(qū)動的RAG系統(tǒng)(下)

    自動駕駛領(lǐng)域數(shù)據(jù)匯總

    發(fā)自動駕駛論文哪少的了數(shù)據(jù),今天筆者將為大家推薦一篇最新的綜述,總結(jié)了200多個自動駕駛領(lǐng)域數(shù)據(jù),大家堆工作量的時候也可以找一些小眾的
    的頭像 發(fā)表于 01-19 10:48 ?859次閱讀
    自動駕駛<b class='flag-5'>領(lǐng)域</b>的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>匯總

    商湯科技與庫醇科技達(dá)成合作 為垂域大模型構(gòu)建高質(zhì)量大規(guī)模領(lǐng)域微調(diào)數(shù)據(jù)

    數(shù)字化轉(zhuǎn)型,為垂域大模型構(gòu)建高質(zhì)量大規(guī)模領(lǐng)域微調(diào)數(shù)據(jù)。 ? 本次合作將基于商湯通用大模型進(jìn)行二次開發(fā),給模型注入領(lǐng)域
    的頭像 發(fā)表于 01-10 09:46 ?612次閱讀
    商湯科技與庫醇科技達(dá)成合作 為垂域大模型構(gòu)建高質(zhì)量<b class='flag-5'>大規(guī)模</b>的<b class='flag-5'>領(lǐng)域</b>微調(diào)<b class='flag-5'>數(shù)據(jù)</b>

    知識圖譜基礎(chǔ)知識應(yīng)用和學(xué)術(shù)前沿趨勢

    知識圖譜(Knowledge Graph)以結(jié)構(gòu)化的形式描述客觀世界中概念、實體及其關(guān)系。是融合了認(rèn)知計算、知識表示與推理、信息檢索與抽取、自然語言處理、Web技術(shù)、機(jī)器學(xué)習(xí)與大數(shù)據(jù)挖掘等等方向的交叉學(xué)科。人工智能是以傳統(tǒng)符號派
    的頭像 發(fā)表于 01-08 10:57 ?722次閱讀
    <b class='flag-5'>知識圖譜</b>基礎(chǔ)<b class='flag-5'>知識</b>應(yīng)用和學(xué)術(shù)前沿趨勢

    知識圖譜與大模型結(jié)合方法概述

    本文作者 |? 黃巍 《Unifying Large Language Models and Knowledge Graphs: A Roadmap》總結(jié)了大語言模型和知識圖譜融合的三種路線:1
    的頭像 發(fā)表于 10-29 15:50 ?849次閱讀
    <b class='flag-5'>知識圖譜</b>與大模型結(jié)合方法概述