0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

藏經閣計劃發(fā)布一年以來,阿里知識圖譜團隊有哪些技術突破?

mK5P_AItists ? 來源:YXQ ? 2019-04-17 09:31 ? 次閱讀

摘要:2018年4月阿里巴巴業(yè)務平臺事業(yè)部——知識圖譜團隊聯(lián)合清華大學、浙江大學、中科院自動化所、中科院軟件所、蘇州大學等五家機構,聯(lián)合發(fā)布藏經閣(知識引擎)研究計劃。藏經閣計劃依賴阿里強大的計算能力(例如Igraph圖數(shù)據(jù)庫),和先進的機器學習算法(例如PAI平臺)。計劃發(fā)布一年以來,阿里知識圖譜團隊有哪些技術突破?今天一起來了解。

背景

藏經閣計劃發(fā)布一年以來,我們對知識引擎技術進行了重新定義,將其定義成五大技術模塊:知識獲取、知識建模、知識推理、知識融合、知識服務,并將其開發(fā)落地。

其中知識建模的任務是定義通用/特定領域知識描述的概念、事件、規(guī)則及其相互關系的知識表示方法,建立通用/特定領域知識圖譜的概念模型;知識獲取是對知識建模定義的知識要素進行實例化的獲取過程,將非結構化數(shù)據(jù)結構化為圖譜里的知識;而知識融合是對異構和碎片化知識進行語義集成的過程,通過發(fā)現(xiàn)碎片化以及異構知識之間的關聯(lián),獲得更完整的知識描述和知識之間的關聯(lián)關系,實現(xiàn)知識互補和融合;知識推理是根據(jù)知識圖譜提供知識計算和推理模型,發(fā)現(xiàn)知識圖譜中的相關知識和隱含知識的過程。知識服務則是通過構建好的知識圖譜提供以知識為核心的知識智能服務,提升應用系統(tǒng)的智能化服務能力。

圖1 藏經閣-知識引擎產品

經過一年的工作,在知識建模模塊我們開發(fā)了Ontology自動搭建、屬性自動發(fā)現(xiàn)等算法,搭建了知識圖譜Ontology構建的工具;在知識獲取模塊我們研發(fā)了新實體識別、緊湊型事件識別,關系抽取等算法,達到了業(yè)界最高水平;在知識融合模塊,我們設計了實體對齊和屬性對齊的深度學習算法,使之可以在不同知識庫上達到更好的擴展性,大大豐富了知識圖譜里的知識;在知識推理模塊,我們提出了基于Character Embedding的知識圖譜表示學習模型CharTransE、可解釋的知識圖譜學習表示模型XTransE,并開發(fā)出了強大的推理引擎。

基于上面的這些技術模塊,我們開發(fā)了通用的知識引擎產品,目前已經在全阿里經濟體的淘寶、天貓、盒馬鮮生、飛豬、天貓精靈等幾十種產品上取得了成功應用,每天有8000多萬次在線調用,日均離線輸出9億條知識。目前在知識引擎產品上,已經構建成功并運行著商品、旅游、新制造等5個垂直領域圖譜的服務。

圖2 知識引擎四個層次圖示

在每個模塊的構建過程中,我們陸續(xù)攻克了一系列的技術問題。本文將選取其中的兩項工作來介紹給大家:

1、在眾包數(shù)據(jù)上進行對抗學習的命名實體識別方法

知識獲取模塊包含實體識別、實體鏈接、新實體發(fā)現(xiàn)、關系抽取、事件挖掘等基本任務,而實體識別(NER)又是其中最核心的任務。

目前學術界最好的命名實體識別算法主要是基于有監(jiān)督學習的。構建高性能NER系統(tǒng)的關鍵是獲取高質量標注語料。但是高質量標注數(shù)據(jù)通常需要專家進行標注,代價高并且速度較慢,因此目前工業(yè)界比較流行的方案是依賴眾包來標注數(shù)據(jù),但是由于眾包人員素質參差不齊,對問題理解也千差萬別,所以用其訓練的算法效果會受到影響?;诖藛栴},我們提出了針對眾包標注數(shù)據(jù),設計對抗網(wǎng)絡來學習眾包標注員之間的共性,消除噪音,提高中文NER的性能的方法。

這項工作的具體網(wǎng)絡框架如圖3所示:

圖3基于對抗網(wǎng)絡的實體識別模型

標注員ID:對于各個標注員ID信息,我們使用一個Looking-up表,表內存儲著每個WorkerID的向量表示。向量的初始值通過隨機數(shù)進行初始化。在模型訓練過程中,ID向量的所有數(shù)值作為模型的參數(shù),在迭代過程中隨同其他參數(shù)一起優(yōu)化。在訓練時每個標注樣例的標注員,我們直接通過查表獲取對應的ID向量表示。在測試時,由于缺乏標注員信息,我們使用所有向量的平均值作為ID向量輸入。

對抗學習(WorkerAdversarial):眾包數(shù)據(jù)作為訓練語料,存在一定數(shù)量的標注錯誤,即“噪音”。這些標注不當或標注錯誤都是由標注員帶來的。不同標注員對于規(guī)范的理解和背景認識是不同的。對抗學習的各LSTM模塊如下:

私有信息的LSTM稱為“private”,它的學習目標是擬合各位標注員的獨立分布;而共有信息的LSTM稱為“common”,它的輸入是句子,它的作用是學習標注結果之間的共有特征,

標注信息的LSTM稱為“l(fā)abel”,以訓練樣例的標注結果序列為輸入,

再通過標注員分類器把label和common的LSTM特征合并,輸入給CNN層進行特征組合提取,最終對標注員進行分類。要注意的是,我們希望標注員分類器最終失去判斷能力,也就是學習到特征對標注員沒有區(qū)分能力,也就是共性特征。所以在訓練參數(shù)優(yōu)化時,它要反向更新。

在實際的實體識別任務中,我們把common和private的LSTM特征和標注員ID向量合并,作為實體標注部分的輸入,最后用CRF層解碼完成標注任務。

實驗結果如圖4所示,我們的算法在商品Title和用戶搜索Query的兩個數(shù)據(jù)集上均取得最好的性能:

圖4基于對抗網(wǎng)絡的實體識別模型實驗結果

2、基于規(guī)則與graph embedding迭代學習的知識圖譜推理算法

知識圖譜推理計算是補充和校驗圖譜關系及屬性的必不可少的技術手段。規(guī)則和嵌入(Embedding)是兩種不同的知識圖譜推理的方式,并各有優(yōu)劣,規(guī)則本身精確且人可理解,但大部分規(guī)則學習方法在大規(guī)模知識圖譜上面臨效率問題,而嵌入(Embedding)表示本身具有很強的特征捕捉能力,也能夠應用到大規(guī)模復雜的知識圖譜上,但好的嵌入表示依賴于訓練信息的豐富程度,所以對稀疏的實體很難學到很好的嵌入表示。我們提出了一種迭代學習規(guī)則和嵌入的思路,在這項工作中我們利用表示學習來學習規(guī)則,并利用規(guī)則對稀疏的實體進行潛在三元組的預測,并將預測的三元組添加到嵌入表示的學習過程中,然后不斷進行迭代學習。工作的整體框架如圖5所示:

圖5基于對抗網(wǎng)絡的實體識別模型實驗結果

嵌入學習優(yōu)化的目標函數(shù)是:

其中:

lsro表示三元組的標記,表示三元組的評分函數(shù),vs表示圖譜三元組中主語(subject)的映射,Mr表示圖譜中兩個實體間關系的映射,vo表示圖譜三元組中賓語(object)的映射。

基于學習到的規(guī)則(axiom),就可以進行推理執(zhí)行了。通過一種迭代策略,先使用嵌入(Embedding)的方法從圖譜中學習到規(guī)則,再將規(guī)則推理執(zhí)行,將新增的關系再加入到圖譜中,通過這種不斷學習迭代的算法,能夠將圖譜中的關系預測做的越來越準。最終我們的算法取得了非常優(yōu)秀的性能:

除了上述兩項工作以外,在知識引擎技術的研發(fā)上我們還有一系列的前沿工作,取得了領先業(yè)界的效果,研究成果發(fā)表在AAAI、WWW、EMNLP、WSDM等會議上。

之后阿里巴巴知識圖譜團隊會持續(xù)推進藏經閣計劃,構建通用可遷移的知識圖譜算法,并將知識圖譜里的數(shù)據(jù)輸出到阿里巴巴內外部的各項應用之中,為這些應用插上AI的翅膀,成為阿里巴巴經濟體乃至全社會的基礎設施。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 云計算
    +關注

    關注

    39

    文章

    7701

    瀏覽量

    137116
  • 阿里巴巴
    +關注

    關注

    7

    文章

    1607

    瀏覽量

    47059

原文標題:藏經閣計劃發(fā)布一年,阿里知識引擎有哪些技術突破?

文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    58大新質生產力產業(yè)鏈圖譜

    ? 新質生產力是經濟增長動能切換的必然路徑。新質生產力被定義為由技術性革命突破、生產要素創(chuàng)新性配置、產 業(yè)深度轉型升級催生的,具備高科技、高效能、高質量特征的,能夠實現(xiàn)勞動者、勞動資料、勞動對象三
    的頭像 發(fā)表于 11-09 10:16 ?106次閱讀
    58大新質生產力產業(yè)鏈<b class='flag-5'>圖譜</b>

    三星自主研發(fā)知識圖譜技術,強化Galaxy AI用戶體驗與數(shù)據(jù)安全

    據(jù)外媒11月7日報道,三星電子全球AI中心總監(jiān)Kim Dae-hyun近日透露,公司正致力于自主研發(fā)知識圖譜技術,旨在進步優(yōu)化Galaxy AI的功能,提升其易用性,并加強用戶數(shù)據(jù)的隱私保護。
    的頭像 發(fā)表于 11-07 15:19 ?304次閱讀

    易智瑞榮獲“信息技術應用創(chuàng)新工作委員會技術活動單位”

    易智瑞公司以創(chuàng)新作為企業(yè)發(fā)展的內核,技術上的每突破,都將賦予產品符合當下市場需求和技術環(huán)境下的特定能力。在202411月5-6日召開的
    的頭像 發(fā)表于 10-11 10:41 ?358次閱讀
    易智瑞榮獲“信息<b class='flag-5'>技術</b>應用創(chuàng)新工作委員會<b class='flag-5'>技術</b>活動單位”

    星閃技術已經發(fā)布一年多了,應用何去何從?

    星閃技術已經發(fā)布一年多了,想必大家也都有關注,大家觀察觀察身邊所經歷的項目及其他無線應用場景,來說說星閃技術應用都有哪些落腳點。咱們踴躍討論發(fā)言
    發(fā)表于 09-13 09:46

    中國芯片制造關鍵技術取得重大突破,預計一年內實現(xiàn)應用落地

     9月3日,南京傳來振奮人心的科技捷報:歷經四的潛心鉆研與自主創(chuàng)新,國家第三代半導體技術創(chuàng)新中心(南京)在半導體科技領域取得了里程碑式的成就,成功解鎖了溝槽型碳化硅MOSFET芯片制造的核心技術
    的頭像 發(fā)表于 09-03 15:35 ?1301次閱讀

    記錄次RPC服務有損上線的分析過程

    1. 問題背景 某應用在啟動完提供JSF服務后,短時間內出現(xiàn)了大量的空指針異常。 分析日志,發(fā)現(xiàn)是服務依賴的藏經閣配置數(shù)據(jù)未加載完成導致。即所謂的 有損上線 或者是 直接發(fā)布 , 當 應用啟動時
    的頭像 發(fā)表于 07-30 09:58 ?218次閱讀
    記錄<b class='flag-5'>一</b>次RPC服務有損上線的分析過程

    三星電子成功收購英國初創(chuàng)公司,致力開發(fā)AI核心技術

    7月18日,三星電子正式對外宣布了項重要戰(zhàn)略舉措——成功收購英國新興科技企業(yè)Oxford Semantic Technologies。這家初創(chuàng)公司成立于2017,專注于前沿的知識圖譜技術
    的頭像 發(fā)表于 07-18 15:40 ?492次閱讀

    三星電子將收購英國知識圖譜技術初創(chuàng)企業(yè)

    在人工智能技術日新月異的今天,三星電子公司再次展現(xiàn)了其前瞻性的戰(zhàn)略布局與技術創(chuàng)新實力。近日,三星正式宣布完成了對英國領先的人工智能(AI)與知識圖譜技術初創(chuàng)企業(yè)Oxford Seman
    的頭像 發(fā)表于 07-18 14:46 ?487次閱讀

    知識圖譜與大模型之間的關系

    在人工智能的廣闊領域中,知識圖譜與大模型是兩個至關重要的概念,它們各自擁有獨特的優(yōu)勢和應用場景,同時又相互補充,共同推動著人工智能技術的發(fā)展。本文將從定義、特點、應用及相互關系等方面深入探討知識圖譜與大模型之間的關系。
    的頭像 發(fā)表于 07-10 11:39 ?847次閱讀

    阿里通義千問Qwen2大模型發(fā)布并同步開源

    阿里巴巴集團旗下的通義千問團隊宣布,全新的Qwen2大模型正式發(fā)布,并在全球知名的開源平臺Hugging Face和ModelScope上同步開源。這里程碑式的事件標志著中國在人工智
    的頭像 發(fā)表于 06-11 15:33 ?1018次閱讀

    SK海力士HBM4E存儲器提前一年量產

    SK海力士公司近日在首爾舉辦的IEEE 2024國際存儲研討會上,由先進HBM技術團隊負責人Kim Kwi-wook宣布了項重要進展。SK海力士計劃從2026
    的頭像 發(fā)表于 05-15 11:32 ?757次閱讀

    阿里發(fā)布通義千問2.5

    阿里云近日正式發(fā)布了通義千問2.5,標志著其人工智能技術在中文語境下取得了重要突破。據(jù)阿里云智能集團首席
    的頭像 發(fā)表于 05-10 09:57 ?468次閱讀

    利用知識圖譜與Llama-Index技術構建大模型驅動的RAG系統(tǒng)(下)

    對于語言模型(LLM)幻覺,知識圖譜被證明優(yōu)于向量數(shù)據(jù)庫。知識圖譜提供更準確、多樣化、有趣、邏輯和致的信息,減少了LLM中出現(xiàn)幻覺的可能性。
    的頭像 發(fā)表于 02-22 14:13 ?1075次閱讀
    利用<b class='flag-5'>知識圖譜</b>與Llama-Index<b class='flag-5'>技術</b>構建大模型驅動的RAG系統(tǒng)(下)

    知識圖譜基礎知識應用和學術前沿趨勢

    知識圖譜(Knowledge Graph)以結構化的形式描述客觀世界中概念、實體及其關系。是融合了認知計算、知識表示與推理、信息檢索與抽取、自然語言處理、Web技術、機器學習與大數(shù)據(jù)挖掘等等方向的交叉學科。人工智能是以傳統(tǒng)符號派
    的頭像 發(fā)表于 01-08 10:57 ?840次閱讀
    <b class='flag-5'>知識圖譜</b>基礎<b class='flag-5'>知識</b>應用和學術前沿趨勢

    「元生智能」獲千萬融資 原小天才團隊牽手云從科技進軍銀發(fā)賽道

    輪融資以來,元生智能取得了突破性的進展,進步優(yōu)化了產品在老人被看護時亟需解決的痛點需求,并提前布局了增強型看護與監(jiān)測技術。 未來展望:科
    發(fā)表于 01-05 11:48