0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

復雜知識庫問答任務的典型挑戰(zhàn)和解決方案

深度學習自然語言處理 ? 來源:專知 ? 作者:專知 ? 2021-06-13 09:49 ? 次閱讀

知識庫問答旨在通過知識庫回答自然語言問題。近來,大量的研究集中在語義或句法上復雜的問題上。在本文中,我們精心總結了復雜知識庫問答任務的典型挑戰(zhàn)和解決方案,介紹了復雜知識庫問答的兩種主流方法,即基于語義解析(基于SP)的方法和基于信息檢索(基于IR)的方法。首先,我們形式化地定義了知識庫問答任務并介紹了該任務下相關的數據集。然后,我們從兩個類別的角度全面回顧了前沿方法,說明他們針對典型挑戰(zhàn)的解決方案。最后,我們總結并討論了一些仍具有挑戰(zhàn)的未來研究方向。

知識庫(KB)是一個結構化的數據庫,它以(主題、關系、對象)的形式包含一系列事實。大型KBs,如Freebase [Bollacker et al., 2008], DBPedia [Lehmann et al., 2015]和Wikidata [Tanon et al., 2016],已經構建服務于許多下游任務。知識庫問答(KBQA)是一種基于知識庫的自然語言問答任務。KBQA的早期工作[Bordes et al., 2015; Dong et al., 2015; Hu et al., 2018a; Lan et al., 2019b; Lan et al., 2019a]專注于回答一個簡單的問題,其中只涉及一個單一的事實。例如,“j·k·羅琳出生在哪里?”“是一個可以用事實來回答的簡單問題”(J.K.羅琳)羅琳,出生地,英國)。

最近,研究人員開始更多地關注于回答復雜問題,即復雜的KBQA任務[Hu et al., 2018b; Luo et al., 2018]。復雜問題通常包含多個主題,表達復合關系,并包含數值運算。以圖1中的問題為例。這個例題的開頭是“the Jeff Probst Show”。這個問題不是問一個單一的事實,而是要求由兩個關系組成,即“被提名人”和“配偶”。該查詢還與一個實體類型約束“(Jeff Probst,是一個電視制作人)”相關聯(lián)。最后的答案應該通過選擇有最早結婚日期的可能候選人來進一步匯總。一般來說,復雜問題是涉及多跳推理、約束關系、數值運算或上述幾種組合的問題。

回到簡單KBQA的解決方案,已經提出了兩種主流方法的一些研究。這兩種方法首先識別問題中的主題,并將其鏈接到知識庫中的實體(稱為主題實體)。然后,通過執(zhí)行已解析的邏輯形式或在從知識庫中提取的特定于問題的圖中進行推理,在主題實體的鄰近區(qū)域內獲得答案。這兩類方法在以往的工作中通常被稱為基于語義解析的方法(基于SP的方法)和基于信息檢索的方法(基于IR的方法)[Bordes et al., 2015; Dong et al., 2015; Hu et al., 2018a; Gu et al., 2020]。它們包括解決KBQA任務的不同工作機制。前一種方法用符號邏輯形式表示問題,然后對知識庫執(zhí)行它,獲得最終答案。后一種方法構造一個特定于問題的圖,給出與問題相關的全面信息,并根據其與問題的相關性對抽取的圖中的所有實體進行排序。

然而,當將這兩種主流方法應用于復雜的KBQA任務時,復雜的問題會給這兩種方法的不同部分帶來挑戰(zhàn)。我們認為主要挑戰(zhàn)如下:

現有基于SP的方法中使用的解析器難以覆蓋各種復雜的查詢(例如,多跳推理、約束關系和數值運算)。類似地,以前的基于ir的方法可能無法回答復雜的查詢,因為它們的排序是在沒有可追溯推理的情況下對小范圍實體執(zhí)行的。

在復雜問題中,更多的關系和主題意味著更大的潛在邏輯形式的搜索空間,這將顯著增加計算成本。同時,更多的關系和被試會阻礙基于IR的方法檢索所有相關實體進行排序。

兩種方法都把理解問題作為首要步驟。當問題在語義和句法方面都變得復雜時,就要求模型具有較強的自然語言理解和泛化能力。

對于復雜問題,為答案標記ground truth路徑是非常昂貴的。通常,只提供問答對。這表明基于SP的方法和基于IR的方法需要分別在沒有正確邏輯形式和推理路徑標注的情況下進行訓練。這種微弱的監(jiān)管信號給兩種方式都帶來了困難。

關于相關綜述,我們觀察到Wu等人[2019]和Chakraborty等人[2019]回顧了關于簡單KBQA的現有工作。此外,Fu等人[2020]研究了復雜KBQA的當前進展。他們只從技術的角度提供了高級方法的一般觀點,而更多地關注于電子商務領域的應用場景。與這些綜述不同的是,我們的工作試圖識別在以往的研究中遇到的挑戰(zhàn),并以全面和有序的方式廣泛討論現有的解決方案。具體來說,我們將復雜KBQA的方法根據其工作機制分為兩種主流方法。我們將這兩種方法的整個過程分解為一系列模塊,并分析每個模塊中的挑戰(zhàn)。我們相信這種方式特別有助于讀者理解挑戰(zhàn),以及如何在現有的復雜KBQA解決方案中解決這些挑戰(zhàn)。此外,我們還對復雜KBQA的幾個有前途的研究方向進行了展望。

原文標題:IJCAI2021最新「復雜知識庫問答研究」綜述論文,闡述KBQA方法、挑戰(zhàn)與對策

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數據庫
    +關注

    關注

    7

    文章

    3752

    瀏覽量

    64233
  • 自然語言
    +關注

    關注

    1

    文章

    285

    瀏覽量

    13320

原文標題:IJCAI2021最新「復雜知識庫問答研究」綜述論文,闡述KBQA方法、挑戰(zhàn)與對策

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    大算力芯片面臨的技術挑戰(zhàn)和解決策略

    在灣芯展SEMiBAY2024《HBM與存儲器技術與應用論壇》上,億鑄科技創(chuàng)始人、董事長兼CEO熊大鵬發(fā)表了題為《超越極限:大算力芯片面臨的技術挑戰(zhàn)和解決策略》的演講。
    的頭像 發(fā)表于 10-23 14:50 ?250次閱讀

    AI智能化問答:自然語言處理技術的重要應用

    語料或專門構建的問答知識庫中檢索出最匹配的答案。與通用搜索引擎相比,問答系統(tǒng)的優(yōu)勢在于其深層的語義理解能力,這使得它不僅能夠識別用戶提問的字面意思,還能洞察其背后的
    的頭像 發(fā)表于 10-12 10:58 ?280次閱讀
    AI智能化<b class='flag-5'>問答</b>:自然語言處理技術的重要應用

    【實操文檔】在智能硬件的大模型語音交互流程中接入RAG知識庫

    非常明顯的短板。盡管這些模型在理解和生成自然語言方面有極高的性能,但它們在處理專業(yè)領域的問答時,卻往往不能給出明確或者準確的回答。 這時就需要接一個專有知識庫來滿足產品專有和專業(yè)知識的回復需求,理論
    發(fā)表于 09-29 17:12

    芯片和先進封裝的制程挑戰(zhàn)和解決方案

    更多的晶體管,以滿足高性能計算的需求;人工智能對高性能計算的需求是無止盡的,然而,當單位體積內集成的晶體管數量受到物理極限的限制時,我們必須尋找新的解決方案來延續(xù)其擴展性。
    的頭像 發(fā)表于 09-25 10:16 ?384次閱讀
    芯片和先進封裝的制程<b class='flag-5'>挑戰(zhàn)和解決方案</b>

    MCT8316A-設計挑戰(zhàn)和解決方案應用說明

    電子發(fā)燒友網站提供《MCT8316A-設計挑戰(zhàn)和解決方案應用說明.pdf》資料免費下載
    發(fā)表于 09-13 09:52 ?0次下載
    MCT8316A-設計<b class='flag-5'>挑戰(zhàn)和解決方案</b>應用說明

    MCF8316A-設計挑戰(zhàn)和解決方案應用說明

    電子發(fā)燒友網站提供《MCF8316A-設計挑戰(zhàn)和解決方案應用說明.pdf》資料免費下載
    發(fā)表于 09-13 09:51 ?0次下載
    MCF8316A-設計<b class='flag-5'>挑戰(zhàn)和解決方案</b>應用說明

    FPGA設計面臨的挑戰(zhàn)和解決方案

    設計可靠的可編程邏輯門陣列(FPGA)對于不容故障的系統(tǒng)來說是一項具有挑戰(zhàn)性的任務。本文介紹FPGA設計的復雜性,重點關注如何在提高可靠性的同時管理隨之帶來的功耗增加、設計復雜性和潛在
    的頭像 發(fā)表于 08-06 11:33 ?375次閱讀

    如何手擼一個自有知識庫的RAG系統(tǒng)

    用于自然語言處理任務,如文本生成、問答系統(tǒng)等。 我們通過一下幾個步驟來完成一個基于京東云官網文檔的RAG系統(tǒng) 數據收集 建立知識庫 向量檢索 提示詞與模型 數據收集 數據的收集再整個RAG實施過程中無疑是最耗人工的,涉及到收集、
    的頭像 發(fā)表于 06-17 14:59 ?484次閱讀

    信雅達大模型智能問答產品發(fā)布 運營知識助手“小雅”上線

    金融機構帶來全新的工作體驗。 信雅達運營智能知識助手“小雅”,是一款專為商業(yè)銀行打造的辦公輔助工具。其基于信雅達“雅問知識湖”,緊密結合銀行金融知識庫,在銀行運營場景內對傳統(tǒng)FAQ問答
    的頭像 發(fā)表于 04-07 17:30 ?469次閱讀

    英特爾集成顯卡+ChatGLM3大語言模型的企業(yè)本地AI知識庫部署

    在當今的企業(yè)環(huán)境中,信息的快速獲取和處理對于企業(yè)的成功至關重要。為了滿足這一需求,我們可以將RAG技術與企業(yè)本地知識庫相結合,以提供實時的、自動生成的信息處理和決策支持。
    的頭像 發(fā)表于 03-29 11:07 ?737次閱讀
    英特爾集成顯卡+ChatGLM3大語言模型的企業(yè)本地AI<b class='flag-5'>知識庫</b>部署

    中軟國際多項產品入選工業(yè)和信息化部2023年中小企業(yè)數字化轉型典型產品和解決方案

    ? ? 為促進中小企業(yè)數字化轉型供需對接,工業(yè)和信息化部中小企業(yè)局組織開展了2023年中小企業(yè)數字化轉型典型產品和解決方案征集工作。經企業(yè)自主申報、地方中小企業(yè)主管部門推薦,近日,中國工業(yè)互聯(lián)網
    的頭像 發(fā)表于 02-29 09:53 ?453次閱讀
    中軟國際多項產品入選工業(yè)和信息化部2023年中小企業(yè)數字化轉型<b class='flag-5'>典型</b>產品<b class='flag-5'>和解決方案</b>

    PCB金手指設計的常見問題和解決方案

    PCB金手指設計的常見問題和解決方案
    的頭像 發(fā)表于 12-25 10:09 ?2023次閱讀

    HDI 布線的挑戰(zhàn)和技巧

    HDI 布線的挑戰(zhàn)和技巧
    的頭像 發(fā)表于 12-07 14:48 ?477次閱讀

    如何利用OpenVINO加速LangChain中LLM任務

    去完成一些更復雜任務。簡單來說,LangChain 可以讓你的 LLM 在回答問題時參考自定義的知識庫,實現更精確的答案輸出。例如在以下這個Retrieval Augmented Generation
    的頭像 發(fā)表于 12-05 09:58 ?761次閱讀

    如何基于亞馬遜云科技LLM相關工具打造知識庫

    了解其核心組件、快速部署指南以及LangChain集成及其在電商的應用場景。 通用場景:基于企業(yè)內部知識庫例如IT/HR信息的問答 制造行業(yè):裝備維保知識庫問答和售后客服 金融行業(yè):智
    的頭像 發(fā)表于 11-23 17:53 ?952次閱讀
    如何基于亞馬遜云科技LLM相關工具打造<b class='flag-5'>知識庫</b>