近日,由阿里巴巴達(dá)摩院語言技術(shù)實驗室研發(fā)的 Multi-Doc Enriched BERT 模型在微軟的 MS MARCO 數(shù) 據(jù)評測任務(wù),Passage Retrieval Task(文檔檢索排序)和 Q&A Task(開放域自動問答)中雙雙刷新記錄,均取得榜首(截止 2019 年 6 月 26 日)。
MS MARCO 挑戰(zhàn)賽是 AI 閱讀理解領(lǐng)域的權(quán)威比賽,包含 100 多萬問題和近千萬篇文檔,參賽機構(gòu)提供的 AI 模型需要從這些文檔中找出 100 萬個問題的正確答案。參與此次評比的還有微軟、Facebook 等公司。
與斯坦福大學(xué)發(fā)起的 SQuAD 挑戰(zhàn)賽不同,MS MARCO 數(shù)據(jù)集模擬了搜索引擎中的真實應(yīng)用場景,其難度更大,是機器閱讀理解領(lǐng)域最有應(yīng)用價值的數(shù)據(jù)集之一。MS MARCO 挑戰(zhàn)賽需要參賽者提交的模型具備理解長文檔多段落,并回答復(fù)雜問題的能力。對于每一個問題,MS MARCO 提供多篇來自搜索結(jié)果的網(wǎng)頁文檔,AI 需要通過閱讀這些文檔來回答用戶提出的問題。但是,文檔中是否含有答案,以及答案具體在哪一篇文檔或段落中,都需 AI 自己來判斷解決。
更難的是,有一部分問題無法在文檔中直接找到答案,需要 AI 自由發(fā)揮做出判斷。這對機器閱讀理解提出了更高要求,需要 AI 具備綜合理解多文檔信息、聚合生成問題答案的能力。
阿里的突破在于提出了基于“融合結(jié)構(gòu)化信息 BERT 模型”的“深度級聯(lián)機器閱讀模型”, 可以模仿人類閱讀理解的過程,先對文檔進(jìn)行快速瀏覽,判斷,然后針對相應(yīng)段落進(jìn)行精讀,并根據(jù)“自己的理解”回答問題。其中,阿里巴巴自研的算法成果——“深度級聯(lián)機器閱讀模型”已被 AAAI 2019 收錄。
這是繼 2018 年《Multi-granularity hierarchical attention fusion networks for reading comprehension and question answering》(ACL 2018)在單文檔閱讀理解(斯坦福 SQuAD 挑戰(zhàn)賽)取得的成果后,阿里巴巴研究團(tuán)隊在機器閱讀理解領(lǐng)域的又一次突破。
機器閱讀理解模型需要的輸入是
阿里巴巴研究團(tuán)隊在 MS MARCO 上提交的 Multi-Doc Enriched BERT 模型,正是為了解決上述問題。團(tuán)隊先于2019年初提出了級聯(lián)學(xué)習(xí)框架《A Deep Cascade Model for Multi-Document Reading Comprehension》(AAAI 2019),設(shè)計出深度級聯(lián)機器閱讀框架,該方案可有效降低召回階段延時,并最大化答案準(zhǔn)確率,算法在召回和排序上逐步從文檔級別,段落級別演化,并在最后有限的備選段落中進(jìn)行答案提取工作。
隨后,研究團(tuán)隊提出了 Enriched BERT 模型,配合 Deep Cascade Model 框架,在多文閱讀理解上超過了之前廣泛使用的 IR Based MRC 模型。其中,負(fù)責(zé)提供語義表征的 Enriched BERT 模型除了在 MS MARCO 上作為語言模型幫助取得雙料冠軍外,在國際公認(rèn)的自然語言理解標(biāo)準(zhǔn)數(shù)據(jù)集 GLUE Benchmark 上也取得了 Top3 的成績(相關(guān)技術(shù)近期公開)。
特別在 MS MARCO Q&A Task 上,阿里方面稱,較之前最先進(jìn)的模型有 1.5% 的 Rouge-L 絕對提升。此外,在 MS MARCO Passage Retrieval Task 上,他們自研的 Enriched BERT Base 模型領(lǐng)先于其他模型。
阿里方面介紹,阿里 AI 可以像人類一樣在閱讀并理解后快速應(yīng)對天馬行空的問題。比如阿里 AI 可以在毫秒內(nèi)讀完 2 億字的巨著, 相當(dāng)于 5 本《大英百科全書》,并根據(jù)自己的理解快速回答 100 多萬個不同領(lǐng)域的不同問題。例如 2014 年足球世界杯的冠軍是誰?哈利波特在哪里上學(xué)的?什么是宇宙中最強的磁場?阿里 AI 可以分別迅速給出答案,這一研究水平可以應(yīng)對高中英語閱讀理解試題。
(這一AI能力已應(yīng)用在阿里電子商務(wù)平臺中)
對人類而言, 閱讀是獲取知識、不斷進(jìn)步的重要途徑;對機器而言,同樣如此。阿里 AI 這一成果揭示了機器在理解大量復(fù)雜材料以及回答現(xiàn)實生活中復(fù)雜問題方面的潛力。
據(jù)阿里方面介紹,這一技術(shù)已經(jīng)開始大規(guī)模應(yīng)用,例如去年在 Lazada 一次線上促銷活動前, 阿里 AI 僅僅花了 30 毫秒就學(xué)會 25 個在印尼促銷品銷售中的所有規(guī)則,并成功應(yīng)用到聊天機器人中,在活動中回答問題方面的準(zhǔn)確率達(dá)到了 96%。
圍繞電商服務(wù)、導(dǎo)購及任務(wù)助理為核心的智能人機交互產(chǎn)品,在活動,規(guī)則,指南等場景中替代人工構(gòu)建知識,降低人工成本,提升認(rèn) 知智能能力,為海量的活動規(guī)則咨詢提供解答服務(wù)。在近年來的雙 11,雙 12 場景及最近的 618 大促中維護(hù)效率提升 50%,相比通用方案解決率提升 10%。同時,這一技術(shù)也活躍在政務(wù)場景如市 ?辦事咨詢中,基于浙江省百萬級辦事指南庫,”身份證到哪里換“這類咨詢從等待人工回復(fù)時? 2.5 天提升到了秒級響應(yīng)。
以多文檔開放問答場景的機器閱讀為代表的語言理解技術(shù)是自然語言處理的基礎(chǔ)能力之一,在這些基礎(chǔ)能力之上,阿里巴巴可圍繞該技術(shù)構(gòu)建一系列問答類應(yīng)用。在產(chǎn)業(yè)落地方面,問答平臺及聊天機器人產(chǎn) 品等會伴隨這項技術(shù)豐富其自身能力,降低人力成本提高效率;對于消費者來說,智能客服以后可以幫助 消費者在購物時有更好的體驗。
當(dāng)前,無論是在工業(yè)界還是學(xué)術(shù)界,各方研究團(tuán)隊都在機器閱讀理解上投入大量精力。未來,除了對話和問答場景,在搜索場景中,搜索引擎將不僅僅是返回用戶相關(guān)的鏈接和網(wǎng)?,而是通過對互聯(lián)網(wǎng)上的海量資源進(jìn)行閱讀理解,直接得出答案返回給用戶。
附:級聯(lián)機器閱讀理解模型詳解
阿里方面提供的資料顯示,級聯(lián)學(xué)習(xí)可以通過在不同階段采用不同的特性選擇和樣本篩選策略達(dá)到效果和性能的平衡,阿里巴巴提出的多文檔機器閱讀模型首先利用簡單特征和排序模型過濾掉與問題無關(guān)的樣本和段落,并得到一組候選文本,供后續(xù)從中提取答案。然后將生成的段落傳遞給基于注意力的深層 MRC 模型(不同于傳統(tǒng)多層 MRC,阿里巴巴研究團(tuán)隊在近期公布的 Google BERT 進(jìn)行了進(jìn)一步的創(chuàng)新優(yōu)化,并設(shè)計了基于 Enriched BERT 的新 MRC 模型),該模型用于提取單詞級別的實際答案跨度。
為了進(jìn)一步提升模型效果,該模型使用文檔提取和段落提取作為輔助任務(wù),以快速減少搜索空間的范圍。重要的是,這三個任務(wù)在統(tǒng)一的深層 MRC 模型中共享同一個底層語言模型(Enriched BERT),這不僅可以實現(xiàn)粗到細(xì)的演繹過程,還可以通過迭代有效地學(xué)習(xí)更好的模型。
如上圖所示,系統(tǒng)架構(gòu)由三個核心模塊組成,分別負(fù)責(zé)文檔檢索、段落檢索和答案提取。對于前兩個功能中的每一個功能,都定義了一個排序函數(shù)和一個提取函數(shù)。排序函數(shù)用于無關(guān)內(nèi)容的過濾(Efficiency)。提取函數(shù)將文檔提取和段落提取作為輔助任務(wù)并與最終答案提取模塊(機器閱讀理解) 聯(lián)合優(yōu)化,以提高性能(Effectiveness)。所采用的方案與以前的方法相比,關(guān)鍵的改進(jìn)是每個模塊的本地排序功能在成本和復(fù)雜性上逐步增加,在整個計算過程中保持效率和有效性競爭因素之間的平衡。
在實驗中(備注:AAAI 2019 的實驗中不包含 Enriched BERT 結(jié)果,后續(xù)公布),模型開發(fā)人員首先用 TriviaQA Web 和 DuReader 基準(zhǔn)數(shù)據(jù)集驗證了在離線測試中的有效性,這兩套數(shù)據(jù)集通常被用作多文檔 MRC 評測的標(biāo)準(zhǔn)數(shù)據(jù)集。該基準(zhǔn)數(shù)據(jù)的結(jié)果表明,研究人員所提出的模型明顯超過了以前最先進(jìn)的模型, 在每個包含兩個段落四個文檔集的場景中性能最佳;此外,通過額外的輔助任務(wù)在初期排序中消除不相關(guān)的文檔和段落,時間成本被證明是可以降低的,可以在不顯著影響最終答案提取效果的情況下完成。
經(jīng)過驗證,團(tuán)隊使用阿里小蜜客服機器人系統(tǒng)進(jìn)行了在線環(huán)境測試,該系統(tǒng)旨在幫助阿里巴巴集團(tuán)電子商務(wù)平臺解決每日約 200 萬名訪問者提出的問題。這些測試表明,該模型能夠以低于 50 微秒的速度滿足請求,同時也提高了有效性標(biāo)準(zhǔn)。
上述結(jié)果表明,通過減少無關(guān)內(nèi)容的“噪聲”,該模型可以大大改善現(xiàn)有的最先進(jìn)在線答疑系統(tǒng)標(biāo)準(zhǔn), 同時更好地平衡提取過程各個階段效率和有效性。
-
AI
+關(guān)注
關(guān)注
87文章
29805瀏覽量
268102 -
阿里巴巴
+關(guān)注
關(guān)注
7文章
1607瀏覽量
47059 -
模型
+關(guān)注
關(guān)注
1文章
3112瀏覽量
48658
原文標(biāo)題:阿里達(dá)摩院刷新紀(jì)錄,開放域問答成績比肩人類水平,超微軟、Facebook
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論