0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一文了解百度被收錄ACL 2019的10篇論文

WpOh_rgznai100 ? 來源:lq ? 2019-06-07 16:58 ? 次閱讀

近日,自然語言處理(NLP)領域的國際頂級學術會議“國際計算語言學協(xié)會年會”(ACL 2019)公布了今年大會論文錄用結果。根據 ACL 2019 官方數據,今年大會的有效投稿數量達到 2694 篇,相比去年的 1544 篇增長高達 75%。其中,百度共有 10 篇論文被大會收錄。

國際計算語言學協(xié)會(ACL,The Association for Computational Linguistics)成立于 1962 年,是自然語言處理領域影響力最大、最具活力的國際學術組織之一,自成立之日起就致力于推動計算語言學及自然語言處理相關研究的發(fā)展和國際學術交流。百度高級副總裁、AI 技術平臺體系 (AIG) 和基礎技術體系(TG)總負責人王海峰曾于 2013 年出任 ACL 主席,是 ACL 五十多年歷史上首位華人主席,也是 ACL 亞太分會(AACL)的創(chuàng)始主席,ACL 會士。研究論文能夠被 ACL 學術年會錄用,意味著研究成果得到了國際學術界的認可。

百度被錄用的 10 篇論文,覆蓋了信息抽取、機器閱讀理解、對話系統(tǒng)、視頻語義理解、機器翻譯等諸多 NLP 領域的熱點和前沿研究方向,提出了包括基于注意力正則化的 ARNOR 框架(Attention Regularization based NOise Reduction)、語言表示與知識表示深度融合的 KT-NET 模型、多粒度跨模態(tài)注意力機制、基于端到端深度強化學習的共指解析方法等,在人機交互、智能客服、視頻理解、機器翻譯等場景中具有很大的應用價值。

附:百度被收錄 ACL 2019 論文概覽

ARNOR: Attention Regularization based Noise Reduction for Distant Supervision Relation Classification

摘要:遠監(jiān)督通過知識庫自動獲取標注語料,是關系抽取的關鍵算法。但是遠監(jiān)督通常會引入大量噪聲數據,即句子并未表達自動標注的關系。進一步說,基于遠監(jiān)督學習的模型效果不佳、解釋性差,無法解釋關系的指示詞。

為此,我們提出基于注意力正則化的 ARNOR 框架(Attention Regularization based NOise Reduction)。此方法通過注意力機制,要求模型能夠關注關系的指示詞,進而識別噪聲數據,并通過 bootstrap 方法逐步選擇出高質量的標注數據,改善模型效果。此方法在關系分類及降噪上均顯著優(yōu)于此前最好的增強學習算法。

應用價值:在文本信息抽取有廣泛的應用價值。此方法能夠顯著降低對標注數據的依賴,實現低成本的基于知識庫的自動關系學習,未來可落地在醫(yī)療、金融等行業(yè)信息抽取中。

Enhancing Pre-trained Language Representations with Rich Knowledge for Machine Reading Comprehension

摘要:機器閱讀理解 (Machine Reading Comprehension) 是指讓機器閱讀文本,然后回答和閱讀內容相關的問題。該技術可以使機器具備從文本數據中獲取知識并回答問題的能力,是構建通用人工智能的關鍵技術之一,長期以來受到學術界和工業(yè)界的廣泛關注。近兩年,預訓練語言表示模型在機器閱讀理解任務上取得了突破性進展。通過在海量無標注文本數據上預訓練足夠深的網絡結構,當前最先進的語言表示模型能夠捕捉復雜的語言現象,更好地理解語言、回答問題。然而,正如大家所熟知的,真正意義上的閱讀理解不僅要求機器具備語言理解的能力,還要求機器具備知識以支撐復雜的推理。為此,在論文《Enhancing Pre-trained Language Representations with Rich Knowledge for Machine Reading Comprehension》中,百度開創(chuàng)性地提出了語言表示與知識表示的深度融合模型 KT-NET,希望同時借助語言和知識的力量進一步提升機器閱讀理解的效果。

KT-NET 的模型架構如下圖所示。首先,針對給定的閱讀內容和結構化知識圖譜,分別利用語言表示模型和知識表示模型對兩者進行編碼,得到相應的文本表示和知識表示。接下來,利用注意力機制從知識圖譜中自動篩選并整合與閱讀內容高度相關的知識。最后,通過雙層自注意力匹配,實現文本表示和知識表示的深度融合,提升答案邊界預測的準確性。截止到發(fā)稿日,KT-NET 仍然是常識推理閱讀理解數據集 ReCoRD 榜單上排名第一的模型,并在此前很長一段時期內都是 SQuAD 1.1 榜單上效果最好的單模型。

KT-NET: 語言表示與知識表示的深度融合模型

應用價值:該項技術可應用于搜索問答智能音箱產品中,直接精準定位用戶輸入問題的答案,并在搜索結果首條顯著位置呈現或通過語音播報呈現給用戶。

Know More about Each Other: Evolving Dialogue Strategy via Compound Assessment

摘要:現有的基于監(jiān)督學習的對話系統(tǒng),缺乏對多輪回復方向的控制和規(guī)劃,通常導致對話中發(fā)生重復、發(fā)散等問題,使得用戶的交互體驗偏差。 在本文中,我們對多輪對話進行了復合評估 (compound assessment),并基于該評估利用強化學習優(yōu)化兩個自對話 (self-play) 的機器人,促進生成過程中較好地控制多輪對話的方向??紤]到對話的一個主要動機是進行有效的信息交換,針對 Persona Chat 問題(兩個人相互對話聊興趣愛好),我們設計了一個較為完善的評估系統(tǒng),包括對話的信息量和連貫度兩個主要方面。我們利用復合評估作為 reward,基于策略梯度算法 (policy gradient),指導優(yōu)化兩個同構的對話生成機器人之間的對話策略 (dialogue strategy)。該對話策略通過控制知識的選擇來主導對話的流向。 我們公開數據集上進行了全面的實驗,結果驗證了我們提出的方法生成的多輪對話質量,顯著超過其他最優(yōu)方法。

應用價值:可應用于對話系統(tǒng)、智能客服。

Proactive Human-Machine Conversation with Explicit Conversation Goal

摘要:目前的人機對話還處于初級水平,機器大多是被動對話,無法像人類一樣進行充分交互。我們提出了基于知識圖譜的主動對話任務,讓機器像人類一樣主動和用戶進行對話。對話過程中,機器根據知識圖譜主動引領對話進程完成提前設定的話題 (實體) 轉移目標,并保持對話的自然和流暢性。為此,我們在電影和娛樂任務領域人工標注 3 萬組共 27 萬個句子的主動對話語料,并實現了生成和檢索的兩個主動對話基線模型。

應用價值:可應用于智能音箱中的對話技能,也可以基于此開發(fā)閑聊技能,讓機器主動發(fā)起基于知識圖譜的聊天。

Multi-grained Attention with Object-level Grounding for Visual Question Answering

摘要:視覺問答 (VQA) 是一類跨模態(tài)信息理解任務,要求系統(tǒng)理解視覺圖片信息,并回答圍繞圖片內容的文本問題。這篇文章提出一種多粒度跨模態(tài)注意力機制,在圖片 - 句子粒度注意力的基礎上,提出更細粒度的物體級別跨模態(tài)信息注意力機制,并給出 2 種有效的細粒度信息理解增強的方法。實驗表明我們的方法有助于對復雜圖像和細小物體的識別,使系統(tǒng)更準確地定位到回答文本問題所依賴的視覺信息,從而顯著提升 VQA 準確率。

應用價值:可應用于基于多模態(tài)信息和知識圖譜的小視頻內容理解項目。

Hubless Nearest Neighbor Search for Bilingual Lexicon Induction

摘要:這項基礎研究提出了一種提高最近鄰搜索的方法。該方法有非常漂亮的理論基礎,不僅能顯著提升雙語詞典編纂(Bilingual Lexicon Induction)的準確率,對涉及最近鄰搜索的很多任務都有指導意義。

應用價值:機器翻譯需要大量對齊的雙語文本作為訓練數據。這一要求在某些情況下不能被滿足,比如小語種文本,專業(yè)文獻。雙語詞典編纂在這種情況下能提升翻譯系統(tǒng)的準確率。

STACL: Simultaneous Translation with Implicit Anticipation and Controllable Latency

摘要:同聲翻譯是人工智能領域公認的最難問題之一,已經困擾學術界和工業(yè)界幾十年了。我們提出了歷史上第一個超前預測和可控延遲的同聲翻譯算法。去年 10 月發(fā)布以來,被各大技術外媒廣泛報導,包括 MIT 技術評論、IEEE Spectrum、財富雜志等。量子位總結報道:“這是 2016 年百度 Deep Speech 2 發(fā)布以來,又一項讓技術外媒們如此激動的新進展?!?/p>

應用價值:2018 年 11 月的百度世界大會采用了這項同傳技術,全程同傳翻譯了 Robin 所有演講,延遲僅為 3 秒左右,而之前的整句翻譯技術延遲為一整句(可達 10 秒以上)。同時,翻譯質量也沒有明顯的下降。

Simultaneous Translation with Flexible Policy via Restricted Imitation Learning

摘要:本文旨在提高同聲翻譯的質量。我們去年提出的 STACL 框架(即上述文章 7)雖然簡單有效,但有時不夠靈活?,F在我們提出一種基于模仿學習的同聲翻譯算法,通過模仿本文設計的動態(tài)策略,該模型可以實時靈活地決定是否需要等待更多信息來繼續(xù)翻譯,進而在保持低延遲的情況下提高了翻譯質量。

應用價值:該技術可用于同聲傳譯系統(tǒng)。

Robust Neural Machine Translation with Joint Textual and Phonetic Embedding

摘要:該文章旨在提高翻譯的魯棒性,特別是對同音詞噪音的魯棒性。我們在翻譯的輸入端,通過聯(lián)合嵌入的方式,加入輸入單詞對應的發(fā)音信息。實驗結果表明,該方法不僅大大提高了翻譯系統(tǒng)在噪聲情況下的魯棒性,也大幅提高了翻譯系統(tǒng)在非噪聲情況下的性能。

應用價值:可用于翻譯,特別是語音到語音的同聲傳譯系統(tǒng)。語音翻譯的一個主要難題是語音識別的錯誤太多,而這些錯誤大多是同音詞或發(fā)音相似的單詞,此技術可以很大程度上降低這些來自于語音識別的噪音。

End-to-end Deep Reinforcement Learning Based Coreference Resolution

摘要:共指解析是信息抽取任務中不可或缺的組成部分。近期的基于端到端深度神經網絡的方法,往往通過優(yōu)化啟發(fā)式的損失函數并做出一系列局部解析決策,缺乏對整個篇章的理解。本文首次提出了基于端到端深度強化學習的共指解析方法,在同一框架內完成指稱檢測和指稱鏈接,并且直接優(yōu)化共指解析的評價指標,在 OntoNotes 上取得了良好效果。

應用價值:知可用于識圖譜構建,信息抽取。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 百度
    +關注

    關注

    9

    文章

    2234

    瀏覽量

    89829
  • 論文
    +關注

    關注

    1

    文章

    103

    瀏覽量

    14922
  • ACL
    ACL
    +關注

    關注

    0

    文章

    61

    瀏覽量

    11937

原文標題:史上最大規(guī)模ACL大會放榜,百度10篇NLP論文被錄用!

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    百度言APP升級為小言

    百度宣布其文心言APP正式升級為小言,標志著百度在智能搜索領域邁出了重要步。小言作為
    的頭像 發(fā)表于 09-04 16:06 ?182次閱讀

    百度心大模型4.0免費了 百度心智能體平臺免費開放心大模型4.0

    據悉;7月5日起 百度心智能體平臺(AgentBuilder) 免費開放心大模型4.0。 開發(fā)者在心智能體平臺上制作智能體時; 可靈活選擇
    的頭像 發(fā)表于 07-06 17:12 ?1085次閱讀

    百度發(fā)布智能代碼助手“心快碼”

    在近日舉辦的WAVE SUMMIT大會上,百度公司震撼發(fā)布了全新的智能代碼助手——“心快碼”。這款基于百度心大模型的強大工具,結合了海量的編程數據,旨在為開發(fā)者提供
    的頭像 發(fā)表于 07-01 11:20 ?680次閱讀

    百度推出全新智能代碼助手心快碼,引領編碼效率新革命

    在6月28日的百度WAVE SUMMIT深度學習開發(fā)者大會上,百度公司宣布了其旗下備受矚目的智能代碼助手Baidu Comate的正式中文名稱——“心快碼”。這創(chuàng)新工具的問世,標志
    的頭像 發(fā)表于 06-29 16:26 ?743次閱讀

    百度申請小言商標

    近日,百度在線網絡技術(北京)有限公司在知識產權領域有了新動作。據天眼查知識產權信息顯示,百度已申請多枚“小言”商標,這些商標將涵蓋廣告銷售、網站服務、健身器材、機械設備等多個領域。
    的頭像 發(fā)表于 06-19 09:20 ?366次閱讀

    2024百度移動生態(tài)萬象大會:百度新搜索11%內容已AI生成

    2024百度移動生態(tài)萬象大會:百度新搜索11%內容已AI生成 今天2024百度移動生態(tài)萬象大會在江蘇蘇州舉辦,特別是AI搜索與百度
    發(fā)表于 05-30 18:58 ?337次閱讀

    百度心大模型擴展合作領域

    百度創(chuàng)始人兼CEO李彥宏在2024年第季度財報電話會上宣布,心大模型API在繼與中國三星、榮耀成功合作后,本季度再度實現重要突破。小米、OPPO、vivo等主流手機廠商已全面接入
    的頭像 發(fā)表于 05-17 11:17 ?427次閱讀

    李彥宏高度評價百度言模型及AI技術,強調商業(yè)化將持續(xù)推進

    了解,目前已有近10萬家企業(yè)使用了言的能力,其中10%的大搜流量由該模型產生,每日有250萬用戶受益于文庫的AI功能。未來,
    的頭像 發(fā)表于 05-11 10:44 ?411次閱讀

    三星Galaxy AI集成百度心大模型

    近日,中國三星與百度智能云宣布正式結成AI生態(tài)戰(zhàn)略合作伙伴,共同推動AI技術在智能手機等設備上的應用。作為這合作的部分,三星Galaxy AI深度集成了百度
    的頭像 發(fā)表于 01-29 17:03 ?1035次閱讀

    百度言用戶規(guī)模突破1億

    在近日,百度公布了個令人振奮的消息:言大模型的用戶規(guī)模已經突破了1億。
    的頭像 發(fā)表于 01-02 16:10 ?531次閱讀

    新火種AI | 谷歌Gemini“抄襲”百度言?AI訓練數據陷難題

    谷歌自己放出“實錘”,Gemini化身百度心大模型?
    的頭像 發(fā)表于 12-20 09:09 ?413次閱讀
    新火種AI | 谷歌Gemini“抄襲”<b class='flag-5'>百度</b><b class='flag-5'>文</b>心<b class='flag-5'>一</b>言?AI訓練數據陷難題

    百度言開通會員后可解鎖心大模型4.0

    百度言開通會員后可解鎖心大模型4.0 今天百度上線
    的頭像 發(fā)表于 11-01 15:58 ?1157次閱讀

    APUS入駐百度靈境矩陣,普惠AI大模型插件能力

    應用生態(tài),在生態(tài)搭建過程中,插件與API尤為重要。插件是種特殊的AI原生應用,也是門檻最低,最容易上手的AI原生應用,而AI原生應用調用基礎大模型的主要方式便是API。 “靈境矩陣”作為百度心大模型插件開發(fā)平臺,能夠為開發(fā)者
    的頭像 發(fā)表于 10-23 10:46 ?643次閱讀
    APUS入駐<b class='flag-5'>百度</b>靈境矩陣,普惠AI大模型插件能力

    百度世界2023重磅亮點匯總 6000萬、4500萬和10

    心大模型4.0、AI原生應用、國家跳水隊AI輔助訓練系統(tǒng)、國圖AI編史修志、小添添家庭機器人......10月17日,十余項最新AI技術和應用、產品集體亮相百度世界2023。當天,
    的頭像 發(fā)表于 10-19 19:02 ?583次閱讀
    <b class='flag-5'>百度</b>世界2023重磅亮點匯總 6000萬、4500萬和<b class='flag-5'>10</b>億

    百度世界2023看點 心大模型4.0正式發(fā)布 百度文庫變身生產力工具

    百度世界2023看點 心大模型4.0正式發(fā)布 百度文庫變身生產力工具 百度世界大會2023于10月17日,以“生成未來(PROMPT TH
    的頭像 發(fā)表于 10-17 18:49 ?1017次閱讀
    <b class='flag-5'>百度</b>世界2023看點 <b class='flag-5'>文</b>心大模型4.0正式發(fā)布 <b class='flag-5'>百度</b>文庫變身生產力工具