白丝美女被狂躁视频免费网站,97精品亚洲永久免费精品

自然語言處理（NLP），是機器學習領域的一個分支，專門研究如何讓機器理解人類語言和相關文本，也是發(fā)展通用人工智能技術亟需攻克的核心難題之一。

不久之后，紐約大學、華盛頓大學、劍橋大學和 Facebook AI 將聯(lián)合推出一套新的自然語言處理（NLP）評估基準，名為 SuperGLUE，全稱是 Super General-Purpose Language Understanding。

該系統(tǒng)是現(xiàn)有 GLUE 基準的升級版（所以前面加上了 Super）。研究人員刪除了原本 11 項任務中的 9 項，更新了剩下 2 項，同時加入了 5 項新的評估基準。新版本將更契合未來 NLP 技術的發(fā)展方向，難度也是大幅增加，更具挑戰(zhàn)性。

（來源：Nikita Nangia）

這套系統(tǒng)的數(shù)據(jù)集、工具包和具體評估標準預計將于 5 月初公布。不過從最新發(fā)布的 SuperGLUE 論文中，我們可以先睹為快。

什么是 GLUE？

實現(xiàn) NLP 的方法有很多，主流的方法大多圍繞多任務學習和語言模型預訓練展開，由此孕育出很多種不同模型，比如 BERT、MT-DNN、ALICE 和 Snorkel MeTaL 等等。在某個模型的基礎上，研究團隊還可以借鑒其它模型的精華或者直接結合兩者。

為了更好地訓練模型，同時更準確地評估和分析其表現(xiàn)，紐約大學、華盛頓大學和 DeepMind 的 NLP 研究團隊在 2018 年推出了通用語言理解評估基準（GLUE），其中包含 11 項常見 NLP 任務，都是取自認可度相當高的 NLP 數(shù)據(jù)集，最大的語料庫規(guī)模超過 40 萬條，而且種類多變，涉及到自然語言推理、情感分析、閱讀理解和語義相似性等多個領域。

圖 | GLUE的11項任務

不過GLUE基準才發(fā)布一年，已經(jīng)有很多 NLP 模型在特定任務中超過了人類基準，尤其是在 QQP、MRPC 和 QNLI 三項任務中：

QQP 是“Quora 問題配對”數(shù)據(jù)集，由 40 萬對 Quora 問題組成，模型需要識別兩個問題之間的含義是否相同。

MRPC 是“微軟研究釋義語料庫”，與 QQP 類似，模型需要判斷兩個形式不同的句子是否具有相似的意思（即釋義句）。

QNLI 任務基于“斯坦福問答數(shù)據(jù)集（SQuAD）”，主要考察模型的閱讀理解能力。它需要根據(jù)維基百科中的文章來回答一些問題，答案可能存在于文章中，也可能不存在。

圖 | NLP 模型在三項任務中普遍超過了人類基準，越靠右側的模型分數(shù)越高

目前綜合分數(shù)最高的是微軟提交的 MT-DNN++模型，其核心是多任務深度神經(jīng)網(wǎng)絡（MT-DNN）模型，并且在文本編碼層整合了 BERT。僅次于它的是阿里巴巴達摩院 NLP 團隊的 ALICE Large 模型和斯坦福的 Snorkel MeTaL 模型。

從上面圖中我們也能看出，得益于 BERT 和 GPT 模型的引入，模型在很多GLUE 任務的得分都已經(jīng)接近人類基準，只有 2-3 個任務與人類有明顯差距。

因此，推出新的評估基準勢在必行。

圖 | GLUE排行榜前五名

從 GLUE 到 SuperGLUE

新的 SuperGLUE 遵從了 GLUE 的基本原則：為通用語言理解技術的進步提供通俗，但又具有挑戰(zhàn)性的基準。

在制定這個新基準時，研究人員先在 NLP 社區(qū)公開征集任務提案，獲得了大約 30 份提案，隨后按照如下標準篩選：

任務本質(zhì)：測試系統(tǒng)理解英語的能力。

任務難度：超出當前最先進模型的能力，但是人類可以解決。

可評估性：具備自動評判機制，并且能夠準確對應人類的判斷或表現(xiàn)。

公開數(shù)據(jù)：擁有公開的訓練數(shù)據(jù)。

任務格式：SuperGLUE 輸入值的復雜程度得到了提升，允許出現(xiàn)復雜句子，段落和文章等。

任務許可：所用數(shù)據(jù)必須獲得研究和重新分發(fā)的許可。

在篩選過程中，他們首先重新審核了現(xiàn)有的 GLUE 任務集，從中刪除了模型表現(xiàn)較好的 9 項任務，保留了 2 項表現(xiàn)最差的任務——Winograd 模式挑戰(zhàn)賽（WSC）和文本蘊含識別（RTE）——它們還有很大的進步空間。

兩項任務分別屬于自然語言推理和閱讀理解范疇。人類通常比較擅長這樣的任務，甚至于不需要特殊訓練就可以精通。比如看到這樣兩句話：

“這本書裝不進書包，因為它太大了?！?/p>

“這本書裝不進書包，因為它太小了?！?/p>

盡管兩個句子包含兩個含義截然相反的形容詞，人類還是可以輕松理解，因為我們知道“它”的指代物不同。但上面那些NLP模型卻表現(xiàn)的很糟糕，平均水平不足人類的 70%。而這其實就是 WSC 任務的主要內(nèi)容。

最后，研究人員挑選（設計）了 5 項新任務，分別是 CB，COPA，GAP，MultiRC 和 WiC，主要測試模型回答問題，指代消解和常識推理的能力。

圖 | 新版SuperGLUE任務集，其中RTE和WSC來自于現(xiàn)有的GLUE任務

研究人員認為，SuperGLUE 的新任務更加側重于測試模型在復雜文本下的推理能力。

比如 WiC 要求模型在兩段內(nèi)容中，區(qū)分同一個單詞的含義是否一致（聽起來簡單，但對于機器來說非常困難）。CB 和 COPA 都是考察模型在給定“前提”的情況下，對“假設”或“理由”的正確性進行判斷，只不過有的側重于分析從句，有的側重于問答模式。

GAP 則要求模型對性別做出判斷，能夠通過“姐姐”，“哥哥”和“妻子”這樣的詞匯，分辨文本中“他”和“她”的指代對象。

MultiRC 任務更加復雜，模型需要完成閱讀理解，然后回答問題。一個典型的例子是這樣的：

圖| 搜索關鍵詞“speedy recover”，幾乎一眼就能找到答案，但機器未必知道

選擇了新的任務之后，研究人員用主流 NLP 模型進行了測試。

最流行的 BERT 模型的表現(xiàn)勉強可以接受，但其量化之后的綜合分數(shù)比人類低約 16.8%，說明機器距離人類基準仍有不小的差距，而且 SuperGLUE 確實比GLUE 難了不少。

圖 | 現(xiàn)有模型在SuperGLUE上的表現(xiàn)

鑒于目前 SuperGLUE 還沒有正式推出，我們還無法查看任務數(shù)據(jù)集和模型排行榜。在 5 月份推出 SuperGLUE 后，它可能還會經(jīng)歷一些微調(diào)，然后在7月份變?yōu)檎桨姹?，供研發(fā) NLP 模型的團隊挑戰(zhàn)。

目前來看，SuperGLUE 和 GLUE 之間的差距是可以接受的，新任務具有一定的挑戰(zhàn)性，但并非遙不可及，足以為全球的 NLP 團隊樹立一個新的標桿。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

語言模型

語言模型

+關注

關注
0

文章
487

瀏覽量
10201
自然語言處理

自然語言處理

+關注

關注
1

文章
585

瀏覽量
13418
nlp

nlp

+關注

關注
1

文章
481

瀏覽量
21935

原文標題：SuperGLUE！自然語言處理模型新標準即將公布

文章出處：【微信號：deeptechchina，微信公眾號：deeptechchina】歡迎添加關注！文章轉載請注明出處。

nlp自然語言處理基本概念及關鍵技術

自然語言處理（Natural Language Processing，簡稱NLP）是人工智能領域的一個重要分支，它致力于使計算機能夠理解、解釋和生成人類

發(fā)表于 07-09 10:32 ?265次閱讀

nlp自然語言處理框架有哪些

自然語言處理（Natural Language Processing，簡稱NLP）是計算機科學和人工智能領域的一個重要分支，它致力于使計算機能夠理解和

發(fā)表于 07-09 10:28 ?295次閱讀

nlp自然語言處理的主要任務及技術方法

自然語言處理（Natural Language Processing，簡稱NLP）是人工智能和語言學領域的一個分支，它研究如何讓計算機能夠理

發(fā)表于 07-09 10:26 ?406次閱讀

nlp自然語言處理模型怎么做

自然語言處理（Natural Language Processing，簡稱NLP）是人工智能領域的一個重要分支，它涉及到計算機對人類語言的理

發(fā)表于 07-05 09:59 ?353次閱讀

nlp自然語言處理模型有哪些

自然語言處理（Natural Language Processing，NLP）是計算機科學和人工智能領域的一個重要分支，旨在使計算機能夠理解、解釋和生成人類

發(fā)表于 07-05 09:57 ?416次閱讀

nlp自然語言處理的應用有哪些

自然語言處理（Natural Language Processing，簡稱NLP）是人工智能領域的一個分支，它致力于使計算機能夠理解和生成自然語言

發(fā)表于 07-05 09:55 ?1974次閱讀

使用Python進行自然語言處理

在探討使用Python進行自然語言處理（NLP）的廣闊領域時，我們首先需要理解NLP的基本概念、其重要性、Python在NLP中的優(yōu)勢，以及

發(fā)表于 07-04 14:40 ?275次閱讀

自然語言處理技術有哪些

自然語言處理（Natural Language Processing，簡稱NLP）是人工智能領域的一個分支，它致力于使計算機能夠理解、解釋和生成人類

發(fā)表于 07-03 14:30 ?600次閱讀

自然語言處理模式的優(yōu)點

自然語言處理（Natural Language Processing，簡稱NLP）是人工智能領域的一個重要分支，它致力于使計算機能夠理解、生成和處理

發(fā)表于 07-03 14:24 ?408次閱讀

自然語言處理技術的核心是什么

自然語言處理（Natural Language Processing，簡稱NLP）是人工智能領域的一個重要分支，其核心目標是使計算機能夠理解、生成和

發(fā)表于 07-03 14:20 ?340次閱讀

自然語言處理是什么技術的一種應用

自然語言處理（Natural Language Processing，簡稱NLP）是人工智能和語言學領域的一個分支，它涉及到使用計算機技術來

發(fā)表于 07-03 14:18 ?310次閱讀

自然語言處理包括哪些內(nèi)容

自然語言處理（Natural Language Processing，簡稱NLP）是人工智能領域的一個重要分支，它涉及到計算機與人類語言之間

發(fā)表于 07-03 14:15 ?517次閱讀

什么是自然語言處理 (NLP)

自然語言處理（Natural Language Processing, NLP）是人工智能領域中的一個重要分支，它專注于構建能夠理解和生成人類語言

發(fā)表于 07-02 18:16 ?590次閱讀

自然語言處理技術的原理的應用

自然語言處理（Natural Language Processing, NLP）作為人工智能（AI）領域的一個重要分支，旨在使計算機能夠理解和處理

發(fā)表于 07-02 12:50 ?239次閱讀

神經(jīng)網(wǎng)絡在自然語言處理中的應用

自然語言處理（NLP）是人工智能領域中的一個重要分支，它研究的是如何使計算機能夠理解和生成人類自然語言。隨著人工智能技術的飛速發(fā)展，神經(jīng)網(wǎng)絡

發(fā)表于 07-01 14:09 ?287次閱讀

搜索歷史

一套新的自然語言處理（NLP）評估基準，名為 SuperGLUE

評論

nlp自然語言處理基本概念及關鍵技術

nlp自然語言處理框架有哪些

nlp自然語言處理的主要任務及技術方法

nlp自然語言處理模型怎么做

nlp自然語言處理模型有哪些

nlp自然語言處理的應用有哪些

使用Python進行自然語言處理

自然語言處理技術有哪些

自然語言處理模式的優(yōu)點

自然語言處理技術的核心是什么

自然語言處理是什么技術的一種應用

自然語言處理包括哪些內(nèi)容

什么是自然語言處理 (NLP)

自然語言處理技術的原理的應用

神經(jīng)網(wǎng)絡在自然語言處理中的應用

搜索歷史

一套新的自然語言處理（NLP）評估基準，名為 SuperGLUE

評論

一套新的自然語言處理（NLP）評估基準，名為 SuperGLUE