激情三级hd中文字幕,午夜无码有线中文影视

前段時(shí)間的文章《頂會(huì)見(jiàn)聞系列：ACL 2018，在更具挑戰(zhàn)的環(huán)境下理解數(shù)據(jù)表征及方法評(píng)價(jià)》中，我們介紹了 ACL 大會(huì)上展現(xiàn)出的 NLP 領(lǐng)域的最新研究風(fēng)向和值得關(guān)注的新進(jìn)展。從這些新動(dòng)向上我們似乎應(yīng)該對(duì)深度學(xué)習(xí) NLP 解決方案的表現(xiàn)充滿信心，但是當(dāng)我們真的仔細(xì)討論 NLP 模型的泛化能力時(shí)候，狀況其實(shí)并不樂(lè)觀。

The Gradient 博客近期的一篇文章就仔細(xì)討論了 NLP 領(lǐng)域的深度學(xué)習(xí)模型的泛化性問(wèn)題，展現(xiàn)了對(duì)學(xué)習(xí)、語(yǔ)言、深度學(xué)習(xí)方法等方面的諸多深入思考。不得不潑一盆冷水，即便端到端的深度學(xué)習(xí)方法相比以往的方法在測(cè)試任務(wù)、測(cè)試數(shù)據(jù)集上的表現(xiàn)有了長(zhǎng)足的改進(jìn)，我們距離「解決 NLP 問(wèn)題」仍然有遙遠(yuǎn)的距離。AI 科技評(píng)論全文編譯如下。

「泛化」是一個(gè)NLP 領(lǐng)域中正在被深入討論和研究的課題。

最近，我們經(jīng)?？梢钥吹揭恍┬侣劽襟w報(bào)道機(jī)器能夠在一些自然語(yǔ)言處理任務(wù)中取得與人相當(dāng)?shù)谋憩F(xiàn)，甚至超過(guò)人類。例如，閱讀一份文檔并回答關(guān)于該文檔的問(wèn)題（阿里、微軟、訊飛與哈工大等等輪番刷榜 SQuAD）、確定某個(gè)給定的文本在語(yǔ)義上是否蘊(yùn)含另一個(gè)文本（http://www.aclweb.org/anthology/N18-1132）以及機(jī)器翻譯?！溉绻麢C(jī)器能夠完成所有這些任務(wù)，那么它們當(dāng)然擁有真正的語(yǔ)言理解和推理能力」這種說(shuō)法聽(tīng)起來(lái)似乎是很合理的。

然而，事實(shí)并非如此。最近許多的研究表名，事實(shí)上最先進(jìn)的自然語(yǔ)言處理系統(tǒng)既「脆弱」（魯棒性差）又「虛假」（并未學(xué)到真正的語(yǔ)言規(guī)律）。

最先進(jìn)的自然語(yǔ)言模型是「脆弱」的

當(dāng)文本被修改時(shí)，即使它的意義被保留了下來(lái)，自然語(yǔ)言處理模型也會(huì)失效，例如：

Jia 和 Liang 等人攻破了閱讀理解模型 BiDAF（https://arxiv.org/abs/1611.01603）。

Jia 和 Liang 等人論文中給出的例子。

Belinkov 和 Bisk 等人（https://arxiv.org/abs/1711.02173）攻破了基于字符的神經(jīng)網(wǎng)絡(luò)翻譯模型。

Belinkov 和 Bisk 等人論文中給出的例子。BLEU是一個(gè)常用的將候選的文本翻譯結(jié)果和一個(gè)或多個(gè)參考譯文對(duì)比的評(píng)測(cè)算法。

Iyyer 與其合作者攻破了樹(shù)結(jié)構(gòu)雙向 LSTM（ http://www.aclweb.org/anthology/P15-1150）的情感分類模型。

Iyyer 與其合作者論文中給出的例子。

最先進(jìn)的自然語(yǔ)言處理模型是「虛假」的

這些模型經(jīng)常會(huì)記住的是人為影響和偏置，而不是真正學(xué)到語(yǔ)言規(guī)律，例如：

Gururangan 與其合作者（http://aclweb.org/anthology/N18-2017）提出了一個(gè)對(duì)比基線，它能夠?qū)?duì)比基準(zhǔn)數(shù)據(jù)集中 50 %以上的自然語(yǔ)言推理樣本正確分類，而不需要事先觀察前提文本（premise）。

Gururangan 等人論文中給出的例子。這些樣本都是從論文的海報(bào)展示中截取的。

Moosavi 和 Strube（http://aclweb.org/anthology/P17-2003）表明，為共指解析任務(wù)構(gòu)建的深度學(xué)習(xí)模型（http://www.aclweb.org/anthology/P16-1061）總是將以包含「country」的專有名詞或普通名詞與訓(xùn)練數(shù)據(jù)中出現(xiàn)的某個(gè)國(guó)家聯(lián)系在一起。因此，該模型在有關(guān)訓(xùn)練數(shù)據(jù)中未提及的國(guó)家的文本上的表現(xiàn)很差。同時(shí)，Levy 與其合作者研究用用于識(shí)別兩個(gè)單詞之間的詞匯推理關(guān)系（例如，上位詞，概括性較強(qiáng)的單詞叫做特定性較強(qiáng)的單詞的上位詞）的模型。他們發(fā)現(xiàn)，這些模型并沒(méi)有學(xué)習(xí)到單詞之間關(guān)系的特征，而是僅僅學(xué)習(xí)到了一對(duì)單詞中某一單詞的獨(dú)立屬性：某個(gè)單詞是否是一個(gè)「典型上位詞」（例如，「動(dòng)物」一詞）。

左圖：Moosavi 和Strube 論文中的例子。右圖：Levy 與其合作者論文中的例子。

Agrawal 與其合作者指出，卷積神經(jīng)網(wǎng)絡(luò)（CNN）+長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM）的可視化問(wèn)答模型通常在「聽(tīng)」了一半問(wèn)題后，就會(huì)收斂到預(yù)測(cè)出的答案上。也就是說(shuō)，該模型在很大程度上受到訓(xùn)練數(shù)據(jù)中淺層相關(guān)性的驅(qū)動(dòng)并且缺乏組合性（回答關(guān)于可見(jiàn)概念的不可見(jiàn)的組合問(wèn)題的能力）。

Agrawal 等人論文中給出的例子。

一個(gè)改進(jìn)最先進(jìn)的自然語(yǔ)言處理模型的 workshop

因此，盡管在對(duì)比基準(zhǔn)數(shù)據(jù)集上表現(xiàn)良好，現(xiàn)代的自然語(yǔ)言處理技術(shù)在面對(duì)新穎的自然語(yǔ)言輸入時(shí)，在語(yǔ)言理解和推理方面還遠(yuǎn)遠(yuǎn)達(dá)不到人類的水平。這些思考促使 Yonatan Bisk、Omer Levy、Mark Yatskar 組織了一個(gè) NAACL workshop，深度學(xué)習(xí)和自然語(yǔ)言處理新泛化方法 workshop

（https://newgeneralization.github.io/）

來(lái)討論泛化問(wèn)題，這是機(jī)器學(xué)習(xí)領(lǐng)域面臨的最核心的挑戰(zhàn)。該 workshop 針對(duì)兩個(gè)問(wèn)題展開(kāi)了討論：

我們?nèi)绾尾拍艹浞衷u(píng)估我們的系統(tǒng)在新的、從前沒(méi)有遇見(jiàn)過(guò)的輸入上運(yùn)行的性能？或者換句話說(shuō)，我們?nèi)绾纬浞衷u(píng)估我們系統(tǒng)的泛化能力？

我們應(yīng)該如何修改我們的模型，使它們的泛化能力更好？

這兩個(gè)問(wèn)題都很困難，為期一天的 workshop 顯然不足以解決它們。然而，自然語(yǔ)言處理領(lǐng)域最聰明的研究者們?cè)谶@個(gè)工作坊上對(duì)許多方法和構(gòu)想進(jìn)行了概述，它們值得引起你的注意。特別是，當(dāng)我們對(duì)這些討論進(jìn)行總結(jié)，它們是圍繞著三個(gè)主題展開(kāi)的：使用更多的歸納偏置（但需要技巧），致力于賦予自然語(yǔ)言處理模型人類的常識(shí)、處理從未見(jiàn)過(guò)的分布和任務(wù)。

方向 1：使用更多的歸納偏置（但需要技巧）

目前，人們正在討論是否應(yīng)該減少或增加歸納偏置（即用于學(xué)習(xí)從輸入到輸出的映射函數(shù)的一些假設(shè)）。

例如，就在去年，Yann LeCun 和 Christopher Manning 進(jìn)行了一場(chǎng)引人注意的辯論（詳見(jiàn)雷鋒網(wǎng) AI 科技評(píng)論文章 AI領(lǐng)域的蝙蝠俠大戰(zhàn)超人：LeCun 與 Manning 如何看待神經(jīng)網(wǎng)絡(luò)中的結(jié)構(gòu)設(shè)計(jì)），討論我們?cè)谏疃葘W(xué)習(xí)框架中應(yīng)該引入怎樣的固有先驗(yàn)知識(shí)。Manning 認(rèn)為，對(duì)于高階推理，以及利用較少的數(shù)據(jù)進(jìn)行學(xué)習(xí)的任務(wù)，結(jié)構(gòu)化偏置是十分必要的。相反，LeCun 將這種結(jié)構(gòu)描述成「必要的惡」，這迫使我們作出某些可能限制神經(jīng)網(wǎng)絡(luò)的假設(shè)。

LeCun 的觀點(diǎn)（減少歸納偏置）之所以令人信服的一個(gè)論據(jù)是，事實(shí)上使用基于語(yǔ)言學(xué)的偏置的現(xiàn)代模型最終并不能在許多對(duì)比基準(zhǔn)測(cè)試中獲得最佳性能（甚至有一個(gè)段子說(shuō)，「每當(dāng)我從團(tuán)隊(duì)里開(kāi)除一個(gè)語(yǔ)言學(xué)家，我的語(yǔ)言模型的準(zhǔn)確率就會(huì)提升一些」）。盡管如此，NLP 社區(qū)還是廣泛支持 Manning 的觀點(diǎn)。在神經(jīng)網(wǎng)絡(luò)架構(gòu)匯中引入語(yǔ)言結(jié)構(gòu)是ACL 2017 的一個(gè)顯著趨勢(shì)。然而，由于這種引入的結(jié)構(gòu)似乎在實(shí)踐中并沒(méi)有達(dá)到預(yù)期的效果，我們也許可以得出如下結(jié)論：探索引入歸納偏置的新方法應(yīng)該是一個(gè)好的工作方式，或者用 Manning 的話來(lái)說(shuō)：

我們應(yīng)該使用更多的歸納偏置。我們對(duì)如何添加歸納偏置一無(wú)所知，所以我們會(huì)通過(guò)數(shù)據(jù)增強(qiáng)、創(chuàng)建偽訓(xùn)練數(shù)據(jù)來(lái)對(duì)這些偏置進(jìn)行編碼。這看起來(lái)是一種很奇怪的實(shí)現(xiàn)方法。

事實(shí)上，Yejin Choi 已經(jīng)在自然語(yǔ)言生成（NLG）的課題下對(duì)這個(gè)問(wèn)題提出了自己的解決方法。她給出了一個(gè)通過(guò)能夠最大化下一個(gè)單詞的概率的通用語(yǔ)言模型（一個(gè)帶有集束搜索（beam search）的門(mén)控循環(huán)神經(jīng)網(wǎng)絡(luò)（gated RNN），https://guillaumegenthial.github.io/sequence-to-sequence.html）生成的評(píng)論的示例。

自然的語(yǔ)言輸入為：

總而言之，我會(huì)將這個(gè)酒店強(qiáng)烈推薦給想要住在中心地區(qū)的人。

而不自然的、重負(fù)性的、矛盾的、乏味的輸出是：

總而言之，我會(huì)將這個(gè)酒店推薦給想要住在中心地區(qū)的人，并且想要居住在中心地區(qū)。如果你想要住在中心地區(qū)，這里不是適合你的地方。然而，如果你想要住在這個(gè)地區(qū)的正中心，這里就是你應(yīng)該去的地方。

在她看來(lái)，當(dāng)前的語(yǔ)言模型生成的語(yǔ)言之所以如此不自然，這是因?yàn)樗鼈兪牵?/p>

被動(dòng)的學(xué)習(xí)器。盡管它們會(huì)閱讀輸入然后生成輸出，但是它們并不能像人類學(xué)習(xí)者一樣工作，它們不會(huì)根據(jù)諸如有意義、風(fēng)格、重復(fù)和蘊(yùn)含這樣的合適的語(yǔ)言標(biāo)準(zhǔn)來(lái)反思自己生成的結(jié)果。換句話說(shuō)，它們并不會(huì)「練習(xí)」寫(xiě)作。

膚淺的學(xué)習(xí)器。它們并沒(méi)有捕獲到事實(shí)、實(shí)體、事件或者活動(dòng)之間的高階關(guān)系，而這些元素對(duì)于人類來(lái)說(shuō)都可能是理解語(yǔ)言的關(guān)鍵線索。也就是說(shuō)，這些模型并不了解我們?nèi)祟惖氖澜纭?/p>

如果我們鼓勵(lì)語(yǔ)言模型以一種使用特定的損失函數(shù)的數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)諸如有意義、風(fēng)格、重復(fù)和蘊(yùn)含等語(yǔ)言學(xué)特征，那么語(yǔ)言模型就可以「練習(xí)」寫(xiě)作了。這種做法優(yōu)于依賴于顯式使用自然語(yǔ)言理解（NLU）工具輸出的方法。這是因?yàn)?，傳統(tǒng)上的 NLU 只處理自然的語(yǔ)言，因此無(wú)法理解可能并不自然的機(jī)器語(yǔ)言。比如上面的例子中那樣重復(fù)的、矛盾的、乏味的文本。由于NLU 并不理解機(jī)器語(yǔ)言，所以將NLU 工具應(yīng)用到生成的文本上、從而指導(dǎo)自然語(yǔ)言生成（NLG）模型理解生成的模型為什么如此不自然并由此采取相應(yīng)的行動(dòng)是毫無(wú)意義的?？偠灾?，我們不應(yīng)該開(kāi)發(fā)引入了結(jié)構(gòu)化偏置的新神經(jīng)網(wǎng)絡(luò)架構(gòu)，而應(yīng)該改進(jìn)學(xué)習(xí)這些偏置的數(shù)據(jù)驅(qū)動(dòng)的方法。

自然語(yǔ)言生成（NLG）并不是唯一的我們應(yīng)該尋找更好的學(xué)習(xí)器優(yōu)化方法的 NLP 任務(wù)。在機(jī)器翻譯中，我們的優(yōu)化方法存在的一個(gè)嚴(yán)重的問(wèn)題是，我們正通過(guò)像交叉熵或語(yǔ)句級(jí)別 BLEU 的期望這樣的損失函數(shù)來(lái)訓(xùn)練機(jī)器翻譯模型，這種模型已經(jīng)被證實(shí)是有偏的，并且與人類理解的相關(guān)性不足。事實(shí)上，只要我們使用如此簡(jiǎn)單的指標(biāo)來(lái)訓(xùn)練我們的模型，它們就可能和人類對(duì)于文本的理解不匹配。由于目標(biāo)過(guò)于復(fù)雜，使用強(qiáng)化學(xué)習(xí)對(duì)于 NLP 來(lái)說(shuō)似乎是一個(gè)完美的選項(xiàng)，因?yàn)樗试S模型在仿真環(huán)境下通過(guò)試錯(cuò)學(xué)習(xí)一個(gè)與人類理解類似的信號(hào)（即強(qiáng)化學(xué)習(xí)的「獎(jiǎng)勵(lì)」）。

Wang 與其合作者（http://www.aclweb.org/anthology/P18-1083）為「看圖說(shuō)話」（描述一幅圖片或一段視頻的內(nèi)容）提出一種訓(xùn)練方法。首先，他們研究了目前使用強(qiáng)化學(xué)習(xí)直接在我們?cè)跍y(cè)試時(shí)使用的「METEOR」、「BLEU」、「CIDEr」等不可微的指標(biāo)上訓(xùn)練圖像字幕系統(tǒng)的訓(xùn)練方法。Wang 與其合作者指出，如果我們使用 METEOR 分?jǐn)?shù)作為強(qiáng)化決策的獎(jiǎng)勵(lì)，METEOR分?jǐn)?shù)會(huì)顯著提高，但是其它的得分將顯著降低。他們舉出了一個(gè)平均的 METEOR 得分高達(dá)40.2 的例子：

We had a great time to have a lot of the. They were to be a of the. They were to be in the. The and it were to be the. The, and it were to be the.（該文本并不自然，缺乏必要的語(yǔ)言成分，不連貫）

相反，當(dāng)使用其它的指標(biāo)時(shí)（BLEU 或CIDEr）來(lái)評(píng)估生成的故事時(shí)，相反的情況發(fā)生了：許多有意義的、連貫的故事得分很低（幾乎為零）。這樣看來(lái)，機(jī)器似乎并不能根據(jù)這些指標(biāo)正常工作。

因此，作者提出了一種新的訓(xùn)練方法，旨在從人類標(biāo)注過(guò)的故事和抽樣得到的預(yù)測(cè)結(jié)果中得到與人類的理解類似的獎(jiǎng)勵(lì)。盡管如此，深度強(qiáng)化學(xué)習(xí)仍然是「脆弱」的，并且比有監(jiān)督的深度學(xué)習(xí)有更高的抽樣復(fù)雜度。一個(gè)真正的解決方案可能是讓人類參與到學(xué)習(xí)過(guò)程中的「人機(jī)循環(huán)」機(jī)器學(xué)習(xí)算法（主動(dòng)學(xué)習(xí)）。

方向 2：引入人類的常識(shí)

盡管「常識(shí)」對(duì)于人類來(lái)說(shuō)可能能夠被普遍地理解，但是它卻很難被教授給機(jī)器。那么，為什么像對(duì)話、回復(fù)郵件、或者總結(jié)一個(gè)文件這樣的任務(wù)很困難呢？

這些任務(wù)都缺乏輸入和輸出之間的「一對(duì)一映射」，需要關(guān)于人類世界的抽象、認(rèn)知、推理和最廣泛的知識(shí)。換句話說(shuō)，只要模式匹配（現(xiàn)在大多數(shù)自然語(yǔ)言處理模型采取的方法）不能由于某些與人類理解類似的「常識(shí)」而得到提升，那么我們就不可能解決這些問(wèn)題。

Choi 通過(guò)一個(gè)簡(jiǎn)單而有效的例子說(shuō)明了這一點(diǎn)：一個(gè)新聞標(biāo)題上寫(xiě)著「芝士漢堡對(duì)人有害」（cheeseburger stabbing）

【圖片來(lái)源：https://newgeneralization.github.io 所有者：Yejin Choi 】

僅僅知道在定語(yǔ)修飾關(guān)系中「stabbing」被依賴的名詞「cheeseburger」修飾，還不足以理解「cheeseburger stabbing」究竟是什么意思。上圖來(lái)自 Choi 的演講。

對(duì)于這個(gè)標(biāo)題，一臺(tái)機(jī)器可能提出從下面這些問(wèn)題：

有人因?yàn)橐粋€(gè)芝士漢堡刺傷了別人？

有人刺傷了一個(gè)芝士漢堡？

一個(gè)芝士漢堡刺傷了人？

一個(gè)芝士漢堡刺傷了另一個(gè)芝士漢堡？

如果機(jī)器擁有社會(huì)和物理常識(shí)的話，它們就可以排除掉那些你永遠(yuǎn)不會(huì)問(wèn)的荒謬問(wèn)題。社會(huì)常識(shí)（http://aclweb.org/anthology/P18-1043）可以提醒機(jī)器，第一種選項(xiàng)似乎是合理的，因?yàn)閭θ耸遣缓玫?，并且因此具有新聞價(jià)值。而傷害一個(gè)芝士漢堡則沒(méi)有新聞價(jià)值。物理常識(shí)（http://aclweb.org/anthology/P17-1025）則說(shuō)明第三和第四個(gè)選項(xiàng)是不可能的，因?yàn)橹ナ繚h堡不能被用來(lái)傷害任何東西。

除了引入常識(shí)知識(shí)，Choi 還推崇「通過(guò)語(yǔ)義標(biāo)注進(jìn)行理解」，這里的重點(diǎn)是應(yīng)該把「說(shuō)了什么」改為「通過(guò)仿真進(jìn)行理解」。這模擬了文本所暗示的因果效應(yīng)，不僅側(cè)重于「文本說(shuō)了什么」，還側(cè)重于「文本沒(méi)有說(shuō)什么，但暗示了什么」。Bosselut 與其同事（https://arxiv.org/abs/1711.05313）展示了一個(gè)例子，用以說(shuō)明為什么預(yù)測(cè)對(duì)于文本中的實(shí)體采取的動(dòng)作所隱含的因果效應(yīng)是十分重要的：

如果我們給出「在松餅混合物中加入藍(lán)莓，然后烘焙一個(gè)半小時(shí)」這樣的說(shuō)明，一個(gè)智能體必須要能夠預(yù)測(cè)一些蘊(yùn)含的事實(shí)，例如：藍(lán)莓現(xiàn)在正在烤箱里，它們的「溫度」會(huì)升高。

Mihaylov 和 Frank（http://aclweb.org/anthology/P18-1076）也認(rèn)識(shí)到我們必須通過(guò)仿真來(lái)進(jìn)行理解。與其他更復(fù)雜的閱讀理解模型不同，他們的完形填空式的閱讀理解模型可以處理「大部分用來(lái)推理答案的信息在一個(gè)故事中被給出」的情況，但是也需要一些額外的常識(shí)來(lái)預(yù)測(cè)答案：馬（horse）是一種動(dòng)物，動(dòng)物（animal）是用來(lái)騎的，而乘騎（mount）與動(dòng)物有關(guān)。

一個(gè)需要常識(shí)的完形填空式的閱讀理解案例。該例子來(lái)自 Mihaylov 和Frank 的論文。

很不幸，我們必須承認(rèn)，現(xiàn)代的 NLP 就像「只有嘴巴沒(méi)有腦子」一樣地運(yùn)行，為了改變這種現(xiàn)狀，我們必須向它們提供常識(shí)知識(shí)，教它們推測(cè)出有什么東西是沒(méi)有直接說(shuō)，但是暗示出來(lái)了。

「循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）是無(wú)腦的嘴巴嗎？」幻燈片取自 Choi 的演講。

方向 3：評(píng)估從未見(jiàn)到過(guò)的分布和任務(wù)

使用監(jiān)督學(xué)習(xí)解決問(wèn)題的標(biāo)準(zhǔn)方法包含以下步驟：

確定如何標(biāo)注數(shù)據(jù)

手動(dòng)給數(shù)據(jù)打標(biāo)簽

將標(biāo)注過(guò)的數(shù)據(jù)分割成訓(xùn)練集、測(cè)試集和驗(yàn)證集。通常，如果可能的話，我們建議確保訓(xùn)練集、開(kāi)發(fā)集（驗(yàn)證集）和測(cè)試集的數(shù)據(jù)擁有同樣的概率分布。

確定如何表征輸入

學(xué)習(xí)從輸入到輸出的映射函數(shù)

使用一種恰當(dāng)?shù)姆绞皆跍y(cè)試集上評(píng)估提出的學(xué)習(xí)方法

按照這種方法解出下面的謎題，需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)注從而訓(xùn)練一個(gè)識(shí)別各單位的模型，還要考慮多種表征和解釋（圖片、文本、布局、拼寫(xiě)、發(fā)音），并且將它們放在一起考慮。該模型確定了「最佳」的全局解釋，并且與人類對(duì)這一謎題的解釋相符。

一個(gè)難以標(biāo)注的輸入的示例。圖片由Dan Roth 提供。

在 Dan Roth 看來(lái)：

這種標(biāo)準(zhǔn)方法不具有可擴(kuò)展性。我們將永遠(yuǎn)不可能擁有足夠的標(biāo)注數(shù)據(jù)為我們需要的所有任務(wù)訓(xùn)練所有的模型。為了解出上面的謎題，我們需要標(biāo)注過(guò)的訓(xùn)練數(shù)據(jù)去解決至少五個(gè)不同的任務(wù)，或者大量的數(shù)據(jù)來(lái)訓(xùn)練一個(gè)端到端的模型。雖然可以利用 ImageNet 這樣現(xiàn)有的資源來(lái)完成「單位識(shí)別」這樣的組建，但是 ImageNet 并不足以領(lǐng)悟到「世界（world）」一詞在這種語(yǔ)境下比「地球（globe）」要好。即使有人做出了巨大的努力進(jìn)行標(biāo)注，這些數(shù)據(jù)還是需要不斷地被更新，因?yàn)槊刻於夹枰紤]新的流行文化。

Roth 提醒我們注意一個(gè)事實(shí)，即大量的數(shù)據(jù)獨(dú)立于特定的任務(wù)存在，并且有足夠多的暗示信息來(lái)為一系列任務(wù)推斷出監(jiān)督信號(hào)。這就是「伴隨監(jiān)督（incidental supervision）」這一想法的由來(lái)。用他自己的話說(shuō)

（http://cogcomp.org/papers/Roth-AAAI17-incidental-supervision.pdf）：

「伴隨」信號(hào)指的是在數(shù)據(jù)和環(huán)境中存在的一系列若信號(hào)，它們獨(dú)立于有待解決的任務(wù)。這些信號(hào)與目標(biāo)任務(wù)是相互關(guān)聯(lián)的，可以通過(guò)適當(dāng)?shù)乃惴ㄖС旨右岳?，用?lái)提供足夠的監(jiān)督信號(hào)、有利于機(jī)器進(jìn)行學(xué)習(xí)。例如，我們不妨想一想命名實(shí)體（NE）音譯任務(wù)，基于各個(gè)實(shí)體間發(fā)音的相似性，將命名實(shí)體從源語(yǔ)言改寫(xiě)成目標(biāo)語(yǔ)言的過(guò)程（例如，確定如何用希伯來(lái)語(yǔ)寫(xiě)奧巴馬的名字）。我們擁有現(xiàn)成的時(shí)序信號(hào)，它獨(dú)立于有待解決的音譯任務(wù)存在。這種時(shí)序信號(hào)是與我們面對(duì)的任務(wù)相互關(guān)聯(lián)的，它和其他的信號(hào)和一些推理結(jié)果可以被用來(lái)為任務(wù)提供監(jiān)督信息，而不需要任何繁瑣的標(biāo)注工作。

Percy Liang 則認(rèn)為，如果訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的分布是相似的，「任何一個(gè)有表示能力的模型，只要給了足夠數(shù)據(jù)都能夠完成這個(gè)任務(wù)?！谷欢瑢?duì)于外推任務(wù)（當(dāng)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的分布不同時(shí)），我們必須真正設(shè)計(jì)一個(gè)更加「正確」的模型。

在訓(xùn)練和測(cè)試時(shí)對(duì)同樣的任務(wù)進(jìn)行外推的做法被稱為領(lǐng)域自適應(yīng)。近年來(lái)，這一課題引起了廣泛的關(guān)注。

但是「伴隨監(jiān)督」，或者對(duì)訓(xùn)練時(shí)任務(wù)和測(cè)試時(shí)任務(wù)不同的外推并不是常見(jiàn)的做法。Li 與其合作者（http://aclweb.org/anthology/N18-1169）訓(xùn)練了一個(gè)用于文本定語(yǔ)遷移的模型，它僅有對(duì)與給定的句子的定語(yǔ)標(biāo)簽，而不需要一個(gè)平行的語(yǔ)料庫(kù)把具有相同內(nèi)容、但是定語(yǔ)不同的句子對(duì)應(yīng)起來(lái)。換句話說(shuō)，他們訓(xùn)練了一個(gè)模型用來(lái)預(yù)測(cè)一個(gè)給定的句子的定語(yǔ)，它只需要被作為一個(gè)分類器進(jìn)行訓(xùn)練。類似地，Selsam 與其合作者（https://arxiv.org/abs/1802.03685）訓(xùn)練了一個(gè)學(xué)著解決SAT（可滿足性）問(wèn)題的模型，它只需要被作為一個(gè)預(yù)測(cè)可滿足性的分類器進(jìn)行訓(xùn)練。值得注意的是，這兩種模型都有很強(qiáng)的歸納偏置。前者使用的假設(shè)是，定語(yǔ)往往在局部的判別短語(yǔ)中較為明顯。后者則捕獲了調(diào)查傳播算法（Survey propagation）的歸納偏置。

Percy 對(duì)研究社區(qū)提出了挑戰(zhàn)，他呼吁道：

每篇論文，以及它們對(duì)所使用的數(shù)據(jù)集的評(píng)估，都應(yīng)該在一個(gè)新的分布或一個(gè)新的任務(wù)上進(jìn)行評(píng)估，因?yàn)槲覀兊哪繕?biāo)是解決任務(wù)，而不是解決數(shù)據(jù)集。

當(dāng)我們使用機(jī)器學(xué)習(xí)技術(shù)時(shí)，我們需要像機(jī)器學(xué)習(xí)一樣思考，至少在評(píng)估的時(shí)候是這樣的。這是因?yàn)?，機(jī)器學(xué)習(xí)就像一場(chǎng)龍卷風(fēng)，它把一切東西都吸收進(jìn)去了，而不在乎常識(shí)、邏輯推理、語(yǔ)言現(xiàn)象或物理直覺(jué)。

幻燈片取自 Liang 的報(bào)告。

參加 workshop 的研究人員們想知道，我們是否想要構(gòu)建用于壓力測(cè)試的數(shù)據(jù)集，為了觀測(cè)我們的模型真正的泛化能力，該測(cè)試超出了正常操作的能力，達(dá)到了一個(gè)臨界點(diǎn)（條件十分苛刻）。

我們有理由相信，只有在解決了較為簡(jiǎn)單的問(wèn)題后，一個(gè)模型才能有可能解決更困難的案例。為了知道較為簡(jiǎn)單的問(wèn)題是否得到了解決，Liang 建議我們可以根據(jù)案例的難度對(duì)它們進(jìn)行分類。Devi Parikh 強(qiáng)調(diào)，對(duì)于解決了簡(jiǎn)單的問(wèn)題就能夠確定更難的問(wèn)題有沒(méi)有可能解決的這樣的設(shè)想，只有一小部分任務(wù)和數(shù)據(jù)集能滿足。而那些不包括在這一小部分中的任務(wù)，例如可視化問(wèn)答系統(tǒng)，則不適合這個(gè)框架。目前還不清楚模型能夠處理哪些「圖像-問(wèn)題」對(duì)，從而處理其它可能更困難的「圖像=問(wèn)題」對(duì)。因此，如果我們把模型無(wú)法給出答案的例子定義為「更困難」的案例，那么情況可能會(huì)變的很糟。

參加 workshop 的研究人員們擔(dān)心，壓力測(cè)試可能會(huì)放緩這一領(lǐng)域的進(jìn)步。什么樣的壓力能讓我們對(duì)真正的泛化能力有更好的理解？能夠促使研究人員構(gòu)建泛化能力更強(qiáng)的系統(tǒng)？但是不會(huì)導(dǎo)致資金的削減以及研究人員由于產(chǎn)出較少而倍感壓力？workshop 沒(méi)有就此問(wèn)題給出答案。

結(jié)論

「NAACL 深度學(xué)習(xí)和自然語(yǔ)言處理新泛化方法 workshop」是人們開(kāi)始認(rèn)真重新思考現(xiàn)代自然語(yǔ)言處理技術(shù)的語(yǔ)言理解和推理能力的契機(jī)。這個(gè)重要的討論在 ACL 大會(huì)上繼續(xù)進(jìn)行，Denis Newman-Griffis 報(bào)告說(shuō)，ACL 參會(huì)者多次建議我們需要重新思考更廣泛的泛化和測(cè)試的情景，這些情景并不能反映訓(xùn)練數(shù)據(jù)的分布。Sebastian Ruder 說(shuō)，這個(gè) NAACL workshop 的主題在 RepLNLP（最受歡迎的關(guān)于自然語(yǔ)言處理的表征學(xué)習(xí)的 ACL workshop）上也被提及。

以上的事實(shí)表明，我們并不是完全不知道如何修改我們的模型來(lái)提高他們的泛化能力。但是，仍然有很大的空間提出新的更好的解決方案。

我們應(yīng)該使用更多的歸納偏置，但是需要找出最恰當(dāng)?shù)姆椒▽⑺鼈冋系缴窠?jīng)網(wǎng)絡(luò)架構(gòu)中，這樣它們才能夠?yàn)榫W(wǎng)絡(luò)架構(gòu)帶來(lái)我們期望得到的提升。

我們必須通過(guò)一些與人類理解類似的常識(shí)概念來(lái)提升最先進(jìn)的模式匹配模型，從而使它們能夠捕獲到事實(shí)、實(shí)體、事件和活動(dòng)之間的高階關(guān)系。但是挖掘出常識(shí)通常是極具挑戰(zhàn)性的，因此我們需要新的、有創(chuàng)造性的方法來(lái)抽取出常識(shí)。

最后，我們應(yīng)該處理從未見(jiàn)過(guò)的分布和任務(wù)。否則，「任何具有足夠足夠數(shù)據(jù)的表示模型都能夠完成這個(gè)任務(wù)」。顯然，訓(xùn)練這樣的模型更加困難，并且不會(huì)馬上取得很好的結(jié)果。作為研究人員，我們必須勇于開(kāi)發(fā)這種模型；而作為審稿人，我們不應(yīng)該批評(píng)試圖這樣做的工作。

這些討論雖然都是 NLP 領(lǐng)域的話題，但這也反映了整個(gè) AI 研究領(lǐng)域內(nèi)的更大的趨勢(shì)：從深度學(xué)習(xí)的缺點(diǎn)和優(yōu)勢(shì)中反思學(xué)習(xí)。Yuille and Liu 寫(xiě)了一篇觀點(diǎn)文章《深度神經(jīng)網(wǎng)絡(luò)到底對(duì)計(jì)算機(jī)視覺(jué)做了什么》。

Gary Marcus 更是一直宣揚(yáng)，對(duì)于整個(gè) AI 領(lǐng)域的問(wèn)題來(lái)說(shuō)，我們需要多多考慮深度學(xué)習(xí)之外的方法。這是一個(gè)很健康的信號(hào)，AI 研究人員們?cè)絹?lái)越清楚深度學(xué)習(xí)的局限性在哪里，并且在努力改善這些局限。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4717

瀏覽量
100015
nlp

nlp

+關(guān)注

關(guān)注
1

文章
481

瀏覽量
21935

原文標(biāo)題：神經(jīng)網(wǎng)絡(luò)并不是尚方寶劍，我們需要正視深度 NLP 模型的泛化問(wèn)題

文章出處：【微信號(hào)：AItists，微信公眾號(hào)：人工智能學(xué)家】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

nlp邏輯層次模型的特點(diǎn)

NLP（自然語(yǔ)言處理）邏輯層次模型是一種用于理解和生成自然語(yǔ)言文本的計(jì)算模型。它將自然語(yǔ)言文本分解為不同的層次，以便于計(jì)算機(jī)更好地處理和理解。以下是對(duì)NLP邏輯層次

發(fā)表于 07-09 10:39 ?190次閱讀

nlp神經(jīng)語(yǔ)言和NLP自然語(yǔ)言的區(qū)別和聯(lián)系

神經(jīng)語(yǔ)言（Neuro-Linguistic Programming，NLP）神經(jīng)語(yǔ)言是一種心理學(xué)方法，它研究人類思維、語(yǔ)言和行為之間的關(guān)系。NLP的核心理念是，我們可以通過(guò)改變我們的思維方式和語(yǔ)言

發(fā)表于 07-09 10:35 ?562次閱讀

nlp自然語(yǔ)言處理基本概念及關(guān)鍵技術(shù)

、問(wèn)答系統(tǒng)、文本摘要等眾多領(lǐng)域有著廣泛的應(yīng)用。 1. NLP的基本概念 1.1 語(yǔ)言模型語(yǔ)言模型是NLP的基礎(chǔ)，它用于描述一個(gè)句子在自然語(yǔ)言中出現(xiàn)的概率。語(yǔ)言

發(fā)表于 07-09 10:32 ?265次閱讀

llm模型有哪些格式

LLM（Large Language Model，大型語(yǔ)言模型）是一種深度學(xué)習(xí)模型，主要用于處理自然語(yǔ)言處理（NLP）任務(wù)。LLM模型的格式多種多樣，以下是一些常見(jiàn)的LLM

發(fā)表于 07-09 09:59 ?337次閱讀

基于MATLAB 的質(zhì)量守恒空化模型（JFO 模型）

可有大佬會(huì)基于MATLAB 的質(zhì)量守恒空化模型（JFO 模型）

發(fā)表于 07-05 23:32

nlp自然語(yǔ)言處理模型怎么做

的進(jìn)展。本文將詳細(xì)介紹NLP模型的構(gòu)建過(guò)程，包括數(shù)據(jù)預(yù)處理、模型選擇、訓(xùn)練與優(yōu)化等方面。數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理是NLP模型構(gòu)建的第一步，其

發(fā)表于 07-05 09:59 ?353次閱讀

nlp自然語(yǔ)言處理模型有哪些

自然語(yǔ)言處理（Natural Language Processing，NLP）是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的一個(gè)重要分支，旨在使計(jì)算機(jī)能夠理解、解釋和生成人類語(yǔ)言。以下是對(duì)NLP領(lǐng)域一些模型的介紹

發(fā)表于 07-05 09:57 ?416次閱讀

nlp自然語(yǔ)言處理的應(yīng)用有哪些

的應(yīng)用。以下是一些NLP的主要應(yīng)用領(lǐng)域，以及它們?cè)诟鱾€(gè)領(lǐng)域的具體應(yīng)用。機(jī)器翻譯機(jī)器翻譯是NLP的一個(gè)重要應(yīng)用領(lǐng)域。它利用計(jì)算機(jī)自動(dòng)將一種語(yǔ)言的文本翻譯成另一種語(yǔ)言。這在全球化的今天尤為重要，因?yàn)樗梢詭椭藗兛缭秸Z(yǔ)言障礙，進(jìn)

發(fā)表于 07-05 09:55 ?1974次閱讀

NLP模型中RNN與CNN的選擇

在自然語(yǔ)言處理（NLP）領(lǐng)域，循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）與卷積神經(jīng)網(wǎng)絡(luò)（CNN）是兩種極為重要且廣泛應(yīng)用的網(wǎng)絡(luò)結(jié)構(gòu)。它們各自具有獨(dú)特的優(yōu)勢(shì)，適用于處理不同類型的NLP任務(wù)。本文旨在深入探討RNN與CNN

發(fā)表于 07-03 15:59 ?209次閱讀

【大規(guī)模語(yǔ)言模型：從理論到實(shí)踐】- 每日進(jìn)步一點(diǎn)點(diǎn)

的訓(xùn)練效率、穩(wěn)定性和泛化能力。以下是關(guān)于大模型訓(xùn)練歸一化的詳細(xì)介紹：一、歸一化的目的和重要性加快模

發(fā)表于 05-31 19:54

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

和多樣性。高質(zhì)量數(shù)據(jù)能確保模型穩(wěn)定收斂，而數(shù)據(jù)的多樣性則有助于模型學(xué)習(xí)廣泛的通用能力，如文本生成、信息抽取、問(wèn)答和編程等。此外，數(shù)據(jù)的多樣性對(duì)于確保模型在實(shí)際應(yīng)用中具有良好的泛

發(fā)表于 05-07 17:10

【大語(yǔ)言模型：原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

。大語(yǔ)言模型的縮放定律對(duì)于深度學(xué)習(xí)研究和應(yīng)用具有重要意義。它提供了更強(qiáng)大的泛化能力和適應(yīng)性，使得模型能夠更好地處理現(xiàn)實(shí)世界中的復(fù)雜任務(wù)和不確定性問(wèn)題。同時(shí)，縮放定律也促進(jìn)了開(kāi)放性研

發(fā)表于 05-04 23:55

不要錯(cuò)過(guò)！NVIDIA “大模型沒(méi)那么泛！”主題活動(dòng)

提供實(shí)踐指導(dǎo)，推動(dòng)大模型的應(yīng)用，特別為大模型的入門(mén)開(kāi)發(fā)者量身定制。活動(dòng)采用線上直播形式，每位專家演講 30 分鐘，深入解讀大模型通識(shí)和應(yīng)用，每位專家演講結(jié)束后有 15 分鐘 QA 環(huán)節(jié)，各位開(kāi)發(fā)者可以與專家在線交流溝通。

發(fā)表于 12-20 19:35 ?568次閱讀

什么是AI Agent？NLP到AGI的發(fā)展路線

大模型在語(yǔ)言理解、決策制定以及泛化能力等方面展現(xiàn)出強(qiáng)大的潛力，成為代理構(gòu)建過(guò)程中的關(guān)鍵角色，而代理的進(jìn)展也為大模型提出了更高的要求。

發(fā)表于 12-18 10:40 ?1358次閱讀

基于Transformer的可泛化人體表征設(shè)計(jì)方案

本文在ZJU-MoCap和H36M上進(jìn)行了泛化性實(shí)驗(yàn)，結(jié)果如下圖所示。主要分為四個(gè)setting: Pose的泛化，Identity的泛化，

發(fā)表于 11-23 11:25 ?355次閱讀