亚洲一级av无码毛片久久,亚洲国产精品尤物YW在线观看

幾個(gè)月前谷歌推出的語言模型BERT引發(fā)了業(yè)內(nèi)的廣泛關(guān)注，其 3 億參數(shù)量刷新 11 項(xiàng)紀(jì)錄的成績讓人不禁贊嘆。昨天，OpenAI 推出了一種更為強(qiáng)大的算法，這一次模型達(dá)到了 15 億參數(shù)。

代碼地址：https://github.com/openai/gpt-2

這種機(jī)器學(xué)習(xí)算法不僅在很多任務(wù)上達(dá)到了業(yè)內(nèi)最佳水平，還可以根據(jù)一小段話自動(dòng)「腦補(bǔ)」出大段連貫的文本，如有需要，人們可以通過一些調(diào)整讓計(jì)算機(jī)模擬不同的寫作風(fēng)格?？雌饋砜梢杂脕碜詣?dòng)生成「假新聞」。對(duì)此，OpenAI 甚至表示：「出于對(duì)模型可能遭惡意應(yīng)用的擔(dān)憂，我們本次并沒有發(fā)布所有預(yù)訓(xùn)練權(quán)重?！?/p>

如此強(qiáng)大的模型卻不公開所有代碼？Kyunghyun Cho 并不滿意：「要是這樣，為了人類我不得不刪除迄今為止自己公開的所有模型權(quán)重了?！筜ann LeCun 表示贊同。

OpenAI 訓(xùn)練了一個(gè)大型無監(jiān)督語言模型，能夠生產(chǎn)連貫的文本段落，在許多語言建?；鶞?zhǔn)上取得了 SOTA 表現(xiàn)。而且該模型在沒有任務(wù)特定訓(xùn)練的情況下，能夠做到初步的閱讀理解、機(jī)器翻譯、問答和自動(dòng)摘要。

該模型名為 GPT-2（GPT二代）。訓(xùn)練 GPT-2 是為了預(yù)測 40GB 互聯(lián)網(wǎng)文本中的下一個(gè)單詞?？紤]到可能存在的對(duì)該技術(shù)的惡意使用，OpenAI 沒有發(fā)布訓(xùn)練模型，而是發(fā)布了一個(gè)較小模型供研究、實(shí)驗(yàn)使用，同時(shí) OpenAI 也公布了相關(guān)技術(shù)論文（見文后）。

GPT-2 是基于 transformer 的大型語言模型，包含 15 億參數(shù)、在一個(gè) 800 萬網(wǎng)頁數(shù)據(jù)集上訓(xùn)練而成。訓(xùn)練 GPT-2 有一個(gè)簡單的目標(biāo)：給定一個(gè)文本中前面的所有單詞，預(yù)測下一個(gè)單詞。數(shù)據(jù)集的多樣性使得這一簡單目標(biāo)包含不同領(lǐng)域不同任務(wù)的自然事件演示。GPT-2 是對(duì) GPT 模型的直接擴(kuò)展，在超出 10 倍的數(shù)據(jù)量上進(jìn)行訓(xùn)練，參數(shù)量也多出了 10 倍。

15 億的參數(shù)量已經(jīng)是非常非常多了，例如我們認(rèn)為龐大的 BERT 也就 3.3 億的參數(shù)量，我們認(rèn)為視覺中參數(shù)量巨大的 VGG-19 也不過 1.44 億參數(shù)量（VGG-16 為 1.38 億），而 1001 層的 ResNet 不過 0.102 億的參數(shù)量。所以根據(jù)小編的有偏估計(jì)，除了 bug 級(jí)的大規(guī)模集成模型以外，說不定 GPT-2 就是當(dāng)前最大的模型～

GPT-2 展示了一系列普適而強(qiáng)大的能力，包括生成當(dāng)前最佳質(zhì)量的條件合成文本，其中我們可以將輸入饋送到模型并生成非常長的連貫文本。此外，GPT-2 優(yōu)于在特定領(lǐng)域（如維基百科、新聞或書籍）上訓(xùn)練的其它語言模型，而且還不需要使用這些特定領(lǐng)域的訓(xùn)練數(shù)據(jù)。在知識(shí)問答、閱讀理解、自動(dòng)摘要和翻譯等任務(wù)上，GPT-2 可以從原始文本開始學(xué)習(xí)，無需特定任務(wù)的訓(xùn)練數(shù)據(jù)。雖然目前這些下游任務(wù)還遠(yuǎn)不能達(dá)到當(dāng)前最優(yōu)水平，但 GPT-2 表明如果有足夠的（未標(biāo)注）數(shù)據(jù)和計(jì)算力，各種下游任務(wù)都可以從無監(jiān)督技術(shù)中獲益。

Zero-shot

GPT-2 在多個(gè)領(lǐng)域特定的語言建模任務(wù)上實(shí)現(xiàn)了當(dāng)前最佳性能。該模型沒有在這些任務(wù)的特定數(shù)據(jù)上進(jìn)行訓(xùn)練，只是最終測試時(shí)在這些數(shù)據(jù)上進(jìn)行了評(píng)估。這被稱為「zero-shot」設(shè)置。在這些數(shù)據(jù)集上進(jìn)行評(píng)估時(shí)，GPT-2 的表現(xiàn)要優(yōu)于那些在領(lǐng)域特定數(shù)據(jù)集（如維基百科、新聞、書籍）上訓(xùn)練的模型。下圖展示了在 zero-shot 設(shè)定下 GPT-2 的所有當(dāng)前最佳結(jié)果。

（+）表示該領(lǐng)域得分越高越好，（-）表示得分越低越好。

迄今最大模型？OpenAI發(fā)布參數(shù)量高達(dá)15億的通用語言模型GPT-2

GPT-2 在 Winograd Schema、LAMBADA 和其他語言建模任務(wù)中達(dá)到了當(dāng)前最佳性能。

在問答、閱讀理解、自動(dòng)摘要、翻譯等其他語言任務(wù)中，無需對(duì) GPT-2 模型做任何微調(diào)，只需以正確的方式增強(qiáng)模型，就能取得令人驚艷的結(jié)果，雖然其結(jié)果仍遜于專門系統(tǒng)。

OpenAI 假設(shè)，既然這些任務(wù)是通用語言建模的子集，那么增加計(jì)算量和數(shù)據(jù)就能獲得進(jìn)一步的性能提升?！禠earning and Evaluating General Linguistic Intelligence》等其他研究也有類似假設(shè)。OpenAI 還預(yù)期微調(diào)能夠?qū)ο掠稳蝿?wù)的性能提升有所幫助，盡管還沒有全面的實(shí)驗(yàn)?zāi)茏C明這一點(diǎn)。

策略建議

大型通用語言模型可能產(chǎn)生巨大的社會(huì)影響以及一些近期應(yīng)用。OpenAI 預(yù)期 GPT-2 這樣的系統(tǒng)可用于創(chuàng)建：

AI 寫作助手

更強(qiáng)大的對(duì)話機(jī)器人

無監(jiān)督語言翻譯

更好的語音識(shí)別系統(tǒng)

此外，OpenAI 還設(shè)想了此類模型有可能用于惡意目的，比如：

生成誤導(dǎo)性新聞

網(wǎng)上假扮他人

自動(dòng)生產(chǎn)惡意或偽造內(nèi)容，并發(fā)表在社交媒體上

自動(dòng)生產(chǎn)垃圾／釣魚郵件

這些研究成果與合成圖像和音視頻方面的早期研究結(jié)果表明，技術(shù)正在降低生產(chǎn)偽造內(nèi)容、進(jìn)行虛假信息活動(dòng)的成本。公眾將需要對(duì)在線文本內(nèi)容具備更強(qiáng)的批判性，就像「deep fakes」導(dǎo)致人們對(duì)圖像持懷疑態(tài)度一樣。

今天，惡意活動(dòng)參與者（其中一些是政治性的）已經(jīng)開始瞄準(zhǔn)共享網(wǎng)絡(luò)社區(qū)，他們使用「機(jī)器人工具、偽造賬號(hào)和專門團(tuán)隊(duì)等，對(duì)個(gè)人施加惡意評(píng)論或誹謗，致使大眾不敢發(fā)言，或很難被別人傾聽或信任」。OpenAI 認(rèn)為，我們應(yīng)該意識(shí)到，合成圖像、視頻、音頻和文本生成等方面研究的結(jié)合有可能進(jìn)一步解鎖這些惡意參與者的能力，使之達(dá)到前所未有的高度，因此研究者應(yīng)當(dāng)尋求創(chuàng)建更好的技術(shù)和非技術(shù)應(yīng)對(duì)措施。此外，這些系統(tǒng)的底層技術(shù)創(chuàng)新是基礎(chǔ)人工智能研究的核心，因此控制這些領(lǐng)域的研究必將拖慢 AI 領(lǐng)域的整體發(fā)展。

因此，OpenAI 對(duì)這一新研究成果的發(fā)布策略是：「僅發(fā)布 GPT-2 的較小版本和示例代碼，不發(fā)布數(shù)據(jù)集、訓(xùn)練代碼和 GPT-2 模型權(quán)重」。

論文：Large Language Models are Unsupervised Multitask Learners

論文地址：https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

摘要：問答、機(jī)器翻譯、閱讀理解、自動(dòng)摘要這樣的自然語言處理任務(wù)的典型方法是在任務(wù)特定數(shù)據(jù)集上進(jìn)行監(jiān)督式學(xué)習(xí)。我們證明，在包含數(shù)百萬網(wǎng)頁的全新數(shù)據(jù)集 WebText 上訓(xùn)練時(shí)，語言模型開始在沒有任何明確監(jiān)督的情況下學(xué)習(xí)這些任務(wù)。計(jì)算條件概率并生成條件樣本是語言模型在大量任務(wù)上取得良好結(jié)果（且無需精調(diào)）所必需的能力。當(dāng)以文檔+問題為條件時(shí)，在沒有使用 127000 多個(gè)訓(xùn)練樣本中任何一個(gè)樣本的情況下，語言模型生成的答案在 CoQA 數(shù)據(jù)集上達(dá)到 55F1，媲美于或者超越了 4 個(gè)基線系統(tǒng)中的 3 個(gè)。語言模型的容量對(duì) zero-shot 任務(wù)的成功遷移非常重要，且增加模型的容量能夠以對(duì)數(shù)線性的方式在多任務(wù)中改進(jìn)模型性能。我們最大的模型 GPT-2 是一個(gè)包含 15 億參數(shù)的 Transformer，在 zero-shot 設(shè)定下，該模型在 8 個(gè)測試語言建模數(shù)據(jù)集中的 7 個(gè)數(shù)據(jù)集上取得了 SOTA 結(jié)果，但仍舊欠擬合 WebText 數(shù)據(jù)集。來自該模型的樣本反映了這些改進(jìn)且包含連貫的文本段落。這些發(fā)現(xiàn)展示了一種構(gòu)建語言處理系統(tǒng)的潛在方式，即根據(jù)自然發(fā)生的演示學(xué)習(xí)執(zhí)行任務(wù)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
210

文章
27839

瀏覽量
204596
AI

AI

+關(guān)注

關(guān)注
87

文章
28877

瀏覽量
266225
機(jī)器翻譯

機(jī)器翻譯

+關(guān)注

關(guān)注
0

文章
139

瀏覽量
14837

原文標(biāo)題：迄今最大模型？OpenAI發(fā)布參數(shù)量高達(dá)15億的通用語言模型GPT-2

文章出處：【微信號(hào)：aicapital，微信公眾號(hào)：全球人工智能】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

名單公布！【書籍評(píng)測活動(dòng)NO.34】大語言模型應(yīng)用指南：以ChatGPT為起點(diǎn)，從入門到精通的AI實(shí)踐教程

聯(lián)系，視為放棄本次試用評(píng)測資格！ 2018 年，OpenAI 發(fā)布了首個(gè)大語言模型——GPT，這標(biāo)志著大

發(fā)表于 06-03 11:39

OpenAI發(fā)布全新GPT-4o模型

近日，OpenAI宣布推出全新的GPT-4o模型，標(biāo)志著人工智能領(lǐng)域的一大技術(shù)飛躍。這款模型不僅具備強(qiáng)大的生成能力，還能精準(zhǔn)理解用戶意圖，提供智能化的回答。

發(fā)表于 05-17 11:48 ?543次閱讀

OpenAI推出面向所有用戶的AI模型GPT-4o

在周一的直播盛會(huì)上，OpenAI揭開了其最新的人工智能模型GPT-4o的神秘面紗。這款新模型旨在為其著名的聊天機(jī)器人ChatGPT提供更強(qiáng)大、更經(jīng)濟(jì)的支持。

發(fā)表于 05-15 09:23 ?310次閱讀

OpenAI推出全新大語言模型

今日凌晨，科技界迎來了一次激動(dòng)人心的突破。OpenAI正式發(fā)布了全新的旗艦模型GPT-4o，這一模型展現(xiàn)了跨視頻、音頻、文本進(jìn)行實(shí)時(shí)推理的驚

發(fā)表于 05-14 11:53 ?520次閱讀

【大語言模型：原理與工程實(shí)踐】大語言模型的應(yīng)用

類任務(wù)上表現(xiàn)出色，甚至在零樣本條件下也能取得良好效果。另一類則需要逐步推理才能完成的任務(wù)，類似于人類的系統(tǒng)2，如數(shù)字推理等。然而，隨著參數(shù)量的增加，大語言模型在這類任務(wù)上并未出現(xiàn)質(zhì)的飛

發(fā)表于 05-07 17:21

【大語言模型：原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

大語言模型的核心特點(diǎn)在于其龐大的參數(shù)量，這賦予了模型強(qiáng)大的學(xué)習(xí)容量，使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù)，而更傾向于培養(yǎng)通用的處理能力。然而

發(fā)表于 05-07 17:10

【大語言模型：原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

特定任務(wù)對(duì)模型進(jìn)行微調(diào)。這種方法的成功不僅是自然語言處理發(fā)展的一個(gè)轉(zhuǎn)折點(diǎn)，還為許多現(xiàn)實(shí)世界的應(yīng)用場帶來了前所未有的性能提升。從廣為人知的GPT到BERT,預(yù)訓(xùn)練的模型

發(fā)表于 05-05 12:17

【大語言模型：原理與工程實(shí)踐】揭開大語言模型的面紗

維基百科、網(wǎng)頁內(nèi)容和書籍等，不僅掌握了語言的語法、語義和上下文信息，還能生成結(jié)構(gòu)連貫、語義合理的句子和段落。大語言模型的一個(gè)顯著特點(diǎn)是其龐大的參數(shù)量，已達(dá)數(shù)

發(fā)表于 05-04 23:55

OpenAI有望在年中推出全新GPT-5模型

近日，人工智能領(lǐng)域的領(lǐng)軍企業(yè)OpenAI傳來了令人振奮的消息。據(jù)悉，他們有望在今年的年中，大約是夏季時(shí)分，推出全新的GPT-5模型。這一消息引發(fā)了業(yè)界的廣泛關(guān)注與期待。

發(fā)表于 03-22 11:29 ?659次閱讀

OpenAI預(yù)計(jì)最快今年夏天發(fā)布GPT-5

OpenAI正計(jì)劃在未來數(shù)月內(nèi)，可能是今年夏季，發(fā)布備受矚目的GPT-5模型。據(jù)悉，部分企業(yè)客戶已提前體驗(yàn)了OpenAI最新

發(fā)表于 03-22 10:40 ?642次閱讀

亞馬遜發(fā)布史上最大文本轉(zhuǎn)語音模型BASE TTS

亞馬遜的人工智能研究團(tuán)隊(duì)近日宣布，他們成功開發(fā)出了迄今為止規(guī)模最大的文本轉(zhuǎn)語音模型——BASE TTS。這款新模型擁有高達(dá)9.8

發(fā)表于 02-20 17:04 ?695次閱讀

視覺模型weak-to-strong的實(shí)現(xiàn)

幾天前，OpenAI「超級(jí)對(duì)齊」(Superalignment)團(tuán)隊(duì)發(fā)布了成立以來的首篇論文，聲稱開辟了對(duì)超人類模型進(jìn)行實(shí)證對(duì)齊的新研究方向。GPT-2能監(jiān)督

發(fā)表于 01-08 11:07 ?351次閱讀

【飛騰派4G版免費(fèi)試用】仙女姐姐的嵌入式實(shí)驗(yàn)室之五~LLaMA.cpp及3B“小模型”O(jiān)penBuddy-StableLM-3B

預(yù)訓(xùn)練語言模型。該模型最大的特點(diǎn)就是基于以較小的參數(shù)規(guī)模取得了優(yōu)秀的性能，根據(jù)官網(wǎng)提供的信息，LLaMA的

發(fā)表于 12-22 10:18

大語言模型簡介：基于大語言模型模型全家桶Amazon Bedrock

本文基于亞馬遜云科技推出的大語言模型與生成式AI的全家桶：Bedrock對(duì)大語言模型進(jìn)行介紹。大語言模型

發(fā)表于 12-04 15:51 ?649次閱讀

ChatGPT重磅更新　OpenAI發(fā)布GPT-4 Turbo模型價(jià)格大降2/3

ChatGPT重磅更新 OpenAI發(fā)布GPT-4 Turbo模型價(jià)格大降2/3 目前OpenAI

發(fā)表于 11-07 18:20 ?2555次閱讀

搜索歷史

迄今最大模型？OpenAI發(fā)布參數(shù)量高達(dá)15億的通用語言模型GPT-2

評(píng)論

名單公布！【書籍評(píng)測活動(dòng)NO.34】大語言模型應(yīng)用指南：以ChatGPT為起點(diǎn)，從入門到精通的AI實(shí)踐教程

OpenAI發(fā)布全新GPT-4o模型

OpenAI推出面向所有用戶的AI模型GPT-4o

OpenAI推出全新大語言模型

【大語言模型：原理與工程實(shí)踐】大語言模型的應(yīng)用

【大語言模型：原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

【大語言模型：原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

【大語言模型：原理與工程實(shí)踐】揭開大語言模型的面紗

OpenAI有望在年中推出全新GPT-5模型

OpenAI預(yù)計(jì)最快今年夏天發(fā)布GPT-5

亞馬遜發(fā)布史上最大文本轉(zhuǎn)語音模型BASE TTS

視覺模型weak-to-strong的實(shí)現(xiàn)

【飛騰派4G版免費(fèi)試用】仙女姐姐的嵌入式實(shí)驗(yàn)室之五~LLaMA.cpp及3B“小模型”O(jiān)penBuddy-StableLM-3B

大語言模型簡介：基于大語言模型模型全家桶Amazon Bedrock

ChatGPT重磅更新　OpenAI發(fā)布GPT-4 Turbo模型價(jià)格大降2/3

搜索歷史

迄今最大模型？OpenAI發(fā)布參數(shù)量高達(dá)15億的通用語言模型GPT-2

評(píng)論

迄今最大模型？OpenAI發(fā)布參數(shù)量高達(dá)15億的通用語言模型GPT-2