OpenAI號稱史上最強“通用”NLP模型又有新動作啦!繼今年2 月發(fā)布了小型1.24億參數(shù)模型GPT-2后,OpenAI宣布發(fā)布7.74億參數(shù)GPT-2 模型,15.58億的完整模型也有望于幾個月內(nèi)發(fā)布。
今年2月,OpenAI發(fā)布了號稱史上最強“通用”NLP模型,它基于Transformer,擁有15億參數(shù),使用含有800萬網(wǎng)頁內(nèi)容的數(shù)據(jù)集訓練,只為一個目的:
根據(jù)當前已有的信息,預測下一個單詞是什么。
新模型的名字叫GPT-2,是OpenAI去年發(fā)布的無監(jiān)督NLP模型GPT的直接拓展,新模型用到的參數(shù)和訓練數(shù)據(jù),都增長了超過10倍參數(shù)數(shù)量。
但是OpenAI表示,由于這個新模型過于強大怕被濫用,所以沒有全部開源,遭到網(wǎng)友猛懟。
就在本周,OpenAI宣布,發(fā)布了7.74億參數(shù)GPT-2語言模型,15.58億的完整模型也有望于幾個月內(nèi)發(fā)布,并將GPT-2這6個月的進展情況在博客上和大家做了介紹,本文將為大家梳理。
OpenAI博客地址:https://openai.com/blog/gpt-2-6-month-follow-up/ GPT-2有多“可怕”?訓練1小時相當于燒掉1臺頂配版X Max
今年2月,OpenAI宣稱他們研究出一個GPT-2的NLP模型,號稱“史上最強通用NLP模型”,因為它是:
踩在15億參數(shù)的身體上:爬取了Reddit上點贊超過三票的鏈接的文本內(nèi)容,大約用到1000萬篇文章,數(shù)據(jù)體量超過了40G,相當于35000本《白鯨記》。(注:小說約有21萬單詞,是電影《加勒比海盜》的重要故事參考來源之一。動漫《海賊王》里四皇之一的白胡子海賊團的旗艦就是以故事主角大白鯨的名字Moby Dick命名)。
無需預訓練的“zero-shot”:在更通用的數(shù)據(jù)集基礎上,使用自注意力模塊遷移學習,不針對任何特定任務的數(shù)據(jù)進行訓練,只是作為最終測試對數(shù)據(jù)進行評估,在Winograd Schema、LAMBADA以及其他語言建模任務上實現(xiàn)了state-of-the-art 的結(jié)果。
最終結(jié)果:8個數(shù)據(jù)集中油7個刷新當前最佳紀錄。
下表顯示了最先進的zero-shot結(jié)果。(+)表示該項分數(shù)越高越好。(-)表示分數(shù)越低越好。
雖然OpenAI沒有在論文中提及具體的計算力及訓練時間,但通過公布的數(shù)據(jù)推測,他們的模型使用了256個谷歌云TPU v3。
TPU v3在Google之外只提供單獨使用版本(排除OpenAI可能得到了特別的許可),很可能GPT-2訓練時所需的成本將高達8 * 256 = 2048美元/小時,相當于一小時燒掉一臺512G的iPhone Xs Max。
然而,OpenAI并沒有完全公布GPT-2模型及代碼,OpenAI給出的理由是:因為這個模型能力太強大了!他們目前還有點hold不住它。一旦開源后被壞人拿到,將會貽害無窮。有點中國武俠小說里,絕世武功秘籍的意思。
網(wǎng)友吐槽:不公開代碼和訓練集就干脆別發(fā)表!
于是開發(fā)者和學者們不干了,紛紛質(zhì)疑OpenAI這種做法顯得心口不一。甚至盛產(chǎn)吐槽大神的Reddit上,有人建議OpenAI干脆改名CloseAI的言論,獲得了數(shù)百網(wǎng)友的點贊。
OpenAI干脆改名“CloseAI”算了!
我也做了個超強大的MNIST模型,要不要擔心它被濫用而不公開呢?
更有甚者,比如下面這位Ben Recht,還發(fā)了一條Twitter長文進行嘲諷:
對于種種質(zhì)疑,OpenAI在最新的博客中進行了回應。 OpenAI在對模型的研究和合作測試中總結(jié)出3點
在對模型的研究和合作測試中,OpenAI有3點總結(jié): 1.協(xié)調(diào)合作很困難,但有可能實現(xiàn)。 到目前為止,我們還沒有公開發(fā)布15.58億參數(shù)的完整模型,不過已經(jīng)有不少組織開發(fā)了系統(tǒng)來訓練模型,并公開討論如何訓練更大的模型。比如來自華盛頓大學的NLP開發(fā)人員Hugging Face和艾倫人工智能研究所(AI2)的團隊已明確采用了類似的分階段發(fā)布方法。自今年2月以來,我們已經(jīng)與超過五個復制GPT-2模型的團隊進行了交流。 進行這些對話并不容易,因為它涉及專有系統(tǒng),而且我們并不清楚是討論這些模型應該找哪些人來交流,以及在不同組織和團隊間討論尚未發(fā)布的模型時,合適的流程是什么,等等。 2、通過模型合成的文本可能會讓人們感覺更為合理。 我們的合作伙伴Sarah Kreps和Miles McCain在康奈爾大學發(fā)表的一項研究表明,人們發(fā)現(xiàn)GPT-2合成文本的樣本幾乎與真人寫出的文本具有同樣的說服力(測試者中有72%的人認為這些合成的文章是可信的)《紐約時報》上的真實文章得票率為83%。 此外,艾倫研究所和華盛頓大學的研究表明,由名為“GROVER”的AI系統(tǒng)撰寫的新聞比人類寫的更為合理。這些研究結(jié)果使我們在發(fā)布語言模型時更加謹慎。 3.檢測模型并不是個簡單的事。 惡意使用者可以使用各種采樣技術(包括拒絕采樣)或微調(diào)模型來逃避檢測。最終部署的檢測系統(tǒng)可能需要在各代中都具備極高準確率(99.9%-99.99%)。 我們的研究表明,目前基于機器學習的方法只能達到90% 到95%的準確度,對語言模型進行微調(diào)還會進一步降低準確性。這條路真的很有前途,但這個問題也是真的困難。我們認為,文本的統(tǒng)計檢測需要輔以人類判斷和與文本相關的元數(shù)據(jù),以便有效地打擊對語言模型的濫用。 OpenAI與其他機構(gòu)團隊的合作
OpenAI與四家領先的研究機構(gòu)合作,分析了新發(fā)布的7.74億參數(shù)的GPT-2模型,以及尚未發(fā)布的完整GPT-2模型。我們將一些初步結(jié)果寫入了技術報告,目前正在分析可能發(fā)布的15.58億參數(shù)完整模型的有關問題。此外,還制定了非商用法律協(xié)議,以促進組織機構(gòu)之間的模型共享。 康奈爾大學正在研究人類對語言模型產(chǎn)生的數(shù)字虛假信息的敏感性。 米德爾伯里恐怖主義、極端主義和反恐國際研究中心(CTEC)正在探索GPT-2被網(wǎng)絡上的恐怖分子和極端分子濫用的情況。 俄勒岡大學在開發(fā)一系列“偏差檢測器”來分析GPT-2模型中的偏差。 德克薩斯大學奧斯汀分校正在研究在特定領域數(shù)據(jù)集上進行微調(diào)后的GPT-2輸出的統(tǒng)計可檢測性,以及跨不同語言模型的檢測傳遞程度。 未來,完整模型何時發(fā)布? 未來我們將綜合考慮以上這些合作伙伴的研究成果,觀察當前的7.74億參數(shù)模型的使用情況,并與研究人員和決策者討論語言模型的制定。作為我們分階段發(fā)布策略的一部分,我們目前的計劃是在幾個月內(nèi)發(fā)布15.58億參數(shù)的完整GPT-2模型,但如果合作伙伴的調(diào)查結(jié)果有變,或者當前的模型出現(xiàn)了惡意使用,那么最終的發(fā)布時間也可能會變化。 我們認為,分階段發(fā)布、以及基于合作伙伴關系的模型共享,這兩點是負責任的AI模型發(fā)布的關鍵基礎,在性能強大的生成模型的背景下更是如此。未來,隨著時間的推移,大型模型固有的問題將會越來越多,而不是越來越少。我們希望在GPT-2模型上開展的合作會有助于解決這些問題。
大型語言模型存在無法估量的潛在威脅,公開數(shù)據(jù)需要謹慎再謹慎!
隨模型發(fā)布的還有一份技術報告,介紹與更廣泛的AI研究社區(qū)協(xié)調(diào)發(fā)布規(guī)范方面的經(jīng)驗。新智元也把重點內(nèi)容為大家做了總結(jié):
大型語言模型在各個領域具有廣泛的用途。例如創(chuàng)建情感分類器、語音識別系統(tǒng)、翻譯系統(tǒng)、對話系統(tǒng),區(qū)分由語言模型(尤其是對抗性示例)生成的合成文本和人類創(chuàng)作的文本。
除此之外,在生物醫(yī)學文獻分析、生成綜合測試數(shù)據(jù)、生成放射學報告和腦電圖報告等方面的應用對人類健康有著非常大的價值。
在過去六個月內(nèi),GPT-2已經(jīng)被應用在軟件工程、文案、藝術、娛樂、健康等多個領域,幫助文字工作者糾正語法、提供靈感,為開發(fā)者自動補全代碼(例如Deep TabNine),創(chuàng)作音樂(例如OpenAI的MuseNet)等等。
小參數(shù)的GPT-2就在這些領域的成功應用,為研究人員發(fā)布更大規(guī)模參數(shù)的模型樹立了極大的信心。在此之前,研究人員一直擔心GPT-2可能導致無法估量的潛在風險,例如虛假信息、網(wǎng)絡暴力等。
研究人員將目前已知的惡意行為分為三個層級:
1. 初、中級。資源有限,可能只是好奇想試著搞點事情 2. 專家級。能力夠,資源也不少。例如水軍、營銷號、垃圾郵件等 3. 大師級。也被稱為高級持續(xù)性威脅(APT),技能一流,資源充足,能夠打硬仗、打持久戰(zhàn)
研究人員通過后續(xù)監(jiān)測最終確認,別有用心之人很難具備利用GPT-2掀起滔天巨浪的能力和資源,因此研究人員才敢繼續(xù)釋放更大規(guī)模的參數(shù)。
而面對大師級的惡意攻擊者,數(shù)據(jù)量的多少,根本不能顯著的影響他們?yōu)榉亲鞔醯囊庠负瓦M度。這個時候,正式專業(yè)的安防機構(gòu)體現(xiàn)價值的機會。
OpenAI正在和合作伙伴攜手研究應對可能的各種威脅,制定對戰(zhàn)策略,加固正義的防線。
語言模型未來的四大趨勢
通過進一步的研究,OpenAI希望語言模型能夠以更高的輸出質(zhì)量和準確度擴展性能。除了這些模型級別的改進之外,OpenAI還確定了四種趨勢,以便以有益和有效的方式理解和塑造語言模型的社會影響。 趨勢1:語言模型轉(zhuǎn)移到設備 考慮到計算能力成本的歷史趨勢,我們可以期待語言模型在一系列設備上得到更廣泛的部署。例如,Hugging Face將1.24億參數(shù)GPT-2移植到Swift CoreML中,以便在iOS設備上進行推理。 趨勢2:更可控的文本生成 語言模型的潛在用途將隨著提高可靠性和/或可控性的發(fā)展而增長,例如新的抽樣方法、新的數(shù)據(jù)集、新的目標函數(shù)和新的人機界面。 可控性的例子包括: ?在GROVER模型中,進行界面修改以引入輸出可控性,使得可以輸入文章元數(shù)據(jù)(例如,標題,作者)以生成高質(zhì)量輸出。 ?清華大學的ERNIE模型與知識庫相結(jié)合,促進了比通用語言模型更可控的生成。 ?Stanford和FAIR展示了通過更直接地針對高級會話屬性(例如重復程度)進行優(yōu)化來改善聊天機器人性能的潛力。 趨勢3:更多風險分析 目前還不清楚如何比較具有不同性能配置文件的兩個大型語言模型的誤用性(misusability),特別是在考慮微調(diào)(fine-tuning)時。一些關鍵的考慮因素包括在模型的幫助下生成一定質(zhì)量的文本所需的時間和專業(yè)知識,以及不使用模型的情況,盡管隨著技術工具的發(fā)展,這將隨著時間的推移而變化。 趨勢4:工具可用性提升 今天,模型的訓練和部署需要了解ML技術,使用工具的技能以及訪問測試平臺以進行評估。穩(wěn)步改進的與語言模型交互的工具,如Talk to Transformer和Write with Transformer,將擴大能夠以各種不同方式使用語言模型的參與者的數(shù)量。這些對工具可用性的改進將對模型性能和采樣方法的改進起到補充作用,并將使語言模型的創(chuàng)造性應用比我們目前看到的更廣泛。
GPT-2時間線梳理
2019年2月
OpenAI首次公布了GPT-2論文以及1.24億參數(shù)的GPT-2模型。
論文: https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
2019年3月
OpenAI及其合作伙伴舉行晚宴討論發(fā)布高風險AI的合適時機: https://www.partnershiponai.org/when-is-it-appropriate-to-publish-high-stakes-ai-research/
2019年5月
發(fā)布3.35億模型,以及大規(guī)模模型輸出的數(shù)據(jù)集。
發(fā)布檢測基線,幫助人們了解如何檢測GPT-2等模型的輸出。
TalktoTransformer.com網(wǎng)站上線,可以讓大眾直觀體驗GPT-2。輸入一句話,它會自動為你腦補出一段狗血劇情,下圖:
隨后一份教程上線。但作者也提醒GPT-2帶來的潛在風險不可限量,并舉例水軍機器人由于GPT-2得到極大的提升。
2019年6月
OpenAI在國會聽證會上,討論關于合成媒體的影響,包括討論合成文本。
DeepMind討論了GPT-2及適用于生成模型的出版規(guī)范的重要性無監(jiān)督學習的討論: https://deepmind.com/blog/article/unsupervised-learning
OpenAI開始與合作伙伴開展研究合作,以制定人工智能研究的出版規(guī)范。并嘗試與各種各樣的人工智能研究組織合作,提出科學家在發(fā)布之前可能要問的問題,以及他們可以用來做出版決策的潛在框架。
2019年7月
DeepTabNine基于GPT-2開發(fā)代碼自動補全應用。
使用自回歸Transformer模型生成多圈對話響應:
https://arxiv.org/abs/1908.01841
GLTR:生成文本的統(tǒng)計檢測和可視化: https://www.aclweb.org/anthology/P19-3019
2019年8月
思科技術項目和劍橋大學的研究人員發(fā)表了一篇關于減少合成惡意使用的工作文件媒體研究:機器學習的注意事項和潛在發(fā)布實踐
論文: https://arxiv.org/abs/1907.11274
初創(chuàng)公司AI21 Labs發(fā)布了一個神經(jīng)文本生成器“HAIM”,他們只發(fā)布了該模型的3.45億參數(shù)版本: https://www.ai21.com/haim-post
NVIDIA Research訓練了83億參數(shù)GPT-2模型: https://nv-adlr.github.io/MegatronLM
發(fā)布了7.74億參數(shù)模型。
-
語言模型
+關注
關注
0文章
487瀏覽量
10201 -
數(shù)據(jù)集
+關注
關注
4文章
1197瀏覽量
24538 -
nlp
+關注
關注
1文章
481瀏覽量
21934
原文標題:史上最強通用NLP模型GPT-2:OpenAI剛又發(fā)布7.74億參數(shù)版本
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論