被老师摁在教室cao到爽男女,人妻与老人中文字幕日本,亚洲成AV人不卡无码影片

只需一個API，直接調(diào)用BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM等6大框架，包含了27個預(yù)訓(xùn)練模型。簡單易用，功能強(qiáng)大。

One API to rule them all。

前幾日，著名最先進(jìn)的自然語言處理預(yù)訓(xùn)練模型庫項目pytorch-pretrained-bert改名Pytorch-Transformers重裝襲來，1.0.0版橫空出世。

只需一個API，直接調(diào)用BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM等6大框架，包含了27個預(yù)訓(xùn)練模型。

簡單易用，功能強(qiáng)大。目前已經(jīng)包含了PyTorch實現(xiàn)、預(yù)訓(xùn)練模型權(quán)重、運行腳本和以下模型的轉(zhuǎn)換工具：

BERT，論文：“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”，論文作者：Jacob Devlin, Ming-Wei Chang, Kenton Lee，Kristina Toutanova

OpenAI 的GPT，論文：“Improving Language Understanding by Generative Pre-Training”，論文作者：Alec Radford, Karthik Narasimhan, Tim Salimans， Ilya Sutskever

OpenAI的GPT-2，論文：“Language Models are Unsupervised Multitask Learners”，論文作者：Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei，Ilya Sutskever

谷歌和CMU的Transformer-XL，論文：“Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context”，論文作者：Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov.

谷歌和CMU的XLNet，論文：“XLNet: Generalized Autoregressive Pretraining for Language Understanding”，論文作者：Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le

Facebook的XLM，論文：“Cross-lingual Language Model Pretraining”，論文作者：Guillaume Lample，Alexis Conneau

這些實現(xiàn)都在幾個數(shù)據(jù)集（參見示例腳本）上進(jìn)行了測試，性能與原始實現(xiàn)相當(dāng)，例如BERT中文全詞覆蓋在SQuAD數(shù)據(jù)集上的F1分?jǐn)?shù)為93；OpenAI GPT 在RocStories上的F1分?jǐn)?shù)為88；Transformer-XL在WikiText 103上的困惑度為18.3；XLNet在STS-B的皮爾遜相關(guān)系數(shù)為0.916。

項目中提供27個預(yù)訓(xùn)練模型，下面是這些模型的完整列表，以及每個模型的簡短介紹。

BERT-base和BERT-large分別是110M和340M參數(shù)模型，并且很難在單個GPU上使用推薦的批量大小對其進(jìn)行微調(diào)，來獲得良好的性能（在大多數(shù)情況下批量大小為32）。

為了幫助微調(diào)這些模型，作者提供了幾種可以在微調(diào)腳本中激活的技術(shù) run_bert_classifier.py和run_bert_squad.py：梯度累積（gradient-accumulation），多GPU訓(xùn)練（multi-gpu training），分布式訓(xùn)練（distributed training ）和16- bits 訓(xùn)練（ 16-bits training）。

注意，這里要使用分布式訓(xùn)練和16- bits 訓(xùn)練，你需要安裝NVIDIA的apex擴(kuò)展。

作者在doc中展示了幾個基于BERT原始實現(xiàn)和擴(kuò)展的微調(diào)示例，分別為：

九個不同GLUE任務(wù)的序列級分類器；

問答集數(shù)據(jù)集SQUAD上的令牌級分類器；

SWAG分類語料庫中的序列級多選分類器；

另一個目標(biāo)語料庫上的BERT語言模型。

這里僅展示GLUE的結(jié)果：

該項目是在Python 2.7和3.5+上測試（例子只在python 3.5+上測試）和PyTorch 0.4.1到1.1.0測試。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

自然語言處理

自然語言處理

+關(guān)注

關(guān)注
1

文章
585

瀏覽量
13418
pytorch

pytorch

+關(guān)注

關(guān)注
2

文章
794

瀏覽量
13010

原文標(biāo)題：GitHub超9千星：一個API調(diào)用27個NLP預(yù)訓(xùn)練模型

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

如何訓(xùn)練一個有效的eIQ基本分類模型

在 MCX CPU和eIQ Neutron NPU上。 eIQPortal它是一個直觀的圖形用戶界面(GUI)，簡化了ML開發(fā)。開發(fā)人員可以創(chuàng)建、優(yōu)化、調(diào)試和導(dǎo)出ML模型，以及導(dǎo)入數(shù)據(jù)集和模型

發(fā)表于 08-01 09:29 ?1497次閱讀

預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

預(yù)訓(xùn)練和遷移學(xué)習(xí)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的兩個重要概念，它們在提高模型性能、減少訓(xùn)練時間和降低對數(shù)據(jù)量的需求方面發(fā)揮著關(guān)鍵作用。本文將從定

發(fā)表于 07-11 10:12 ?361次閱讀

大語言模型的預(yù)訓(xùn)練

能力，逐漸成為NLP領(lǐng)域的研究熱點。大語言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟，它通過在海量無標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練，使

發(fā)表于 07-11 10:11 ?249次閱讀

預(yù)訓(xùn)練模型的基本原理和應(yīng)用

預(yù)訓(xùn)練模型（Pre-trained Model）是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個重要概念，尤其是在自然語言處理（NLP）和計算機(jī)視覺（CV）

發(fā)表于 07-03 18:20 ?1433次閱讀

解讀PyTorch模型訓(xùn)練過程

PyTorch作為一個開源的機(jī)器學(xué)習(xí)庫，以其動態(tài)計算圖、易于使用的API和強(qiáng)大的靈活性，在深度學(xué)習(xí)領(lǐng)域得到了廣泛的應(yīng)用。本文將深入解讀PyTorch模型

發(fā)表于 07-03 16:07 ?543次閱讀

深度學(xué)習(xí)模型訓(xùn)練過程詳解

深度學(xué)習(xí)模型訓(xùn)練是一個復(fù)雜且關(guān)鍵的過程，它涉及大量的數(shù)據(jù)、計算資源和精心設(shè)計的算法。訓(xùn)練一

發(fā)表于 07-01 16:13 ?488次閱讀

大語言模型：原理與工程時間+小白初識大語言模型

的分布式表示，基于預(yù)訓(xùn)練的詞嵌入表示。獨熱表示就是在一個大的向量空間中，其中一個位1，其余都為

發(fā)表于 05-12 23:57

【大語言模型：原理與工程實踐】大語言模型的預(yù)訓(xùn)練

進(jìn)行損失計算，得到下一個目標(biāo)的預(yù)測。也會設(shè)計一些其他輔助訓(xùn)練任務(wù)，與主任務(wù)共同訓(xùn)練。選擇合適的預(yù)訓(xùn)練

發(fā)表于 05-07 17:10

【大語言模型：原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

就無法修改，因此難以靈活應(yīng)用于下游文本的挖掘中。詞嵌入表示：將每個詞映射為一個低維稠密的實值向量。不同的是，基于預(yù)訓(xùn)練的詞嵌入表示先在語料庫中利用某種語言

發(fā)表于 05-05 12:17

【大語言模型：原理與工程實踐】核心技術(shù)綜述

的具體需求，這通常需要較少量的標(biāo)注數(shù)據(jù)。多任務(wù)學(xué)習(xí)和遷移學(xué)習(xí): LLMs利用在預(yù)訓(xùn)練中積累的知識，可以通過遷移學(xué)習(xí)在相關(guān)任務(wù)上快速適應(yīng)，有時還可以在一個

發(fā)表于 05-05 10:56

谷歌模型訓(xùn)練軟件有哪些功能和作用

谷歌模型訓(xùn)練軟件主要是指ELECTRA，這是一種新的預(yù)訓(xùn)練方法，源自谷歌AI。ELECTRA不僅擁有BERT的優(yōu)勢，而且在效率上更勝

發(fā)表于 02-29 17:37 ?640次閱讀

Kaggle知識點：訓(xùn)練神經(jīng)網(wǎng)絡(luò)的7個技巧

科學(xué)神經(jīng)網(wǎng)絡(luò)模型使用隨機(jī)梯度下降進(jìn)行訓(xùn)練，模型權(quán)重使用反向傳播算法進(jìn)行更新。通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型解決的優(yōu)化問題非常具有挑戰(zhàn)性，盡管這些算法在

發(fā)表于 12-30 08:27 ?544次閱讀

在一個系統(tǒng)中，包含了dsp和pld，請問布線時要注意哪些問題呢？

在一個系統(tǒng)中，包含了dsp和pld，請問布線時要注意哪些問題呢？在設(shè)計和布線系統(tǒng)中同時包含DSP（數(shù)字信號處理器）和PLD（可編程邏輯器件）時，有

發(fā)表于 11-24 14:44 ?396次閱讀

基于OpenVINO C++ API部署RT-DETR模型

RT-DETR 是在 DETR 模型基礎(chǔ)上進(jìn)行改進(jìn)的，一種基于 DETR 架構(gòu)的實時端到端檢測器，它通過使用一系列新的技術(shù)和算法，實現(xiàn)了更高效的訓(xùn)練和推理，在前文我們發(fā)表了《基于 Op

發(fā)表于 11-03 14:30 ?642次閱讀

華為提出Sorted LLaMA：SoFT代替SFT，訓(xùn)練多合一大語言模型

而這一切的背后，是一項名為Sorted Fine-Tuning（SoFT）的新訓(xùn)練技術(shù)。SoFT讓我們可以在一個

發(fā)表于 09-26 16:26 ?713次閱讀

搜索歷史

只需一個API，包含了27個預(yù)訓(xùn)練模型

評論

如何訓(xùn)練一個有效的eIQ基本分類模型

預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

大語言模型的預(yù)訓(xùn)練

預(yù)訓(xùn)練模型的基本原理和應(yīng)用

解讀PyTorch模型訓(xùn)練過程

深度學(xué)習(xí)模型訓(xùn)練過程詳解

大語言模型：原理與工程時間+小白初識大語言模型

【大語言模型：原理與工程實踐】大語言模型的預(yù)訓(xùn)練

【大語言模型：原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

【大語言模型：原理與工程實踐】核心技術(shù)綜述

谷歌模型訓(xùn)練軟件有哪些功能和作用

Kaggle知識點：訓(xùn)練神經(jīng)網(wǎng)絡(luò)的7個技巧

在一個系統(tǒng)中，包含了dsp和pld，請問布線時要注意哪些問題呢？

基于OpenVINO C++ API部署RT-DETR模型

華為提出Sorted LLaMA：SoFT代替SFT，訓(xùn)練多合一大語言模型

搜索歷史

只需一個API，包含了27個預(yù)訓(xùn)練模型

評論

只需一個API，包含了27個預(yù)訓(xùn)練模型