0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么是BERT?為何選擇BERT?

NVIDIA英偉達(dá) ? 來(lái)源:NVIDIA英偉達(dá) ? 作者:NVIDIA英偉達(dá) ? 2022-04-26 14:24 ? 次閱讀

BERT 是由 Google 開(kāi)發(fā)的自然語(yǔ)言處理模型,可學(xué)習(xí)文本的雙向表示,顯著提升在情境中理解許多不同任務(wù)中的無(wú)標(biāo)記文本的能力。

BERT 是整個(gè)類(lèi) BERT 模型(例如 RoBERTa、ALBERT 和 DistilBERT)系列的基礎(chǔ)。

什么是 BERT?

基于 Transformer (變換器)的雙向編碼器表示 (BERT) 技術(shù)由 Google 開(kāi)發(fā),通過(guò)在所有層中共同調(diào)整左右情境,利用無(wú)標(biāo)記文本預(yù)先訓(xùn)練深度雙向表示。該技術(shù)于 2018 年以開(kāi)源許可的形式發(fā)布。Google 稱(chēng) BERT 為“第一個(gè)深度雙向、無(wú)監(jiān)督式語(yǔ)言表示,僅使用純文本語(yǔ)料庫(kù)預(yù)先進(jìn)行了訓(xùn)練”(Devlin et al. 2018)。

雙向模型在自然語(yǔ)言處理 (NLP) 領(lǐng)域早已有應(yīng)用。這些模型涉及從左到右以及從右到左兩種文本查看順序。BERT 的創(chuàng)新之處在于借助 Transformer 學(xué)習(xí)雙向表示,Transformer 是一種深度學(xué)習(xí)組件,不同于遞歸神經(jīng)網(wǎng)絡(luò) (RNN) 對(duì)順序的依賴(lài)性,它能夠并行處理整個(gè)序列。因此可以分析規(guī)模更大的數(shù)據(jù)集,并加快模型訓(xùn)練速度。Transformer 能夠使用注意力機(jī)制收集詞語(yǔ)相關(guān)情境的信息,并以表示該情境的豐富向量進(jìn)行編碼,從而同時(shí)處理(而非單獨(dú)處理)與句中所有其他詞語(yǔ)相關(guān)的詞語(yǔ)。該模型能夠?qū)W習(xí)如何從句段中的每個(gè)其他詞語(yǔ)衍生出給定詞語(yǔ)的含義。

之前的詞嵌入技術(shù)(如 GloVe 和 Word2vec)在沒(méi)有情境的情況下運(yùn)行,生成序列中各個(gè)詞語(yǔ)的表示。例如,無(wú)論是指運(yùn)動(dòng)裝備還是夜行動(dòng)物,“bat”一詞都會(huì)以同樣的方式表示。ELMo 通過(guò)雙向長(zhǎng)短期記憶模型 (LSTM),對(duì)句中的每個(gè)詞語(yǔ)引入了基于句中其他詞語(yǔ)的深度情景化表示。但 ELMo 與 BERT 不同,它單獨(dú)考慮從左到右和從右到左的路徑,而不是將其視為整個(gè)情境的單一統(tǒng)一視圖。

由于絕大多數(shù) BERT 參數(shù)專(zhuān)門(mén)用于創(chuàng)建高質(zhì)量情境化詞嵌入,因此該框架非常適用于遷移學(xué)習(xí)。通過(guò)使用語(yǔ)言建模等自我監(jiān)督任務(wù)(不需要人工標(biāo)注的任務(wù))訓(xùn)練 BERT,可以利用 WikiText 和 BookCorpus 等大型無(wú)標(biāo)記數(shù)據(jù)集,這些數(shù)據(jù)集包含超過(guò) 33 億個(gè)詞語(yǔ)。要學(xué)習(xí)其他任務(wù)(如問(wèn)答),可以使用適合相應(yīng)任務(wù)的內(nèi)容替換并微調(diào)最后一層。

下圖中的箭頭表示三個(gè)不同 NLP 模型中從一層到下一層的信息流。

a4d2ac5c-c3be-11ec-bce3-dac502259ad0.png

BERT 模型能夠更精細(xì)地理解表達(dá)的細(xì)微差別。例如,處理序列“Bob 需要一些藥。他的胃不舒服,可以給他拿一些抗酸藥嗎?” BERT 能更好地理解 “Bob”、“他的”和“他”都是指同一個(gè)人。以前,在“如何填寫(xiě) Bob 的處方”這一查詢(xún)中,模型可能無(wú)法理解第二句話(huà)引用的人是 Bob。應(yīng)用 BERT 模型后,該模型能夠理解所有這些關(guān)聯(lián)點(diǎn)之間的關(guān)系。

雙向訓(xùn)練很難實(shí)現(xiàn),因?yàn)槟J(rèn)情況下,在前一個(gè)詞語(yǔ)和下一個(gè)詞語(yǔ)的基礎(chǔ)上調(diào)節(jié)每個(gè)詞都包括多層模型中預(yù)測(cè)的詞語(yǔ)。BERT 的開(kāi)發(fā)者通過(guò)遮蔽語(yǔ)料庫(kù)中的預(yù)測(cè)詞語(yǔ)和其他隨機(jī)詞語(yǔ)解決了這個(gè)問(wèn)題。BERT 還使用一種簡(jiǎn)單的訓(xùn)練技術(shù),嘗試預(yù)測(cè)給定的兩個(gè)句子 A 和 B:B 和 A 是先后還是隨機(jī)關(guān)系。

為何選擇 BERT?

自然語(yǔ)言處理是當(dāng)今許多商業(yè)人工智能研究的中心。例如,除搜索引擎外,NLP 還用在了數(shù)字助手、自動(dòng)電話(huà)響應(yīng)和車(chē)輛導(dǎo)航領(lǐng)域。BERT 是一項(xiàng)顛覆性技術(shù),它提供基于大型數(shù)據(jù)集訓(xùn)練的單一模型,而且已經(jīng)證實(shí)該模型能夠在各種 NLP 任務(wù)中取得突破性成果。

BERT 的開(kāi)發(fā)者表示,模型應(yīng)用范圍很廣(包括解答問(wèn)題和語(yǔ)言推理),而且無(wú)需對(duì)任務(wù)所需的具體架構(gòu)做出大量修改。BERT 不需要使用標(biāo)記好的數(shù)據(jù)預(yù)先進(jìn)行訓(xùn)練,因此可以使用任何純文本進(jìn)行學(xué)習(xí)。

主要優(yōu)勢(shì)(用例)

BERT 可以針對(duì)許多 NLP 任務(wù)進(jìn)行微調(diào)。它是翻譯、問(wèn)答、情感分析和句子分類(lèi)等語(yǔ)言理解任務(wù)的理想之選。

目標(biāo)式搜索

雖然如今的搜索引擎能夠非常出色地理解人們要尋找的內(nèi)容(在人們使用正確查詢(xún)格式的前提下),但仍可以通過(guò)很多方式改善搜索體驗(yàn)。對(duì)于語(yǔ)法能力差或不懂得搜索引擎提供商所用語(yǔ)言的人員而言,體驗(yàn)可能令人不快。搜索引擎還經(jīng)常需要用戶(hù)嘗試同一查詢(xún)的不同變體,才能查詢(xún)到理想結(jié)果。

用戶(hù)每天在 Google 上執(zhí)行 35 億次搜索,搜索體驗(yàn)改進(jìn)后,一天就可以減少 10% 的搜索量,長(zhǎng)期累積下來(lái)將大幅節(jié)省時(shí)間、帶寬和服務(wù)器資源。從業(yè)務(wù)角度來(lái)看,它還使搜索提供商能夠更好地了解用戶(hù)行為,并投放更具針對(duì)性的廣告。

通過(guò)幫助非技術(shù)用戶(hù)更準(zhǔn)確地檢索信息,并減少因查詢(xún)格式錯(cuò)誤帶來(lái)的錯(cuò)誤,可以更好地理解自然語(yǔ)言,從而提高數(shù)據(jù)分析和商業(yè)智能工具的效果。

輔助性導(dǎo)航

在美國(guó),超過(guò)八分之一的人有殘疾,而且許多人在物理和網(wǎng)絡(luò)空間中導(dǎo)航的能力受到了限制。對(duì)于必須使用語(yǔ)音來(lái)控制輪椅、與網(wǎng)站交互和操作周?chē)O(shè)備的人員而言,自然語(yǔ)言處理是生活必需品。通過(guò)提高對(duì)語(yǔ)音命令的響應(yīng)能力,BERT 等技術(shù)可以提高生活質(zhì)量,甚至可以在需要快速響應(yīng)環(huán)境的情況下提高人身安全。

BERT 的重要意義

機(jī)器學(xué)習(xí)研究人員

BERT 在自然語(yǔ)言處理方面引發(fā)的變革等同于計(jì)算機(jī)視覺(jué)領(lǐng)域的 AlexNet,在該領(lǐng)域具有顯著的革命性意義。僅需替換網(wǎng)絡(luò)的最后一層,便可針對(duì)一些新任務(wù)定制網(wǎng)絡(luò),這項(xiàng)功能意味著用戶(hù)可輕松將其應(yīng)用于任何感興趣的研究領(lǐng)域。無(wú)論用戶(hù)的目標(biāo)是翻譯、情感分析還是執(zhí)行一些尚未提出的新任務(wù),都可以快速配置網(wǎng)絡(luò)以進(jìn)行嘗試。截至目前,有關(guān)該模型的引文超過(guò) 8000 篇,其衍生用例不斷證明該模型在處理語(yǔ)言任務(wù)方面的先進(jìn)水平。

軟件開(kāi)發(fā)者

由于針對(duì)大型數(shù)據(jù)集預(yù)先訓(xùn)練過(guò)的模型的廣泛可用性,BERT 大大減少了先進(jìn)模型在投入生產(chǎn)時(shí)受到的計(jì)算限制。此外,將 BERT 及其衍生項(xiàng)納入知名庫(kù)(如 Hugging Face)意味著,機(jī)器學(xué)習(xí)專(zhuān)家不需要啟動(dòng)和運(yùn)行基礎(chǔ)模型了。

BERT 在自然語(yǔ)言解讀方面達(dá)到了新的里程碑,與其他模型相比展現(xiàn)了更強(qiáng)大的功能,能夠理解更復(fù)雜的人類(lèi)語(yǔ)音并能更精確地回答問(wèn)題。

BERT 為何可在 GPU 上表現(xiàn)更突出

對(duì)話(huà)式 AI 是人類(lèi)與智能機(jī)器和應(yīng)用程序(從機(jī)器人和汽車(chē)到家庭助手和移動(dòng)應(yīng)用)互動(dòng)的基礎(chǔ)構(gòu)建塊。讓計(jì)算機(jī)理解人類(lèi)語(yǔ)言及所有細(xì)微差別,并做出適當(dāng)?shù)姆磻?yīng),這是 AI 研究人員長(zhǎng)期以來(lái)的追求。但是,在采用加速計(jì)算的現(xiàn)代 AI 技術(shù)出現(xiàn)之前,構(gòu)建具有真正自然語(yǔ)言處理 (NLP) 功能的系統(tǒng)是無(wú)法實(shí)現(xiàn)的。

BERT 在采用 NVIDIA GPU 的超級(jí)計(jì)算機(jī)上運(yùn)行,以訓(xùn)練其龐大的神經(jīng)網(wǎng)絡(luò)并實(shí)現(xiàn)超高的 NLP 準(zhǔn)確性,從而影響已知的人類(lèi)語(yǔ)言理解領(lǐng)域。雖然目前有許多自然語(yǔ)言處理方法,但讓 AI 具有類(lèi)似人類(lèi)的語(yǔ)言能力仍然是難以實(shí)現(xiàn)的目標(biāo)。隨著 BERT 等基于 Transformer 的大規(guī)模語(yǔ)言模型的出現(xiàn),以及 GPU 成為這些先進(jìn)模型的基礎(chǔ)設(shè)施平臺(tái),我們看到困難的語(yǔ)言理解任務(wù)快速取得了進(jìn)展。數(shù)十年來(lái),這種 AI 一直備受期待。有了 BERT,這一刻終于到來(lái)了。

模型復(fù)雜性提升了 NLP 準(zhǔn)確性,而規(guī)模更大的語(yǔ)言模型可顯著提升問(wèn)答、對(duì)話(huà)系統(tǒng)、總結(jié)和文章完結(jié)等自然語(yǔ)言處理 (NLP) 應(yīng)用程序的技術(shù)水平。BERT-Base 使用 1.1 億個(gè)參數(shù)創(chuàng)建而成,而擴(kuò)展的 BERT-Large 模型涉及 3.4 億個(gè)參數(shù)。訓(xùn)練高度并行化,因此可以有效利用 GPU 上的分布式處理。BERT 模型已證明能夠有效擴(kuò)展為 39 億個(gè)參數(shù)的 Megatron-BERT 等大規(guī)模模型。

BERT 的復(fù)雜性以及訓(xùn)練大量數(shù)據(jù)集方面的需求對(duì)性能提出了很高的要求。這種組合需要可靠的計(jì)算平臺(tái)來(lái)處理所有必要的計(jì)算,以實(shí)現(xiàn)快速執(zhí)行并提高準(zhǔn)確性。這些模型可以處理大量無(wú)標(biāo)記數(shù)據(jù)集,因此成為了現(xiàn)代 NLP 的創(chuàng)新中心,另外在很多用例中,對(duì)于即將推出的采用對(duì)話(huà)式 AI 應(yīng)用程序的智能助手而言,這些模型都是上佳之選。

NVIDIA 平臺(tái)提供可編程性,可以加速各種不同的現(xiàn)代 AI,包括基于 Transformer 的模型。此外,數(shù)據(jù)中心擴(kuò)展設(shè)計(jì)加上軟件庫(kù),以及對(duì)先進(jìn) AI 框架的直接支持,為承擔(dān)艱巨 NLP 任務(wù)的開(kāi)發(fā)者提供無(wú)縫的端到端平臺(tái)。

在使用 NVIDIA 的 DGX SuperPOD 系統(tǒng)(基于連接了 HDR InfiniBand 的大規(guī)模 DGX A100 GPU 服務(wù)器集群)進(jìn)行的一項(xiàng)測(cè)試中,NVIDIA 使用 MLPerf Training v0.7 基準(zhǔn)實(shí)現(xiàn)了 0.81 分鐘的 BERT 訓(xùn)練時(shí)間,創(chuàng)造了記錄。相比之下,Google 的 TPUv3 在同一測(cè)試中所用時(shí)間超過(guò)了 56 分鐘。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3574

    瀏覽量

    133983
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    4632

    瀏覽量

    71892
  • 自然語(yǔ)言處理
    +關(guān)注

    關(guān)注

    1

    文章

    600

    瀏覽量

    13484

原文標(biāo)題:NVIDIA 大講堂 | 什么是 BERT ?

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    TAS5421的參考設(shè)計(jì)中,BOM表給出的470pF緩沖電容耐壓值為何選擇250V換成50V的耐壓值可以嗎?

    TAS5421的參考設(shè)計(jì)中,BOM表給出的470pF緩沖電容耐壓值為何選擇250V,換成50V的耐壓值可以嗎?
    發(fā)表于 10-12 08:53

    內(nèi)置誤碼率測(cè)試儀(BERT)和采樣示波器一體化測(cè)試儀器安立MP2110A

    BERTWave MP2110A是一款內(nèi)置誤碼率測(cè)試儀(BERT)和采用示波器的一體化測(cè)量?jī)x器,支持光模塊的誤碼率(BERT)測(cè)量、眼圖模式測(cè)試、眼圖分析等評(píng)估操作
    的頭像 發(fā)表于 09-23 14:34 ?214次閱讀
    內(nèi)置誤碼率測(cè)試儀(<b class='flag-5'>BERT</b>)和采樣示波器一體化測(cè)試儀器安立MP2110A

    M8020A J-BERT 高性能比特誤碼率測(cè)試儀

    M8020A 比特誤碼率測(cè)試儀 J-BERT M8020A 高性能 BERT 產(chǎn)品綜述 Keysight J-BERT M8020A 高性能比特誤碼率測(cè)試儀能夠快速、準(zhǔn)確地表征傳輸速率高達(dá) 16 或
    的頭像 發(fā)表于 08-21 17:13 ?160次閱讀

    AWG和BERT常見(jiàn)問(wèn)題解答

    隨著信號(hào)的速率越來(lái)越高,調(diào)制格式越來(lái)越復(fù)雜,對(duì)測(cè)試儀器的性能要求也越來(lái)越高。是德科技也一直在推出業(yè)界領(lǐng)先的高帶寬、高采樣率的AWG和高性能的BERT
    的頭像 發(fā)表于 08-06 17:27 ?472次閱讀

    llm模型有哪些格式

    : 基于Transformer的模型 Transformer是一種基于自注意力機(jī)制的模型,廣泛應(yīng)用于NLP領(lǐng)域?;赥ransformer的LLM模型包括: a. BERT(Bidirectional Encoder
    的頭像 發(fā)表于 07-09 09:59 ?518次閱讀

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    模型架構(gòu)奠定基礎(chǔ)。然后,引介一些經(jīng)典的預(yù)訓(xùn)練模型,如BERT、GPT等。最后,解讀ChatGPT和LLaMA系列模型,幫助讀者初步感知大語(yǔ)言模型。文本主要由詞序列構(gòu)成,詞是自然語(yǔ)言處理的基本單元。文本
    發(fā)表于 05-05 12:17

    斯坦福繼Flash Attention V1和V2又推出Flash Decoding

    斯坦福大學(xué)此前提出的FlashAttention算法,能夠在BERT-large訓(xùn)練中節(jié)省15%,將GPT訓(xùn)練速度提高2/3。
    的頭像 發(fā)表于 03-13 15:23 ?709次閱讀

    谷歌模型訓(xùn)練軟件有哪些功能和作用

    谷歌模型訓(xùn)練軟件主要是指ELECTRA,這是一種新的預(yù)訓(xùn)練方法,源自谷歌AI。ELECTRA不僅擁有BERT的優(yōu)勢(shì),而且在效率上更勝一籌。
    的頭像 發(fā)表于 02-29 17:37 ?727次閱讀

    谷歌大型模型終于開(kāi)放源代碼,遲到但重要的開(kāi)源戰(zhàn)略

    在人工智能領(lǐng)域,谷歌可以算是開(kāi)源的鼻祖。今天幾乎所有的大語(yǔ)言模型,都基于谷歌在 2017 年發(fā)布的 Transformer 論文;谷歌的發(fā)布的 BERT、T5,都是最早的一批開(kāi)源 AI 模型。
    發(fā)表于 02-22 18:14 ?403次閱讀
    谷歌大型模型終于開(kāi)放源代碼,遲到但重要的開(kāi)源戰(zhàn)略

    只修改一個(gè)關(guān)鍵參數(shù),就會(huì)毀了整個(gè)百億參數(shù)大模型?

    2022 年開(kāi)始,我們發(fā)現(xiàn) Multilingual BERT 是一個(gè)經(jīng)過(guò)大規(guī)??缯Z(yǔ)言訓(xùn)練驗(yàn)證的模型實(shí)例,其展示出了優(yōu)異的跨語(yǔ)言遷移能力。具
    的頭像 發(fā)表于 02-20 14:51 ?671次閱讀
    只修改一個(gè)關(guān)鍵參數(shù),就會(huì)毀了整個(gè)百億參數(shù)大模型?

    模型與人類(lèi)的注意力視角下參數(shù)規(guī)模擴(kuò)大與指令微調(diào)對(duì)模型語(yǔ)言理解的作用

    近期的大語(yǔ)言模型(LLM)在自然語(yǔ)言理解和生成上展現(xiàn)出了接近人類(lèi)的強(qiáng)大能力,遠(yuǎn)遠(yuǎn)優(yōu)于先前的BERT等預(yù)訓(xùn)練模型(PLM)。
    的頭像 發(fā)表于 01-04 14:06 ?415次閱讀
    模型與人類(lèi)的注意力視角下參數(shù)規(guī)模擴(kuò)大與指令微調(diào)對(duì)模型語(yǔ)言理解的作用

    ChatGPT是一個(gè)好的因果推理器嗎?

    因果推理能力對(duì)于許多自然語(yǔ)言處理(NLP)應(yīng)用至關(guān)重要。最近的因果推理系統(tǒng)主要基于經(jīng)過(guò)微調(diào)的預(yù)訓(xùn)練語(yǔ)言模型(PLMs),如BERT [1] 和RoBERTa [2]。
    的頭像 發(fā)表于 01-03 09:55 ?798次閱讀
    ChatGPT是一個(gè)好的因果推理器嗎?

    大語(yǔ)言模型背后的Transformer,與CNN和RNN有何不同

    (Google)研究團(tuán)隊(duì)提出,主要用于處理自然語(yǔ)言。 2018年10月,Google發(fā)出一篇論文《BERT: Pre-training of Deep Bidirectional Transformers
    的頭像 發(fā)表于 12-25 08:36 ?3651次閱讀
    大語(yǔ)言模型背后的Transformer,與CNN和RNN有何不同

    深入理解BigBird的塊稀疏高效實(shí)現(xiàn)方案

    使用 BigBird。但是,在更深入之前,一定記住 BigBird 注意力只是 BERT 完全注意力的一個(gè)近似,因此我們并不糾結(jié)于讓它比 BERT 完全注意力 更好,而是致力于讓它更有效率。
    的頭像 發(fā)表于 11-29 11:02 ?518次閱讀
    深入理解BigBird的塊稀疏高效實(shí)現(xiàn)方案

    500篇論文!最全代碼大模型綜述

    經(jīng)典 Transformer 使用不可學(xué)習(xí)的余弦編碼,加在模型底層的詞向量輸入上。GPT、BERT將其改為可學(xué)習(xí)的絕對(duì)位置編碼,并沿用到了RoBERTa、BART、GPT-2、GPT-3等經(jīng)典模型。
    的頭像 發(fā)表于 11-17 17:31 ?1233次閱讀