老牛影院无码精品,99在线精品视频在线观看,亚洲综合国产成人丁香五月

在2020年初開始的新冠病毒蔓延影響下，NLPCC 2020采取線上+線下的會議方式，線上線下共繳費注冊496人，其中現(xiàn)場參會總人數(shù)達372人，線上參會人數(shù)124人，另有15個贊助單位參展。匯聚了眾多國內外NLP領域的知名學者。本次會議總投稿數(shù)是445篇，會議有效投稿404篇。其中，主會有效總投稿377篇，Workshop有效投稿27篇。在主會377篇有效投稿中，英文論文315篇，中文論文62篇；接收Oral論文83篇，其中英文論文70篇，中文論文13篇，錄用率為22%；接收Poster 論文30篇。Workshop共計錄取14篇論文。在本次會議上評選出最佳論文、最佳學生論文各1篇，并進行了頒獎儀式。來自清華大學朱小燕、黃民烈團隊的王義達作為一作發(fā)表的《A Large-Scale Chinese Short-Text Conversation Dataset》獲得了最佳學生論文，以下是王義達本人對獲獎論文的親自解讀。

基于Transformer的大規(guī)模預訓練語言模型極大地促進了開放領域對話的研究進展。然而目前這一技術在中文對話領域并未被廣泛應用，主要原因在于目前缺乏大規(guī)模高質量的中文對話開源數(shù)據。為了推動中文對話領域的研究，彌補中文對話語料不足這一問題，我們發(fā)布了一個包含1200萬對話的大規(guī)模中文對話數(shù)據集LCCC，并開源了在LCCC上預訓練的大規(guī)模中文對話生成模型CDial-GPT。開源地址：https://github.com/thu-coai/CDial-GPT 1

LCCC數(shù)據集的構建

LCCC（Large-scale Cleaned Chinese Conversation）數(shù)據集有LCCC-base與LCCC-large兩個版本，其中LCCC-base和LCCC-large中各包含6.8M和12M對話。這些數(shù)據是從79M原始對話數(shù)據中經過嚴格清洗得到的，也是目前所開源的規(guī)模最大、清洗最嚴格的中文對話數(shù)據集。

表1. 被過濾掉的噪音數(shù)據開放領域對話數(shù)據的構建通常有三種方式：1、抽取劇本對話；2、人工眾包構建對話；3、爬取社交媒體上用戶的交流記錄。使用第一種方式構建的對話在內容上依賴于特定劇情和場景，與日常對話有較大差異。使用第二種方式構建的對話質量最高，但是由于人力成本過高，無法使用這一方式構建大規(guī)模數(shù)據集。使用第三種方式可以較為廉價地獲取大規(guī)模對話數(shù)據，因此LCCC數(shù)據集中的原始數(shù)據主要使用第三種方式收集。我們同時注意到，來自社交媒體的對話數(shù)據中存在各種各樣的噪音（表1），為了保證LCCC中對話數(shù)據的質量，我們設計了如下數(shù)據獲取和清洗策略：

1. 數(shù)據獲取我們的數(shù)據獲取流程分為兩個階段。在第一個階段，我們挑選了微博上由專業(yè)媒體團隊運營的新聞媒體賬號，然后收集了一批在這些新聞媒體下留言互動的活躍用戶。在第二個階段中，我們收集了這些活躍用戶微博下的留言互動，并將其作為我們的原始數(shù)據。微博下的留言回復一般以一個樹形結構展開，我們將這一樹形回復結構中每一條從根節(jié)點到葉子節(jié)點的路徑作為一個完整對話，最終共收集到了79M對話數(shù)據。

2. 數(shù)據清洗為了保證數(shù)據質量，我們對收集到的原始對話數(shù)據進行了兩個階段的清洗。第一階段的清洗主要基于手工規(guī)則。這一階段的主要目的是為了過濾掉對話數(shù)據中的明顯噪聲，如臟話、特殊符號、病句、復讀機句式、廣告、違法暴力信息等。在這一階段中，我們花費了數(shù)周時間使用人工排查的方式優(yōu)化規(guī)則。

第二階段的清洗主要基于分類器過濾。在這一階段中，我們基于BERT訓練了兩個文本分類器，第一個分類器主要用于甄別那些無法通過規(guī)則檢測的噪音，如：1、語義模糊、語法錯亂或有嚴重拼寫錯誤的語句；2、時效性太強的對話；3、與上下文語義不相關的回復。第二個分類器主要用于甄別那些需要依賴額外上下文信息，如圖片或視頻等，才能理解的對話。這兩個分類器均使用人工標注數(shù)據訓練，我們?yōu)槠錁俗⒘斯灿?1萬對話數(shù)據，最終的分類器在人工標注的測試集上分別達到了73.76%和77.60%的準確率。我們通過F1-score選擇閾值來過濾得到高質量的對話數(shù)據。

表2. 數(shù)據統(tǒng)計信息，左側為LCCC-base，右側為LCCC-large 最終我們基于上述原始對話數(shù)據過濾得到了6.8M高質量的對話數(shù)據LCCC-base。此外，我們還收集了目前已公開的其他對話數(shù)據，并使用同樣的清洗流程，結合LCCC-base構造了包含12M對話的數(shù)據集LCCC-large。表2展示了這兩個數(shù)據集中單輪對話和多輪對話的詳細統(tǒng)計信息。 2

中文對話預訓練模型CDial-GPT

為促進中文對話預訓練模型的發(fā)展，我們基于LCCC數(shù)據集預訓練了大規(guī)模中文對話生成模型CDial-GPT。該模型的訓練過程包含兩個階段，首先，我們在總計5億字符、包含各類題材的小說數(shù)據上訓練得到了一個中文小說GPT預訓練模型，然后在該模型的基礎上，我們使用LCCC中的對話數(shù)據繼續(xù)對模型進行訓練，最終得到了中文對話預訓練模型CDial-GPT。

圖1. 輸入編碼示例該模型擁有12層Transformer結構，我們按字分詞，字典大小13088，字向量維度768，最長上下文長度為513。我們沿用TransferTransfo的方式對對話進行建模，即把對話歷史拼接為長文本，并使用段分割向量加以區(qū)分。具體來說：我們使用[CLS]字符標志文本起始，在段落后使用[SEP]字符表示段落結束，在段落中對相鄰輪次對話使用[speaker1]、[speaker2]交替分割，并在segment embedding中使用[speaker1]、[speaker2]進行編碼。圖1為輸入數(shù)據示例。 3

模型效果評測

為了評估對話預訓練模型的質量，我們在440萬規(guī)模的中文對話數(shù)據集STC上對其進行了評測實驗，并對比了現(xiàn)有的中文對話預訓練模型和一些經典的非預訓練對話模型。我們主要通過PPL這一指標來反映模型的擬合能力，PPL越低表示模型的擬合能力越強。我們通過基于n-gram重合度的指標BLEU和基于Embedding相似度的指標Greedy Matching 和Embedding Average來衡量對話回復與真實回復的相關性，并通過Dist-n指標來衡量生成回復的多樣性。實驗結果展示在表3中?？梢钥吹轿覀兊哪Ｐ驮诮^大多數(shù)指標上達到了最好的效果。由于自動指標無法完全反映生成對話的質量，于是我們對各模型生成的對話進行了人工評測。

表3. 自動指標評估

表4. 人工評價在人工評測中我們主要考慮3個方面：1、語法性，也就是生成語句的流暢性；2、相關性，即生成語句與對話上文的相關性；3、信息量，即生成結果自身含有的信息量。具體來說，不符合語法性或與對話上文不相關的生成結果我們給予0分；語句流暢、和對話上文相關但信息量不足的生成結果給予1分；語句流暢、和對話上文相關并且信息量充足的生成結果給予2分，我們將人工評測結果展示在表4中。實驗結果顯示，我們的預訓練模型擁有出色的生成質量，可以在生成信息量充足的回復的同時，保持較高的流暢性與相關性，優(yōu)于其他基線模型，一些生成例子展示在表5，6中。

表5. 人機交互示例（左）和模型互相交互示例（右）

表6.在STC微調的生成結果示例目前CDial-GPT模型以及LCCC數(shù)據集都已公開，我們提供了訓練以及微調代碼，可以方便地應用于各種數(shù)據和下游任務上。

責任編輯：xj

原文標題：一作解讀NLPCC最佳學生論文：1200萬中文對話數(shù)據和預訓練模型CDial-GPT

文章出處：【微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

數(shù)據

數(shù)據

+關注

關注
8

文章
6808

瀏覽量
88743
nlp

nlp

+關注

關注
1

文章
484

瀏覽量
21987
訓練模型

訓練模型

+關注

關注
1

文章
35

瀏覽量
3794

原文標題：一作解讀NLPCC最佳學生論文：1200萬中文對話數(shù)據和預訓練模型CDial-GPT

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

AI大模型的訓練數(shù)據來源分析

AI大模型的訓練數(shù)據來源廣泛且多元化，這些數(shù)據源對于構建和優(yōu)化AI模型至關重要。以下是對AI大模型

發(fā)表于 10-23 15:32 ?313次閱讀

直播預約 |數(shù)據智能系列講座第4期：預訓練的基礎模型下的持續(xù)學習

鷺島論壇數(shù)據智能系列講座第4期「預訓練的基礎模型下的持續(xù)學習」10月30日（周三）20：00精彩開播期待與您云相聚，共襄學術盛宴！|直播信息報告題目

發(fā)表于 10-18 08:09 ?134次閱讀

蘋果揭示AI新動向:Apple Intelligence模型在谷歌云端芯片上預訓練

蘋果公司在最新的技術論文中披露了一項重要信息，其全新的人工智能系統(tǒng)Apple Intelligence所依賴的模型并非傳統(tǒng)上大型科技公司首選的NVIDIA GPU，而是選擇了在谷歌設計的云端芯片上進行預

發(fā)表于 07-30 15:00 ?468次閱讀

預訓練和遷移學習的區(qū)別和聯(lián)系

預訓練和遷移學習是深度學習和機器學習領域中的兩個重要概念，它們在提高模型性能、減少訓練時間和降低對數(shù)據量的需求方面發(fā)揮著關鍵作用。本文將從定

發(fā)表于 07-11 10:12 ?717次閱讀

大語言模型的預訓練

能力，逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這一技術發(fā)展的關鍵步驟，它通過在海量無標簽數(shù)據上進行訓練，使

發(fā)表于 07-11 10:11 ?365次閱讀

LLM預訓練的基本概念、基本原理和主要優(yōu)勢

在人工智能和自然語言處理（NLP）領域，大型語言模型（Large Language Model，簡稱LLM）的興起極大地推動了技術的進步和應用的發(fā)展。LLM通過在大規(guī)模文本數(shù)據上進行預訓練

發(fā)表于 07-10 11:03 ?929次閱讀

人臉識別模型訓練流程

人臉識別模型訓練流程是計算機視覺領域中的一項重要技術。本文將詳細介紹人臉識別模型的訓練流程，包括數(shù)據準備、

發(fā)表于 07-04 09:19 ?756次閱讀

預訓練模型的基本原理和應用

預訓練模型（Pre-trained Model）是深度學習和機器學習領域中的一個重要概念，尤其是在自然語言處理（NLP）和計算機視覺（CV）等領域中得到了廣泛應用。預

發(fā)表于 07-03 18:20 ?2120次閱讀

解讀PyTorch模型訓練過程

PyTorch作為一個開源的機器學習庫，以其動態(tài)計算圖、易于使用的API和強大的靈活性，在深度學習領域得到了廣泛的應用。本文將深入解讀PyTorch模型訓練的全過程，包括數(shù)據準備、

發(fā)表于 07-03 16:07 ?846次閱讀

PyTorch如何訓練自己的數(shù)據集

的數(shù)據集。本文將深入解讀如何使用PyTorch訓練自己的數(shù)據集，包括數(shù)據準備、模型定義、

發(fā)表于 07-02 14:09 ?1177次閱讀

大語言模型：原理與工程時間+小白初識大語言模型

解鎖我理解的是基于深度學習，需要訓練各種數(shù)據知識最后生成自己的的語言理解和能力的交互模型。對于常說的RNN是處理短序列的數(shù)據時表現(xiàn)出色，耳真正厲害的是Transformer，此框架

發(fā)表于 05-12 23:57

【大語言模型：原理與工程實踐】大語言模型的預訓練

增長。DeepMind在相關論文中指出，模型大小和訓練Token數(shù)應以相似速率增長，以確保最佳性能。因此，構建與模型規(guī)模相匹配的

發(fā)表于 05-07 17:10

【大語言模型：原理與工程實踐】大語言模型的基礎技術

模型架構奠定基礎。然后，引介一些經典的預訓練模型，如BERT、GPT等。最后，解讀ChatGPT和LLaMA系列

發(fā)表于 05-05 12:17

【大語言模型：原理與工程實踐】核心技術綜述

其預訓練和微調，直到模型的部署和性能評估。以下是對這些技術的綜述：模型架構: LLMs通常采用深層的神經網絡架構，最常見的是Transformer網絡，它包含多個自注意力層，能夠捕

發(fā)表于 05-05 10:56

谷歌模型訓練軟件有哪些功能和作用

谷歌模型訓練軟件主要是指ELECTRA，這是一種新的預訓練方法，源自谷歌AI。ELECTRA不僅擁有BERT的優(yōu)勢，而且在效率上更勝一籌。

發(fā)表于 02-29 17:37 ?727次閱讀

搜索歷史

解讀NLPCC最佳學生論文：數(shù)據和預訓練模型

評論

AI大模型的訓練數(shù)據來源分析

直播預約 |數(shù)據智能系列講座第4期：預訓練的基礎模型下的持續(xù)學習

蘋果揭示AI新動向:Apple Intelligence模型在谷歌云端芯片上預訓練

預訓練和遷移學習的區(qū)別和聯(lián)系

大語言模型的預訓練

LLM預訓練的基本概念、基本原理和主要優(yōu)勢

人臉識別模型訓練流程

預訓練模型的基本原理和應用

解讀PyTorch模型訓練過程

PyTorch如何訓練自己的數(shù)據集

大語言模型：原理與工程時間+小白初識大語言模型

【大語言模型：原理與工程實踐】大語言模型的預訓練

【大語言模型：原理與工程實踐】大語言模型的基礎技術

【大語言模型：原理與工程實踐】核心技術綜述

谷歌模型訓練軟件有哪些功能和作用