哈工大訊飛聯(lián)合實驗室發(fā)布的中文ELECTRA系列預(yù)訓(xùn)練模型再迎新成員。我們基于大規(guī)模法律文本訓(xùn)練出中文法律領(lǐng)域ELECTRA系列模型,并且在法律領(lǐng)域自然語言處理任務(wù)中獲得了顯著性能提升。歡迎各位讀者下載試用相關(guān)模型。
項目地址:http://electra.hfl-rc.com
中文法律領(lǐng)域ELECTRA
我們在20G版(原版)中文ELECTRA的基礎(chǔ)上加入了高質(zhì)量2000萬裁判文書數(shù)據(jù)進(jìn)行了二次預(yù)訓(xùn)練,在不丟失大規(guī)模通用數(shù)據(jù)上學(xué)習(xí)到的語義信息,同時使模型對法律文本更加適配。本次發(fā)布以下三個模型:
legal-ELECTRA-large, Chinese:24-layer,1024-hidden, 16-heads, 324M parameters
legal-ELECTRA-base, Chinese:12-layer,768-hidden, 12-heads, 102M parameters
legal-ELECTRA-small, Chinese: 12-layer, 256-hidden, 4-heads, 12M parameters
快速加載
哈工大訊飛聯(lián)合實驗室發(fā)布的所有中文預(yù)訓(xùn)練語言模型均可通過huggingface transformers庫進(jìn)行快速加載訪問,請登錄我們的共享頁面獲取更多信息。
https://huggingface.co/HFL
模型鍵值如下:
hfl/chinese-legal-electra-large-discriminator
hfl/chinese-legal-electra-large-generator
hfl/chinese-legal-electra-base-discriminator
hfl/chinese-legal-electra-base-generator
hfl/chinese-legal-electra-small-discriminator
hfl/chinese-legal-electra-small-generator
效果評測
我們在罪名預(yù)測以及要素抽取任務(wù)上進(jìn)行了基線測試。其中罪名預(yù)測任務(wù)使用的是CAIL 2018數(shù)據(jù),要素抽取任務(wù)為in-house實際應(yīng)用。可以看到本次發(fā)布的法律領(lǐng)域ELECTRA模型均相比通用ELECTRA模型獲得了顯著性能提升。
表1罪名預(yù)測任務(wù)
表2要素抽取任務(wù)
其他相關(guān)資源
TextBrewer知識蒸餾工具
http://textbrewer.hfl-rc.com
中文BERT、RoBERTa、RBT系列模型
http://bert.hfl-rc.com
中文XLNet系列模型
http://xlnet.hfl-rc.com
中文MacBERT模型
http://macbert.hfl-rc.com
責(zé)任編輯:xj
原文標(biāo)題:哈工大訊飛聯(lián)合實驗室發(fā)布法律領(lǐng)域ELECTRA預(yù)訓(xùn)練模型
文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
算法
+關(guān)注
關(guān)注
23文章
4587瀏覽量
92503 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5463瀏覽量
120890 -
訓(xùn)練模型
+關(guān)注
關(guān)注
1文章
35瀏覽量
3794
原文標(biāo)題:哈工大訊飛聯(lián)合實驗室發(fā)布法律領(lǐng)域ELECTRA預(yù)訓(xùn)練模型
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論