0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NLP大模型必備-FudanNLP開(kāi)源中文圖書(shū)集合CBook-150K

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:FudanNLP ? 2023-04-25 11:41 ? 次閱讀

為了助力大模型研究,復(fù)旦大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室開(kāi)源了中文圖書(shū)數(shù)據(jù)集合CBook-150K,包含15萬(wàn)本中文圖書(shū)的下載和抽取方法,涵蓋人文、教育、科技、軍事、政治等眾多領(lǐng)域。

當(dāng)前很多研究表明,高質(zhì)量數(shù)據(jù)對(duì)于訓(xùn)練大規(guī)模語(yǔ)言模型具有至關(guān)重要的作用。圖書(shū)中的內(nèi)容在質(zhì)量、專業(yè)水準(zhǔn)、可靠性等方面遠(yuǎn)高于互聯(lián)網(wǎng)數(shù)據(jù)。OpenAI在訓(xùn)練GPT 3時(shí),也使用了大量圖書(shū)資源。但是目前還缺乏大規(guī)模的中文圖書(shū)開(kāi)放集合。此外,由于絕大多數(shù)電子書(shū)籍的保存方式為PDF格式,從其中抽取文本內(nèi)容也需要分析工具支持。復(fù)旦大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室結(jié)合此前自主開(kāi)發(fā)的相關(guān)PDF分析工具,開(kāi)源了中文語(yǔ)料圖書(shū)集合CBook-150K。

復(fù)旦大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室,自2019年起,自研了PDF處理工具DocAI,針對(duì)非掃描件PDF,具有能夠處理復(fù)雜格式、高效、高準(zhǔn)確率、可私有化部署等特點(diǎn)。DocAI在全CPU解決方案下,單核CPU處理100頁(yè)文檔僅需10秒。提取字符準(zhǔn)確率100%,結(jié)構(gòu)分析準(zhǔn)確率95%。DocAI智能文檔解析系統(tǒng)支持對(duì)DOC、PDF等常見(jiàn)電子文檔進(jìn)行智能解析,對(duì)文檔中的標(biāo)題、段落、表格等半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化分析還原。該應(yīng)用場(chǎng)景具有文件類型多,格式復(fù)雜,兼容性要求高等特點(diǎn),特別是對(duì)于跨頁(yè)表格,多欄排版等復(fù)雜場(chǎng)景的支持。是目前支持段落、表格融合識(shí)別的為數(shù)不多的智能文檔解析工具之一。DodAI不依賴第三方資源,支持離線環(huán)境下的私有化部署和使用,確保文檔隱私與安全。

b3e29316-dce4-11ed-bfe3-dac502259ad0.png

b3fa4fe2-dce4-11ed-bfe3-dac502259ad0.png

結(jié)合DocAI工具以及搜索引擎,復(fù)旦大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室從互聯(lián)網(wǎng)中篩選了大量中文圖書(shū)資源鏈接,并構(gòu)造了內(nèi)容抽取算法,助力廣大學(xué)者NLP大模型研究,同時(shí)也在實(shí)踐與操作中不斷迭代更新,完善大型語(yǔ)料庫(kù)的部署。

下載鏈接:

https://github.com/FudanNLPLAB/CBook-150K

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 開(kāi)源
    +關(guān)注

    關(guān)注

    3

    文章

    3218

    瀏覽量

    42329
  • 自然語(yǔ)言處理
    +關(guān)注

    關(guān)注

    1

    文章

    600

    瀏覽量

    13484
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    486

    瀏覽量

    21987

原文標(biāo)題:NLP大模型必備-FudanNLP開(kāi)源中文圖書(shū)集合CBook-150K

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    科技云報(bào)到:假開(kāi)源真噱頭?開(kāi)源模型和你想的不一樣!

    查看、修改、分發(fā)。開(kāi)源自此深刻影響了互聯(lián)網(wǎng)行業(yè)的每一個(gè)角落。 在大模型和GenAI崛起的當(dāng)下,開(kāi)源再次成為業(yè)界關(guān)注焦點(diǎn),對(duì)于開(kāi)源和閉源的爭(zhēng)論也久久未能平息。然而,大
    的頭像 發(fā)表于 11-03 10:46 ?142次閱讀

    搭建開(kāi)源大語(yǔ)言模型服務(wù)的方法

    本文我們將總結(jié)5種搭建開(kāi)源大語(yǔ)言模型服務(wù)的方法,每種都附帶詳細(xì)的操作步驟,以及各自的優(yōu)缺點(diǎn)。
    的頭像 發(fā)表于 10-29 09:17 ?111次閱讀

    Llama 3 與開(kāi)源AI模型的關(guān)系

    在人工智能(AI)的快速發(fā)展中,開(kāi)源AI模型扮演著越來(lái)越重要的角色。它們不僅推動(dòng)了技術(shù)的創(chuàng)新,還促進(jìn)了全球開(kāi)發(fā)者社區(qū)的合作。Llama 3,作為一個(gè)新興的AI項(xiàng)目,與開(kāi)源AI模型的關(guān)系
    的頭像 發(fā)表于 10-27 14:42 ?290次閱讀

    nlp邏輯層次模型的特點(diǎn)

    NLP(自然語(yǔ)言處理)邏輯層次模型是一種用于理解和生成自然語(yǔ)言文本的計(jì)算模型。它將自然語(yǔ)言文本分解為不同的層次,以便于計(jì)算機(jī)更好地處理和理解。以下是對(duì)NLP邏輯層次
    的頭像 發(fā)表于 07-09 10:39 ?297次閱讀

    nlp神經(jīng)語(yǔ)言和NLP自然語(yǔ)言的區(qū)別和聯(lián)系

    神經(jīng)語(yǔ)言(Neuro-Linguistic Programming,NLP) 神經(jīng)語(yǔ)言是一種心理學(xué)方法,它研究人類思維、語(yǔ)言和行為之間的關(guān)系。NLP的核心理念是,我們可以通過(guò)改變我們的思維方式和語(yǔ)言
    的頭像 發(fā)表于 07-09 10:35 ?679次閱讀

    nlp自然語(yǔ)言處理基本概念及關(guān)鍵技術(shù)

    、問(wèn)答系統(tǒng)、文本摘要等眾多領(lǐng)域有著廣泛的應(yīng)用。 1. NLP的基本概念 1.1 語(yǔ)言模型 語(yǔ)言模型NLP的基礎(chǔ),它用于描述一個(gè)句子在自然語(yǔ)言中出現(xiàn)的概率。語(yǔ)言
    的頭像 發(fā)表于 07-09 10:32 ?472次閱讀

    llm模型有哪些格式

    LLM(Large Language Model,大型語(yǔ)言模型)是一種深度學(xué)習(xí)模型,主要用于處理自然語(yǔ)言處理(NLP)任務(wù)。LLM模型的格式多種多樣,以下是一些常見(jiàn)的LLM
    的頭像 發(fā)表于 07-09 09:59 ?518次閱讀

    nlp自然語(yǔ)言處理模型怎么做

    的進(jìn)展。本文將詳細(xì)介紹NLP模型的構(gòu)建過(guò)程,包括數(shù)據(jù)預(yù)處理、模型選擇、訓(xùn)練與優(yōu)化等方面。 數(shù)據(jù)預(yù)處理 數(shù)據(jù)預(yù)處理是NLP模型構(gòu)建的第一步,其
    的頭像 發(fā)表于 07-05 09:59 ?495次閱讀

    nlp自然語(yǔ)言處理模型有哪些

    自然語(yǔ)言處理(Natural Language Processing,NLP)是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的一個(gè)重要分支,旨在使計(jì)算機(jī)能夠理解、解釋和生成人類語(yǔ)言。以下是對(duì)NLP領(lǐng)域一些模型的介紹
    的頭像 發(fā)表于 07-05 09:57 ?578次閱讀

    NLP模型中RNN與CNN的選擇

    在自然語(yǔ)言處理(NLP)領(lǐng)域,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與卷積神經(jīng)網(wǎng)絡(luò)(CNN)是兩種極為重要且廣泛應(yīng)用的網(wǎng)絡(luò)結(jié)構(gòu)。它們各自具有獨(dú)特的優(yōu)勢(shì),適用于處理不同類型的NLP任務(wù)。本文旨在深入探討RNN與CNN
    的頭像 發(fā)表于 07-03 15:59 ?374次閱讀

    通義千問(wèn)開(kāi)源千億級(jí)參數(shù)模型

    通義千問(wèn)近日開(kāi)源了其首個(gè)千億級(jí)參數(shù)模型Qwen1.5-110B,這是其全系列中首個(gè)達(dá)到千億級(jí)別的開(kāi)源模型。Qwen1.5-110B模型繼承了
    的頭像 發(fā)表于 05-08 11:01 ?683次閱讀

    通義千問(wèn)推出1100億參數(shù)開(kāi)源模型

    通義千問(wèn)近日震撼發(fā)布1100億參數(shù)的開(kāi)源模型Qwen1.5-110B,這一舉措標(biāo)志著通義千問(wèn)在AI領(lǐng)域邁出了重大步伐。該模型成為通義千問(wèn)全系列首個(gè)千億級(jí)參數(shù)開(kāi)源
    的頭像 發(fā)表于 05-06 10:49 ?540次閱讀

    模型開(kāi)源開(kāi)放評(píng)測(cè)體系司南正式發(fā)布

    近日,大模型開(kāi)源開(kāi)放評(píng)測(cè)體系司南(OpenCompass2.0)正式發(fā)布,旨在為大語(yǔ)言模型、多模態(tài)模型等各類模型提供一站式評(píng)測(cè)服務(wù)。Open
    的頭像 發(fā)表于 02-05 11:28 ?985次閱讀

    Meta發(fā)布CodeLlama70B開(kāi)源模型

    Meta發(fā)布CodeLlama70B開(kāi)源模型 Meta發(fā)布了開(kāi)源模型CodeLlama70B,號(hào)稱是CodeLlama系列體量最大、性能最強(qiáng)的大
    的頭像 發(fā)表于 01-31 10:30 ?1346次閱讀

    機(jī)器人基于開(kāi)源的多模態(tài)語(yǔ)言視覺(jué)大模型

    ByteDance Research 基于開(kāi)源的多模態(tài)語(yǔ)言視覺(jué)大模型 OpenFlamingo 開(kāi)發(fā)了開(kāi)源、易用的 RoboFlamingo 機(jī)器人操作模型,只用單機(jī)就可以訓(xùn)練。
    發(fā)表于 01-19 11:43 ?352次閱讀
    機(jī)器人基于<b class='flag-5'>開(kāi)源</b>的多模態(tài)語(yǔ)言視覺(jué)大<b class='flag-5'>模型</b>