无码亚洲一本aa午夜在线,日本一区视频在线观看,久草视频在线看

作者劉煥勇，語言學(xué)碩士，目前就職于中國科學(xué)院軟件研究所，主要從事信息抽取，知識(shí)圖譜，情感分析, 社會(huì)計(jì)算等自然語言處理研發(fā)工作，興趣包括：語言資源構(gòu)建、信息抽取與知識(shí)圖譜、輿情監(jiān)測(cè)與社會(huì)計(jì)算。

本項(xiàng)目包含中文自然語言處理的語料集合，包括語義詞、領(lǐng)域共時(shí)、歷時(shí)語料庫、評(píng)測(cè)語料庫等。本項(xiàng)目簡(jiǎn)單談?wù)勛约簩?duì)語言資源的感想以及目前自己進(jìn)行語言資源構(gòu)建的現(xiàn)狀。

介紹

語言資源，本身是一個(gè)寬泛的概念，即語言+資源，語言指的是資源的限定域，資源=資+源，是資料的來源或者匯總，加在一起，也就形成了這樣一種界定：任何語言單位形成的集合，都可以稱為語言資源。語言資源是自然語言處理任務(wù)中的一個(gè)必不可少的組成部分，一方面語言資源是相關(guān)語言處理任務(wù)的支撐，為語言處理任務(wù)提供先驗(yàn)知識(shí)進(jìn)行輔助，另一方面，語言處理任務(wù)也為語言資源提出了需求，并能夠?qū)φZ言資源的搭建、擴(kuò)充起到技術(shù)性的支持作用。因此，隨著自然語言處理技術(shù)的不斷發(fā)展，自然語言處理需求在各個(gè)領(lǐng)域的不斷擴(kuò)張、應(yīng)用，相關(guān)語言資源的構(gòu)建占據(jù)了越來越為重要的地位。作者在碩士期間所在的研究機(jī)構(gòu)為國家語言資源監(jiān)測(cè)與研究平面媒體中心，深受導(dǎo)師所傳授的語言資源觀影響，畢業(yè)后在實(shí)際的學(xué)習(xí)、工作過程中，動(dòng)手實(shí)踐，形成了自己的一些淺薄的語言資源認(rèn)識(shí)，現(xiàn)在寫出來，供大家一起討論，主要介紹一些自己對(duì)語言資源的搜索，搭建過程中的一些心得以及自己目前在語言資源建設(shè)上的一些工作。

語言資源的分類

介紹中說到，任何語言單位的集合都可以稱為語言資源，比如我有一個(gè)個(gè)人的口頭禪集合，這個(gè)就可以稱為一個(gè)語言資源庫，在你實(shí)際生活中進(jìn)行言語活動(dòng)時(shí)，你其實(shí)就在使用這個(gè)語言資源庫。再比如說，一個(gè)班級(jí)中的學(xué)生名單，其實(shí)也可以當(dāng)作是一種語言資源，這個(gè)語言資源在進(jìn)行班級(jí)學(xué)生點(diǎn)名、考核的時(shí)候也大有幫助。當(dāng)然，此處所討論的語言資源是從自然語言處理應(yīng)用的角度上出發(fā)的?？偟膩碚f，我把它歸為以下兩種類型：

1、領(lǐng)域語料庫

領(lǐng)域語料庫，是從語料的這個(gè)角度來講的，這里的語料，界定成文本級(jí)別（以自然語句為基礎(chǔ)級(jí)別形成的文本集合，即可以是句子、段落、篇章等）。領(lǐng)域語料庫，可以根據(jù)不同的劃分規(guī)則而形成不同的語料類別：

1）根據(jù)所屬領(lǐng)域，可以進(jìn)一步細(xì)化成不同領(lǐng)域的語料庫。包括金融領(lǐng)域語料、醫(yī)藥領(lǐng)域語料、教育領(lǐng)域語料、文學(xué)領(lǐng)域語料等等。

2）根據(jù)所屬目的，可以進(jìn)一步細(xì)化為：評(píng)測(cè)語料（為自然語言處理技術(shù)pk而人工構(gòu)造的一些評(píng)測(cè)語料，如ACE,MUC等國際評(píng)測(cè)中所出現(xiàn)的如semeval2014,snli等）；工具語料（指供自然語言處理技術(shù)提供資源支撐的語料）

3）根據(jù)語料加工程度的不同，可進(jìn)一步分為：熟語料（指在自然語言單位上添加人工的標(biāo)簽標(biāo)注，如經(jīng)過分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、依存句法標(biāo)注形成的語料），生語料（指直接收集而未經(jīng)加工形成的語言資源集，如常見的微博語料，新聞?wù)Z料等）

4）根據(jù)語料語種的不同，可進(jìn)一步分為：?jiǎn)握Z語料和多語語料，多語語料指的是平行語料，常見于機(jī)器翻譯任務(wù)中的雙語對(duì)齊語料（漢-阿平行語料庫，漢-英平行語料庫）等。

5）根據(jù)語料規(guī)模的不同，可以進(jìn)一步分為：小型語料庫，中型語料庫，大型語料庫。至于小型、中型、大型的界定，可根據(jù)實(shí)際領(lǐng)域語料的規(guī)模而動(dòng)態(tài)調(diào)整。

2、領(lǐng)域詞庫

領(lǐng)域詞庫，指以句級(jí)以下語言單位形成的語言資源庫，這個(gè)層級(jí)的語言單位可以是筆畫、偏旁部首、字、詞、短語等。同樣的，領(lǐng)域詞庫也可以進(jìn)一步細(xì)分。

1）領(lǐng)域特征詞庫。這里所說的領(lǐng)域特征詞庫，指的是與領(lǐng)域強(qiáng)相關(guān)，具有領(lǐng)域區(qū)別能力形成的詞語集合，如體育領(lǐng)域中常見的“籃球”、“足球”等詞，文學(xué)領(lǐng)域常見的“令狐沖”、“魯迅”等詞，又如敏感詞庫等，這些詞常?？勺鳛榉诸愄卣鞫嬖凇?/p>

2）語法語義詞庫。語義詞庫的側(cè)重點(diǎn)在與語言的語法層面和語義層面：

語法詞庫：北大的語法信息詞典，北大的實(shí)體概念詞典、Hownet語義詞典這三類詞典，這幾個(gè)語法詞庫，在對(duì)詞的語法功能上都做了不同的工作，對(duì)詞的內(nèi)部結(jié)構(gòu)信息進(jìn)行了詳細(xì)的標(biāo)注，如北大的語法信息詞典，以詞類為劃分標(biāo)準(zhǔn)講漢語的常用詞進(jìn)行了劃分，并對(duì)詞性、搭配（前接成分和后接成分）進(jìn)行了詳細(xì)的標(biāo)注；Hownet語義詞典從義項(xiàng)的角度對(duì)詞的義元進(jìn)行了分解和注釋。

語義詞庫：這類語義詞，側(cè)重點(diǎn)不在詞語的內(nèi)部語法結(jié)構(gòu)，而在詞語的整體語義上。這類詞庫，常見的詞庫有哈工大發(fā)布的同義詞詞林?jǐn)U展版，這個(gè)詞庫將同義詞按照語義的相近程度進(jìn)行了不同層次的聚類，可以作為同義詞擴(kuò)展提供幫助。另一個(gè)是情感分析任務(wù)中常用的情感詞典，這類詞典主要公開的詞典包括大連理工大學(xué)信息檢索實(shí)驗(yàn)室公開的情感本體詞庫、hownet、香港中文大學(xué)、***清華大學(xué)公開的情感詞庫（具體包括情感詞庫、否定詞庫、強(qiáng)度詞庫）等。另外，工業(yè)界，有boson公開的微博情感詞庫（詞的規(guī)模比較大，但標(biāo)注信息不是很精準(zhǔn)）。還有的，則是中文的反義詞庫等，這個(gè)可以參考我的github項(xiàng)目，里面對(duì)這些詞庫也有一些涉及。

語言資源的問題

語言資源的搭建，指的是語言資源的整個(gè)搭建過程。其實(shí)是要解決四個(gè)問題，一個(gè)是語言資源的收集問題；二是語言資源的融合標(biāo)準(zhǔn)化問題；三是語言資源的動(dòng)態(tài)更新問題；四是語言資源的共享與聯(lián)盟問題。下面就這四點(diǎn)展開闡述：

1、語言資源收集的問題。語言資源搜索過程中有三步走策略，在這個(gè)步驟完成之后，會(huì)得到一系列的詞庫。這些詞庫可能初期不會(huì)特別完善，往往還需要人工使用啟發(fā)式規(guī)則進(jìn)行人工去噪的工作。

2、語言資源的融合標(biāo)準(zhǔn)化問題。通過不同方式收集起來的語言資源，往往會(huì)存在一個(gè)格式不對(duì)稱的問題，這有點(diǎn)像知識(shí)圖譜中的知識(shí)融合問題。因此，為了解決這個(gè)問題，我們通常需要制定一個(gè)標(biāo)準(zhǔn)化的語言資源格式，例如，在構(gòu)建情感詞表的過程當(dāng)中，有的情感詞表沒有強(qiáng)度標(biāo)記，有的強(qiáng)度值范圍不一樣，有的情感詞表的標(biāo)記不一，這個(gè)時(shí)候往往需要標(biāo)準(zhǔn)化，給定一個(gè)標(biāo)準(zhǔn)化的樣式，再將不同來源的情感詞按照這個(gè)標(biāo)記做相應(yīng)的調(diào)整。我在實(shí)際的工作過程中，常常把這種問題類別成知識(shí)圖譜構(gòu)建過程中的schema搭建問題，信息抽取過程中的slot-definition問題。先把規(guī)范和標(biāo)準(zhǔn)搭好，再去統(tǒng)一標(biāo)準(zhǔn)化。

3、語言資源的動(dòng)態(tài)更新問題。知識(shí)和信息的價(jià)值，在很大程度上都在于它的一種實(shí)時(shí)性，語言資源作為一種常識(shí)性知識(shí)庫，能夠保證自身的一種與時(shí)俱進(jìn)，將能夠最大限度地發(fā)揮自身的價(jià)值。而從實(shí)踐的角度上來說，語言資源的動(dòng)態(tài)更新，可以靠人工去維持，去動(dòng)態(tài)及時(shí)更新，也可以建立一種動(dòng)態(tài)監(jiān)測(cè)和更新機(jī)制，讓機(jī)器自動(dòng)地去更新。這類其實(shí)可以參考知識(shí)圖譜更新的相關(guān)工作。

4、語言資源的共享與聯(lián)盟問題。語言資源是否共享，其實(shí)是一個(gè)與業(yè)務(wù)敏感以及開源意識(shí)想結(jié)合的一種決策，有的資源因?yàn)槟撤N業(yè)務(wù)敏感或者開源意識(shí)不夠open而無法共享，當(dāng)然還有其他因素成分在，不過，語言資源最好是需要共享的，這樣能夠最大力度的發(fā)揮語言資源在各個(gè)領(lǐng)域的應(yīng)用。語言資源的聯(lián)盟問題，更像是對(duì)開源語言資源的一種鏈接與互聯(lián)。這類問題是對(duì)當(dāng)前的資源零散、碎片化問題的一個(gè)思考，前面也說到，目前情感分析的詞表有很多個(gè)，語法和語義詞庫也有很多個(gè)，但每個(gè)人在構(gòu)建時(shí)的出發(fā)點(diǎn)不同，構(gòu)建者也分布在不同的高校或機(jī)構(gòu)當(dāng)中，這些資源雖然在個(gè)數(shù)上會(huì)有增長(zhǎng)，但隨著時(shí)間的推移，這種零散化的現(xiàn)象將會(huì)越來越嚴(yán)重。

語言資源的實(shí)踐

本項(xiàng)目以采集公開的人民日?qǐng)?bào)與參考消息為例進(jìn)行歷時(shí)的新聞采集為例, 公開網(wǎng)站中公開了1946-2003年的人民日?qǐng)?bào)語料,1957-2002年的參考消息語料, 采集這種具有長(zhǎng)遠(yuǎn)歷史信息的語料對(duì)于歷史人文研究以及語言演變有重大意義,本項(xiàng)目放在newspaper目錄下。

運(yùn)行方式: scrapy crawl travel

主要函數(shù)包括:

classTravelSpider(scrapy.Spider):name='travel''''資訊采集主控函數(shù)'''defstart_requests(self):Data=BuildData()date_list=Data.create_dates()fordateindate_list:print(date)date_url='http://www.laoziliao.net/ckxx/%s'%dateparam={'url':date_url,'date':date}yieldscrapy.Request(url=date_url,meta=param,callback=self.get_urllist,dont_filter=True)'''獲取頁面新聞列表'''defget_urllist(self,response):selector=etree.HTML(response.text)date_url=response.meta['url']urls=[i.split('#')[0]foriinselector.xpath('//ul/li/a/@href')ifdate_urlini]forurlinset(urls):param={'url':url,'date':response.meta['date']}yieldscrapy.Request(url=url,meta=param,callback=self.page_parser,dont_filter=True)'''新聞字段內(nèi)容解析'''defpage_parser(self,response):selector=etree.HTML(response.text)articles=selector.xpath('//div[@class="article"]')titles=selector.xpath('//h2/text()')contents=[]forarticleinarticles:content=article.xpath('string(.)')contents.append(content)papers=zip(titles,contents)foriinpapers:item=TravelspiderItem()item['url']=response.meta['url']item['date']=response.meta['date']item['title']=i[0]item['content']=i[1]yielditemreturn

語言資源構(gòu)建現(xiàn)狀

作者在學(xué)習(xí)和工作之余，根據(jù)語言資源搭建策略，構(gòu)建起了語義詞庫、領(lǐng)域詞庫、領(lǐng)域語料庫、評(píng)測(cè)語料庫。種類約53種，具體如下：

語義知識(shí)庫

領(lǐng)域詞庫

領(lǐng)域語料庫

評(píng)測(cè)語料庫

總結(jié)

1、本項(xiàng)目闡述了語言資源的相關(guān)感想，并給出了目前語言資源的構(gòu)建現(xiàn)狀，目前為止收集了四個(gè)大類共53小類的語言資源數(shù)據(jù)集。

2、本項(xiàng)目中所涉及到的報(bào)告內(nèi)容均來源于網(wǎng)上公開資源，對(duì)此免責(zé)聲明。

3、如果有需要用到以上作者收集到的這些語料庫，可以聯(lián)系作者獲取。

4、自然語言處理，是人工智能皇冠上的一顆明珠，懂語言者得天下，語言資源在自然語言處理中扮演著舉足輕重的作用，懂語言資源者，分得天下。目前開放的網(wǎng)絡(luò)環(huán)境，對(duì)語言資源的大繁榮提供了很大的契機(jī)。語言資源構(gòu)建是一門學(xué)問，也是一種手段，現(xiàn)在自然語言處理技術(shù)也對(duì)語言資源的構(gòu)建提供了技術(shù)上的支持，如何把握語言資源搜索策略，搭建策略，重點(diǎn)解決語言資源的動(dòng)態(tài)更新、共享與聯(lián)盟問題，將是語言資源建設(shè)未來需要解決的問題。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1200

瀏覽量
24621
自然語言處理

自然語言處理

+關(guān)注

關(guān)注
1

文章
600

瀏覽量
13485
nlp

nlp

+關(guān)注

關(guān)注
1

文章
486

瀏覽量
21987

原文標(biāo)題：最全NLP語料資源集合及其構(gòu)建現(xiàn)狀

文章出處：【微信號(hào)：rgznai100，微信公眾號(hào)：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

自然語言處理與機(jī)器學(xué)習(xí)的區(qū)別

在人工智能的快速發(fā)展中，自然語言處理（NLP）和機(jī)器學(xué)習(xí)（ML）成為了兩個(gè)核心的研究領(lǐng)域。它們都致力于解決復(fù)雜的問題，但側(cè)重點(diǎn)和應(yīng)用場(chǎng)景有所不同。 1. 自然語言處理（NLP）定義：

發(fā)表于 11-11 10:35 ?151次閱讀

AI智能化問答：自然語言處理技術(shù)的重要應(yīng)用

自然語言處理（NLP）是人工智能領(lǐng)域的一個(gè)重要分支，它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類語言。問答系統(tǒng)作為NLP的一個(gè)重要應(yīng)用，能夠精確地解析用戶以自然語言提出的問題，并從包含豐富

發(fā)表于 10-12 10:58 ?280次閱讀

AI智能化問答：<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>技術(shù)的重要應(yīng)用

圖像識(shí)別技術(shù)包括自然語言處理嗎

圖像識(shí)別技術(shù)與自然語言處理是人工智能領(lǐng)域的兩個(gè)重要分支，它們?cè)诤芏喾矫嬗兄芮械穆?lián)系，但也存在一些區(qū)別。一、圖像識(shí)別技術(shù)與自然語言處理的關(guān)系 1.1 圖像識(shí)別技術(shù)的定義圖像識(shí)別技術(shù)

發(fā)表于 07-16 10:54 ?582次閱讀

Transformer架構(gòu)在自然語言處理中的應(yīng)用

隨著人工智能技術(shù)的飛速發(fā)展，自然語言處理（NLP）領(lǐng)域取得了顯著的進(jìn)步。其中，Transformer架構(gòu)的提出，為NLP領(lǐng)域帶來了革命性的變革。本文將深入探討Transformer架構(gòu)的核心思想、組成部分以及在自然語言

發(fā)表于 07-09 11:42 ?667次閱讀

nlp自然語言處理框架有哪些

自然語言處理（Natural Language Processing，簡(jiǎn)稱NLP）是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的一個(gè)重要分支，它致力于使計(jì)算機(jī)能夠理解和處理人類語言。隨著技術(shù)的發(fā)展，NL

發(fā)表于 07-09 10:28 ?467次閱讀

nlp自然語言處理模型怎么做

自然語言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能領(lǐng)域的一個(gè)重要分支，它涉及到計(jì)算機(jī)對(duì)人類語言的理解和生成。隨著深度學(xué)習(xí)技術(shù)的發(fā)展，NLP領(lǐng)域取得了顯著

發(fā)表于 07-05 09:59 ?498次閱讀

自然語言處理技術(shù)有哪些

自然語言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能領(lǐng)域的一個(gè)分支，它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類語言。自然語言

發(fā)表于 07-03 14:30 ?902次閱讀

自然語言處理模式的優(yōu)點(diǎn)

自然語言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能領(lǐng)域的一個(gè)重要分支，它致力于使計(jì)算機(jī)能夠理解、生成和處理人類語言。隨著技術(shù)的發(fā)展，

發(fā)表于 07-03 14:24 ?625次閱讀

自然語言處理技術(shù)的核心是什么

自然語言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能領(lǐng)域的一個(gè)重要分支，其核心目標(biāo)是使計(jì)算機(jī)能夠理解、生成和處理人類語言。NLP技術(shù)的發(fā)展已經(jīng)取

發(fā)表于 07-03 14:20 ?502次閱讀

自然語言處理是什么技術(shù)的一種應(yīng)用

自然語言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能和語言學(xué)領(lǐng)域的一個(gè)分支，它涉及到使用計(jì)算機(jī)技術(shù)來處理、分析和生成

發(fā)表于 07-03 14:18 ?558次閱讀

自然語言處理包括哪些內(nèi)容

自然語言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能領(lǐng)域的一個(gè)重要分支，它涉及到計(jì)算機(jī)與人類語言之間的交互。NLP的目標(biāo)是讓計(jì)算機(jī)能夠理解、生成和處理

發(fā)表于 07-03 14:15 ?678次閱讀

自然語言處理屬于人工智能的哪個(gè)領(lǐng)域

自然語言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能（Artificial Intelligence，簡(jiǎn)稱AI）領(lǐng)域的一個(gè)重要分支。它涉及到計(jì)算機(jī)與人類語言

發(fā)表于 07-03 14:09 ?1039次閱讀

什么是自然語言處理 (NLP)

自然語言處理（Natural Language Processing, NLP）是人工智能領(lǐng)域中的一個(gè)重要分支，它專注于構(gòu)建能夠理解和生成人類語言的計(jì)算機(jī)系統(tǒng)。NLP的目標(biāo)是使計(jì)算機(jī)能

發(fā)表于 07-02 18:16 ?885次閱讀

自然語言處理技術(shù)的原理的應(yīng)用

自然語言處理（Natural Language Processing, NLP）作為人工智能（AI）領(lǐng)域的一個(gè)重要分支，旨在使計(jì)算機(jī)能夠理解和處理人類自然語言。隨著互聯(lián)網(wǎng)的普及和大數(shù)據(jù)

發(fā)表于 07-02 12:50 ?406次閱讀

神經(jīng)網(wǎng)絡(luò)在自然語言處理中的應(yīng)用

自然語言處理（NLP）是人工智能領(lǐng)域中的一個(gè)重要分支，它研究的是如何使計(jì)算機(jī)能夠理解和生成人類自然語言。隨著人工智能技術(shù)的飛速發(fā)展，神經(jīng)網(wǎng)絡(luò)在自然語言

發(fā)表于 07-01 14:09 ?416次閱讀

搜索歷史

中文自然語言處理的語料集合及其構(gòu)建現(xiàn)狀