久久久久国产视频,人人澡96,国产AV无码专区亚洲AV琪琪

自然語(yǔ)言處理（NLP）是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。隨著深度學(xué)習(xí)在圖像識(shí)別、語(yǔ)音識(shí)別領(lǐng)域的大放異彩，人們對(duì)深度學(xué)習(xí)在NLP的價(jià)值也寄予厚望。自然語(yǔ)言處理作為人工智能領(lǐng)域的認(rèn)知智能，成為目前大家關(guān)注的焦點(diǎn)。

基本概念

自然語(yǔ)言處理既是一門技術(shù)也是一門學(xué)科。

自然語(yǔ)言指人類使用的語(yǔ)言，如漢語(yǔ)、英語(yǔ)等

語(yǔ)言是思維的載體，是人類交流的工具

語(yǔ)言的兩種屬性：文字和聲音

人類歷史上以文字形式記載和流傳的知識(shí)占80%以上。

自然語(yǔ)言處理的定義：

"自然語(yǔ)言處理又稱為自然語(yǔ)言理解，就是利用計(jì)算機(jī)為工具對(duì)人類特有的書面形式和又頭形式的自然語(yǔ)言的信息進(jìn)行各種類型處理和加工的技術(shù)。” —— 馮志偉《自然語(yǔ)言的計(jì)算機(jī)處理》

研究的基本問題

1. 語(yǔ)音學(xué)

語(yǔ)音學(xué)(Phonetics)問題：研究詞及其語(yǔ)音的關(guān)聯(lián)

2. 形態(tài)學(xué)

形態(tài)學(xué)(Morphology)問題:研究詞是如何由有意義的基本單位-詞素(Morphemes)構(gòu)詞的。

詞素是從詞或者詞干的直接成分的角度來(lái)確定的音義結(jié)合體。字和詞素不是一一對(duì)應(yīng)的：

有的漢字實(shí)際上代表不同的詞素。如“副”這個(gè)字代表多種詞素：“第二的、次級(jí)的”、“相配、相稱”、某種計(jì)量單位。

同一詞素可以由不同的漢字來(lái)表示。如：“來(lái)吧”中的“吧”可以由“罷”代替。

有些漢字在某些場(chǎng)合屬于詞素，某些場(chǎng)合不是。如：“沙”在“泥沙”里面是詞素，在“沙發(fā)”里面不代表意義。詞素與詞的關(guān)系是“詞素的功能是構(gòu)詞詞”。

詞素構(gòu)詞有兩種情況：

一個(gè)詞素單獨(dú)構(gòu)詞一個(gè)詞。如:人、魚、書、蜈蚣等。

兩個(gè)或兩個(gè)以上的詞素構(gòu)詞一個(gè)詞。如：人+民，機(jī)+器等。

3. 語(yǔ)法學(xué)

語(yǔ)法學(xué)(Syntax)問題：研究句子結(jié)構(gòu)成分之間的相互關(guān)系和組成句子的序列。

為什么一句話可以這么說也可以那么說?

4. 語(yǔ)義學(xué)

語(yǔ)義學(xué)(Sementics)問題：研究如何從一個(gè)語(yǔ)句中詞的意義，以及這些詞在該語(yǔ)句中句法結(jié)構(gòu)中的作用來(lái)推導(dǎo)出該語(yǔ)句的意義。

下面的話說了什么?

蘋果不吃了

這個(gè)人真牛

火燒圓明園/火燒驢肉

5. 語(yǔ)用學(xué)

語(yǔ)用學(xué)(Pragmatics)問題：研究在不同上下文中的語(yǔ)句的應(yīng)用，以及上下文對(duì)語(yǔ)句理解所產(chǎn)生的影響。從狹義的語(yǔ)言學(xué)觀點(diǎn)看，語(yǔ)用學(xué)處理的是語(yǔ)言結(jié)構(gòu)中有形式體現(xiàn)的那些語(yǔ)境。相反，語(yǔ)用學(xué)最寬泛的定義是研究語(yǔ)義學(xué)未能涵蓋的那些意義。

在語(yǔ)用學(xué)中最基本的一個(gè)概念是語(yǔ)境，它是專門研究語(yǔ)言的理解和使用的學(xué)問，它研究在特定場(chǎng)景中的特定話語(yǔ)，研究如何通明朝這個(gè)朝代更過語(yǔ)境來(lái)理解和使用。

下面話為什么這樣說?

火，火!

A：看看魚怎么樣了?B：我剛才翻了一下。

研究的主要內(nèi)容

1. 機(jī)器翻譯

基于規(guī)則的機(jī)器翻譯方法認(rèn)為翻譯的過程是需要對(duì)源語(yǔ)言的分析和源語(yǔ)言意義的表示，然后再生成等價(jià)的標(biāo)語(yǔ)言的過程。根據(jù)翻譯過程的不同，規(guī)則方法可分為兩種主要方法：基于轉(zhuǎn)換的方法的翻譯過程包括三個(gè)階段：分析得到一種源語(yǔ)言的抽象表示；把源語(yǔ)言的抽象表示轉(zhuǎn)換為目標(biāo)語(yǔ)言的抽象表示；由目標(biāo)語(yǔ)言的抽象表示生成目標(biāo)語(yǔ)言?；谥虚g語(yǔ)言的方法在對(duì)源語(yǔ)言分析后產(chǎn)生的是中間語(yǔ)言,而目標(biāo)語(yǔ)言的生成是直接由這種中間語(yǔ)言開始的。

基于實(shí)例的機(jī)器翻譯本質(zhì)是“以翻譯實(shí)例為基礎(chǔ),基于相似原理的機(jī)器翻譯”,其利用的主要知識(shí)源是預(yù)處理過的雙語(yǔ)語(yǔ)料和翻譯詞典?；趯?shí)例的翻譯過程通常包括三步: 在翻譯實(shí)例庫(kù)中搜索匹配片段;確定相應(yīng)的譯文片段;重新組合譯文片段以得到最終翻譯。

統(tǒng)計(jì)機(jī)器翻譯也是基于雙語(yǔ)語(yǔ)料庫(kù)的,但與基于實(shí)例的方法在翻譯過程中直接使用翻譯實(shí)例不同,統(tǒng)計(jì)方法通過事先的訓(xùn)練過程將雙語(yǔ)語(yǔ)料庫(kù)中隱含的翻譯知識(shí)抽象成統(tǒng)計(jì)模型, 而翻譯過程通常就是基于這些統(tǒng)計(jì)模型的解碼過程。

神經(jīng)機(jī)器翻譯神經(jīng)機(jī)器翻譯與傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯不同,神經(jīng)機(jī)器翻譯的目的是建立一個(gè)單一的神經(jīng)網(wǎng)絡(luò),可以聯(lián)合調(diào)整,以最大限度地提高翻譯性能。最近提出的用于神經(jīng)機(jī)器翻譯的模型通常屬于編碼器-解碼器族，且將源語(yǔ)句編碼成固定長(zhǎng)度向量，解碼器從該向量生成翻譯。

2. 信息檢索

信息檢索(Information retrieval):信息檢索也稱為情報(bào)檢索,就是利用計(jì)算機(jī)從大量文檔中找到符合用戶需要的相關(guān)信息。

面向多語(yǔ)言的信息檢索稱為跨語(yǔ)言的信息檢索,如google,baidu等。

早期的信息檢索系統(tǒng)采用“布爾查詢”的方法來(lái)進(jìn)行全文檢索。這種方法無(wú)疑將構(gòu)造一個(gè)合適的查詢的責(zé)任推到用戶身上。用戶必須詳細(xì)的規(guī)劃自己的查詢，其復(fù)雜程度不亞于編程語(yǔ)言。這種檢索方式并不提供任何的文檔相關(guān)性測(cè)度，對(duì)于文檔與查詢的評(píng)價(jià)就只有“匹配“、“不匹配”兩種而已。這兩點(diǎn)問題決定了布爾查詢不能被廣泛應(yīng)用。但是，由于布爾檢索能夠給用戶提供更多的可控制性，今天我們?nèi)匀豢梢栽谒?a target="_blank">索引擎的“高級(jí)搜索”中找到布爾查詢的身影。

對(duì)于大規(guī)模的語(yǔ)料庫(kù)，任何檢索都可能返回?cái)?shù)量眾多的結(jié)果，因此對(duì)檢索結(jié)果進(jìn)行排序是必須的。因此，一個(gè)好的信息檢索模型必須提供文檔相關(guān)性測(cè)度。一個(gè)好的測(cè)度應(yīng)該使與用戶查詢需求最相關(guān)的那些結(jié)果，排在最前面，同時(shí)允許盡可能多的，與用戶查詢有一定關(guān)系的結(jié)果被包括進(jìn)來(lái)。目前，最為常用的信息檢索模型有三種：-向量空間模型 (Vector Space Model, VSM)-概率模型 (Probabilistic Model) -推理網(wǎng)絡(luò)模型 (Inference Network Model)

3. 自動(dòng)文摘

TextRank 算法是一種用于文本的基于圖的排序算法。其基本思想來(lái)源于谷歌的 PageRank算法，通過把文本分割成若干組成單元(單詞、句子)并建立圖模型, 利用投票機(jī)制對(duì)文本中的重要成分進(jìn)行排序，僅利用單篇文檔本身的信息即可實(shí)現(xiàn)關(guān)鍵詞提取、文摘。

傳統(tǒng)的摘要生成系統(tǒng)大部分都是抽取型的，這類方法從給定的文章中，抽取關(guān)鍵的句子或者短語(yǔ), 并重新拼接成一小段摘要，而不對(duì)原本的內(nèi)容做創(chuàng)造性的修改。深度學(xué)習(xí)是一個(gè)生成方法，它會(huì)創(chuàng)造性的生成摘要。最新的方法是神經(jīng)注意力模型(Neural attention model)。

4. 文檔分類

文檔分類：其目的就是利用計(jì)算機(jī)系統(tǒng)對(duì)大量的文檔按照一定的分類標(biāo)準(zhǔn)實(shí)現(xiàn)自動(dòng)歸類。

文檔分類的方法有基于機(jī)器學(xué)習(xí)的方法(如svm,decision tree)和基于深度學(xué)習(xí)(如cnn,rnn)的方法。

流程：樣本處理 — 特征選擇 — 分類。

應(yīng)用：圖書管理、內(nèi)容管理、情感分析等。

5. 問答系統(tǒng)

問答系統(tǒng)(Question answer system)：通過計(jì)算機(jī)對(duì)人提出的問題的理解，利用自動(dòng)推理等手段，在有關(guān)知識(shí)資源中自動(dòng)求解答案并作出相應(yīng)的回答。問答技術(shù)有時(shí)與語(yǔ)音技術(shù)、人機(jī)交互技術(shù)等相結(jié)合，構(gòu)成人機(jī)對(duì)話系統(tǒng)。

問答系統(tǒng)模型通常分為基于檢索的模型和基于生成的模型。

基于檢索的模型回答是提前定義的，使用規(guī)則引擎、正則匹配或者深度學(xué)習(xí)訓(xùn)練好的分類器從數(shù)據(jù)庫(kù)中挑選一個(gè)最佳的回復(fù)。

基于生成的模型多使用深度學(xué)習(xí)的方法。最流行的方法是seq2seq attention model。

6. 文字識(shí)別

文字識(shí)別(Character Recognition)：通過計(jì)算機(jī)系統(tǒng)對(duì)印刷體或手寫體等文字進(jìn)行自動(dòng)識(shí)別，將其轉(zhuǎn)換為計(jì)算機(jī)可以出來(lái)的電子文本。

傳統(tǒng)的文字識(shí)別方法就是特征工程+分類器的方法。深度學(xué)習(xí)的方法主要有rcnn,yolo等。

流程：預(yù)處理—特征提取和降維—分類器—后處理。

7. 語(yǔ)音識(shí)別

語(yǔ)音識(shí)別(Speech Recognition):將輸入計(jì)算機(jī)的語(yǔ)音信號(hào)轉(zhuǎn)換成書面語(yǔ)表示。

應(yīng)用：文字錄入、人機(jī)通訊、語(yǔ)音翻譯等

難點(diǎn)：大量存在同音詞、近音詞、集外詞、又音等等。

輸入：美中貿(mào)易摩擦升級(jí)

識(shí)別結(jié)果：美中貿(mào)易摩擦生機(jī)

早期的語(yǔ)音識(shí)別系統(tǒng)主要采用隱馬爾科夫模型來(lái)建模。

現(xiàn)在的語(yǔ)音識(shí)別系統(tǒng)多采用end2end的方法。

8. 語(yǔ)音生成

語(yǔ)音生成(speech generate)：利用計(jì)算機(jī)將書面語(yǔ)轉(zhuǎn)換為語(yǔ)音信號(hào)。

語(yǔ)音生成有兩個(gè)主要目標(biāo)：可理解性(intelligibility)和自然感(naturalness)?？衫斫庑允侵负铣?a target="_blank">音頻的清晰度，特別是聽話人能夠在多大程度上提取出原信息。自然感則描述了無(wú)法被可理解性直接獲取的信息，比如聽的整體容易程度、全局的風(fēng)格一致性、地域或語(yǔ)言層面的微妙差異等等。

百度的 Deep Voice、Yoshua Bengio 團(tuán)隊(duì)提出的 Char2Wav以及谷歌的 Tacotron均在語(yǔ)音生成方面表現(xiàn)突出。

面臨的困難

1. 語(yǔ)義歧義如：他說：“她這個(gè)真有意思 (funny)”。她說：“他這個(gè)怪有意思的 (funny)”。于是他們以為他們有意思 (wish)，并讓他向她意思意思 (express)。他說：“我根本沒有那個(gè)意思 (thought)”！她也說：“你們這么說是什么意思 (intention)”？事后有人說：“真有意思 (funny)”。也有人說:“真沒意思 (nonsense)”。

2. 存在未知的語(yǔ)言現(xiàn)象 ? 新的詞匯，如專業(yè)術(shù)語(yǔ)、外來(lái)語(yǔ)、人名、機(jī)構(gòu)名等 ? 新的含義，如打醬油、漲姿勢(shì)、藍(lán)瘦香菇、吃棗藥丸等 ? 新的用法和語(yǔ)句結(jié)構(gòu)。在又語(yǔ)和網(wǎng)絡(luò)語(yǔ)中出現(xiàn)的“非規(guī)范”的語(yǔ)句結(jié)構(gòu)。如“這屆人民不行”、“扎心了老鐵”。

發(fā)展趨勢(shì)

目前，人們主要通過兩種思路來(lái)進(jìn)行自然語(yǔ)言處理，一種是基于規(guī)則的理性主義，另外一種是基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義?，F(xiàn)實(shí)的情況是，統(tǒng)計(jì)學(xué)習(xí)方法越來(lái)越受到重視，自然語(yǔ)言處理中更多地使用機(jī)器自動(dòng)學(xué)習(xí)的方法來(lái)獲取語(yǔ)言知識(shí)。

深度學(xué)習(xí)在自然語(yǔ)言處理中的應(yīng)用極大的促進(jìn)了行業(yè)的發(fā)展。但是，即使使用深度學(xué)習(xí)，仍然有許多問題只能達(dá)到基本的要求，如問答系統(tǒng)、對(duì)話系統(tǒng)、對(duì)話翻譯等。

結(jié)語(yǔ)

如今，如何有效利用海量信息已成為信息技術(shù)發(fā)展的一個(gè)關(guān)鍵性問題。自然語(yǔ)言處理則無(wú)可避免地成為該領(lǐng)域長(zhǎng)期發(fā)展的一個(gè)新的戰(zhàn)略制高點(diǎn)。路漫漫其修遠(yuǎn)兮，NLP作為一個(gè)高度交叉的新興學(xué)科，不論是探究語(yǔ)言本質(zhì)還是付諸實(shí)際應(yīng)用，必定還會(huì)有令人期待的驚喜和異常快速的發(fā)展。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8353

瀏覽量
132315
nlp

nlp

+關(guān)注

關(guān)注
1

文章
486

瀏覽量
21987

原文標(biāo)題：深入機(jī)器學(xué)習(xí)之自然語(yǔ)言處理

文章出處：【微信號(hào)：Imgtec，微信公眾號(hào)：Imagination Tech】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

語(yǔ)義理解和研究資源是自然語(yǔ)言處理的兩大難題

科技改變生活，智能化設(shè)備在我們生活中的應(yīng)用范圍增加，智能設(shè)備對(duì)于語(yǔ)言交互，人機(jī)交互的技術(shù)需求也在增加，這些需求也在促進(jìn)現(xiàn)在的技術(shù)研究進(jìn)步。從現(xiàn)在的自然語(yǔ)言發(fā)展現(xiàn)狀來(lái)看，

發(fā)表于 09-19 14:10

【推薦體驗(yàn)】騰訊云自然語(yǔ)言處理

`相信大家對(duì)NLP自然語(yǔ)言處理的技術(shù)都不陌生，它是計(jì)算機(jī)科學(xué)領(lǐng)域和AI領(lǐng)域中的一個(gè)分支，它與計(jì)算機(jī)和人類之間使用自然語(yǔ)言進(jìn)行交互密切相關(guān)，而NLP的最終目標(biāo)是使計(jì)算機(jī)能夠像人類一樣理解語(yǔ)言

發(fā)表于 10-09 15:28

自然語(yǔ)言處理的語(yǔ)言模型

自然語(yǔ)言處理——53 語(yǔ)言模型（數(shù)據(jù)平滑）

發(fā)表于 04-16 11:11

什么是自然語(yǔ)言處理

什么是自然語(yǔ)言處理？自然語(yǔ)言處理任務(wù)有哪些？自然語(yǔ)言處理的方法是什么？

發(fā)表于 09-08 06:51

基于自然語(yǔ)言處理的知識(shí)檢索算法研究

基于自然語(yǔ)言處理的知識(shí)檢索算法研究_賈潤(rùn)亮

發(fā)表于 01-07 21:39 ?1次下載

什么是自然語(yǔ)言處理_自然語(yǔ)言處理常用方法舉例說明

自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。自然語(yǔ)言

發(fā)表于 12-28 16:56 ?1.8w次閱讀

自然語(yǔ)言處理怎么最快入門_自然語(yǔ)言處理知識(shí)了解

自然語(yǔ)言處理就是實(shí)現(xiàn)人機(jī)間自然語(yǔ)言通信，實(shí)現(xiàn)自然語(yǔ)言理解和自然語(yǔ)言生成是十分困難的，造成困難的根本原因是

發(fā)表于 12-28 17:10 ?5277次閱讀

自然語(yǔ)言處理的發(fā)展簡(jiǎn)史

自然語(yǔ)言處理是一門融語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。因此，這一領(lǐng)域的研究將涉及自然語(yǔ)言，即人們?nèi)粘Ｊ褂玫?/div>
發(fā)表于 05-11 17:22 ?9820次閱讀

自然語(yǔ)言處理（NLP）的學(xué)習(xí)方向

自然語(yǔ)言處理（Natural Language Processing，NLP）是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的理論和方法。融

發(fā)表于 07-06 16:30 ?1.3w次閱讀

自然語(yǔ)言處理是什么？有什么用？

“自然語(yǔ)言處理” （Natural Language Processing，簡(jiǎn)稱NLP）是近年來(lái)科技界最熱門的詞語(yǔ)之一，也是當(dāng)下人工智能研究最熱門的領(lǐng)域之一。自然語(yǔ)言

發(fā)表于 02-08 16:00 ?6044次閱讀

自然語(yǔ)言處理的概念和應(yīng)用 自然語(yǔ)言處理屬于人工智能嗎

　　自然語(yǔ)言處理(Natural Language Processing)是一種人工智能技術(shù)，它是研究自然語(yǔ)言與計(jì)算機(jī)之間的交互和通信的一門學(xué)科。自

發(fā)表于 08-23 17:31 ?1256次閱讀

自然語(yǔ)言處理和人工智能的概念及發(fā)展史 自然語(yǔ)言處理和人工智能的區(qū)別

自然語(yǔ)言處理(Natural Language Processing, NLP)的定義是通過電腦軟件程序?qū)崿F(xiàn)人們?nèi)粘?b class='flag-5'>語(yǔ)言的機(jī)器自動(dòng)處理。為了幫助計(jì)算機(jī)理解，掌握

發(fā)表于 08-23 18:22 ?801次閱讀

神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理中的應(yīng)用

旨在探討神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理中的應(yīng)用，包括其背景、核心概念、算法原理、實(shí)踐案例以及未來(lái)發(fā)展趨勢(shì)和挑戰(zhàn)。

發(fā)表于 07-01 14:09 ?414次閱讀

自然語(yǔ)言處理技術(shù)的原理的應(yīng)用

自然語(yǔ)言處理（Natural Language Processing, NLP）作為人工智能（AI）領(lǐng)域的一個(gè)重要分支，旨在使計(jì)算機(jī)能夠理解和處理人類自然語(yǔ)言。隨著互聯(lián)網(wǎng)的普及和大數(shù)據(jù)

發(fā)表于 07-02 12:50 ?405次閱讀

自然語(yǔ)言處理的未來(lái)發(fā)展趨勢(shì)

隨著技術(shù)的進(jìn)步，自然語(yǔ)言處理（NLP）已經(jīng)成為人工智能領(lǐng)域的一個(gè)重要分支。NLP的目標(biāo)是使計(jì)算機(jī)能夠理解、解釋和生成人類語(yǔ)言，這不僅涉及到語(yǔ)言的表層形式，還包括

發(fā)表于 11-11 10:37 ?10次閱讀

搜索歷史

自然語(yǔ)言處理研究的基本問題及發(fā)展趨勢(shì)

評(píng)論

語(yǔ)義理解和研究資源是自然語(yǔ)言處理的兩大難題

【推薦體驗(yàn)】騰訊云自然語(yǔ)言處理

自然語(yǔ)言處理的語(yǔ)言模型

什么是自然語(yǔ)言處理

基于自然語(yǔ)言處理的知識(shí)檢索算法研究

什么是自然語(yǔ)言處理_自然語(yǔ)言處理常用方法舉例說明

自然語(yǔ)言處理怎么最快入門_自然語(yǔ)言處理知識(shí)了解

自然語(yǔ)言處理的發(fā)展簡(jiǎn)史

自然語(yǔ)言處理（NLP）的學(xué)習(xí)方向

自然語(yǔ)言處理是什么？有什么用？

自然語(yǔ)言處理的概念和應(yīng)用自然語(yǔ)言處理屬于人工智能嗎

自然語(yǔ)言處理和人工智能的概念及發(fā)展史自然語(yǔ)言處理和人工智能的區(qū)別

神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理中的應(yīng)用

自然語(yǔ)言處理技術(shù)的原理的應(yīng)用

自然語(yǔ)言處理的未來(lái)發(fā)展趨勢(shì)