0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自然語(yǔ)言處理研究的基本問題及發(fā)展趨勢(shì)

Dbwd_Imgtec ? 來(lái)源:未知 ? 作者:胡薇 ? 2018-09-21 14:22 ? 次閱讀

自然語(yǔ)言處理(NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。隨著深度學(xué)習(xí)在圖像識(shí)別、語(yǔ)音識(shí)別領(lǐng)域的大放異彩,人們對(duì)深度學(xué)習(xí)在NLP的價(jià)值也寄予厚望。自然語(yǔ)言處理作為人工智能領(lǐng)域的認(rèn)知智能,成為目前大家關(guān)注的焦點(diǎn)。

基本概念

自然語(yǔ)言處理既是一門技術(shù)也是一門學(xué)科。

自然語(yǔ)言指人類使用的語(yǔ)言,如漢語(yǔ)、英語(yǔ)等

語(yǔ)言是思維的載體,是人類交流的工具

語(yǔ)言的兩種屬性:文字和聲音

人類歷史上以文字形式記載和流傳的知識(shí)占80%以上。

自然語(yǔ)言處理的定義:

"自然語(yǔ)言處理又稱為自然語(yǔ)言理解,就是利用計(jì)算機(jī)為工具對(duì)人類特有的書面形式和又頭形式的自然語(yǔ)言的信息進(jìn)行各種類型處理和加工的技術(shù)。” —— 馮志偉《自然語(yǔ)言的計(jì)算機(jī)處理》

研究的基本問題

1. 語(yǔ)音學(xué)

語(yǔ)音學(xué)(Phonetics)問題:研究詞及其語(yǔ)音的關(guān)聯(lián)

2. 形態(tài)學(xué)

形態(tài)學(xué)(Morphology)問題:研究詞是如何由有意義的基本單位-詞素(Morphemes)構(gòu)詞的。

詞素是從詞或者詞干的直接成分的角度來(lái)確定的音義結(jié)合體。字和詞素不是一一對(duì)應(yīng)的:

有的漢字實(shí)際上代表不同的詞素。如“副”這個(gè)字代表多種詞素:“第二的、次級(jí)的”、“相配、相稱”、某種計(jì)量單位。

同一詞素可以由不同的漢字來(lái)表示。如:“來(lái)吧”中的“吧”可以由“罷”代替。

有些漢字在某些場(chǎng)合屬于詞素,某些場(chǎng)合不是。如:“沙”在“泥沙”里面是詞素,在“沙發(fā)”里面不代表意義。詞素與詞的關(guān)系是“詞素的功能是構(gòu)詞詞”。

詞素構(gòu)詞有兩種情況:

一個(gè)詞素單獨(dú)構(gòu)詞一個(gè)詞。如:人、魚、書、蜈蚣等。

兩個(gè)或兩個(gè)以上的詞素構(gòu)詞一個(gè)詞。如:人+民,機(jī)+器等。

3. 語(yǔ)法學(xué)

語(yǔ)法學(xué)(Syntax)問題:研究句子結(jié)構(gòu)成分之間的相互關(guān)系和組成句子的序列。

為什么一句話可以這么說也可以那么說?

4. 語(yǔ)義學(xué)

語(yǔ)義學(xué)(Sementics)問題:研究如何從一個(gè)語(yǔ)句中詞的意義,以及這些詞在該語(yǔ)句中句法結(jié)構(gòu)中的作用來(lái)推導(dǎo)出該語(yǔ)句的意義。

下面的話說了什么?

蘋果不吃了

這個(gè)人真牛

火燒圓明園/火燒驢肉

5. 語(yǔ)用學(xué)

語(yǔ)用學(xué)(Pragmatics)問題:研究在不同上下文中的語(yǔ)句的應(yīng)用,以及上下文對(duì)語(yǔ)句理解所產(chǎn)生的影響。從狹義的語(yǔ)言學(xué)觀點(diǎn)看,語(yǔ)用學(xué)處理的是語(yǔ)言結(jié)構(gòu)中有形式體現(xiàn)的那些語(yǔ)境。相反,語(yǔ)用學(xué)最寬泛的定義是研究語(yǔ)義學(xué)未能涵蓋的那些意義。

在語(yǔ)用學(xué)中最基本的一個(gè)概念是語(yǔ)境,它是專門研究語(yǔ)言的理解和使用的學(xué)問,它研究在特定場(chǎng)景中的特定話語(yǔ),研究如何通明朝這個(gè)朝代更過語(yǔ)境來(lái)理解和使用。

下面話為什么這樣說?

火,火!

A:看看魚怎么樣了?B:我剛才翻了一下。

研究的主要內(nèi)容

1. 機(jī)器翻譯

基于規(guī)則的機(jī)器翻譯方法認(rèn)為翻譯的過程是需要對(duì)源語(yǔ)言的分析和源語(yǔ)言意義的表示,然后再生成等價(jià)的標(biāo)語(yǔ)言的過程。根據(jù)翻譯過程的不同,規(guī)則方法可分為兩種主要方法:基于轉(zhuǎn)換的方法的翻譯過程包括三個(gè)階段:分析得到一種源語(yǔ)言的抽象表示;把源語(yǔ)言的抽象表示轉(zhuǎn)換為目標(biāo)語(yǔ)言的抽象表示 ;由目標(biāo)語(yǔ)言的抽象表示生成目標(biāo)語(yǔ)言?;谥虚g語(yǔ)言的方法在對(duì)源語(yǔ)言分析后產(chǎn)生的是中間語(yǔ)言,而目標(biāo)語(yǔ)言的生成是直接由這種中間語(yǔ)言開始的。

基于實(shí)例的機(jī)器翻譯本質(zhì)是“以翻譯實(shí)例為基礎(chǔ),基于相似原理的機(jī)器翻譯”,其利用的主要知識(shí)源是預(yù)處理過的雙語(yǔ)語(yǔ)料和翻譯詞典?;趯?shí)例的翻譯過程通常包括三步: 在翻譯實(shí)例庫(kù)中搜索匹配片段;確定相應(yīng)的譯文片段;重新組合譯文片段以得到最終翻譯。

統(tǒng)計(jì)機(jī)器翻譯也是基于雙語(yǔ)語(yǔ)料庫(kù)的,但與基于實(shí)例的方法在翻譯過程中直接使用翻譯 實(shí)例不同,統(tǒng)計(jì)方法通過事先的訓(xùn)練過程將雙語(yǔ)語(yǔ)料庫(kù)中隱含的翻譯知識(shí)抽象成統(tǒng)計(jì)模型, 而翻譯過程通常就是基于這些統(tǒng)計(jì)模型的解碼過程。

神經(jīng)機(jī)器翻譯神經(jīng)機(jī)器翻譯與傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯不同,神經(jīng)機(jī)器翻譯的目的是建立一個(gè)單一的神經(jīng)網(wǎng)絡(luò),可以聯(lián)合調(diào)整,以最大限度地提高翻譯性能。最近提出的用于神經(jīng)機(jī)器翻譯的模型通常屬于編碼器-解碼器族,且將源語(yǔ)句編碼成固定長(zhǎng)度向量,解碼器從該向量生成翻譯。

2. 信息檢索

信息檢索(Information retrieval):信息檢索也稱為情報(bào)檢索,就是利用計(jì)算機(jī)從大量文檔中找到符合用戶需要的相關(guān)信息。

面向多語(yǔ)言的信息檢索稱為跨語(yǔ)言的信息檢索,如google,baidu等。

早期的信息檢索系統(tǒng)采用“布爾查詢”的方法來(lái)進(jìn)行全文檢索。這種方法無(wú)疑將構(gòu)造一個(gè)合適的查詢的責(zé)任推到用戶身上。用戶必須詳細(xì)的規(guī)劃自己的查詢,其復(fù)雜程度不亞于編程語(yǔ)言。這種檢索方式并不提供任何的文檔相關(guān)性測(cè)度,對(duì)于文檔與查詢的評(píng)價(jià)就只有“匹配“、“不匹配”兩種而已。這兩點(diǎn)問題決定了布爾查詢不能被廣泛應(yīng)用。但是,由于布爾檢索能夠給用戶提供更多的可控制性,今天我們?nèi)匀豢梢栽谒?a target="_blank">索引擎的“高級(jí)搜索”中找到布爾查詢的身影。

對(duì)于大規(guī)模的語(yǔ)料庫(kù),任何檢索都可能返回?cái)?shù)量眾多的結(jié)果,因此對(duì)檢索結(jié)果進(jìn)行排序是必須的。因此,一個(gè)好的信息檢索模型必須提供文檔相關(guān)性測(cè)度。一個(gè)好的測(cè)度應(yīng)該使與用戶查詢需求最相關(guān)的那些結(jié)果,排在最前面,同時(shí)允許盡可能多的,與用戶查詢有一定關(guān)系的結(jié)果被包括進(jìn)來(lái)。目前,最為常用的信息檢索模型有三種:-向量空間模型 (Vector Space Model, VSM)-概率模型 (Probabilistic Model) -推理網(wǎng)絡(luò)模型 (Inference Network Model)

3. 自動(dòng)文摘

TextRank 算法是一種用于文本的基于圖的排序算法。其基本思想來(lái)源于谷歌的 PageRank算法,通過把文本分割成若干組成單元(單詞、句子)并建立圖模型, 利用投票機(jī)制對(duì)文本中的重要成分進(jìn)行排序,僅利用單篇文檔本身的信息即可實(shí)現(xiàn)關(guān)鍵詞提取、文摘。

傳統(tǒng)的摘要生成系統(tǒng)大部分都是抽取型的,這類方法從給定的文章中,抽取關(guān)鍵的句子或者短語(yǔ), 并重新拼接成一小段摘要,而不對(duì)原本的內(nèi)容做創(chuàng)造性的修改。深度學(xué)習(xí)是一個(gè)生成方法,它會(huì)創(chuàng)造性的生成摘要。最新的方法是神經(jīng)注意力模型(Neural attention model)。

4. 文檔分類

文檔分類:其目的就是利用計(jì)算機(jī)系統(tǒng)對(duì)大量的文檔按照一定的分類標(biāo)準(zhǔn)實(shí)現(xiàn)自動(dòng)歸類。

文檔分類的方法有基于機(jī)器學(xué)習(xí)的方法(如svm,decision tree)和基于深度學(xué)習(xí)(如cnn,rnn)的方法。

流程:樣本處理 — 特征選擇 — 分類。

應(yīng)用:圖書管理、內(nèi)容管理、情感分析等。

5. 問答系統(tǒng)

問答系統(tǒng)(Question answer system):通過計(jì)算機(jī)對(duì)人提出的問題的理解,利用自動(dòng)推理等手段,在有關(guān)知識(shí)資源中自動(dòng)求解答案并作出相應(yīng)的回答。問答技術(shù)有時(shí)與語(yǔ)音技術(shù)、人機(jī)交互技術(shù)等相結(jié)合,構(gòu)成人機(jī)對(duì)話系統(tǒng)。

問答系統(tǒng)模型通常分為基于檢索的模型和基于生成的模型。

基于檢索的模型回答是提前定義的,使用規(guī)則引擎、正則匹配或者深度學(xué)習(xí)訓(xùn)練好的分類器從數(shù)據(jù)庫(kù)中挑選一個(gè)最佳的回復(fù)。

基于生成的模型多使用深度學(xué)習(xí)的方法。最流行的方法是seq2seq attention model。

6. 文字識(shí)別

文字識(shí)別(Character Recognition):通過計(jì)算機(jī)系統(tǒng)對(duì)印刷體或手寫體等文字進(jìn)行自動(dòng)識(shí)別,將其轉(zhuǎn)換為計(jì)算機(jī)可以出來(lái)的電子文本。

傳統(tǒng)的文字識(shí)別方法就是特征工程+分類器的方法。深度學(xué)習(xí)的方法主要有rcnn,yolo等。

流程:預(yù)處理—特征提取和降維—分類器—后處理。

7. 語(yǔ)音識(shí)別

語(yǔ)音識(shí)別(Speech Recognition):將輸入計(jì)算機(jī)的語(yǔ)音信號(hào)轉(zhuǎn)換成書面語(yǔ)表示。

應(yīng)用:文字錄入、人機(jī)通訊、語(yǔ)音翻譯等

難點(diǎn):大量存在同音詞、近音詞、集外詞、又音等等。

輸入:美中貿(mào)易摩擦升級(jí)

識(shí)別結(jié)果:美中貿(mào)易摩擦生機(jī)

早期的語(yǔ)音識(shí)別系統(tǒng)主要采用隱馬爾科夫模型來(lái)建模。

現(xiàn)在的語(yǔ)音識(shí)別系統(tǒng)多采用end2end的方法。

8. 語(yǔ)音生成

語(yǔ)音生成(speech generate):利用計(jì)算機(jī)將書面語(yǔ)轉(zhuǎn)換為語(yǔ)音信號(hào)。

語(yǔ)音生成有兩個(gè)主要目標(biāo):可理解性(intelligibility)和自然感(naturalness)??衫斫庑允侵负铣?a target="_blank">音頻的清晰度,特別是聽話人能夠在多大程度上提取出原信息。自然感則描述了無(wú)法被可理解性直接獲取的信息,比如聽的整體容易程度、全局的風(fēng)格一致性、地域或語(yǔ)言層面的微妙差異等等。

百度的 Deep Voice、Yoshua Bengio 團(tuán)隊(duì)提出的 Char2Wav以及谷歌的 Tacotron均在語(yǔ)音生成方面表現(xiàn)突出。

面臨的困難

1. 語(yǔ)義歧義如:他說:“她這個(gè)真有意思 (funny)”。她說:“他這個(gè)怪有意思的 (funny)”。于是他們以為他們有意思 (wish),并讓他向她意思意思 (express)。他說:“我根本沒有那個(gè)意思 (thought)”!她也說:“你們這么說是什么意思 (intention)”?事后有人說:“真有意思 (funny)”。也有人說:“真沒意思 (nonsense)”。

2. 存在未知的語(yǔ)言現(xiàn)象 ? 新的詞匯,如專業(yè)術(shù)語(yǔ)、外來(lái)語(yǔ)、人名、機(jī)構(gòu)名等 ? 新的含義,如打醬油、漲姿勢(shì)、藍(lán)瘦香菇、吃棗藥丸等 ? 新的用法和語(yǔ)句結(jié)構(gòu)。在又語(yǔ)和網(wǎng)絡(luò)語(yǔ)中出現(xiàn)的“非規(guī)范”的語(yǔ)句結(jié)構(gòu)。如“這屆人民不行”、“扎心了老鐵”。

發(fā)展趨勢(shì)

目前,人們主要通過兩種思路來(lái)進(jìn)行自然語(yǔ)言處理,一種是基于規(guī)則的理性主義,另外一種是基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義?,F(xiàn)實(shí)的情況是,統(tǒng)計(jì)學(xué)習(xí)方法越來(lái)越受到重視,自然語(yǔ)言處理中更多地使用機(jī)器自動(dòng)學(xué)習(xí)的方法來(lái)獲取語(yǔ)言知識(shí)。

深度學(xué)習(xí)在自然語(yǔ)言處理中的應(yīng)用極大的促進(jìn)了行業(yè)的發(fā)展。但是,即使使用深度學(xué)習(xí),仍然有許多問題只能達(dá)到基本的要求,如問答系統(tǒng)、對(duì)話系統(tǒng)、對(duì)話翻譯等。

結(jié)語(yǔ)

如今,如何有效利用海量信息已成為信息技術(shù)發(fā)展的一個(gè)關(guān)鍵性問題。自然語(yǔ)言處理則無(wú)可避免地成為該領(lǐng)域長(zhǎng)期發(fā)展的一個(gè)新的戰(zhàn)略制高點(diǎn)。路漫漫其修遠(yuǎn)兮,NLP作為一個(gè)高度交叉的新興學(xué)科,不論是探究語(yǔ)言本質(zhì)還是付諸實(shí)際應(yīng)用,必定還會(huì)有令人期待的驚喜和異常快速的發(fā)展。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8353

    瀏覽量

    132315
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    486

    瀏覽量

    21987

原文標(biāo)題:深入機(jī)器學(xué)習(xí)之自然語(yǔ)言處理

文章出處:【微信號(hào):Imgtec,微信公眾號(hào):Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    語(yǔ)義理解和研究資源是自然語(yǔ)言處理的兩大難題

    科技改變生活,智能化設(shè)備在我們生活中的應(yīng)用范圍增加,智能設(shè)備對(duì)于語(yǔ)言交互,人機(jī)交互的技術(shù)需求也在增加,這些需求也在促進(jìn)現(xiàn)在的技術(shù)研究進(jìn)步。從現(xiàn)在的自然語(yǔ)言發(fā)展現(xiàn)狀來(lái)看,
    發(fā)表于 09-19 14:10

    【推薦體驗(yàn)】騰訊云自然語(yǔ)言處理

    `相信大家對(duì)NLP自然語(yǔ)言處理的技術(shù)都不陌生,它是計(jì)算機(jī)科學(xué)領(lǐng)域和AI領(lǐng)域中的一個(gè)分支,它與計(jì)算機(jī)和人類之間使用自然語(yǔ)言進(jìn)行交互密切相關(guān),而NLP的最終目標(biāo)是使計(jì)算機(jī)能夠像人類一樣理解語(yǔ)言
    發(fā)表于 10-09 15:28

    自然語(yǔ)言處理語(yǔ)言模型

    自然語(yǔ)言處理——53 語(yǔ)言模型(數(shù)據(jù)平滑)
    發(fā)表于 04-16 11:11

    什么是自然語(yǔ)言處理

    什么是自然語(yǔ)言處理?自然語(yǔ)言處理任務(wù)有哪些?自然語(yǔ)言處理的方法是什么?
    發(fā)表于 09-08 06:51

    基于自然語(yǔ)言處理的知識(shí)檢索算法研究

    基于自然語(yǔ)言處理的知識(shí)檢索算法研究_賈潤(rùn)亮
    發(fā)表于 01-07 21:39 ?1次下載

    什么是自然語(yǔ)言處理_自然語(yǔ)言處理常用方法舉例說明

    自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。自然語(yǔ)言
    發(fā)表于 12-28 16:56 ?1.8w次閱讀
    什么是<b class='flag-5'>自然語(yǔ)言</b><b class='flag-5'>處理</b>_<b class='flag-5'>自然語(yǔ)言</b><b class='flag-5'>處理</b>常用方法舉例說明

    自然語(yǔ)言處理怎么最快入門_自然語(yǔ)言處理知識(shí)了解

    自然語(yǔ)言處理就是實(shí)現(xiàn)人機(jī)間自然語(yǔ)言通信,實(shí)現(xiàn)自然語(yǔ)言理解和自然語(yǔ)言生成是十分困難的,造成困難的根本原因是
    發(fā)表于 12-28 17:10 ?5277次閱讀

    自然語(yǔ)言處理發(fā)展簡(jiǎn)史

    自然語(yǔ)言處理是一門融語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。因此,這一領(lǐng)域的研究將涉及自然語(yǔ)言,即人們?nèi)粘J褂玫?/div>
    的頭像 發(fā)表于 05-11 17:22 ?9820次閱讀

    自然語(yǔ)言處理(NLP)的學(xué)習(xí)方向

    自然語(yǔ)言處理(Natural Language Processing,NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的理論和方法。融
    的頭像 發(fā)表于 07-06 16:30 ?1.3w次閱讀

    自然語(yǔ)言處理是什么?有什么用?

    自然語(yǔ)言處理” (Natural Language Processing,簡(jiǎn)稱NLP) 是近年來(lái)科技界最熱門的詞語(yǔ)之一,也是當(dāng)下人工智能研究最熱門的領(lǐng)域之一。自然語(yǔ)言
    的頭像 發(fā)表于 02-08 16:00 ?6044次閱讀

    自然語(yǔ)言處理的概念和應(yīng)用 自然語(yǔ)言處理屬于人工智能嗎

      自然語(yǔ)言處理(Natural Language Processing)是一種人工智能技術(shù),它是研究自然語(yǔ)言與計(jì)算機(jī)之間的交互和通信的一門學(xué)科。
    發(fā)表于 08-23 17:31 ?1256次閱讀

    自然語(yǔ)言處理和人工智能的概念及發(fā)展自然語(yǔ)言處理和人工智能的區(qū)別

    自然語(yǔ)言處理(Natural Language Processing, NLP)的定義是通過電腦軟件程序?qū)崿F(xiàn)人們?nèi)粘?b class='flag-5'>語(yǔ)言的機(jī)器自動(dòng)處理。為了幫助計(jì)算機(jī)理解,掌握
    發(fā)表于 08-23 18:22 ?801次閱讀

    神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理中的應(yīng)用

    旨在探討神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理中的應(yīng)用,包括其背景、核心概念、算法原理、實(shí)踐案例以及未來(lái)發(fā)展趨勢(shì)和挑戰(zhàn)。
    的頭像 發(fā)表于 07-01 14:09 ?414次閱讀

    自然語(yǔ)言處理技術(shù)的原理的應(yīng)用

    自然語(yǔ)言處理(Natural Language Processing, NLP)作為人工智能(AI)領(lǐng)域的一個(gè)重要分支,旨在使計(jì)算機(jī)能夠理解和處理人類自然語(yǔ)言。隨著互聯(lián)網(wǎng)的普及和大數(shù)據(jù)
    的頭像 發(fā)表于 07-02 12:50 ?405次閱讀

    自然語(yǔ)言處理的未來(lái)發(fā)展趨勢(shì)

    隨著技術(shù)的進(jìn)步,自然語(yǔ)言處理(NLP)已經(jīng)成為人工智能領(lǐng)域的一個(gè)重要分支。NLP的目標(biāo)是使計(jì)算機(jī)能夠理解、解釋和生成人類語(yǔ)言,這不僅涉及到語(yǔ)言的表層形式,還包括
    的頭像 發(fā)表于 11-11 10:37 ?10次閱讀