以下七種自然語言處理的常見應(yīng)用:
1. 文本分類
文本分類是指給定一個(gè)文本,預(yù)測(cè)其所屬的預(yù)定類別。
“文本分類的目的是對(duì)文檔的主題或主旨進(jìn)行分類?!?/p>
- p575, Foundations of Statistical Natural Language Processing(http://amzn.to/2ePBz9t), 1999
一種流行文本分類應(yīng)用是情感分析(https://en.wikipedia.org/wiki/Sentiment_analysis),其中的常用類別標(biāo)簽表示源文本的情緒色調(diào),例如“積極”或“消極”。
其他3類文本分類的應(yīng)用:
垃圾郵件過濾,依照文本分類電子郵件的垃圾郵件。
語言識(shí)別,對(duì)源文本的語言進(jìn)行分類。
題材分類,分類虛構(gòu)故事的體裁。
此外,還可以按需要給文本分配多個(gè)類別標(biāo)簽(即所謂的多標(biāo)簽分類)。 例如為tweet分配多個(gè)主題標(biāo)簽。
?
2. 語言建模
語言建模真的是一個(gè)很有趣的自然語言問題的子任務(wù),特別是在其他一些任務(wù)的基礎(chǔ)上調(diào)節(jié)語言模型。
“問題是預(yù)測(cè)出給定單詞的下一個(gè)單詞。 該任務(wù)是語音或光學(xué)字符識(shí)別的基礎(chǔ),也用于拼寫校正,手寫識(shí)別和統(tǒng)計(jì)學(xué)的機(jī)器翻譯?!?/p>
- p575, Foundations of Statistical Natural Language Processing (http://amzn.to/2ePBz9t), 1999.
除了關(guān)于學(xué)術(shù)研究的興趣,語言模型還是許多應(yīng)用深度學(xué)習(xí)的自然語言處理架構(gòu)的關(guān)鍵組成部分。
語言模型可以學(xué)習(xí)詞與詞之間的概率關(guān)系,然后生成與源文本統(tǒng)計(jì)上一致的詞匯新序列。
語言模型可以用于文本或語音生成,應(yīng)用如下:
生成新的文章標(biāo)題。
生成新的句子,段落或文檔。
生成后續(xù)句子建議。
3. 語音識(shí)別
語音識(shí)別是解決如何理解人類所說的問題。
“語音識(shí)別的任務(wù)是將包含口語在內(nèi)的自然語言的聲學(xué)信號(hào)轉(zhuǎn)換成符合說話者預(yù)期的相應(yīng)的單詞序列?!?/p>
- p458, Deep Learning (http://amzn.to/2uE7WvS), 2016.
給定依據(jù)文本生成的音頻數(shù)據(jù),模型必須能生成人類可讀的文本。鑒于過程的自動(dòng)性,這個(gè)任務(wù)也可稱為自動(dòng)語音識(shí)別(Automatic Speech Recognition, ASR)。
語言模型用于創(chuàng)建以音頻數(shù)據(jù)為基礎(chǔ)的的輸出文本,應(yīng)用包括:
生成演講文本。
為電影或電視節(jié)目創(chuàng)建字幕。
開車時(shí)向收音機(jī)發(fā)出命令。
4. 說明生成
說明生成是解決如何描述圖像內(nèi)容的問題,依照諸如照片等的數(shù)字圖像生成和圖像內(nèi)容相關(guān)的文本描述。
說明生成的語言模型用于根據(jù)圖像生成標(biāo)題,一些具體的應(yīng)用包括:
描述場(chǎng)景的內(nèi)容
創(chuàng)建照片的標(biāo)題
描述視頻
5. 機(jī)器翻譯
機(jī)器翻譯是指將一種語言的源文本轉(zhuǎn)換為另一種語言。
“機(jī)器翻譯,從一種語言到另一種語言的文本或語音的自動(dòng)翻譯,是NLP最重要的應(yīng)用之一?!?/p>
- p463, Foundations of Statistical Natural Language Processing(http://amzn.to/2ePBz9t), 1999.
鑒于加入了深層神經(jīng)網(wǎng)絡(luò),該任務(wù)現(xiàn)在也被稱為神經(jīng)機(jī)器翻譯(neural machine translation)。
“在機(jī)器翻譯任務(wù)中,輸入是由某種語言的符號(hào)序列組成,而計(jì)算機(jī)程序必須將輸入轉(zhuǎn)換成其他語言的符號(hào)序列。 機(jī)器翻譯經(jīng)常應(yīng)用于自然語言,例如從英語翻譯成法語。 近來,深度學(xué)習(xí)開始對(duì)該任務(wù)產(chǎn)生重要影響。”
- p98, Deep Learning (http://amzn.to/2uE7WvS), 2016
機(jī)器翻譯的語言模型用于依據(jù)源文本,輸出第二語言的目標(biāo)文本。
6.文檔總結(jié)
文檔總結(jié)是指根據(jù)文本創(chuàng)建對(duì)應(yīng)簡短描述的任務(wù)。其語言模型用來輸出基于完整文檔的總結(jié)。
相關(guān)應(yīng)用如下:
·創(chuàng)建文檔標(biāo)題。
·生成文檔摘要。
·7. 問題回答
問題回答是指給出一個(gè)主題(如文本文檔)回答有關(guān)該主題的具體問題。
“問答系統(tǒng),它通過返回相應(yīng)的短語(例如位置,人物或日期)來嘗試回答以問題形式提出的用戶查詢。 例如,問題為什么殺死肯尼迪總統(tǒng)? 可能得到名詞短語奧斯瓦爾德作答案”
- p377, Foundations of Statistical Natural Language Processing(http://amzn.to/2ePBz9t), 1999.
常見應(yīng)用如下:
回答有關(guān)維基百科文章,回答有關(guān)新聞文章的問題,回答關(guān)于醫(yī)療記錄的問題。
?
大約90年代開始,自然語言處理技術(shù)領(lǐng)域發(fā)生了巨大的變化。這種變化的兩個(gè)明顯的特征是:
(1)對(duì)系統(tǒng)輸入,要求研制的自然語言處理系統(tǒng)能處理大規(guī)模的真實(shí)文本,而不是如以前的研究性系統(tǒng)那樣,只能處理很少的詞條和典型句子。只有這樣,研制的系統(tǒng)才有真正的實(shí)用價(jià)值。
?。?)對(duì)系統(tǒng)的輸出,鑒于真實(shí)地理解自然語言是十分困難的,對(duì)系統(tǒng)并不要求能對(duì)自然語言文本進(jìn)行深層的理解,但要能從中抽取有用的信息。例如,對(duì)自然語言文本進(jìn)行自動(dòng)地提取索引詞,過濾,檢索,自動(dòng)提取重要信息,進(jìn)行自動(dòng)摘要等等。
同時(shí),由于強(qiáng)調(diào)了“大規(guī)?!保瑥?qiáng)調(diào)了“真實(shí)文本”,下面兩方面的基礎(chǔ)性工作也得到了重視和加強(qiáng)。
?。?)大規(guī)模真實(shí)語料庫的研制。大規(guī)模的經(jīng)過不同深度加工的真實(shí)文本的語料庫,是研究自然語言統(tǒng)計(jì)性質(zhì)的基礎(chǔ)。沒有它們,統(tǒng)計(jì)方法只能是無源之水。
?。?)大規(guī)模、信息豐富的詞典的編制工作。規(guī)模為幾萬,十幾萬,甚至幾十萬詞,含有豐富的信息(如包含詞的搭配信息)的計(jì)算機(jī)可用詞典對(duì)自然語言處理的重要性是很明顯的。
評(píng)論
查看更多