自然語言處理(NLP)的定義
自然語言處理(NLP)是人工智能技術(shù)的一個分支,它使計算機能夠像人們一樣理解、處理和生成語言,并且在商業(yè)中的應(yīng)用正在迅速增長。
雖然自然語言處理(NLP)這一術(shù)語最初指的是人工智能系統(tǒng)的閱讀能力,但它后來成為所有計算語言學(xué)的一種通俗說法。其子類別包括自然語言生成(NLG)(計算機自行創(chuàng)建通信的能力)和自然語言理解(NLU)(理解俚語、錯誤發(fā)音、拼寫錯誤以及其他語言變體的能力)。
自然語言處理(NLP)的工作原理
自然語言處理通過機器學(xué)習(xí)(ML)進行。機器學(xué)習(xí)系統(tǒng)像其他任何形式的數(shù)據(jù)一樣存儲單詞及其組合方式。將短語、句子,有時甚至整本書的內(nèi)容都輸入機器學(xué)習(xí)引擎,并根據(jù)語法規(guī)則和人們的現(xiàn)實語言習(xí)慣(或兩者兼而有之)進行處理。然后,計算機使用這些數(shù)據(jù)來查找模式并推斷出下一步的工作。以翻譯軟件為例:在法語中,“我要去公園”是“Je vais au parc”,因此機器學(xué)習(xí)預(yù)測“我要去商店”也將以“Je vais au”開頭。
自然語言處理應(yīng)用
機器翻譯是更好的自然語言處理(NLP)應(yīng)用程序之一,但它并不是最常用的一種。人們每次在Google或Bing搜索引擎中查找內(nèi)容時,都將數(shù)據(jù)輸入到系統(tǒng)中。當(dāng)單擊搜索結(jié)果時,搜索引索會將其視為對找到的結(jié)果正確的確認,并在以后使用這個信息更好地進行搜索。
聊天機器人的工作方式與其相同:它們與Slack、Microsoft Messenger和其他聊天程序集成在一起,可以在其中讀取人們所說的語言,然后在說出觸發(fā)詞語時將其打開。當(dāng)Siri和Alexa等語音助手聽到“Hey,Alexa”之類的短語時,它們就會進行響應(yīng)。這就是批評者指責(zé)這些程序一直在監(jiān)聽的原因:如果不是,它們永遠不會知道人們何時需要它們。除非人們自己打開應(yīng)用程序,否則自然語言處理程序?qū)⒃诤笈_運行,等待短語的出現(xiàn)。
自然語言處理(NLP)對人們的利大于弊。人們可以想象一下沒有谷歌搜索或者拼寫檢查程序的生活。它使用自然語言處理(NLP)將輸入的單詞與字典中的單詞進行比較。通過比較這兩個數(shù)據(jù)集,拼寫檢查程序可以找出問題并提供建議。
自然語言處理(NLP)示例
搜索引擎和拼寫檢查的應(yīng)用如今非常普遍,人們經(jīng)常將它們視為一種理所當(dāng)然的技術(shù),尤其是在自然語言處理(NLP)可以顯著提高生產(chǎn)力的工作中。例如如果想知道還剩下多少假期?不必詢問人力資源部門??梢圆捎昧奶鞕C器人Talla節(jié)省時間,它會搜索企業(yè)政策以尋找答案。打電話聯(lián)系客戶需要翻看手機所存的電話號碼?可以采用語音提示,通過聲音搜索啟動SecondMind,將會給出所需的號碼。這種集成的搜索工具可以加快員工與客戶的溝通。
自然語言處理還可以幫助招聘者對簡歷進行分類,吸引各種應(yīng)聘者并雇用更多合格的員工。對垃圾郵件進行檢測可以使用自然語言處理(NLP),以阻止垃圾電子郵件進入人們的收件箱;此外,可以采用Outlook和Gmail等程序?qū)⒛承┤说泥]件分類到創(chuàng)建的文件夾中。
諸如情緒分析之類的工具可幫助企業(yè)快速識別推文內(nèi)容的好壞,從而可以了解客戶的顧慮。情感分析不僅可以處理社交媒體上的文字,還可以分解詞語出現(xiàn)的語境。對于分析機構(gòu)Periscopic公司的數(shù)據(jù)可視化工具SkyeMorét來說,只有30%的英語單詞是正面的,其余的是中性或負面的。因此,自然語言處理(NLP)可以幫助企業(yè)更全面地理解一個帖子:在這些中性詞匯背后,消費者表達的情感是什么?
傳統(tǒng)上,企業(yè)使用自然語言處理將反饋分為積極和消極兩類。但是Fleishman Hillard公司社會和創(chuàng)新業(yè)務(wù)的高級副總裁Ryan Smith表示,當(dāng)今的自然語言處理工具可以識別更精確的情緒,例如悲傷、憤怒和恐懼。
自然語言處理(NLP)軟件
無論人們是要構(gòu)建聊天機器人、語音助手、預(yù)測文本應(yīng)用程序,還是以自然語言處理為核心的其他應(yīng)用程序,企業(yè)都將需要采用工具。根據(jù)調(diào)查,最受歡迎的自然語言處理軟件包括:
?自然語言工具包(NLTK)。自然語言工具包(NLTK)是一個開放源代碼框架,用于構(gòu)建Python程序以使用人類語言數(shù)據(jù)。它是在賓夕法尼亞大學(xué)計算機和信息科學(xué)系開發(fā)的,為50多個語料庫和詞匯資源庫、一個文本處理庫、自然語言處理庫和論壇提供接口。自然語言工具包(NLTK)是在Apache2.0許可下提供的。
?SpaCy。SpaCy是一個開放源代碼庫,用于高級自然語言處理,專門為生產(chǎn)目的而非研究目的而設(shè)計。SpaCy的設(shè)計充分考慮了高級數(shù)據(jù)科學(xué),并允許深度數(shù)據(jù)挖掘。它是由麻省理工學(xué)院授權(quán)的。
?Gensim。Gensim是一個用于自然語言處理的開源Python庫。獨立于平臺的庫支持可擴展的統(tǒng)計語義、針對語義結(jié)構(gòu)的純文本文檔分析以及檢索語義相似文檔的能力。可以在無需人工監(jiān)督的情況下處理大量文本。
?Amazon Comprehend。這項Amazon服務(wù)不需要機器學(xué)習(xí)的經(jīng)驗。它旨在幫助組織從電子郵件、客戶評論、社交媒體、支持通知單和其他文本中獲得見解。它使用情感分析、詞性提取和標(biāo)記化來分析單詞背后的意圖。
?IBM Watson音頻分析器。這個基于云計算的解決方案旨在用于社交監(jiān)聽、聊天機器人集成和客戶服務(wù)監(jiān)控。它可以分析客戶帖子中的情緒和語氣,并監(jiān)視客戶服務(wù)電話和聊天對話。
?谷歌云翻譯。這個API使用自然語言處理來檢查源文本以確定語言,然后使用神經(jīng)機器翻譯將文本動態(tài)翻譯為另一種語言。這個API允許用戶將功能集成到他們自己的程序中。
自然語言處理(NLP)課程
有很多資源可用于學(xué)習(xí)創(chuàng)建和維護自然語言處理應(yīng)用程序,其中許多是免費的資源。其中包括:
?DataCamp中的Python自然語言處理。這門免費課程提供15個視頻和51個練習(xí)文件,涵蓋了使用Python處理自然語言的基礎(chǔ)知識。它涵蓋了如何識別和分隔單詞,如何在文本中提取主題,以及如何構(gòu)建自己的虛假新聞分類器。
?Udemy的自然語言處理(NLP)。這個入門課程提供使用Python和自然語言工具包處理和分析文本的實踐經(jīng)驗。它包括三個小時的點播視頻,三篇文章和16個可下載資源。該課程費用為19.99美元,并提供結(jié)業(yè)證書。
?使用Udemy的Python進行自然語言處理(NLP)。這個課程面向具有語言基礎(chǔ)編程經(jīng)驗,理解面向?qū)ο缶幊痰母拍?,具有基礎(chǔ)到中級數(shù)學(xué)知識以及矩陣運算知識的個人。它完全基于項目,并且涉及構(gòu)建文本分類器以實時預(yù)測推文的情緒,以及構(gòu)建文章摘要器,該文章摘要器可以獲取文章并提取摘要。該課程包括10.5小時的點播視頻和8篇文章。該課程費用為19.99美元,并提供結(jié)業(yè)證書。
?edX的自然語言處理(NLP)。由微軟公司通過edX提供的為期六周的課程概述了自然語言處理和經(jīng)典機器學(xué)習(xí)方法的使用。它涵蓋了統(tǒng)計機器翻譯和深度語義相似性模型(DSSM)及其應(yīng)用。它還涵蓋了在自然語言處理和視覺語言多模式智能中應(yīng)用的深度強化學(xué)習(xí)技術(shù)。這是一門高級課程,完成該課程學(xué)習(xí)的人員只需支付99美元即可獲得認證證書。
?Coursera公司提供的自然語言處理。本課程是Coursera公司高級機器學(xué)習(xí)專業(yè)化的一部分,涵蓋自然語言處理任務(wù),包括情感分析、摘要、對話狀態(tài)跟蹤等。Coursera公司表示,這是一門高級課程,需要學(xué)習(xí)五個星期,每個星期需要學(xué)習(xí)四到五個小時。
自然語言處理為社會公益提供支持
除了幫助企業(yè)處理數(shù)據(jù)外,情緒分析還可以幫助人們了解社會動態(tài)。例如,Periscopic已將自然語言處理(NLP)與視覺識別結(jié)合使用,創(chuàng)建了特朗普表情計算器(Trump Emoticoaster),這是一種處理語言和面部表情的數(shù)據(jù)引擎,目的是了解美國特朗普總統(tǒng)的情緒狀態(tài)。
類似的技術(shù)也可以防止校園槍擊事件:在哥倫比亞大學(xué),研究人員已經(jīng)處理了9000名暴力傾向的年輕人發(fā)布的200萬條推文,并在尋找問題的答案:隨著青少年越來越傾向采用暴力,那么其語言是如何改變的?
Coursera公司項目總監(jiān)Desmond Patton博士說,“有問題的內(nèi)容會隨著時間的推移而發(fā)展?!彪S著一些年輕人越來越接近危險的邊緣,他們會通過語言表達。然后,自然語言處理會標(biāo)記出有問題的情緒,以便社會工作者可以進行干預(yù)。
與Periscopic一樣,Columbia公司將情感分析與圖像識別結(jié)合使用,以提高準(zhǔn)確性。Patton說,計算機視覺將推文上的圖片進行分解,然后機器學(xué)習(xí)將它們與語言一起處理,以告訴“圖片的真實情感”。這個圖像是關(guān)于悲傷的嗎?這是有關(guān)威脅的圖片嗎?這些圖像中還發(fā)生了什么,可以幫助人們更好地理解?”除校園槍擊事件之外,哥倫比亞計劃還希望采用這種技術(shù)防止團伙暴力。
自然語言處理(NLP)以提高個人水平
自然語言處理(NLP)還可以幫助人們監(jiān)控自己的情緒狀態(tài)。Woebot是一種電子治療師,可通過Facebook Messenger聊天機器人或獨立應(yīng)用程序與用戶聯(lián)系。不過,目前還沒有高級的情感分析技術(shù),Woebot實際上只能跟蹤那些抑郁和焦慮,可能表明用戶面臨緊急情況的詞匯。
責(zé)任編輯自然語言處理(NLP)的定義
自然語言處理(NLP)是人工智能技術(shù)的一個分支,它使計算機能夠像人們一樣理解、處理和生成語言,并且在商業(yè)中的應(yīng)用正在迅速增長。
雖然自然語言處理(NLP)這一術(shù)語最初指的是人工智能系統(tǒng)的閱讀能力,但它后來成為所有計算語言學(xué)的一種通俗說法。其子類別包括自然語言生成(NLG)(計算機自行創(chuàng)建通信的能力)和自然語言理解(NLU)(理解俚語、錯誤發(fā)音、拼寫錯誤以及其他語言變體的能力)。
自然語言處理(NLP)的工作原理
自然語言處理通過機器學(xué)習(xí)(ML)進行。機器學(xué)習(xí)系統(tǒng)像其他任何形式的數(shù)據(jù)一樣存儲單詞及其組合方式。將短語、句子,有時甚至整本書的內(nèi)容都輸入機器學(xué)習(xí)引擎,并根據(jù)語法規(guī)則和人們的現(xiàn)實語言習(xí)慣(或兩者兼而有之)進行處理。然后,計算機使用這些數(shù)據(jù)來查找模式并推斷出下一步的工作。以翻譯軟件為例:在法語中,“我要去公園”是“Je vais au parc”,因此機器學(xué)習(xí)預(yù)測“我要去商店”也將以“Je vais au”開頭。
自然語言處理應(yīng)用
機器翻譯是更好的自然語言處理(NLP)應(yīng)用程序之一,但它并不是最常用的一種。人們每次在Google或Bing搜索引擎中查找內(nèi)容時,都將數(shù)據(jù)輸入到系統(tǒng)中。當(dāng)單擊搜索結(jié)果時,搜索引索會將其視為對找到的結(jié)果正確的確認,并在以后使用這個信息更好地進行搜索。
聊天機器人的工作方式與其相同:它們與Slack、Microsoft Messenger和其他聊天程序集成在一起,可以在其中讀取人們所說的語言,然后在說出觸發(fā)詞語時將其打開。當(dāng)Siri和Alexa等語音助手聽到“Hey,Alexa”之類的短語時,它們就會進行響應(yīng)。這就是批評者指責(zé)這些程序一直在監(jiān)聽的原因:如果不是,它們永遠不會知道人們何時需要它們。除非人們自己打開應(yīng)用程序,否則自然語言處理程序?qū)⒃诤笈_運行,等待短語的出現(xiàn)。
自然語言處理(NLP)對人們的利大于弊。人們可以想象一下沒有谷歌搜索或者拼寫檢查程序的生活。它使用自然語言處理(NLP)將輸入的單詞與字典中的單詞進行比較。通過比較這兩個數(shù)據(jù)集,拼寫檢查程序可以找出問題并提供建議。
自然語言處理(NLP)示例
搜索引擎和拼寫檢查的應(yīng)用如今非常普遍,人們經(jīng)常將它們視為一種理所當(dāng)然的技術(shù),尤其是在自然語言處理(NLP)可以顯著提高生產(chǎn)力的工作中。例如如果想知道還剩下多少假期?不必詢問人力資源部門??梢圆捎昧奶鞕C器人Talla節(jié)省時間,它會搜索企業(yè)政策以尋找答案。打電話聯(lián)系客戶需要翻看手機所存的電話號碼?可以采用語音提示,通過聲音搜索啟動SecondMind,將會給出所需的號碼。這種集成的搜索工具可以加快員工與客戶的溝通。
自然語言處理還可以幫助招聘者對簡歷進行分類,吸引各種應(yīng)聘者并雇用更多合格的員工。對垃圾郵件進行檢測可以使用自然語言處理(NLP),以阻止垃圾電子郵件進入人們的收件箱;此外,可以采用Outlook和Gmail等程序?qū)⒛承┤说泥]件分類到創(chuàng)建的文件夾中。
諸如情緒分析之類的工具可幫助企業(yè)快速識別推文內(nèi)容的好壞,從而可以了解客戶的顧慮。情感分析不僅可以處理社交媒體上的文字,還可以分解詞語出現(xiàn)的語境。對于分析機構(gòu)Periscopic公司的數(shù)據(jù)可視化工具SkyeMorét來說,只有30%的英語單詞是正面的,其余的是中性或負面的。因此,自然語言處理(NLP)可以幫助企業(yè)更全面地理解一個帖子:在這些中性詞匯背后,消費者表達的情感是什么?
傳統(tǒng)上,企業(yè)使用自然語言處理將反饋分為積極和消極兩類。但是Fleishman Hillard公司社會和創(chuàng)新業(yè)務(wù)的高級副總裁Ryan Smith表示,當(dāng)今的自然語言處理工具可以識別更精確的情緒,例如悲傷、憤怒和恐懼。
自然語言處理(NLP)軟件
無論人們是要構(gòu)建聊天機器人、語音助手、預(yù)測文本應(yīng)用程序,還是以自然語言處理為核心的其他應(yīng)用程序,企業(yè)都將需要采用工具。根據(jù)調(diào)查,最受歡迎的自然語言處理軟件包括:
?自然語言工具包(NLTK)。自然語言工具包(NLTK)是一個開放源代碼框架,用于構(gòu)建Python程序以使用人類語言數(shù)據(jù)。它是在賓夕法尼亞大學(xué)計算機和信息科學(xué)系開發(fā)的,為50多個語料庫和詞匯資源庫、一個文本處理庫、自然語言處理庫和論壇提供接口。自然語言工具包(NLTK)是在Apache2.0許可下提供的。
?SpaCy。SpaCy是一個開放源代碼庫,用于高級自然語言處理,專門為生產(chǎn)目的而非研究目的而設(shè)計。SpaCy的設(shè)計充分考慮了高級數(shù)據(jù)科學(xué),并允許深度數(shù)據(jù)挖掘。它是由麻省理工學(xué)院授權(quán)的。
?Gensim。Gensim是一個用于自然語言處理的開源Python庫。獨立于平臺的庫支持可擴展的統(tǒng)計語義、針對語義結(jié)構(gòu)的純文本文檔分析以及檢索語義相似文檔的能力??梢栽跓o需人工監(jiān)督的情況下處理大量文本。
?Amazon Comprehend。這項Amazon服務(wù)不需要機器學(xué)習(xí)的經(jīng)驗。它旨在幫助組織從電子郵件、客戶評論、社交媒體、支持通知單和其他文本中獲得見解。它使用情感分析、詞性提取和標(biāo)記化來分析單詞背后的意圖。
?IBM Watson音頻分析器。這個基于云計算的解決方案旨在用于社交監(jiān)聽、聊天機器人集成和客戶服務(wù)監(jiān)控。它可以分析客戶帖子中的情緒和語氣,并監(jiān)視客戶服務(wù)電話和聊天對話。
?谷歌云翻譯。這個API使用自然語言處理來檢查源文本以確定語言,然后使用神經(jīng)機器翻譯將文本動態(tài)翻譯為另一種語言。這個API允許用戶將功能集成到他們自己的程序中。
自然語言處理(NLP)課程
有很多資源可用于學(xué)習(xí)創(chuàng)建和維護自然語言處理應(yīng)用程序,其中許多是免費的資源。其中包括:
?DataCamp中的Python自然語言處理。這門免費課程提供15個視頻和51個練習(xí)文件,涵蓋了使用Python處理自然語言的基礎(chǔ)知識。它涵蓋了如何識別和分隔單詞,如何在文本中提取主題,以及如何構(gòu)建自己的虛假新聞分類器。
?Udemy的自然語言處理(NLP)。這個入門課程提供使用Python和自然語言工具包處理和分析文本的實踐經(jīng)驗。它包括三個小時的點播視頻,三篇文章和16個可下載資源。該課程費用為19.99美元,并提供結(jié)業(yè)證書。
?使用Udemy的Python進行自然語言處理(NLP)。這個課程面向具有語言基礎(chǔ)編程經(jīng)驗,理解面向?qū)ο缶幊痰母拍?,具有基礎(chǔ)到中級數(shù)學(xué)知識以及矩陣運算知識的個人。它完全基于項目,并且涉及構(gòu)建文本分類器以實時預(yù)測推文的情緒,以及構(gòu)建文章摘要器,該文章摘要器可以獲取文章并提取摘要。該課程包括10.5小時的點播視頻和8篇文章。該課程費用為19.99美元,并提供結(jié)業(yè)證書。
?edX的自然語言處理(NLP)。由微軟公司通過edX提供的為期六周的課程概述了自然語言處理和經(jīng)典機器學(xué)習(xí)方法的使用。它涵蓋了統(tǒng)計機器翻譯和深度語義相似性模型(DSSM)及其應(yīng)用。它還涵蓋了在自然語言處理和視覺語言多模式智能中應(yīng)用的深度強化學(xué)習(xí)技術(shù)。這是一門高級課程,完成該課程學(xué)習(xí)的人員只需支付99美元即可獲得認證證書。
?Coursera公司提供的自然語言處理。本課程是Coursera公司高級機器學(xué)習(xí)專業(yè)化的一部分,涵蓋自然語言處理任務(wù),包括情感分析、摘要、對話狀態(tài)跟蹤等。Coursera公司表示,這是一門高級課程,需要學(xué)習(xí)五個星期,每個星期需要學(xué)習(xí)四到五個小時。
自然語言處理為社會公益提供支持
除了幫助企業(yè)處理數(shù)據(jù)外,情緒分析還可以幫助人們了解社會動態(tài)。例如,Periscopic已將自然語言處理(NLP)與視覺識別結(jié)合使用,創(chuàng)建了特朗普表情計算器(Trump Emoticoaster),這是一種處理語言和面部表情的數(shù)據(jù)引擎,目的是了解美國特朗普總統(tǒng)的情緒狀態(tài)。
類似的技術(shù)也可以防止校園槍擊事件:在哥倫比亞大學(xué),研究人員已經(jīng)處理了9000名暴力傾向的年輕人發(fā)布的200萬條推文,并在尋找問題的答案:隨著青少年越來越傾向采用暴力,那么其語言是如何改變的?
Coursera公司項目總監(jiān)Desmond Patton博士說,“有問題的內(nèi)容會隨著時間的推移而發(fā)展。”隨著一些年輕人越來越接近危險的邊緣,他們會通過語言表達。然后,自然語言處理會標(biāo)記出有問題的情緒,以便社會工作者可以進行干預(yù)。
與Periscopic一樣,Columbia公司將情感分析與圖像識別結(jié)合使用,以提高準(zhǔn)確性。Patton說,計算機視覺將推文上的圖片進行分解,然后機器學(xué)習(xí)將它們與語言一起處理,以告訴“圖片的真實情感”。這個圖像是關(guān)于悲傷的嗎?這是有關(guān)威脅的圖片嗎?這些圖像中還發(fā)生了什么,可以幫助人們更好地理解?”除校園槍擊事件之外,哥倫比亞計劃還希望采用這種技術(shù)防止團伙暴力。
自然語言處理(NLP)以提高個人水平
自然語言處理(NLP)還可以幫助人們監(jiān)控自己的情緒狀態(tài)。Woebot是一種電子治療師,可通過Facebook Messenger聊天機器人或獨立應(yīng)用程序與用戶聯(lián)系。不過,目前還沒有高級的情感分析技術(shù),Woebot實際上只能跟蹤那些抑郁和焦慮,可能表明用戶面臨緊急情況的詞匯。
責(zé)任編輯:ct
評論
查看更多