情感分析是指根據(jù)文本數(shù)據(jù)(例如書面評論和社交媒體帖子)自動解釋和分類情感(通常是積極、消極或中立)的分析過程。
什么是情感分析?
情感分析是一個自然語言處理 (NLP) 的分支,它使用機(jī)器學(xué)習(xí)來分析和分類文本數(shù)據(jù)的情感基調(diào)?;灸P椭饕獙W⒂诜e極、消極和中立的分類,但也可能包含發(fā)言者的潛在情感(愉悅、生氣、侮辱等)以及購買意圖。
上下文會增加情感分析的復(fù)雜性。例如,感嘆句“沒什么!” 取決于發(fā)言者對產(chǎn)品是否喜歡所做出的評價,其含義可能截然不同。為了理解“我喜歡它”這個短語,機(jī)器必須能夠理清上下文,并理解“它”指的是什么。諷刺和挖苦也具有挑戰(zhàn)性,因為發(fā)言者可能會說一些積極的內(nèi)容,但其表達(dá)的是相反的意思。
情感分析有多種類型?;趯用娴那楦蟹治鰧⑸钊胍粋€層次,以確定哪些特定特征或?qū)用嬲诋a(chǎn)生積極、中立或消極的情感。企業(yè)可以使用這種見解來找出產(chǎn)品中的缺點(diǎn),或反之,找出產(chǎn)品中產(chǎn)生意外熱情的特征。情感分析是一種變體,可試圖確定演講者圍繞主題的情感強(qiáng)度。意圖分析決定采取行動的可能性。
為什么要使用情感分析?
企業(yè)可以使用來自情感分析的見解來改進(jìn)其產(chǎn)品、調(diào)優(yōu)營銷消息、糾正誤解并確定積極的影響因素。
社交媒體革新了人們對于產(chǎn)品和服務(wù)的決策方式。在旅游、酒店和消費(fèi)電子產(chǎn)品等市場中,現(xiàn)在人們通常認(rèn)為客戶評價至少與專業(yè)評論家的評估同樣重要。TripAdvisor、Google 和 Yelp 上的 Amazon 評分和評價等來源可以切實(shí)決定產(chǎn)品的成敗。博客、Twitter、Facebook 和 Instagram 等低結(jié)構(gòu)性的渠道還可提供有關(guān)客戶情感的有用見解,以及激發(fā)贊譽(yù)或譴責(zé)的產(chǎn)品特征和服務(wù)的反饋。
手動分析客戶或潛在客戶所生成的大量文本非常耗時。社交媒體、電子郵件、支持票證、聊天、產(chǎn)品評價和推薦的情感分析已成為幾乎所有垂直行業(yè)中的重要資源。它非常有助于幫助企業(yè)獲取見解、了解客戶、預(yù)測和增強(qiáng)客戶體驗、定制營銷活動,以及幫助決策制定。
情感分析用例
情感分析的示例用例包括以下內(nèi)容:
產(chǎn)品設(shè)計師可使用情感分析,來確定哪些特征會與客戶產(chǎn)生共鳴,因此這些功能值得額外投資和關(guān)注。反之,他們也可以了解產(chǎn)品或特征何時下降,并對其進(jìn)行調(diào)整以防止庫存進(jìn)入折扣店。
營銷組織在很大程度上依靠情感分析來調(diào)優(yōu)消息、發(fā)現(xiàn)在線影響因素,以及構(gòu)建積極的口碑。
零售組織挖掘情感以確定可能銷售良好的產(chǎn)品,并相應(yīng)地調(diào)整其庫存和促銷活動。
投資者可以識別在線對話中出現(xiàn)的新趨勢,這些趨勢可能預(yù)示著市場機(jī)遇。
政客可使用它對選民就重要問題的態(tài)度進(jìn)行抽樣。
情感分析的工作原理
機(jī)器學(xué)習(xí)特征工程
特征工程是將原始數(shù)據(jù)轉(zhuǎn)換為機(jī)器學(xué)習(xí)算法輸入的過程。為了在機(jī)器學(xué)習(xí)算法中應(yīng)用該過程,必須將特征輸入到特征向量中,而特征向量是代表每個特征值的數(shù)字向量。情感分析需要將文本數(shù)據(jù)輸入到詞向量中,這些詞向量是代表每個單詞值的數(shù)字向量??梢允褂糜嫈?shù)技術(shù)(如 Bag of Words (BoW)、bag-of-ngrams 或 Term Frequency/Inverse Document Frequency (TF-IDF))將輸入文本編碼為詞向量。
使用監(jiān)督式機(jī)器學(xué)習(xí)進(jìn)行情感分類。
將輸入文本轉(zhuǎn)換為詞向量后,分類機(jī)器學(xué)習(xí)算法可用于情感分類。分類是一系列監(jiān)督式機(jī)器學(xué)習(xí)算法,基于已標(biāo)記的數(shù)據(jù)(例如標(biāo)記為積極或消極的文本)來識別物品所屬的類別(例如文本是消極還是積極)。
以下分類機(jī)器學(xué)習(xí)算法可用于情感分析:
Na?ve Bayes 是一系列概率算法,用于確定輸入數(shù)據(jù)類別的條件概率。
支持向量機(jī)在 N 維空間(N 為特征數(shù))中查找對數(shù)據(jù)點(diǎn)進(jìn)行明顯分類的超平面。
邏輯回歸使用邏輯函數(shù)對特定類別的概率進(jìn)行建模。
使用深度學(xué)習(xí)進(jìn)行情感分析
深度學(xué)習(xí) (DL) 是機(jī)器學(xué)習(xí) (ML) 的一個分支,其使用多層人工神經(jīng)網(wǎng)絡(luò)精準(zhǔn)完成 NLP 和其他任務(wù)。DL 詞嵌入技術(shù)(例如 Word2Vec)通過學(xué)習(xí)詞關(guān)聯(lián)、含義、語義和語法,以有意義地對詞進(jìn)行編碼。DL 算法還支持 NLP 模型的端到端訓(xùn)練,而無需手動從原始輸入數(shù)據(jù)中設(shè)計特征。
深度學(xué)習(xí)算法有許多不同的變體。時間遞歸神經(jīng)網(wǎng)絡(luò)是解析語言模式和序列數(shù)據(jù)的數(shù)學(xué)工具。這些自然語言處理大腦,可為 Amazon Alexa 提供聽力和語音,也可用于語言翻譯、股票預(yù)測和算法交易。Transformer 深度學(xué)習(xí)模型,如 BERT (Bidirectional Encoder Representations from Transformers),是時間遞歸神經(jīng)網(wǎng)絡(luò)的一個替代方案,它應(yīng)用了一種注意力技術(shù) – 通過將注意力集中在前后最相關(guān)的詞上來解析一個句子。BERT 通過在意圖識別、情感分析等基準(zhǔn)上提供與人類基準(zhǔn)相媲美的準(zhǔn)確性,徹底改變了 NLP 的進(jìn)展。它具有深度雙向的優(yōu)勢,相比于其他文本編碼機(jī)制,它能夠更好地理解和保留上下文。訓(xùn)練語言模型時,遭遇的一個關(guān)鍵挑戰(zhàn)是缺少標(biāo)記數(shù)據(jù)。BERT 在無監(jiān)督任務(wù)上接受訓(xùn)練,通常使用書籍語料庫、英語維基百科等的非結(jié)構(gòu)化數(shù)據(jù)集。
GPU:加速 NLP 和情感分析
自然語言處理中近年來不斷取得的進(jìn)步和突破是驅(qū)動 NLP 增長的一個因素,其中重要的是部署 GPU 來處理日漸龐大且高度復(fù)雜的語言模型。
一個由數(shù)百個核心組成的 GPU,可以并行處理數(shù)千個線程。GPU 已成為訓(xùn)練 ML 和 DL 模型及執(zhí)行推理的首選平臺,因為它們的性能比純 CPU 平臺高 10 倍。
先進(jìn)的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)可能有數(shù)百萬乃至十億以上的參數(shù)需要通過反向傳播進(jìn)行調(diào)整。此外,它們需要大量的訓(xùn)練數(shù)據(jù)才能實(shí)現(xiàn)較高的準(zhǔn)確度,這意味著成千上萬乃至數(shù)百萬的輸入樣本必須同時進(jìn)行向前和向后傳輸。由于神經(jīng)網(wǎng)絡(luò)由大量相同的神經(jīng)元構(gòu)建而成,因此本質(zhì)上具有高度并行性。這種并行性會自然映射到 GPU,因此相比僅依賴 CPU 的訓(xùn)練,計算速度會大幅提高。因此,GPU 已成為訓(xùn)練基于神經(jīng)網(wǎng)絡(luò)的大型復(fù)雜系統(tǒng)的首選平臺,推理運(yùn)算的并行性質(zhì)也有助于在 GPU 上執(zhí)行。此外,像 BERT 這樣基于 Transformer 的深度學(xué)習(xí)模型不需要按順序處理連續(xù)數(shù)據(jù),與 RNN 相比,可以在 GPU 上實(shí)現(xiàn)更多的并行化,并減少訓(xùn)練時間。
NVIDIA GPU 加速 AI 庫
借助 NVIDIA GPU 和 CUDA-X AI 庫,可快速訓(xùn)練和優(yōu)化大量的先進(jìn)語言模型,從而在幾毫秒或幾千分之一秒內(nèi)運(yùn)行推理。這是一項重大進(jìn)步,可以結(jié)束快速 AI 模型與大型復(fù)雜 AI 模型之間的權(quán)衡。在與復(fù)雜語言模型協(xié)作時,NVIDIA GPU 的并行處理能力和 Tensor Core 架構(gòu)可實(shí)現(xiàn)更高的吞吐量和可擴(kuò)展性,從而為 BERT 的訓(xùn)練和推理提供優(yōu)異的性能。
NVIDIA GPU 加速的端到端數(shù)據(jù)科學(xué)
基于 CUDA-X AI 構(gòu)建的 NVIDIA RAPIDS 軟件庫套件使您能夠自由地在 GPU 上執(zhí)行端到端數(shù)據(jù)科學(xué)和分析流程。此套件依靠 NVIDIA CUDA 基元進(jìn)行低級別計算優(yōu)化,但通過用戶友好型 Python 接口能夠?qū)崿F(xiàn) GPU 并行化和高帶寬顯存速度。
NVIDIA GPU 加速的深度學(xué)習(xí)框架
GPU 加速 DL 框架為設(shè)計和訓(xùn)練自定義深度神經(jīng)網(wǎng)絡(luò)帶來靈活性,并為 Python 和 C/C++ 等常用編程語言提供編程接口。MXNet、PyTorch、TensorFlow 等廣泛使用的深度學(xué)習(xí)框架依賴于 NVIDIA GPU 加速庫,能夠提供高性能的多 GPU 加速訓(xùn)練。
后續(xù)步驟
NVIDIA 提供經(jīng)過優(yōu)化的軟件堆棧,可加速深度學(xué)習(xí)工作流程的訓(xùn)練和推理階段。如需詳細(xì)了解相關(guān)信息,請訪問 NVIDIA 深度學(xué)習(xí)主頁。
開發(fā)者、研究人員和數(shù)據(jù)科學(xué)家可以通過深度學(xué)習(xí)示例輕松訪問 NVIDIA 優(yōu)化深度學(xué)習(xí)框架容器化,這些示例針對 NVIDIA GPU 進(jìn)行了性能調(diào)整和測試。這能夠消除對軟件包和依賴項的管理需要,或根據(jù)源頭構(gòu)建深度學(xué)習(xí)框架的需要。請訪問 NVIDIA NGC 了解詳情并開始使用。
NVIDIA Volta 和 Turing GPU 上的 Tensor Core 專門為深度學(xué)習(xí)而設(shè)計,能夠顯著提高訓(xùn)練和推理性能。了解有關(guān)獲取參考實(shí)現(xiàn)的更多內(nèi)容。
NVIDIA 深度學(xué)習(xí)培訓(xùn)中心 (DLI) 能夠為開發(fā)者、數(shù)據(jù)科學(xué)家和研究人員提供有關(guān) AI 和加速計算的實(shí)戰(zhàn)培訓(xùn)。
原文標(biāo)題:NVIDIA 大講堂 “520” 特別篇 | 什么是情感分析?(互動有獎)
文章出處:【微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
審核編輯:湯梓紅
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4856瀏覽量
102711 -
情感分析
+關(guān)注
關(guān)注
0文章
14瀏覽量
5231 -
自然語言處理
+關(guān)注
關(guān)注
1文章
600瀏覽量
13484
原文標(biāo)題:NVIDIA 大講堂 “520” 特別篇 | 什么是情感分析?(互動有獎)
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論