婷婷激情综合色五月久久,产精品无码久久,国产高清无码视频一区在线

【導讀】如何評定一首歌的歌詞的創(chuàng)造性？有些歌詞是否真的套詞或假借他人之手？本文作者就嘗試用 NLP 技術分析了一位出名卻也具有爭議的嘻哈歌手 —— Drake 創(chuàng)作的歌詞，來看看他的歌詞中到底蘊藏著什么秘密。

背景

每隔幾年就會有一位藝術家風靡世界。甲殼蟲樂隊和邁克爾杰克遜的盛名不必多說。這些藝術家用他們天才般的創(chuàng)造力感染著數百萬人?，F在，許多藝人爭相想成為 Top 1。有些出乎意料的是，一位多倫多本地，藝名叫“Drake”的藝人，近年來聲勢頗盛。

Drake最初聲名鵲起的原因他參演了一部在21世紀初流行的青少年情景喜劇《德格拉西：下一代》中的角色。然而，當 Drake 想成為一名說唱歌手時，他便退出了演出。在與唱片公司簽約后，Drake 發(fā)行了他的第一張專輯《So Far Gone》。這張專輯獲得了 Platinum 認證，并讓Drake迅速登頂了嘻哈世界的頂峰。在接下來的八年里，他又連續(xù)出了多張專輯，其中專輯Scorpion 是他最近發(fā)行的新專輯。

為什么 Drake 的作品很受歡迎？這里面可能包含很多原因。然而，我選擇從他歌曲的歌詞方分析入手。獲取 Drake 歌曲的歌詞文本數據并不困難，難的是，如何分析它們？這就要感謝如今日益提升的 NLP（自然語言處理）技術，使分析文本數據比以往容易很多。

今天，神經網絡已經成為無數 NLP 算法的通用框架，有各種各樣的工具可供使用，因此開發(fā)者可以使用它們解決大量的 NLP 問題。這些工具讓我可以分析 Drake 的歌詞。

在進入實際分析之前，我需要先處理一下 Drake 的歌詞。雖然有幾個在線的歌詞資源可用，但我決定使用 Genius.com。Genius 是一個注釋歌詞的網站，并且有一個很棒并易于使用的API。

Drake 的哪一首歌有最獨特的歌詞？

大家似乎對 Drake 的創(chuàng)造力并不買賬，經常批評他缺乏創(chuàng)造力。過去，他常被指控竊取其他說唱歌手的 flow 并且擁有幕后的作詞者。我打算去看看這些評論是否合理。

我從其他文章中提到的處理方法獲得靈感。不分析歌詞的總字數，在我看來一首歌的歌詞總字數并不能作為衡量創(chuàng)造性的主參考，我改為分析歌詞中的獨特詞。

在完成清理文本數據后，我開始分析每首歌曲中獨特歌詞的數量。下面是 Drake 所有歌曲中獨特歌詞分布的直方圖。似乎他的大多數歌曲都有 100 到 200 個獨特詞。但是沒有其他藝術家歌曲的分布作參考，這個直方圖目前并不能說明 Drake 的創(chuàng)造力。

一個更好的方法是根據專輯的獨特詞來看他的創(chuàng)造力。下圖是在 Tableau 中完成的可視化結果。x 軸表示專輯的名稱，y軸表示獨特詞的數量。每個Bubble（氣泡）代表一首歌。就獨特的歌詞而言，似乎沒有任何一張專輯顯得更具創(chuàng)意。但是，每件作品在獨特歌詞數量方面至少有一個異常值。令人吃驚的是，盡管有如此龐大的作品數量（25首歌曲），他最近發(fā)行的專輯 Scorpion 上的歌曲在獨特歌詞的數量上幾乎沒有變化。

現在，再回答上面的問題，哪首歌具有最獨特的歌詞？答案似乎是 6PM in New York。下表列出了排名前十的歌曲。

命名實體識別（NER）

命名實體識別屬于“信息提取”的子任務，旨在將文本中的命名實體定位和分類為預定義的類別，例如人員，組織，地點，時間表，數量，貨幣價值，百分比等等?！保ňS基百科）。 NER是一項特別棘手的任務。由于語言的復雜性，使得創(chuàng)建一個對所有文本都準確的 NER 算法非常困難。某個算法或許可以在一個語料庫（在我們的例子中就是 Drake 歌詞的集合）上效果很好，但是在另一個語料庫上表現就不好。這種不一致性使得有必要多嘗試幾種 NER 算法。我也嘗試了集中不同的算法，發(fā)現有些算法并不是非常不準確。下面簡要介紹一下我使用的兩個 NER 算法：NLTK 和 CRF-NER。

第一個是 NLTK 提供的命名實體算法?！癗e_chunk”使用了部分語音標簽（POS標簽）的單詞列表來推斷哪些單詞是命名實體。從下面的結果中可以看出，NLTK的算法本身并沒有做得很好。

我嘗試的第二個命名實體算法是由斯坦福提出的令人印象深刻的 NER 工具 —— CRF-NER。

與NLTK算法相比，它需要更長的運行時間，但會產生更準確的結果。雖然它并不完美，但有明顯的進步。

主題建模

NLP中最有趣的方向之一就是主題建模了。主題模型是一種統(tǒng)計模型，用于發(fā)現在文檔集合中的抽象主題。它是一種常用的文本挖掘工具，用于在文本中發(fā)現隱藏的語義結構”。主題建模有幾種突出的算法。其中最突出的是顯式語義分析和非負矩陣分解。在這次的分析中我選擇用線性判別分析（LDA）。LDA是由 Andrew Ng，Michael I. Jordan和David Blei 開發(fā)的一種生成統(tǒng)計模型。首先通過學習給定語料庫中固定數量的主題表示，然后在給定的主題數量的情況下，LDA將學習語料庫中每個文檔的主題分布。

▌1.給所有Drake的歌詞進行主題建模

想要使用 LDA 的第一件事就是學習 Drake 所有歌曲中最突出的主題。為了實現這一點，我先將所有歌曲放入列表中。然后，使用 SciKitLearn 的 CountVectorizer 工具，創(chuàng)建了所有這些歌曲的詞袋表示。詞袋模型是一種通過矩陣表示單詞的簡單方法。然后，使用SciKitLearn 版本的LDA，我訓練了一個可以在給定文本中找到8個主題的模型。

▌2.可視化主題

有兩種將 LDA 模型進行可視化的方法。第一個是通過寫一個函數，輸出為每個主題中最突出的單詞。這個結果似乎很有意思，但它只能提供了少量的信息。例如下圖中的結果，能知道主題7與主題2不同，但無法得知更多它們之間不同程度的信息。

出于這個原因，我用了另一種可以在文本中顯示主題的方法。

在Python中，有一個很棒的庫叫做 pyLDAvis。它是一個專門使用 D3 來實現 LDA 模型可視化的庫。D3可以說是目前最好的可視化工具。（但是，它主要為 Javascript 用戶準備的。因此擁有此插件但對JavaScript 不太了解的人非常有用。）這個庫通過降維來實現可視化。降維將有許多變量的數據集壓縮為較少量的特征。降維技術對于數據可視化非常有用。基于我要解決的問題，我認為最好使用T-SNE（T分布的隨機鄰域嵌入）來降低維數。

從我訓練好的模型來看，Drake的大部分歌詞都可以分類到了 Topic 2，一個占據圖表大部分的大型主題。

▌Drake 所有主要專輯的主題又是什么樣的呢？

我按照與之前相同的步驟來嘗試處理這個問題，這次我沒有用 LDA 算法去找每個專輯間的主題。而是使用了定義函數的方法來顯示他所有主要作品中最突出的單詞。

總結

每當 Drake 發(fā)布新歌或專輯時，肯定會有不滿的聲音。但他的作品幾乎總是在人氣榜上排名靠前的位置。他的歌詞瞬間也成為 Instagram 和 Facebook 話題的主要內容，還會霸占數星期。他的歌讓人很容易記住，大部分原因要歸功于他的歌詞。

通過主題建模和命名實體識別完成了一個簡單的 NLP 項目，也對文本內容（Drake的歌詞）有了不同且更具體的理解。這只是一個起點，也建議大家在工作和生活中進行一些實踐，不斷嘗試，積累技能。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經網絡

神經網絡

+關注

關注
42

文章
4733

瀏覽量
100400
算法

算法

+關注

關注
23

文章
4587

瀏覽量
92478
nlp

nlp

+關注

關注
1

文章
483

瀏覽量
21985

原文標題：如何評價創(chuàng)作歌手的業(yè)務能力？試試讓NLP幫你分析一下

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關注！文章轉載請注明出處。

ACHO MP3歌詞不能同步顯示，而且有時出現亂碼怎么辦？

;歌詞文件名和歌曲文件名不同，改為一致的文件名即可，只是兩個文件名的后綴不同，如：江南—林俊杰.

發(fā)表于 10-19 10:00

一位全加器代碼VHDL

用VHDL的人好少，哎……一位全加器的邏輯表達式是： S=A⊕B⊕Ci Co=AB+ACi+BCi 然后是代碼：[code]USE IEEE.STD_LOGIC_1164.ALL; USE

發(fā)表于 12-09 22:16

一位全加器代碼VHDL

用VHDL的人好少，哎……一位全加器的邏輯表達式是： S=A⊕B⊕Ci Co=AB+ACi+BCi 然后是代碼：[code]USE IEEE.STD_LOGIC_1164.ALL; USE

發(fā)表于 12-09 22:17

請問是否可以用GIOA口中某一位代替GIOB的某一位？

本帖最后由一只耳朵怪于 2018-5-22 10:41 編輯問是否可以用GIOA口中某一位代替GIOB的某一位，

發(fā)表于 05-22 04:12

什么是一位全加器,其原理是什么?

什么是一位全加器,其原理是什么　加器是能夠計算低位進位的二進制加法電路一位全加器由2個半加

發(fā)表于 03-08 17:13 ?7.6w次閱讀

逆天音質“Hi”個夠華為nova 2系列帶你玩純正嘻哈

當你蹬上麥黃短靴、提上工裝仔褲、套上大號白T時準備出門時，千萬別忘了在兜里揣上你的華為nova 2系列，只會穿衣打扮那叫膚淺，時刻在Hip-Hop節(jié)奏里嘻哈生活，才是Gangsta的入門指南。

發(fā)表于 07-19 19:59 ?1440次閱讀

羅技推出便攜防水藍牙音箱嘻哈十足

最近極客之選體驗了一款音箱，不論是外觀還是聲音都嘻哈十足，我們一起來看看它有什么特別。不得不說，《中國有

發(fā)表于 03-28 10:17 ?4659次閱讀

NLP的介紹和如何利用機器學習進行NLP以及三種NLP技術的詳細介紹

本文用簡潔易懂的語言，講述了自然語言處理（NLP）的前世今生。從什么是NLP到為什么要學習NLP，再到如何利用機器學習進行

發(fā)表于 06-10 10:26 ?7.7w次閱讀

<b class='flag-5'>NLP</b>的介紹和如何利用機器學習進行<b class='flag-5'>NLP</b>以及三種<b class='flag-5'>NLP</b><b class='flag-5'>技術</b>的詳細介紹

用AI自動生成嘻哈歌詞的隊伍獲得了“最佳DEMO獎”

我們在這個基礎之上，有一個嘻哈生成網絡。第一點是在這個之前我們增加了一個編碼網絡，將然后生成一些

發(fā)表于 08-28 09:14 ?1.3w次閱讀

回顧2018年深度學習NLP十大創(chuàng)新思路

Sebastian Ruder 是一位 NLP 方向的博士生、研究科學家，目前供職于一家做 NLP 相關服務的愛爾蘭公司 AYLIEN，同時，他也是

發(fā)表于 01-08 11:25 ?3511次閱讀

一位NLP算法工程師對NLP的看法

最近的項目就是NLP相關，說一些個人對NLP的看法。直觀地看，NLP算法工程師的經驗和算法工程師的經驗沒有太大差別。NLP的發(fā)展并不是那么快

發(fā)表于 04-24 09:37 ?5186次閱讀

人工智能創(chuàng)作，難以符合“知人論世”標準

當我們將“陽光失了玻璃窗”作為一句詩來賞析時，我們認為它是出自某位詩人之手的，或許他不是一位出名的詩人，但并不影響我對這句詩的欣賞分析。但如

發(fā)表于 01-15 10:10 ?2030次閱讀

人臉識別是安防系統(tǒng)最具安全爭議的技術?

被認為十大人類突破性技術的人臉識別，具有色彩賦予創(chuàng)新的意義，卻也是最具爭議的技術，作為重要的身份鑒別身份，人臉識別

發(fā)表于 11-17 16:54 ?672次閱讀

獨家！Intel 正在尋找一位新 CEO

近日，據外媒 HEXUS 報道，一位名為 uzzi38 的 Reddit 用戶公布了一份投資者和分析師會議實錄，該會議由知名投資機構 SIG

發(fā)表于 12-23 09:39 ?1298次閱讀

學生通過AI應用創(chuàng)作音樂劇歌詞

據外媒CNET報道，由林-曼努爾·米蘭達編劇、作曲及主演的音樂劇《漢密爾頓》（ Hamilton ）口碑極高，鐵桿粉絲們可能永遠也聽不夠其悅耳易記的配樂?，F在查普曼大學電影制作專業(yè)的學生Eli Weiss使用了Shortly Read（一款為寫作而設計的人工智能應用）來模仿創(chuàng)作

發(fā)表于 12-30 14:34 ?1621次閱讀

搜索歷史

用NLP技術分析了一位出名卻也具有爭議的嘻哈歌手——Drake創(chuàng)作的歌詞

評論

ACHO MP3歌詞不能同步顯示，而且有時出現亂碼怎么辦？

一位全加器代碼VHDL

一位全加器代碼VHDL

請問是否可以用GIOA口中某一位代替GIOB的某一位？

什么是一位全加器,其原理是什么?

逆天音質“Hi”個夠華為nova 2系列帶你玩純正嘻哈

羅技推出便攜防水藍牙音箱嘻哈十足

NLP的介紹和如何利用機器學習進行NLP以及三種NLP技術的詳細介紹

用AI自動生成嘻哈歌詞的隊伍獲得了“最佳DEMO獎”

回顧2018年深度學習NLP十大創(chuàng)新思路

一位NLP算法工程師對NLP的看法

人工智能創(chuàng)作，難以符合“知人論世”標準

人臉識別是安防系統(tǒng)最具安全爭議的技術?

獨家！Intel 正在尋找一位新 CEO

學生通過AI應用創(chuàng)作音樂劇歌詞