0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何基于Tf-Idf詞向量和余弦相似性根據(jù)字幕文件找出相似的TED演講

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-06-30 09:32 ? 次閱讀

編者按:數(shù)據(jù)科學(xué)顧問Gunnvant Saini講解了如何基于Tf-Idf詞向量和余弦相似性根據(jù)字幕文件找出相似的TED演講。

好吧,我喜歡TED演講,誰不喜歡呢?當(dāng)我查看Kaggle上的TED數(shù)據(jù)集(rounakbanik/ted-talks)時,有不少發(fā)現(xiàn)。首先,由于數(shù)據(jù)集包含許多TED演講的字幕,因此我們有了一個非常豐富、語言學(xué)上結(jié)構(gòu)良好的語料。其次,由于該語料具備良好的語言學(xué)屬性,它很可能和Reuters 20 News Group或者古登堡語料庫差不好。這讓我靈機(jī)一動:

我有許多TED演講的字幕數(shù)據(jù),我能嘗試找到一種根據(jù)演講相似性推薦TED演講(就像TED官網(wǎng)做的那樣)的方法嗎?

當(dāng)然,TED官網(wǎng)所用的推薦系統(tǒng),會比我這里演示的復(fù)雜得多,同時涉及一些用戶交互的歷史數(shù)據(jù)。

本文想要演示如何僅僅基于內(nèi)容生成推薦。當(dāng)你不具備任何用戶交互數(shù)據(jù)時,比如在剛開始的時候,這一技術(shù)變得極為重要,它有助于向消費者提供內(nèi)容相關(guān)的上下文推薦。

數(shù)據(jù)

字幕儲存于transcript一列,每行對應(yīng)一個演講。

import pandas as pd

transcripts=pd.read_csv("E:\Kaggle\ted-data\transcripts.csv")

transcripts.head()

可以看到,從url很容易就能提取演講的標(biāo)題。我的目標(biāo)是使用字幕文本創(chuàng)建相似性的測度,然后為給定演講推薦4個最相似的演講。

transcripts['title']=transcripts['url'].map(lambda x:x.split("/")[-1])

transcripts.head()

好了,數(shù)據(jù)預(yù)處理完畢,我可以開始創(chuàng)建推薦系統(tǒng)了:

為字幕創(chuàng)建向量表示

為上一步創(chuàng)建的向量表示創(chuàng)建一個相似性矩陣

基于某種相似性測度,為每個演講選定4個最相似的演講

使用Tf-Idf創(chuàng)建詞向量

由于我們的最終目標(biāo)是基于內(nèi)容相似性推薦演講,我們首先要做的就是為字幕創(chuàng)建便于比較的表示。其中一種方法是為每個字幕創(chuàng)建一個tfidf向量。但是,到底什么是tfidf呢?讓我們先討論下這個概念。

語料庫、文檔和頻次矩陣

為了表示文本,我們將把每個字幕看成一個“文檔”,然后將所有文檔的集合看成一個“語料庫”。然后,二維碼將創(chuàng)建一個向量,表示每個文檔中詞匯出現(xiàn)的次數(shù),像這樣:

這些向量組成了一個矩陣,稱為頻次矩陣(count matrix)。不過,這樣的表示方式有一個問題。比如,“one”在文檔1中只出現(xiàn)過一次,但在其他文檔中均未出現(xiàn),所以“one”是一個重要的詞匯。但是如果我們查看文檔1的頻次向量,“one”的權(quán)重和“This”、“is”等詞一樣,都是1. 而Tf-Idf可以解決這一問題。

詞頻-逆向文檔頻率(Tf-Idf)

為了理解Tf-Idf如何幫助識別詞匯的重要性,讓我們詢問自己幾個問題,如何決定一個詞匯是否重要?

如果這個詞匯在文檔中多次出現(xiàn)?

如果這個詞匯很少在語料庫中出現(xiàn)?

同時滿足1和2?

如果一個詞匯在某個文檔中頻繁出現(xiàn),但在語料庫中的其他文檔中很少出現(xiàn),那么該詞匯對這個文檔很重要。詞頻(term frequency)衡量詞匯在給定文檔中出現(xiàn)的頻繁程度,而逆向文檔頻率(inverse document frequency)衡量詞匯在語料庫中出現(xiàn)的罕見程度。兩者之積Tf-Idf衡量詞匯的重要程度。使用sklearn機(jī)器學(xué)習(xí)框架,創(chuàng)建Tf-Idf向量表示非常直截了當(dāng):

from sklearn.feature_extraction import text

Text=transcripts['transcript'].tolist()

tfidf=text.TfidfVectorizer(input=Text,stop_words="english")

matrix=tfidf.fit_transform(Text)

現(xiàn)在我們已經(jīng)解決了如何在詞向量中體現(xiàn)詞匯重要性的問題,我們將開始考慮下一個問題,如何個找到給定文檔的相似文檔(在我們的例子中是TED演講字幕)?

查找相似文檔

通常,我們使用余弦相似度,衡量Tf-Idf向量的接近程度。也就是說,我將基于Tf-Idf向量創(chuàng)建一個余弦矩陣,表示文檔兩兩之間的相似程度:

同樣,使用sklearn做這個非常直接:

from sklearn.metrics.pairwise import cosine_similarity

sim_unigram=cosine_similarity(matrix)

創(chuàng)建了相似度矩陣后,我只需查詢這一矩陣,在每一行找出4個余弦相似度最高的列,就可以為每個文檔(字幕)選出最相似的4個文檔了。

def get_similar_articles(x):

return",".join(transcripts['title'].loc[x.argsort()[-5:-1]])

transcripts['similar_articles_unigram']=[get_similar_articles(x) for x in sim_unigram]

讓我們看下效果,比如,隨便挑一個演講,看看哪4個演講和它最相似:

transcripts['title'].str.replace("_"," ").str.upper().str.strip()[1]

'AL GORE ON AVERTING CLIMATE CRISIS'

transcripts['similar_articles_unigram'].str.replace("_"," ").str.upper().str.strip().str.split(" ")[1]

['RORY BREMNER S ONE MAN WORLD SUMMIT',

',ALICE BOWS LARKIN WE RE TOO LATE TO PREVENT CLIMATE CHANGE HERE S HOW WE ADAPT',

',TED HALSTEAD A CLIMATE SOLUTION WHERE ALL SIDES CAN WIN',

',AL GORE S NEW THINKING ON THE CLIMATE CRISIS']

顯然,從標(biāo)題上看,這些演講的主題是相似的。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 向量
    +關(guān)注

    關(guān)注

    0

    文章

    55

    瀏覽量

    11649
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1200

    瀏覽量

    24619

原文標(biāo)題:TF-IDF和余弦相似度告訴你該看哪個TED演講

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    TF-IDF測量文章的關(guān)鍵相關(guān)研究

    停用詞的移除、大小寫字母轉(zhuǎn)化和詞干提取。4)獲取查詢。獲取單詞權(quán)重,對于可疑文檔利用TF-IDF獲得關(guān)鍵,并排序得到相應(yīng)的關(guān)鍵列表。排在前n個的關(guān)鍵詞組成一個查詢,以此類推,本試驗中n=5。5)檢索
    發(fā)表于 01-26 10:38

    影像匹配中幾種相似性測度的分析

    摘要對基于灰度影像匹配中的幾種相似性測度進(jìn)行了研究,分析了每種測度的直觀意義、限制條件以及改進(jìn)措施,最后通過實臉結(jié)果驗證了L述結(jié)論關(guān)健影像匹配:相似hi測度;
    發(fā)表于 01-09 16:44 ?10次下載

    基于相似性的圖像融合質(zhì)量的客觀評估方法

    基于相似性的圖像融合質(zhì)量的客觀評估方法:研究圖像融合結(jié)果的質(zhì)量評估問題,提出一種新的基于相似性的圖像融合質(zhì)量客觀評估方法.這種方法考慮人類視覺對局部變化更加敏感的
    發(fā)表于 10-31 08:57 ?16次下載

    一中余弦相似度的改進(jìn)方法

    位置時間序列常被應(yīng)用到不同的研究領(lǐng)域,具有很高的商業(yè)價值。本文通過計算位置時間序列的余弦相似度找到確定與其近似的位置時間序列。同時針對余弦相似
    發(fā)表于 11-01 17:42 ?0次下載
    一中<b class='flag-5'>余弦</b><b class='flag-5'>相似</b>度的改進(jìn)方法

    基于Document Triage的TF-IDF算法

    針對TF-IDF算法在加權(quán)時沒有考慮特征本身在文檔中重要度的問題,提出利用用戶閱讀時的閱讀行為來改進(jìn)TF-IDF。將Document Triage引入到TF-IDF中,利用IPM收集
    發(fā)表于 12-27 10:54 ?0次下載

    TF-IDF算法的改進(jìn)及在語義檢索中應(yīng)用

    技術(shù)相結(jié)合,從而實現(xiàn)對TF-IDF算法的改進(jìn)。利用語義庫對搜索主題進(jìn)行描述,根據(jù)正則原予語義的重要和在網(wǎng)頁標(biāo)簽中的不同位置進(jìn)行加權(quán)計算,得到正則原子在文檔中的相似度。通過空間
    發(fā)表于 01-02 11:25 ?0次下載
    <b class='flag-5'>TF-IDF</b>算法的改進(jìn)及在語義檢索中應(yīng)用

    基于劃分思想的文件結(jié)構(gòu)化相似性比較方法

    針對傳統(tǒng)文件結(jié)構(gòu)化相似性比較法中采用基本塊( BB) -對一映射而造成的巨大時空消耗及基本塊比較結(jié)果的絕對化問題,提出一種基于劃分思想的文件結(jié)構(gòu)化相似性比較方法。該方法首先對用于基本塊
    發(fā)表于 01-02 14:04 ?0次下載
    基于劃分思想的<b class='flag-5'>文件</b>結(jié)構(gòu)化<b class='flag-5'>相似性</b>比較方法

    云模型重疊度的相似性度量算法

    重疊度的相似性度量算法。首先,根據(jù)云模型期望、熵、超熵三個數(shù)字特征,定義兩個云模型的位置關(guān)系和邏輯關(guān)系;其次,利用兩個云的位置和形狀特性,計算得到它們間的重疊度;最后,結(jié)合云模型重疊度與相似度的關(guān)系,將云模
    發(fā)表于 01-07 10:54 ?1次下載

    基于節(jié)點相似性社團(tuán)結(jié)構(gòu)劃分

    針對復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)劃分過程復(fù)雜、準(zhǔn)確差的問題,定義了節(jié)點全局和局部相似性衡量指標(biāo),并構(gòu)建節(jié)點的相似性矩陣,提出一種基于節(jié)點相似性度量的社團(tuán)結(jié)構(gòu)劃分算法。其基本思路是將節(jié)點(或社團(tuán))按
    發(fā)表于 01-10 14:02 ?0次下載

    計算文本相似度幾種最常用的方法,并比較它們之間的性能

    估計兩句子間語義相似度最簡單的方法就是求句子中所有單詞嵌入的平均值,然后計算兩句子嵌入之間的余弦相似性。很顯然,這種簡單的基準(zhǔn)方法會帶來
    的頭像 發(fā)表于 06-30 11:16 ?5.3w次閱讀
    計算文本<b class='flag-5'>相似</b>度幾種最常用的方法,并比較它們之間的性能

    如何使用會話時序相似性進(jìn)行矩陣分解數(shù)據(jù)填充

    針對已有數(shù)據(jù)填充方法只考慮評分信息和傳統(tǒng)相似性,無法捕獲用戶間真實相似關(guān)系的問題,提出了基于會話時序相似性的矩陣分解數(shù)據(jù)填充方法來緩解數(shù)據(jù)稀疏、提高推薦精度。首先,分析了傳統(tǒng)
    發(fā)表于 01-23 14:50 ?3次下載
    如何使用會話時序<b class='flag-5'>相似性</b>進(jìn)行矩陣分解數(shù)據(jù)填充

    TF-IDF的基礎(chǔ)模型和使用教程和算法代碼免費下載

    這是一個tf-idf的算法包,里面包含的基礎(chǔ)模型,使用教程和算嗎代碼。
    發(fā)表于 05-21 08:00 ?0次下載

    一種基于TF-IDF的Webshell文件檢測方法

    的 Webshell文件檢測方法。系統(tǒng)首先對不同類型的Webshell文件進(jìn)行分類,并對不同文件進(jìn)行相應(yīng)的預(yù)處理轉(zhuǎn)碼,以降低混淆干擾技術(shù)對檢測的影響;隨后建立袋模型,并采用
    發(fā)表于 04-26 14:16 ?3次下載
    一種基于<b class='flag-5'>TF-IDF</b>的Webshell<b class='flag-5'>文件</b>檢測方法

    PyTorch教程15.7之詞的相似性和類比

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程15.7之詞的相似性和類比.pdf》資料免費下載
    發(fā)表于 06-05 11:04 ?0次下載
    PyTorch教程15.7之詞的<b class='flag-5'>相似性</b>和類比

    基于結(jié)構(gòu)相似性可靠監(jiān)測結(jié)果

    電子發(fā)燒友網(wǎng)站提供《基于結(jié)構(gòu)相似性可靠監(jiān)測結(jié)果.pdf》資料免費下載
    發(fā)表于 02-05 09:10 ?0次下載
    基于結(jié)構(gòu)<b class='flag-5'>相似性</b>可靠<b class='flag-5'>性</b>監(jiān)測結(jié)果