0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Feedly推薦系統(tǒng)背后使用的機(jī)器學(xué)習(xí)技術(shù)

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-09-25 10:34 ? 次閱讀

編者按:Feedly官方博客介紹了Feedly推薦系統(tǒng)背后使用的機(jī)器學(xué)習(xí)技術(shù)。

web的最大優(yōu)勢(shì)之一是其開(kāi)放性和分布式本質(zhì)。這也是一大挑戰(zhàn):數(shù)百萬(wàn)站點(diǎn),數(shù)千項(xiàng)主題,人們?nèi)绾螢g覽內(nèi)容并發(fā)現(xiàn)新的可信賴信息源?

Feedly對(duì)這一挑戰(zhàn)的解決方案是使用數(shù)據(jù)科學(xué)組織所有這些信息源,并幫助人們?yōu)g覽主題。

本文介紹了[Feedly新的發(fā)現(xiàn)體驗(yàn)]背后的一些技術(shù),以及我從這一項(xiàng)目中學(xué)習(xí)到的經(jīng)驗(yàn)。

從用戶生成數(shù)據(jù)中學(xué)習(xí)主題

根據(jù)用戶加入新站點(diǎn)或博客時(shí)所屬的分類(數(shù)據(jù)經(jīng)過(guò)匿名化處理),可以自動(dòng)創(chuàng)建新的英語(yǔ)主題分類。

所以,如果你是在“tech”(技術(shù))下加入The Verge和Engadget的45000人之一,那么你幫助創(chuàng)建了“tech”主題。

不過(guò),這樣的主題列表仍然存在一些問(wèn)題,主要是重復(fù)主題和“垃圾主題”。

想要理解我是如何訓(xùn)練模型識(shí)別主題的,可以想像一個(gè)矩陣或者表格,其中有關(guān)于主題和信息源的數(shù)據(jù)。

你注意到了上表第六行的“My favorites”(我的最愛(ài))主題了沒(méi)有?這是一個(gè)極好的垃圾主題的例子,因?yàn)樗痪哂忻枋鲂?。你可能也注意到了“tech”和“techonolgy”這一對(duì)重復(fù)主題。如果我們將矩陣擴(kuò)展至10000+主題和100000+信息源,我們會(huì)看到很多這樣的垃圾主題和重復(fù)主題。

所以我們?nèi)绾螖[脫這些垃圾主題和重復(fù)主題呢?這正是數(shù)據(jù)清洗的價(jià)值所在。

在上表中,每行有一個(gè)數(shù)字?jǐn)?shù)組,也稱為向量。所有數(shù)字同構(gòu)的行意味著垃圾主題,而特定站點(diǎn)在行中顯示為峰值的是好主題。

一圖勝千言:

我們可以通過(guò)測(cè)量相應(yīng)圖形的尖峰來(lái)檢測(cè)垃圾主題。從向量性質(zhì)的角度來(lái)說(shuō),我們可以,比方說(shuō),測(cè)量最大數(shù)字和非零值數(shù)字的比值。

類似地,下面的圖形顯示了重復(fù)主題:

我們同樣根據(jù)向量的性質(zhì)檢測(cè)這些重復(fù)主題。在我們的例子中,“Tech”向量的分量[50000, 30000, 5, 2]和“Technology”的[12000, 7500, 2, 0]在歸一化(將絕對(duì)數(shù)字轉(zhuǎn)換為百分比)后非常相似。我使用JS散度得出兩個(gè)向量的相似度。

一旦偵測(cè)出了相似向量,我們可以在系統(tǒng)中安全地合并兩者,并將搜索“technology”的用戶重定向至“tech”。

感謝使用Feedly的英語(yǔ)讀者的巨大社區(qū),我們得以將所有數(shù)據(jù)轉(zhuǎn)換為一個(gè)整潔、去重的包含超過(guò)2500良好主題的列表。

我們很高興地報(bào)告,我們的分類足夠深入,包含“真菌學(xué)”這樣的主題!

鏈接的強(qiáng)度與同屬兩個(gè)主題的信息源數(shù)量成正比

主題樹(shù):創(chuàng)建層次結(jié)構(gòu)

既然我們的信息源已經(jīng)有了豐富的主題標(biāo)簽,下一個(gè)挑戰(zhàn)是引入連接相關(guān)主題的更好的組織系統(tǒng)。

有些主題是通用的(“tech”),而另一些則要專門(mén)一些(“iPad”)?!癷Pad”屬于“Apple”的子主題,“Apple”又是“Tech”的子主題,像這樣的主題層次結(jié)構(gòu)的內(nèi)部表示,有助于計(jì)算推薦。

我們使用模式匹配創(chuàng)建這樣的層次結(jié)構(gòu)。下圖顯示了三個(gè)主題(左側(cè))和與這些主題相關(guān)的信息源(右側(cè))的連接。線越粗,將信息源置于這一主題下的用戶就越多。

“Apple”連接“tech”主題信息源的一個(gè)子集,所以“Apple”是“tech”的子主題

上面的模式也確認(rèn)了人們以大致相同的方式使用“tech”和“technology”?!皌echnology”的線要細(xì)一點(diǎn),因?yàn)槿藗冚^少使用這一術(shù)語(yǔ)。不過(guò)這兩個(gè)主題是重復(fù)的。同時(shí),“Apple”看起來(lái)是“tech”的子主題:它連接了更少的信息源,而且它的連接同時(shí)也和“tech”相關(guān)。

基于這些模式,我們可以構(gòu)建所有主題和子主題的樹(shù)形結(jié)構(gòu)。

現(xiàn)在,如果你訪問(wèn)Feedly的Discover(發(fā)現(xiàn))頁(yè)面,你會(huì)找到一個(gè)特色主題列表。點(diǎn)擊任意主題即可開(kāi)始瀏覽。相關(guān)主題有助于你進(jìn)一步深入層次結(jié)構(gòu)。

排列每個(gè)主題的推薦信息源

創(chuàng)建主題并組織為層次結(jié)構(gòu)后,我們?nèi)匀恍枰獩Q定推薦哪些信息源,以什么順序推薦。我們想要根據(jù)以下三個(gè)標(biāo)準(zhǔn)進(jìn)行優(yōu)化:

相關(guān)性 —— 用戶添加信息源至該主題與其他主題的比例

關(guān)注數(shù) —— 多少用戶連接了這一信息源

粘度 —— 質(zhì)量和關(guān)注的代理

前兩個(gè)標(biāo)準(zhǔn)很是直截了當(dāng)。人們期望看到和他們?yōu)g覽的主題相關(guān)的流行網(wǎng)站,同時(shí)常常需要折衷這兩個(gè)測(cè)度。

第三個(gè)標(biāo)準(zhǔn)更加主觀。它應(yīng)該反映網(wǎng)站的質(zhì)量,獨(dú)立于閱讀該站點(diǎn)的用戶絕對(duì)數(shù)量。事實(shí)上,我們相信,一些小眾站點(diǎn)可能讀者較少,但內(nèi)容更好。

“信息源之戰(zhàn)”試驗(yàn)

為了計(jì)算粘度評(píng)分,我們?cè)贔eedly社區(qū)中運(yùn)行了一項(xiàng)試驗(yàn)。我們選擇了一些和“tech”主題相關(guān)的信息源,并讓用戶投票更喜歡哪些信息源。

我們?cè)谝恢軆?nèi)收集了25000張票,生成了這些站點(diǎn)的排名。我們尋找和用戶喜歡程度最相關(guān)的特征。

例如,在下表中,我們展示了信息源得分和閱讀該信息源的平均時(shí)間之間的關(guān)系(“read_time”,閱讀時(shí)間,相關(guān)性大致等于0.45)。相關(guān)性是正的,這意味著評(píng)分越高,人們花在該信息源上的時(shí)間大概就越長(zhǎng)。這里例子中的其他特征同樣顯示了正相關(guān)性,因?yàn)樗鼈兌际呛眯畔⒃吹闹笜?biāo)。我們的方法讓我們得以選出和投票結(jié)果最相關(guān)的特征。接著我們就可以加權(quán)組合這些特征,以稍微提升最好的那些信息源的排名。

感謝所有為“信息源之戰(zhàn)”試驗(yàn)投票的人。在Discover頁(yè)面瀏覽特色主題,或者搜索你最喜歡的主題的時(shí)候,都用到了這次試驗(yàn)的結(jié)果。

生成“你可能也喜歡”信息源和更多“相關(guān)主題”

相關(guān)主題不僅包括上面提到的子主題(取自層次結(jié)構(gòu)),還包括基于item2vec協(xié)同過(guò)濾得到的主題。

我們同樣基于item2vec技術(shù),根據(jù)你已經(jīng)關(guān)注的信息源,推薦“你可能也喜歡”(You Might Also Like)的信息源。

結(jié)語(yǔ)

十分感謝Feedly社區(qū)為發(fā)現(xiàn)項(xiàng)目所做的直接和間接貢獻(xiàn)。祝探索愉快!

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:Feedly推薦系統(tǒng)背后的數(shù)據(jù)科學(xué)

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于機(jī)器學(xué)習(xí)的應(yīng)用系統(tǒng)指紋識(shí)別技術(shù)研究

    摘要: 在信息安全測(cè)試領(lǐng)域,基于機(jī)器學(xué)習(xí)的應(yīng)用系統(tǒng)深度指紋識(shí)別技術(shù)對(duì)應(yīng)用系統(tǒng)進(jìn)行漏洞檢測(cè)時(shí),可快速獲取應(yīng)用
    的頭像 發(fā)表于 11-03 11:50 ?965次閱讀
    基于<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>的應(yīng)用<b class='flag-5'>系統(tǒng)</b>指紋識(shí)別<b class='flag-5'>技術(shù)</b>研究

    學(xué)習(xí)鴻蒙背后的價(jià)值?星河版開(kāi)放如何學(xué)習(xí)

    鴻蒙原生內(nèi)核。 實(shí)現(xiàn)了AI框架、大模型、設(shè)計(jì)系統(tǒng)、編程框架、編程語(yǔ)言、編譯器等全棧自研,有核心技術(shù)、全棧能力、底座和生態(tài),是真正的操作系統(tǒng),而非安卓套皮。關(guān)鍵是有了鴻蒙星河版本也就意味著國(guó)內(nèi)市場(chǎng)有了
    發(fā)表于 02-22 20:55

    如何系統(tǒng)性地學(xué)習(xí)工業(yè)機(jī)器技術(shù)?

    `如何系統(tǒng)性地學(xué)習(xí)工業(yè)機(jī)器技術(shù)?對(duì)于一個(gè)還沒(méi)入門(mén)的想學(xué)機(jī)器人的小白而言,想快速見(jiàn)到成效的的話,找一所對(duì)自己胃口的機(jī)器人培訓(xùn)機(jī)構(gòu)是很關(guān)鍵的,
    發(fā)表于 03-06 12:56

    【下載】《機(jī)器學(xué)習(xí)》+《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》

    創(chuàng)建能夠最好地捕捉數(shù)據(jù)預(yù)測(cè)能力的精確模型。3.將機(jī)器學(xué)習(xí)模型集成到企業(yè)系統(tǒng)、集群和云中,并且將模型輸出到實(shí)時(shí)嵌入式硬件。聽(tīng)說(shuō),最近有一個(gè)深圳地區(qū)線下學(xué)習(xí)和交流的
    發(fā)表于 06-01 15:49

    射頻頻譜+機(jī)器學(xué)習(xí)=無(wú)線電技術(shù)新浪潮

    人工智能的發(fā)展浪潮風(fēng)靡一時(shí)。隨著在數(shù)字化書(shū)寫(xiě)、口語(yǔ)詞句、圖像、視頻流以及其他數(shù)字化內(nèi)容方面的訓(xùn)練,機(jī)器學(xué)習(xí)已成為語(yǔ)音識(shí)別、自動(dòng)駕駛汽車和其他以前僅能想象的能力的基礎(chǔ)。據(jù)DARPA微系統(tǒng)技術(shù)
    發(fā)表于 09-02 09:04

    基于深度學(xué)習(xí)技術(shù)的智能機(jī)器

    圖像分析軟件。其中硬件負(fù)責(zé)獲取特定條件下的理想圖像,軟件負(fù)責(zé)獲取圖像中的有用信息?;?b class='flag-5'>機(jī)器學(xué)習(xí)的模式識(shí)別系統(tǒng)三、深度學(xué)習(xí)在圖像處理中的應(yīng)用圖像處理
    發(fā)表于 05-31 09:36

    介紹機(jī)器學(xué)習(xí)的基礎(chǔ)內(nèi)容

    參考右邊的幫助文檔文章目錄嵌入式系統(tǒng)之硬件總復(fù)習(xí)前言一、pandas是什么?二、使用步驟1.引入庫(kù)2.讀入數(shù)據(jù)總結(jié)前言提示:這里可以添加本文要記錄的大概內(nèi)容:例如:隨著人工智能的不斷發(fā)展,機(jī)器學(xué)習(xí)這門(mén)
    發(fā)表于 12-16 06:27

    機(jī)器技術(shù)機(jī)器學(xué)習(xí)

    機(jī)器技術(shù)機(jī)器學(xué)習(xí)正成為嵌入式系統(tǒng)硬件和軟件供應(yīng)商的下一個(gè)重大事件。嵌入式系統(tǒng)可以通過(guò)網(wǎng)絡(luò)連接
    發(fā)表于 12-20 06:03

    什么是TinyML?微型機(jī)器學(xué)習(xí)

    影響范圍,并在這一過(guò)程中開(kāi)啟一個(gè)應(yīng)用的新時(shí)代,我們必須找到方法,在更小、更資源受限的設(shè)備上促進(jìn)機(jī)器學(xué)習(xí)的推理。這種追求導(dǎo)致了微型機(jī)器學(xué)習(xí)或 TinyML (TinyML 基金會(huì)的商標(biāo)名
    發(fā)表于 04-12 10:20

    什么是機(jī)器學(xué)習(xí)? 機(jī)器學(xué)習(xí)基礎(chǔ)入門(mén)

    本文旨在為硬件和嵌入式工程師提供機(jī)器學(xué)習(xí)(ML)的背景,它是什么,它是如何工作的,它為什么重要,以及 TinyML 是如何適應(yīng)的機(jī)器學(xué)習(xí)是一個(gè)始終存在并經(jīng)常被誤解的
    發(fā)表于 06-21 11:06

    周志華演講:很多AI應(yīng)用背后關(guān)鍵支撐就是機(jī)器學(xué)習(xí)技術(shù)

    6月1日上午,2018中新人工智能高峰論壇在南京舉行。會(huì)上,南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系主任、人工智能學(xué)院院長(zhǎng)、歐洲科學(xué)院外籍院士周志華發(fā)表了演講,闡述了他對(duì)于機(jī)器學(xué)習(xí)前沿思考。周志華表示,機(jī)器
    發(fā)表于 06-04 13:13 ?1494次閱讀

    電氣系統(tǒng)為什么要去采用機(jī)器學(xué)習(xí)技術(shù)

    機(jī)器學(xué)習(xí)技術(shù)在企業(yè)電氣系統(tǒng)中的工作和維護(hù)中發(fā)揮重要作用,人們需要了解采用機(jī)器學(xué)習(xí)的益處。
    發(fā)表于 12-18 08:56 ?1282次閱讀

    企業(yè)電氣系統(tǒng)為什么采用機(jī)器學(xué)習(xí)技術(shù)

    機(jī)器學(xué)習(xí)技術(shù)在企業(yè)電氣系統(tǒng)中的工作和維護(hù)中發(fā)揮重要作用,人們需要了解采用機(jī)器學(xué)習(xí)的益處。
    發(fā)表于 04-26 17:59 ?820次閱讀

    機(jī)器學(xué)習(xí)可以分為哪幾類?機(jī)器學(xué)習(xí)技術(shù)有哪些?

    機(jī)器學(xué)習(xí)可以分為哪幾類?機(jī)器學(xué)習(xí)技術(shù)有哪些 機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 08-17 16:11 ?5144次閱讀

    機(jī)器學(xué)習(xí)技術(shù)是什么?機(jī)器學(xué)習(xí)技術(shù)在新型電力系統(tǒng)安全穩(wěn)定中的應(yīng)用

    機(jī)器學(xué)習(xí)技術(shù)是什么?機(jī)器學(xué)習(xí)技術(shù)在新型電力系統(tǒng)安全穩(wěn)
    的頭像 發(fā)表于 08-17 16:30 ?986次閱讀