0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

阿里最新論文解讀:考慮時(shí)空域影響的點(diǎn)擊率預(yù)估模型DSTN

WpOh_rgznai100 ? 來(lái)源:lq ? 2019-07-18 10:19 ? 次閱讀

【導(dǎo)語(yǔ)】:在本文中,阿里的算法人員同時(shí)考慮空間域信息和時(shí)間域信息,來(lái)進(jìn)行廣告的點(diǎn)擊率預(yù)估。

什么是時(shí)空域?我們可以分解為空間域(spatial domain)和時(shí)間域(temporal domain)??臻g域的意思即是說(shuō),在一屏的推薦中,內(nèi)容是相互關(guān)聯(lián)的,當(dāng)推薦了第一條廣告之后,第一條廣告會(huì)對(duì)第二條廣告的點(diǎn)擊率產(chǎn)生影響,從而影響第二條推薦的廣告。時(shí)間域的意思即是說(shuō),用戶之前的點(diǎn)擊或未點(diǎn)擊的廣告會(huì)影響當(dāng)次的推薦。

本文介紹的論文題目為是《Deep Spatio-Temporal Neural Networks for Click-Through Rate Prediction》,論文的下載地址為:https://arxiv.org/abs/1906.03776

1、背景

CTR預(yù)估問(wèn)題在廣告領(lǐng)域十分重要,吸引了工業(yè)界和學(xué)術(shù)界學(xué)者的研究。之前我們也介紹過(guò)許多比較成功的方法,如LR、FM、Wide&Deep、DeepFM等。

但上述的方法,存在一個(gè)共同的問(wèn)題,即當(dāng)我們要預(yù)估對(duì)一個(gè)廣告的點(diǎn)擊概率時(shí),只考慮該廣告的信息,而忽略了其他廣告可能帶來(lái)的影響。如用戶歷史點(diǎn)擊或者曝光未點(diǎn)擊的廣告、當(dāng)前上下文已經(jīng)推薦過(guò)的廣告等。因此,將這些廣告作為輔助信息,加入到模型中,也許可以提升CTR預(yù)估的準(zhǔn)確性。

總結(jié)一下,輔助廣告總共有三種類型:上下文廣告、用戶點(diǎn)擊過(guò)的廣告、用戶未點(diǎn)擊的廣告,如下圖所示:

這里還是想強(qiáng)調(diào)一下上下文廣告這個(gè)概念,之前的模型可能一次計(jì)算所有廣告的點(diǎn)擊率,然后按點(diǎn)擊率進(jìn)行排序,取top-K進(jìn)行展示。但這里我們把一次推薦K個(gè)廣告過(guò)程看作K個(gè)單次推薦的過(guò)程集合。先推薦第一個(gè)位置的廣告,再推薦第二個(gè)位置的廣告,,依次類推。在推薦第三個(gè)廣告時(shí),推薦的第一個(gè)廣告和第二個(gè)廣告便是我們這里所說(shuō)的上下文廣告。

為了將這些信息加入到模型中,必須要注意以下幾點(diǎn):

1)每種類型的輔助廣告數(shù)量可能相差很多,模型必須適應(yīng)這些所有可能的情況。2)輔助的廣告信息可能與目標(biāo)廣告是不相關(guān)的,因此,模型需要具備提取有效信息,而過(guò)濾無(wú)用信息的能力。舉例來(lái)說(shuō),用戶點(diǎn)擊過(guò)的廣告可能有咖啡廣告、服裝廣告和汽車廣告,當(dāng)目標(biāo)廣告是咖啡相關(guān)的廣告時(shí),過(guò)往點(diǎn)擊中咖啡相關(guān)的廣告可能是起比較大作用的信息。3)不同類型的輔助廣告信息,有時(shí)候起到的作用可能是不同的,模型需要能夠有能力對(duì)此進(jìn)行判別。

總的來(lái)說(shuō),就是模型需要有能力有效處理和融合各方面的信息。

本文提出了DSTN(Deep Spatio-Temporal neural Networks)模型來(lái)處理和融合各種輔助廣告信息,下一節(jié),咱們就來(lái)介紹一下模型的結(jié)構(gòu)。

2、模型架構(gòu)

這里講了三種不同的DSTN的架構(gòu),分別是DSTN - Pooling Model、DSTN - Self-Attention Model和DSTN - Interactive Attention Model。但這三種模型的Embedding部分是同樣的,所以咱們先講Embedding層,再分別介紹幾種模型的結(jié)構(gòu)。

2.1 Embedding Layer

Embedding Layer的結(jié)構(gòu)如下:

可以看到,輸入有四部分信息,分別是目標(biāo)廣告的信息、上下文廣告信息、點(diǎn)擊廣告信息、曝光未點(diǎn)擊廣告信息。目標(biāo)廣告信息包括用戶特征、query特征(如果是搜索場(chǎng)景的話)、目標(biāo)廣告特征;上下文廣告信息包括上下文廣告特征;用戶點(diǎn)擊過(guò)和未點(diǎn)擊過(guò)的廣告信息包括廣告特征以及對(duì)應(yīng)的query特征。

這些特征可以歸為三類:

單值離散特征:如用戶ID、廣告ID等,這類特征直接轉(zhuǎn)換為對(duì)應(yīng)的Embedding。

多值離散特征:如廣告的標(biāo)題,經(jīng)過(guò)分詞之后會(huì)包含多個(gè)詞,每個(gè)詞在轉(zhuǎn)換為對(duì)應(yīng)的Embedding之后,再經(jīng)過(guò)sum pooling的方式轉(zhuǎn)換為單個(gè)向量。

連續(xù)特征:對(duì)于連續(xù)特征如年齡,這里會(huì)進(jìn)行分桶操作轉(zhuǎn)換為離散值,然后再轉(zhuǎn)換為對(duì)應(yīng)的Embedding。

不同的特征轉(zhuǎn)換成對(duì)應(yīng)的Embedding之后,進(jìn)行拼接操作,如目標(biāo)廣告信息中,會(huì)將用戶ID、用戶年齡、廣告ID、廣告名稱等等對(duì)應(yīng)的Embedding進(jìn)行拼接;上下文廣告信息中的每一個(gè)廣告,會(huì)將廣告ID和廣告名稱對(duì)應(yīng)的Embedding進(jìn)行拼接等等。

最終,對(duì)目標(biāo)廣告信息會(huì)得到一個(gè)t維的vector,計(jì)作xt;對(duì)于上下文廣告信息,我們會(huì)得到nc個(gè)c維的vector,每一個(gè)計(jì)作xci;對(duì)于點(diǎn)擊廣告序列,我們會(huì)得到nl個(gè)l維的vector,每一個(gè)計(jì)作xlj;對(duì)于未點(diǎn)擊序列,會(huì)得到nu個(gè)u維的vector,每個(gè)計(jì)作xuq。

介紹完了Embedding,接下來(lái)介紹幾種不同的上層結(jié)構(gòu)。

2.2 DSTN - Pooling Model

第一種結(jié)構(gòu)稱為DSTN - Pooling Model,其模型結(jié)構(gòu)如下:

這種方式就是對(duì)上下文廣告序列、點(diǎn)擊廣告序列和未點(diǎn)擊廣告序列中的vector進(jìn)行簡(jiǎn)單的sum-pooling,轉(zhuǎn)換為一個(gè)vector:

然后各部分進(jìn)行拼接,經(jīng)過(guò)全連接神經(jīng)網(wǎng)絡(luò)之后,在輸出層經(jīng)過(guò)一個(gè)sigmoid轉(zhuǎn)換為點(diǎn)擊的概率:

損失函數(shù)的話選擇logloss:

這種方式,實(shí)現(xiàn)比較簡(jiǎn)單,但是存在一定的缺點(diǎn),當(dāng)對(duì)應(yīng)一個(gè)廣告位置,有多個(gè)候選目標(biāo)廣告時(shí),只有目標(biāo)廣告信息xt發(fā)生變化,其他信息都沒(méi)有發(fā)生變化,這說(shuō)明我們添加的輔助廣告信息僅僅是一個(gè)靜態(tài)信息。同時(shí),由于使用了sum-pooling的方式,一些有用的信息可能會(huì)被噪聲所覆蓋。舉例來(lái)說(shuō),如果目標(biāo)廣告是咖啡相關(guān)的, 點(diǎn)擊序列中有一個(gè)咖啡相關(guān)的廣告,有10個(gè)服飾相關(guān)的廣告,那么這個(gè)咖啡相關(guān)廣告的信息很容易被忽略。

2.3 DSTN - Self-Attention Model

對(duì)于sum-pooling帶來(lái)的缺陷,文中提出了第二種結(jié)構(gòu),稱為DSTN - Self-Attention Model,這里的Self-Attention是針對(duì)每一種特定的輔助廣告信息的,也就是說(shuō),上下文廣告之間進(jìn)行Self-Attention,點(diǎn)擊廣告序列之間進(jìn)行Self-Attention等等。

如果是上下文廣告之間進(jìn)行Self-Attention,其最終輸出為:

通過(guò)公式可以看出,這里并不是我們所熟知的Transformer里面的self-attention,第一次看也沒(méi)注意,第二次細(xì)看才發(fā)現(xiàn),所以有時(shí)候盡管名字一樣,但內(nèi)容也許千差萬(wàn)別。

這里的self-attention的含義是,將每一個(gè)廣告對(duì)應(yīng)的embedding vector輸入到一個(gè)f中,得到一個(gè)標(biāo)量輸出βci,這里的f可以是一個(gè)多層全連接神經(jīng)網(wǎng)絡(luò)。然后通過(guò)softmax歸一化到0-1之間,得到每一個(gè)廣告的權(quán)重aci,隨后基于權(quán)重進(jìn)行加權(quán)求和。

使用self-attention的好處是可以對(duì)序列中的不同廣告賦予不同的權(quán)重,能夠在一定程度上解決sum-pooling的問(wèn)題,但其仍然存在一定的缺陷。首先,self-attention中計(jì)算的權(quán)重,沒(méi)有考慮target ad的信息,也就是說(shuō),針對(duì)不同的target ad,其attention權(quán)重保持不變。其次,歸一化后的權(quán)重aci,其求和是等于1的,這樣,當(dāng)所有的廣告都與目標(biāo)廣告關(guān)系不大時(shí),部分廣告的權(quán)重由于歸一化也會(huì)變得很大。最后,每種類型的輔助廣告的數(shù)量也是會(huì)產(chǎn)生影響的,但由于對(duì)權(quán)重進(jìn)行了歸一化,這個(gè)信息相當(dāng)于也丟失了。

2.4 DSTN - Interactive Attention Model

因此,再針對(duì)上面的不足,提出了DSTN - Interactive Attention Model。其模型結(jié)構(gòu)如下:

相對(duì)于self-attention,這里的權(quán)重aci沒(méi)有經(jīng)過(guò)歸一化,其計(jì)算過(guò)程加入了目標(biāo)廣告的信息,計(jì)算公式如下:

這樣,針對(duì)不同的目標(biāo)廣告,不同類型的輔助廣告信息的權(quán)重會(huì)不斷變化,同時(shí)權(quán)重也沒(méi)有進(jìn)行歸一化,避免了歸一化帶來(lái)的種種問(wèn)題。

3、實(shí)驗(yàn)結(jié)果

論文對(duì)比了多種模型的實(shí)驗(yàn)結(jié)果:

4、模型部署

看論文的時(shí)候,比較關(guān)心的一點(diǎn)就是模型的性能問(wèn)題,因?yàn)槟P椭械囊徊糠州斎胧巧舷挛膹V告信息,更準(zhǔn)確的前面推薦的廣告的信息。假設(shè)我們有5個(gè)廣告位需要推薦,比較容易想到的做法過(guò)程如下:

1、得到所有的候選廣告集,并得到對(duì)應(yīng)的特征,此時(shí)的上下文廣告信息為空。2、模型計(jì)算所有廣告的點(diǎn)擊概率。3、選擇點(diǎn)擊率最高的一個(gè)廣告。隨后把這個(gè)廣告加入到上下文廣告信息中。4、對(duì)于剩下的廣告,再計(jì)算所有廣告的點(diǎn)擊概率。5、重復(fù)第3步和第4步,直到得到5個(gè)展示的廣告。

我們通過(guò)第2步得到了第一個(gè)位置的廣告,重復(fù)執(zhí)行3和4步4次得到剩下4個(gè)位置的廣告。

這么做無(wú)疑是十分耗時(shí)的,線上性能難以保證。因此,文中提到了一種折中的做法,每次從候選集中選擇2-3個(gè)廣告。其示意圖如下:

5、總結(jié)

感覺(jué)本文還是有一定借鑒意義的,最主要的是在推薦過(guò)程中考慮推薦結(jié)果之間的相互關(guān)系,這么做的話個(gè)人感覺(jué)可以消除點(diǎn)擊率預(yù)估中的坑位偏置。因?yàn)槿绻舷挛男畔⒂袃蓚€(gè)廣告的話,模型會(huì)感知到這是對(duì)第三個(gè)坑位的廣告進(jìn)行推薦。同時(shí)上下文信息的加入,在一定程度上也能提升推薦結(jié)果的多樣性,避免太多同質(zhì)信息推薦出來(lái)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4733

    瀏覽量

    100420
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3112

    瀏覽量

    48660

原文標(biāo)題:阿里最新論文解讀:考慮時(shí)空域影響的點(diǎn)擊率預(yù)估模型DSTN

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    如何提高網(wǎng)站的點(diǎn)擊率

    他網(wǎng)站有多少點(diǎn)擊率你的也有多少.  5、就是在163,tom,sina,阿里以商會(huì)友,這樣的論壇里發(fā)貼子,發(fā)一些吸引人氣的貼子,然后就把網(wǎng)址貼上去吸引他進(jìn)去,這樣一天瀏覽看你的人
    發(fā)表于 07-28 00:18

    點(diǎn)擊率最高太陽(yáng)能應(yīng)用電路圖精華集錦

    點(diǎn)擊率最高太陽(yáng)能應(yīng)用電路圖精華集錦
    發(fā)表于 08-20 17:26

    阿里深度學(xué)習(xí)的“金剛鉆”——千億特征XNN算法及其落地實(shí)踐

    ,并使得這些信息變得可追蹤,使得整個(gè)離線訓(xùn)練時(shí)的點(diǎn)擊率、預(yù)估的情況與線上真實(shí)的點(diǎn)擊率相匹配,而不存在PCOPC準(zhǔn)度偏高或偏低的情況?!麄€(gè)算法體系的設(shè)計(jì)需要適應(yīng)千億規(guī)模的特征和萬(wàn)億規(guī)模的樣本?!?/div>
    發(fā)表于 04-24 16:43

    詳解信號(hào)的時(shí)域和空域

    一、時(shí)域與空域特性以遠(yuǎn)場(chǎng)模型(平面波)為例,假設(shè)均勻線陣接收的為窄帶信號(hào),假設(shè)相鄰振元間隔為d,入射角θ為:從空域坐標(biāo)來(lái)看,相鄰振元的間隔為:dsinθ等價(jià)到時(shí)間軸來(lái)看,采樣點(diǎn)的間距為:dsinθ,對(duì)應(yīng)時(shí)間間隔為:
    發(fā)表于 06-28 08:25

    阿里開源自研語(yǔ)音識(shí)別模型DFSMN使用技巧指南

    重磅!阿里開源自研語(yǔ)音識(shí)別模型DFSMN,準(zhǔn)確高達(dá)9604%
    發(fā)表于 09-16 06:53

    教程:如何使用FPGA加速?gòu)V告推薦算法

    的重要成員 CTR 預(yù)估模型,下面先讓大家對(duì) CTR 預(yù)估模型有一個(gè)初步認(rèn)識(shí)。 先了解兩個(gè)名詞CTR(Click-Through-Rate)點(diǎn)擊率
    發(fā)表于 09-27 11:35

    萌新!怎么用Labview做一個(gè)類似于能看到一個(gè)視頻播放量點(diǎn)擊率各種數(shù)據(jù)的東西!

    學(xué)校要求做一個(gè)Labview的課程設(shè)計(jì),因?yàn)橹白鲞^(guò)一段時(shí)間電商運(yùn)營(yíng),就想看能不能做一個(gè)類似的數(shù)據(jù)收集。例如:發(fā)了一條視頻,我后臺(tái)有軟件能看見視頻的播放量,點(diǎn)擊率等各種數(shù)據(jù)。能不能用labview做一個(gè)這樣的程序出來(lái)。
    發(fā)表于 10-26 16:20

    DSTN-LCD,DSTN-LCD是什么意思

    DSTN-LCD,DSTN-LCD是什么意思     DSTN(Dual Scan Tortuosity Nomograph)雙掃描扭曲陣列,它是通過(guò)雙掃描方式來(lái)掃描扭曲向列型液
    發(fā)表于 03-27 11:50 ?1458次閱讀

    基于時(shí)空域特性的幀間快速編碼算法

    針對(duì)屏幕內(nèi)容視頻幀間編碼的高復(fù)雜度問(wèn)題,提出了一種基于時(shí)空域特性的幀間快速編碼算法。首先,根據(jù)運(yùn)動(dòng)靜止檢測(cè)算法將待編碼幀分為靜止幀和運(yùn)動(dòng)幀;然后,對(duì)運(yùn)動(dòng)和靜止幀分別采用不同的編碼策略。對(duì)于靜止幀,在
    發(fā)表于 11-28 17:13 ?0次下載
    基于<b class='flag-5'>時(shí)空域</b>特性的幀間快速編碼算法

    自主駕駛小車 科技創(chuàng)新論文下載

    自主駕駛小車 科技創(chuàng)新論文下載
    發(fā)表于 12-25 17:25 ?0次下載

    阿里開源自主研發(fā)AI語(yǔ)音識(shí)別模型

    阿里巴巴達(dá)摩院機(jī)器智能實(shí)驗(yàn)室語(yǔ)音識(shí)別團(tuán)隊(duì),推出了新一代語(yǔ)音識(shí)別模型——DFSMN,不僅被谷歌等國(guó)外巨頭在論文中重點(diǎn)引用,更將全球語(yǔ)音識(shí)別準(zhǔn)確紀(jì)錄提升至96.04%。
    的頭像 發(fā)表于 06-10 10:08 ?5664次閱讀

    深度推薦系統(tǒng)與CTR預(yù)估2019年值得精讀的論文

    FaceBook推薦最新論文,通過(guò)建模與系統(tǒng)協(xié)同設(shè)計(jì)提出一種butterfly-shuffle的機(jī)制來(lái)提升模型并行化,離線訓(xùn)練上在沒(méi)有任何超參調(diào)優(yōu)下收斂速度與準(zhǔn)確優(yōu)于DCN,并開源了代碼。
    的頭像 發(fā)表于 07-13 07:42 ?5322次閱讀
    深度推薦系統(tǒng)與CTR<b class='flag-5'>預(yù)估</b>2019年值得精讀的<b class='flag-5'>論文</b>

    基于注意力機(jī)制的深度興趣網(wǎng)絡(luò)點(diǎn)擊率模型

    廣告點(diǎn)擊率(CTR)是互聯(lián)網(wǎng)公司進(jìn)行流量分配的重要依據(jù),針對(duì)目前點(diǎn)擊率預(yù)估精度較低的問(wèn)題,結(jié)合通用的神經(jīng)網(wǎng)絡(luò)解決方案,構(gòu)建一種基于注意力機(jī)制的深度興趣網(wǎng)絡(luò)(ADIN)模型。設(shè)計(jì)一個(gè)局部
    發(fā)表于 03-12 10:55 ?5次下載
    基于注意力機(jī)制的深度興趣網(wǎng)絡(luò)<b class='flag-5'>點(diǎn)擊率</b><b class='flag-5'>模型</b>

    聯(lián)合時(shí)空域信息的重建視頻增強(qiáng)方法

    。為此,提出了一種聯(lián)合時(shí)空域信息的重建視頻增強(qiáng)方法。首先,使用自適應(yīng)網(wǎng)絡(luò),根據(jù)前后重建幀預(yù)測(cè)得到當(dāng)前幀的虛擬幀;該虛擬幀攜帶了大量時(shí)域信息,當(dāng)前幀在空域又有髙度相關(guān)性,因此,提岀使用漸進(jìn)融合網(wǎng)絡(luò)進(jìn)一步融合兩
    發(fā)表于 06-04 15:38 ?10次下載

    基于時(shí)空特性的ST-LSTM網(wǎng)絡(luò)位置預(yù)測(cè)模型

    針對(duì)現(xiàn)有位置預(yù)測(cè)研究多數(shù)忽略時(shí)間和空間之間關(guān)聯(lián)性的問(wèn)題,提岀一種基于時(shí)空特性的長(zhǎng)短期記憶模型( ST-LSTM)。基于LSTM網(wǎng)絡(luò)添加單獨(dú)處理用戶移動(dòng)行為時(shí)空信息的時(shí)空門,并
    發(fā)表于 06-11 11:28 ?13次下載