Dataphin作為阿里巴巴數(shù)據(jù)中臺OneData (OneModel、OneID、OneService)方法論的產(chǎn)品載體,幫助企業(yè)構(gòu)建三大數(shù)據(jù)中心:基于數(shù)據(jù)集成形成的垂直數(shù)據(jù)中心、基于數(shù)據(jù)開發(fā)沉淀的公共數(shù)據(jù)中心和基于標簽工廠構(gòu)建的萃取數(shù)據(jù)中心。今天我們就一起來看看,Dataphin是如何基于OneID思想構(gòu)建數(shù)據(jù)萃取中心,連接上下游應用為企業(yè)創(chuàng)造更多價值的吧~
為什么要建立萃取數(shù)據(jù)中心:提升數(shù)據(jù)價值密度 首先,我們來看看Dataphin為什么要幫助企業(yè)構(gòu)建自己的萃取數(shù)據(jù)中心?
大數(shù)據(jù)時代,任何微小的數(shù)據(jù)都可能產(chǎn)生不可思議的價值。作為智能數(shù)據(jù)構(gòu)建與管理平臺,Dataphin的規(guī)范建模、數(shù)據(jù)處理等核心功能幫助企業(yè)高效整合來自不同業(yè)務數(shù)據(jù)庫的海量數(shù)據(jù),沉淀數(shù)據(jù)資產(chǎn),構(gòu)建自己的數(shù)據(jù)中臺,應對大數(shù)據(jù)時代Volume(大量)、Variety(多樣)、Velocity(高速)方面的挑戰(zhàn)。然而,相比于傳統(tǒng)的小數(shù)據(jù),大數(shù)據(jù)更大的價值在于從海量不相關(guān)的各類數(shù)據(jù)中,挖掘出對預測分析有參考意義的數(shù)據(jù),提升數(shù)據(jù)價值密度并應用于指導生產(chǎn),從而幫助企業(yè)實現(xiàn)提效降本的目的。Dataphin的數(shù)據(jù)萃取功能正提供了這樣的能力。
從業(yè)務視角來看,日常生產(chǎn)和營銷活動中,不管是人群圈選、選址還是個性化投放,都離不開標簽的指導。標簽是對一個實體的立體刻畫(不局限于人,任何可被描述和分析的存在都可以是實體,如商品、公司等)。不同維度的標簽從不同角度對實體進行描述,例如以零售視角為切入點,我們可以從自然屬性(如性別、年齡)、社會屬性(如經(jīng)濟狀況、婚姻狀態(tài))、興趣偏好(如喜歡整潔的環(huán)境、希望有漂亮的牙齒)和行業(yè)消費偏好(如美妝偏好、母嬰偏好)來對消費者進行描述。高質(zhì)量、全面的標簽能夠有效地抽象出一個實體的信息全貌,為精準營銷奠定了基礎。
數(shù)據(jù)只有融通才能產(chǎn)生更大的價值,我們不僅希望可以分析和應用大數(shù)據(jù),更希望得到通過跨業(yè)務單元連接起來的數(shù)據(jù)和精細化萃取的數(shù)據(jù)。這種情況下,Dataphin數(shù)據(jù)萃取模塊基于業(yè)務數(shù)據(jù)庫的原始數(shù)據(jù)和建模研發(fā)等沉淀的數(shù)據(jù)資產(chǎn),將全系統(tǒng)中主數(shù)據(jù)——即貫穿各個隔離業(yè)務的核心對象,進行識別與關(guān)聯(lián)連接,打通業(yè)務數(shù)據(jù)孤島,進一步提煉可直接應用的高價值標簽數(shù)據(jù),從而幫助企業(yè)構(gòu)建自己的萃取數(shù)據(jù)中心,并對接上游應用(QuickAudience等)進一步指導生產(chǎn)營銷活動。
如何高效建立萃取數(shù)據(jù)中心:可視化配置,自動化生產(chǎn) Dataphin研發(fā)模塊下的數(shù)據(jù)萃取為我們提供了連接行為數(shù)據(jù)并實現(xiàn)標簽萃取的功能,現(xiàn)階段優(yōu)先支持以消費者為對象的數(shù)據(jù)體系,功能模塊主要包括3 大部分:ID中心、行為中心和標簽中心(目前ID中心暫未上線)。此外,運維模塊下還提供單獨的萃取運維子模塊,支持從業(yè)務視角查看萃取相關(guān)的調(diào)度任務。下面,我們將從幾個功能模塊的視角給大家介紹Dataphin如何幫助企業(yè)構(gòu)建自己的萃取數(shù)據(jù)中心。
1)ID中心:相關(guān)ID自動化識別與連接 Dataphin基于OneID的思想,以唯一標識打通來自不同平臺、系統(tǒng)、渠道的數(shù)據(jù),支持通過可視化界面參數(shù)配置的方式,從所有數(shù)據(jù)中提煉并基于算法自動識別各類型ID 之間的映射關(guān)系(購物會員ID、視頻觀看者ID、購物設備mac、觀看設備IP 等),并將屬于同一實體的不同類型ID通過唯一的One ID進行連接,使得基于ID生產(chǎn)的標簽可以聚合到同一實體,從而對實體進行更精準、全面的刻畫。
2)行為中心:沉淀行為元素,構(gòu)建行為規(guī)則 Dataphin目前支持以人的相關(guān)ID 為中心,通過可視化界面表單配置的方式,從來源行為數(shù)據(jù)中提煉進而聚攏不同業(yè)務域下的行為數(shù)據(jù)(如電商購物、視頻觀看)。
首先,我們需要從業(yè)務視角對行為數(shù)據(jù)進行梳理,從中提煉出可復用的行為元素(行為域、業(yè)務線、動作、對象、對象屬性),并通過對行為元素進行組合定義不同的行為(行為域-業(yè)務線-動作-對象)。行為域聚合業(yè)務含義一致的行為數(shù)據(jù),如電商域、文娛域;業(yè)務線基于行為域?qū)⑿袨閿?shù)據(jù)進一步細分,各業(yè)務線之間相對獨立,如淘寶業(yè)務線、天貓業(yè)務線;動作指行為主體發(fā)出的操作,如購買、瀏覽;對象指行為主體操作的具體事物,如商品、電影;對象屬性是對象的描述性信息,如名稱、品牌、年份。通過抽取沉淀行為元素,我們可以將來源數(shù)據(jù)更好地進行劃分組合以得到具有明確業(yè)務含義的行為,如電商域-淘寶-購買-商品、文娛域-優(yōu)酷-瀏覽-電影。通過沉淀行為元素,我們可以更好地規(guī)范來源數(shù)據(jù),并減少重復建設和人力投入。
給同一行為選擇不同的來源表并添加配置,即生成不同的行為規(guī)則(由行為+來源表唯一確定),后續(xù)標簽生產(chǎn)將依賴已經(jīng)構(gòu)建的行為和行為規(guī)則。規(guī)則配置主要包括行為主體ID、對象、對象屬性和行為發(fā)生次數(shù),從來源表選擇相應的字段,再通過行為規(guī)則的周期調(diào)度任務,我們就能得到持續(xù)更新的行為數(shù)據(jù)作為標簽生產(chǎn)的來源。
3)標簽中心:高效標簽生產(chǎn) 構(gòu)建完成行為和行為規(guī)則后,進一步地,我們將基于算法模型,通過簡單的界面配置定義標簽的生成規(guī)則。
標簽的配置分為兩大步驟:第一步首先基于定義的行為圈選出某標簽需要依賴的行為數(shù)據(jù),接著對預期得到的標簽值和打標方式進行配置;第二步需要對已選的行為數(shù)據(jù)設置時間衰減模式,并基于業(yè)務含義給不同的行為分配不同的權(quán)重。例如,我們認為“購買母嬰用品”和“觀看親子視頻”的用戶都可以被打上“母嬰人群”的標簽,那么第一步,我們將這兩種行為相關(guān)的數(shù)據(jù)都勾選出來,設置預期標簽值為“母嬰人群”;第二步,我們認為近期的行為比之前發(fā)生的行為更有參考性,因此選擇線性衰減模式,給近期行為賦予更大的時間權(quán)重;同時,基于業(yè)務經(jīng)驗,我們認為“購買母嬰用品”比“觀看親子視頻”更能精確定位到目標用戶,所以給“購買母嬰用品”行為分配更大的權(quán)重。這樣,我們就完成了“母嬰人群”這樣一個購物偏好標簽的生產(chǎn)。
不同于傳統(tǒng)標簽生產(chǎn),Dataphin數(shù)據(jù)萃取的用戶只需要關(guān)心標簽的具體業(yè)務含義和規(guī)則,而不用關(guān)心底層算法的實現(xiàn),通過簡單的界面操作即可完成標簽的配置,并自動生成代碼和周期調(diào)度任務,極大程度上降低了標簽生產(chǎn)的難度和門檻。
4)萃取運維 最后,我們在萃取模塊配置的行為規(guī)則和標簽都會生成自動化調(diào)度的周期任務。在“運維”界面的“萃取運維”子模塊下,我們可以從業(yè)務視角更清晰明了地查看相應任務和對應生成的實例,并針對異常調(diào)度通過補數(shù)據(jù)等操作回復生產(chǎn)。如此一來,業(yè)務人員也可以配置并查看萃取任務,大大降低了對技術(shù)人員的依賴。
總結(jié) Dataphin數(shù)據(jù)萃取功能上線后,批量生產(chǎn)十幾個同類型的標簽的時間從兩周縮短到兩天左右,而且可以監(jiān)控標簽生產(chǎn)任務,不管是速度還是正確性上都得到了很大的提升;參與的人員也從原本的數(shù)據(jù)產(chǎn)品經(jīng)理、數(shù)據(jù)研發(fā)工程師、數(shù)據(jù)科學家為主導轉(zhuǎn)變?yōu)楦嗟臉I(yè)務角色可以參與甚至主導。
Dataphin萃取數(shù)據(jù)中心的建立,幫助企業(yè)更好的實現(xiàn)了目標對象相關(guān)ID 的識別與連接、目標對象所有行為的規(guī)范化結(jié)構(gòu)化聚集和目標對象相關(guān)標簽屬性的快速創(chuàng)建,從而快速構(gòu)建企業(yè)自己用戶數(shù)據(jù)資產(chǎn),以便對接數(shù)據(jù)應用類產(chǎn)品,實現(xiàn)營銷投放等。
看了這些介紹,是不是對Dataphin的數(shù)據(jù)萃取功能充滿了期待和信心?那就快來體驗一下吧~更多Dataphin的驚喜等你來挖掘!
結(jié)語: 阿里巴巴數(shù)據(jù)中臺團隊,致力于輸出阿里云數(shù)據(jù)智能的最佳實踐,助力每個企業(yè)建設自己的數(shù)據(jù)中臺,進而共同實現(xiàn)新時代下的智能商業(yè)! 阿里巴巴數(shù)據(jù)中臺解決方案,核心產(chǎn)品:
Dataphin,以阿里巴巴大數(shù)據(jù)核心方法論OneData為內(nèi)核驅(qū)動,提供一站式數(shù)據(jù)構(gòu)建與管理能力; Quick BI,集阿里巴巴數(shù)據(jù)分析經(jīng)驗沉淀,提供一站式數(shù)據(jù)分析與展現(xiàn)能力; Quick Audience,集阿里巴巴消費者洞察及營銷經(jīng)驗,提供一站式人群圈選、洞察及營銷投放能力,連接阿里巴巴商業(yè),實現(xiàn)用戶增長。
評論
查看更多