引子
筆者在2015年7月創(chuàng)建了一個(gè)以分享滴滴打車紅包為主的微信群聊,創(chuàng)建的本意是為了方便大家在分享紅包時(shí)不打擾別人,在乘車需要紅包時(shí)能方便地領(lǐng)到紅包。隨著群人數(shù)和分享紅包種類的增加,該群已成為一個(gè)各類 O2O 服務(wù)APP優(yōu)惠券紅包的集散地。從2015年8月到2017年8月,本群產(chǎn)生了約兩萬條紅包分享記錄,筆者最近將這些記錄導(dǎo)出,通過數(shù)量,時(shí)間,語義等維度分析這些數(shù)據(jù),下面將筆者自己的解讀分享出來以供大家學(xué)習(xí)交流。
數(shù)量維度
本群主要成員為北京某大學(xué)的大學(xué)生。兩年時(shí)間里本群共產(chǎn)生21477條聊天記錄,其中有效的紅包分享記錄約為20000條,群成員在10個(gè)月內(nèi)從幾十人增長(zhǎng)到500人滿群。
聊天記錄可導(dǎo)出為 Excel 表格格式,單條聊天記錄的格式如圖1所示。
圖1
每一列的數(shù)據(jù)分別為微信群群號(hào)(沒錯(cuò),微信群也有群號(hào))、消息發(fā)送時(shí)間,發(fā)送者微信昵稱,發(fā)送者微信號(hào),發(fā)送形式(接收或發(fā)送),消息類型(文本、網(wǎng)頁、動(dòng)畫表情、照片壁紙)和消息內(nèi)容。因?yàn)榇蟛糠旨t包都是以網(wǎng)頁的形式分享,而且每種 APP 只使用各自固定的域名,例如滴滴打車使用xiaojukeji.com,餓了么使用 ele.me。通過對(duì)不同域名數(shù)量的統(tǒng)計(jì),筆者分析出了紅包數(shù)量最多的12個(gè)APP 以及他們的數(shù)量比例(圖2),這12類 APP的紅包數(shù)量占所有紅包總量的95%。
圖2
從圖中可以看出外賣紅包是所有紅包種類中數(shù)量最多的,因?yàn)橐率匙⌒兄?,“食”的頻率最高。餓了么紅包數(shù)量占所有紅包數(shù)量的近一半,這與市場(chǎng)調(diào)查機(jī)構(gòu)公布的2016和2017年外賣 APP 市場(chǎng)份額報(bào)告的結(jié)論(餓了么與美團(tuán)外賣市場(chǎng)份額不相上下)不一致。這是因?yàn)槲⑿湃毫膮⑴c者身份和地域的局限性導(dǎo)致該統(tǒng)計(jì)結(jié)果只能反應(yīng)小范圍內(nèi)外賣APP 的市場(chǎng)份額。
除了圖中的 APP 之外,紅包數(shù)量比較多的 APP 還有:去哪兒、由你單車、嘀嗒拼車、愛鮮蜂、一米鮮、攜程、 每日優(yōu)鮮、樂惠、優(yōu)酷、開心消消樂、Airbnb、中國(guó)移動(dòng)、觸寶、有貨。需要補(bǔ)充的是,圖2中京東的紅包包括了京東商城、京東到家和京東金融,網(wǎng)易的紅包包括了網(wǎng)易嚴(yán)選,考拉海購(gòu)和陰陽師。
以上 APP 基本上涵蓋了中國(guó)大部分主流提供 O2O 服務(wù)的APP,同時(shí)也體現(xiàn)了大學(xué)生的消費(fèi)特征。共享出行,外賣,生鮮配送,網(wǎng)購(gòu),娛樂休閑是當(dāng)前大學(xué)生主要的消費(fèi)形式。
從圖1中可以看到每個(gè)紅包在分享時(shí)都有一條相應(yīng)的廣告語,筆者分析了這些廣告語的高頻詞匯,并將其做成詞云圖,如圖3所示。
圖3
細(xì)心的讀者可能發(fā)現(xiàn)紅包的廣告語有幾種類型,一種是宣傳 APP (及其提供的服務(wù))本身,一種是其他品牌的廣告,常見的有影視劇和品牌促銷活動(dòng)等,還有一種類型是 APP 自身的明星代言,例如餓了么的王祖藍(lán)和科比。我分析了2015年8月,2016年8月和2017年8月這三個(gè)月中這三類紅包的比例,如圖4所示。
圖4
2015年夏天是O2O服務(wù)剛開始迅猛發(fā)展的時(shí)候,那個(gè)時(shí)候他們的市場(chǎng)份額還不高,所以紅包主要還是以宣傳自家服務(wù)為主,到了2016年夏天,O2O服務(wù)競(jìng)爭(zhēng)到了火熱階段(外賣領(lǐng)域和出行領(lǐng)域),那個(gè)時(shí)候的紅包折扣力度也比較大,分享人數(shù)較多,所以我們看到其他品牌廣告占比明顯上升,紅包冠名廣告可以作為O2O服務(wù)提供商的收入來源之一。筆者沒有行業(yè)經(jīng)驗(yàn),但猜測(cè)紅包冠名廣告的曝光率和點(diǎn)擊率要高于一些其他的廣告形式。2017年夏天,這時(shí)外賣和出行市場(chǎng)格局已定,紅包的折扣力度減小,分享人數(shù)下降,所以大部分廣告是針對(duì)自己APP的宣傳,常見的廣告語是“第X個(gè)領(lǐng)到紅包的金額最大”,以刺激大家點(diǎn)擊鏈接進(jìn)而產(chǎn)生消費(fèi)。
時(shí)間維度
圖5是紅包數(shù)量前七名的APP紅包數(shù)量?jī)赡觊g的變化趨勢(shì)。
(建議橫屏觀看)
圖5
從紅包數(shù)量變化趨勢(shì)中可以得到以下幾點(diǎn)結(jié)論:首先,餓了么和美團(tuán)外賣的紅包是所有外賣紅包中的主流。在2016年8月之前,美團(tuán)外賣的紅包數(shù)量要高于餓了么紅包數(shù)量,之后餓了么紅包數(shù)量一路反超,遠(yuǎn)遠(yuǎn)高于美團(tuán)紅包數(shù)量。造成變化的原因不是餓了么增加推廣力度,而是因?yàn)榇蟛糠秩撼蓡T(北京某高校學(xué)生)從一個(gè)校區(qū)整體遷往了另一個(gè)校區(qū),而美團(tuán)外賣在原校區(qū)的規(guī)模相對(duì)于餓了么要比新校區(qū)的規(guī)模大。同樣,在2017年6月之后,紅包數(shù)量的整體下跌是因?yàn)榇蟛糠秩撼蓡T從大學(xué)畢業(yè),對(duì)外賣的需求下降。這從另一個(gè)角度反映了小規(guī)模數(shù)據(jù)的不穩(wěn)定性。
第二,同樣是外賣紅包,我們可以看到在2016年2月和2017年2月,也就是春節(jié)和寒假的時(shí)候,各類外賣 APP 的紅包的數(shù)量都明顯下跌,顯而易見,大部分群成員都回家過年,對(duì)外賣的需求大大減少。有趣的是,滴滴紅包數(shù)量并沒有明顯變化,一方面是春運(yùn)的影響,另一方面說明滴滴對(duì)三四線城市的下沉做得比較好。
最后,我們看到滴滴紅包的數(shù)量穩(wěn)定增長(zhǎng)一直到2016年7月達(dá)到最高峰,從2016年8月開始一路下跌。筆者認(rèn)為造成下跌原因和群成員的關(guān)系不大,主要原因是2016年8月1日滴滴宣布收購(gòu)優(yōu)步中國(guó),國(guó)內(nèi)的共享出行領(lǐng)域滴滴一家獨(dú)大,筆者清楚記得從那時(shí)起滴滴的紅包優(yōu)惠力度大打折扣,快車的價(jià)格也有了起步價(jià)。一方面是優(yōu)惠力度的下降,另一方面部分搖擺乘客可能會(huì)選擇別的出行方式,筆者認(rèn)為這才是導(dǎo)致滴滴紅包分享數(shù)量的下降的原因。
圖6
圖6將滴滴和ofo紅包數(shù)量變化趨勢(shì)專門列出來,這樣可以更直觀的看到其變化。之所以沒有列出摩拜,是因?yàn)槟Π莸姆窒泶螖?shù)較少,在圖表上不明顯。如果說2015年夏天是汽車共享出行開始迅猛發(fā)展的時(shí)候,那么從圖中可以看出2016年夏天就是共享單車迅猛發(fā)展的時(shí)候。事實(shí)上滴滴從2012年就開始做出租車叫車業(yè)務(wù), ofo早在2014年就開始在大學(xué)校園推廣共享單車。隨著4G網(wǎng)絡(luò)的和智能手機(jī)的普及,微信使用人數(shù)越來越多,在多種因素的綜合作用下,這些出行O2O服務(wù)在2015年后才開始迅速發(fā)展。
下面我們將時(shí)間維度縮小到一天內(nèi),看看一天內(nèi)出行紅包和外賣紅包的分享數(shù)量和時(shí)間的關(guān)系(圖7)。
圖7
一般而言,一次線上的紅包分享可以代表分享者同時(shí)在線下產(chǎn)生了相應(yīng)的行為,通過變化紅包分享數(shù)量變化趨勢(shì)可以看到,在“食”和“行”方面,統(tǒng)計(jì)數(shù)據(jù)很好地體現(xiàn)了我們一般的認(rèn)知。外賣集中在中午十二點(diǎn)和下午七點(diǎn)兩個(gè)飯點(diǎn)之前,出行則在白天相對(duì)均勻地分布。
支付寶跨年紅包
相信大部分讀者都經(jīng)歷了支付寶跨年紅包的洗禮,作為敏感的紅包群群主,我發(fā)現(xiàn)支付寶的吱口令在十二月中旬開始在群里大量出現(xiàn),到跨年時(shí)達(dá)到高峰,圖8是群聊中從2017年12月10日到2018年1月10日支付寶跨年紅包的分享數(shù)量變化。
圖8
由于筆者在國(guó)外,并沒有參與到瓜分紅包的行動(dòng)中,但筆者好奇的是:在2017年12月12日到2017年12月22 日,支付寶分享紅包的吱口令中,“支付寶”三個(gè)字有大量變體字出現(xiàn),讓人一度以為是欺詐消息,我分析這十天所有的支付寶變體,將其做成圖9的詞云。
圖9
支付寶一共產(chǎn)生了十種變體,起初筆者猜測(cè)支付寶是為了防止微信的追蹤和屏蔽,但我想這樣變體也不妨礙微信監(jiān)測(cè)到消息,況且在這之前和之后紅包都是正常的,所以我特別期待懂這個(gè)問題的朋友能夠解答我的疑問。
總結(jié)
總而言之,這份兩萬條記錄的數(shù)據(jù)集規(guī)模太小,所以很難得到宏觀的結(jié)論,目前得到大部分結(jié)論也是顯而易見的。利用該數(shù)據(jù)集進(jìn)行進(jìn)一步例如行為預(yù)測(cè),用戶畫像,也是不現(xiàn)實(shí)的。另外,該數(shù)據(jù)集的特殊性在于它的獨(dú)一無二,不同于微博等公開可獲取的數(shù)據(jù),這樣的數(shù)據(jù)只能通過人為組織收集,所以即使此數(shù)據(jù)集的體量足夠大,基于它訓(xùn)練出來的模型也難以有實(shí)用價(jià)值。
所以,假設(shè)我有足夠多的群成員,我可以通過收集他們的性別,職業(yè)和收入的情況,結(jié)合他們線上分享紅包的時(shí)間、種類、次數(shù),可能會(huì)得到一些有趣的經(jīng)濟(jì)學(xué)結(jié)論。進(jìn)一步,如果我們能獲取到每個(gè)紅包群成員點(diǎn)擊的情況,這樣又增加了一個(gè)數(shù)據(jù)維度,可以結(jié)合時(shí)間以及冠名廣告和點(diǎn)擊率做紅包發(fā)送的優(yōu)化,也可以結(jié)合群內(nèi)其他數(shù)據(jù)維度來進(jìn)行用戶的畫像,行為預(yù)測(cè)等等。當(dāng)然,這一切都是基于群成員和紅包數(shù)量足夠多的前提。在這個(gè)前提下,我們可以對(duì)O2O行業(yè)的發(fā)展做一個(gè)宏觀的分析,從全新的角度觀察行業(yè)的發(fā)展。
不過以上所說的種種限制,對(duì)于微信官方來說都不是問題,微信利用自己的平臺(tái)優(yōu)勢(shì)關(guān)聯(lián)了無數(shù)的APP,利用不同的數(shù)據(jù)源,微信可以通過協(xié)同過濾(Collaborative Filtering)以及多視角學(xué)習(xí)(Multi-viewLearning)進(jìn)行用戶畫像從而進(jìn)行更精準(zhǔn)的推薦。從另一個(gè)角度想,我們?cè)絹碓蕉嗟男袨槎急?BAT 三家收集到,大家在互聯(lián)網(wǎng)上越來越透明,所以對(duì)隱私的保護(hù)越來越重要,這不僅要靠企業(yè)自律,還要靠國(guó)家加強(qiáng)立法。
通過這次分析,筆者最主要的發(fā)現(xiàn)就是小數(shù)據(jù)集的片面性,并不是說如果數(shù)量到百萬千萬級(jí)就不是小數(shù)據(jù)了,而是說得深刻認(rèn)識(shí)到現(xiàn)有數(shù)據(jù)集的局限性,不能以偏概全,并且盡量嘗試獲取到全面宏觀的數(shù)據(jù)。這對(duì)數(shù)據(jù)挖掘從業(yè)者有一定的啟示。
微信群聊記錄可以通過“同步助手”導(dǎo)出到電腦上,可以導(dǎo)出為文本文檔、表格或者網(wǎng)頁格式,結(jié)合 Excel 和相關(guān) Python工具包,可以輕松實(shí)現(xiàn)對(duì)微信群聊數(shù)據(jù)的挖掘,各位讀者可以自己動(dòng)手挖掘感興趣的微信聊天記錄。我也把本文用到的數(shù)據(jù)集匿名化處理后發(fā)布在網(wǎng)上以供大家學(xué)習(xí)使用。
-
智能手機(jī)
+關(guān)注
關(guān)注
66文章
18412瀏覽量
179693 -
APP
+關(guān)注
關(guān)注
33文章
1566瀏覽量
72334 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1200瀏覽量
24619
原文標(biāo)題:我分析了上萬個(gè)微信紅包數(shù)據(jù),得到了這些發(fā)現(xiàn)(附數(shù)據(jù)集)
文章出處:【微信號(hào):DBDevs,微信公眾號(hào):數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論