0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)分析師的必備的四個(gè)技能

lviY_AI_shequ ? 來(lái)源:陳翠 ? 2019-03-16 11:35 ? 次閱讀

優(yōu)秀的數(shù)據(jù)分析師需要具備這樣一些素質(zhì):有扎實(shí)的 SQL 基礎(chǔ),熟練使用 Excel,有統(tǒng)計(jì)學(xué)基礎(chǔ),至少掌握一門(mén)數(shù)據(jù)挖掘語(yǔ)言(R、SAS、Python、SPSS),有良好的溝通和表達(dá)能力,做好不斷學(xué)習(xí)的準(zhǔn)備,有較強(qiáng)的數(shù)據(jù)敏感度和邏輯思維能力,深入了解業(yè)務(wù),有管理者思維,能站在管理者的角度考慮問(wèn)題。

01 要打好扎實(shí)的 SQL 基礎(chǔ)

SQL 基礎(chǔ)之所以重要,是因?yàn)閿?shù)據(jù)分析師分析的數(shù)據(jù)大多都是從數(shù)據(jù)庫(kù)中提取而來(lái)的。有良好的 SQL 功底并能熟悉使用,不僅能提取到需要的數(shù)據(jù),還能大大提高工作效率。盡管有部分?jǐn)?shù)據(jù)可以通過(guò)報(bào)表等其他途徑獲得,但絕大多數(shù)的數(shù)據(jù)仍需要通過(guò)自己寫(xiě) SQL 語(yǔ)句。

對(duì)于一些需要 深入分析用戶行為的數(shù)據(jù),用 SQL 提取數(shù)據(jù)的時(shí)間可能會(huì)占據(jù)整個(gè)數(shù)據(jù)分析過(guò)程的 50%,甚至 80%,而對(duì)于未開(kāi)發(fā)成數(shù)據(jù)報(bào)表的常用數(shù)據(jù)需求,比如游戲封測(cè)、開(kāi)測(cè)期間的日?qǐng)?bào)和周報(bào),則需要編寫(xiě)大量的 SQL 語(yǔ)句來(lái)查詢相應(yīng)數(shù)據(jù),這時(shí)如果熟悉存儲(chǔ)過(guò)程,能夠自動(dòng)化或半自動(dòng)化地實(shí)現(xiàn)日常數(shù)據(jù)收集,就會(huì)事半功倍了。

目前使用較多的數(shù)據(jù)庫(kù)有 MySQL、SQL Server 和 Oracle,數(shù)據(jù)分析師必須掌握的常用語(yǔ)句和函數(shù)有如下幾種:

1. 合計(jì)和標(biāo)量函數(shù):Count()、Max()、Sum()、Upper()、lower()、Round()等。

2. distinct——distinct 關(guān)鍵字可以過(guò)濾重復(fù)的數(shù)據(jù)記錄。

3. Top——結(jié)合 select 語(yǔ)句,Top 函數(shù)可以查詢頭幾條和末幾條的數(shù)據(jù)記錄(僅限 SQL Server, 在其他數(shù)據(jù)庫(kù),可用 limit 語(yǔ)句、rownum 列等方式實(shí)現(xiàn)相似的目的)。

4. Order By——結(jié)合 select語(yǔ)句,Order By 可以讓查詢結(jié)果按某個(gè)字段正序和逆序排列。

5. Group By——Group By 子句可以對(duì)查詢的結(jié)果集按指定字段分組。

6. Group By & Having 子句——Having 語(yǔ)句基于 Group By,定義分組條件。

7. Inner Join,Left Outer Join,Right Outer Join and Full outer Join——多表的列關(guān)聯(lián),即通過(guò) Join 可以將不同物理表中的數(shù)據(jù)列根據(jù)一定的關(guān)聯(lián)條件合并成一個(gè)結(jié)果集。

8. Union 合并查詢:Union/Union ALL 查詢可以把多張表的數(shù)據(jù)行合并起來(lái),Union 在合并 時(shí)重復(fù)的數(shù)據(jù)僅保留一行,而 Union ALL 則是直接合并,不會(huì)處理重復(fù)行。 在大數(shù)據(jù)時(shí)代,有很多查詢工具可供選擇。

Hive 和 SQL 是目前比較主流的工具。Hive 是基 于 Hadoop 的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供完整的 SQL 查詢功能,可以將 SQL 語(yǔ)句轉(zhuǎn)換為 MapReduce 任務(wù)進(jìn)行運(yùn)行。Hive 和 SQL 是非常相似的, 主要的區(qū)別就是 Hive 缺少更新和刪除功能。如果你可以熟練使用 SQL,就可以平穩(wěn)過(guò)渡到 Hive。 另外,一定要注意兩者在結(jié)構(gòu)和語(yǔ)法上的差異。

02 要熟練使用 Excel

Excel 可以進(jìn)行各種數(shù)據(jù)的處理、統(tǒng)計(jì)分析和輔助決策操作,作為常用的數(shù)據(jù)處理和展現(xiàn)工具,數(shù)據(jù)分析師除了要熟練將數(shù)據(jù)用 Excel 中的圖表展現(xiàn)出來(lái),還需要掌握為生成的圖表做一系 列的格式設(shè)置的方法,如:系列格式美化、三維格式美化,以及坐標(biāo)軸和網(wǎng)格線設(shè)置等,圖表可以與函數(shù)或宏等功能一起聯(lián)用,制作出模擬圖表或帶有交互效果的高級(jí)圖表,比如在中國(guó)地圖上標(biāo)注各省的人口分布等,實(shí)現(xiàn)這些能得到更好地?cái)?shù)據(jù)分析和查看效果。

Excel 里面自帶的數(shù)據(jù)分析功能,很大程度上能完成專業(yè)統(tǒng)計(jì)軟件(R、SPSS、SAS、Matlab)的數(shù)據(jù)分析工作,這其中包括描述性統(tǒng)計(jì)、相關(guān)系數(shù)、概率分布、均值推斷、線性、非線性回歸、多元回歸分析、時(shí)間序列等內(nèi)容。熟悉使用 Excel 的各項(xiàng)功能對(duì)一名優(yōu)秀的數(shù)據(jù)分析師來(lái)說(shuō)非常重要。

03 要有統(tǒng)計(jì)學(xué)基礎(chǔ)

統(tǒng)計(jì)學(xué)是收集、處理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結(jié)論的科學(xué),其中的理論及依據(jù)就是數(shù)據(jù)分析的理論和依據(jù)。統(tǒng)計(jì)學(xué)是數(shù)據(jù)分析的理論基礎(chǔ),可以使數(shù)據(jù)分析更加系統(tǒng)化,以系統(tǒng)的數(shù)據(jù)科學(xué)作為數(shù)據(jù)分析的指導(dǎo),才會(huì)更好地為數(shù)據(jù)分析服務(wù)。

沒(méi)有統(tǒng)計(jì)學(xué)基礎(chǔ)的分析師的職業(yè)發(fā)展之路不會(huì)長(zhǎng)遠(yuǎn),因?yàn)槠湓诠ぷ髦锌赡軙?huì)常常遇到不知道該用什么方法找尋數(shù)據(jù)規(guī)律的瓶頸,因此掌握數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)是成為一名優(yōu)秀數(shù)據(jù)分析師的基礎(chǔ),這也是在招聘數(shù)據(jù)分析師崗位時(shí)要求應(yīng)聘者具有統(tǒng)計(jì)學(xué)知識(shí)的原因。當(dāng)然,如果不是統(tǒng)計(jì)或數(shù)學(xué)專業(yè),分析師還可以通過(guò)自學(xué)統(tǒng)計(jì)學(xué)相關(guān)書(shū)籍的方法學(xué)習(xí)。

統(tǒng)計(jì)學(xué)知識(shí)主要包含:用于集中趨勢(shì)分析的平均數(shù)、中數(shù)、眾數(shù);用于離中趨勢(shì)分析的全距、 四分差、平均差、方差、標(biāo)準(zhǔn)差;研究現(xiàn)象之間是否存在某種依存關(guān)系的相關(guān)分析;確定兩種或兩種以上變數(shù)間相互依賴的定量關(guān)系的回歸分析;揭示同一個(gè)變量的各個(gè)類別之間的差異,以及不同變量各個(gè)類別之間的對(duì)應(yīng)關(guān)系的關(guān)聯(lián)分析、R-Q 型因子分析;研究從變量群中提取共性因子 的因子分析;用于兩個(gè)及以上樣本均數(shù)差別的顯著性檢驗(yàn)的方差分析;概率及分布、參數(shù)估計(jì)、 假設(shè)檢驗(yàn)等經(jīng)典統(tǒng)計(jì)學(xué)內(nèi)容。

04至少熟悉并精通一種數(shù)據(jù)挖掘工具和語(yǔ)言

以R語(yǔ)言為例,R編程語(yǔ)言在數(shù)據(jù)分析與機(jī)器學(xué)習(xí)領(lǐng)域已經(jīng)成為一款重要的工具。R 作為腳本語(yǔ)言憑借其良好的互動(dòng)性和豐富的擴(kuò)展包資源可以方便地解決大部分?jǐn)?shù)據(jù)處理、變換、統(tǒng)計(jì)分析、可視化的問(wèn)題,并可以重現(xiàn)所有的細(xì)節(jié)。

R 的優(yōu)勢(shì)在于有包羅萬(wàn)象的統(tǒng)計(jì)函數(shù)可以調(diào)用,特別是在時(shí)間序列分析方面,無(wú)論是經(jīng)典還是前沿的方法都有相應(yīng)的包可以直接使用。

因此,掌握R語(yǔ)言可以提高整體的生產(chǎn)力。然而,要成為一名優(yōu)秀的數(shù)據(jù)分析師,僅學(xué)會(huì)使用一門(mén)語(yǔ)言遠(yuǎn)遠(yuǎn)不夠,還需要修改數(shù)據(jù)挖掘語(yǔ)言的程序包或模型,因?yàn)楝F(xiàn)有的程序 包或模型有局限性,在前期數(shù)據(jù)處理上還是不夠自由,如異常值的處理、變量處理等,而自己寫(xiě)代碼編程也可以根據(jù)自己的需求進(jìn)行編寫(xiě),實(shí)現(xiàn)更多的個(gè)性化需求。

一名優(yōu)秀的數(shù)據(jù)分析師,還應(yīng)該主動(dòng)熟悉業(yè)務(wù)。

以游戲公司為例,如果不熟悉游戲產(chǎn)品制作流程、系統(tǒng)架構(gòu)、基本運(yùn)營(yíng)思路,不知道游戲玩家的基本游戲行為和情感訴求,那么數(shù)據(jù)分析工作就相當(dāng)于空中樓閣,所以要多了解策劃人員的游戲設(shè)計(jì)理念、運(yùn)營(yíng)人員的版本計(jì)劃,抓住一切機(jī)會(huì)多觀察和學(xué)習(xí)其工作思路和方法,并參與其具體的實(shí)施過(guò)程,這樣才能逐步積累真正的游戲業(yè)務(wù)經(jīng)驗(yàn)。

現(xiàn)實(shí)情況中很多數(shù)據(jù)分析師都沒(méi)有這樣的經(jīng)歷,也就沒(méi)有相關(guān)的經(jīng)驗(yàn)積累,所以他們大多數(shù)的工作產(chǎn)出主要是一些非產(chǎn)品相關(guān)的平臺(tái)數(shù)據(jù)分析內(nèi)容和結(jié)論;當(dāng)然,筆者相信并非他們不愿意去積累,而是受限于企業(yè)中的一些機(jī)制,比如大多數(shù)數(shù)據(jù)分析師是在技術(shù)部門(mén)或平臺(tái)部門(mén),而非具體的產(chǎn)品部門(mén),少有切實(shí)深入到業(yè)務(wù)現(xiàn)場(chǎng)的機(jī)會(huì)。

在這種環(huán)境下,更需要自己主動(dòng)去了解業(yè)務(wù),多主動(dòng)和產(chǎn)品部門(mén)聯(lián)系,若脫離行業(yè)認(rèn)知和業(yè)務(wù)背景,即使有很好的統(tǒng)計(jì)學(xué)功底,分析的結(jié)果也往往只能停留在數(shù)據(jù)解讀層面,甚至出現(xiàn)因?yàn)椴涣私鈽I(yè)務(wù)背景而使結(jié)論錯(cuò)誤的情況。

從另外一個(gè)角度來(lái)說(shuō),懂業(yè)務(wù)也是數(shù)據(jù)敏感的體現(xiàn),不懂業(yè)務(wù)的數(shù)據(jù)分析師,看到的只是一個(gè)數(shù)字。反之,懂業(yè)務(wù)的數(shù)據(jù)分析師,則看到的不僅僅是數(shù)字,他明白這個(gè)數(shù)字代表什么意義,更能針對(duì)數(shù)據(jù)分析結(jié)論提出有針對(duì)性的建議,對(duì)產(chǎn)品或者企業(yè)來(lái)說(shuō)都是非常有價(jià)值的。

懂業(yè)務(wù)是做數(shù)據(jù)分析師的基本要求,這種觀點(diǎn)對(duì)任何其他行業(yè)也是一樣的道理。優(yōu)秀的分析師不僅要懂業(yè)務(wù),而且要非常熟悉業(yè)務(wù)。

撰寫(xiě)報(bào)告的能力對(duì)成為一名優(yōu)秀的分析師來(lái)說(shuō)也非常重要。

即便有嚴(yán)謹(jǐn)?shù)姆治鏊悸泛陀袃r(jià)值的數(shù)據(jù)資料,如果不能將其寫(xiě)成報(bào)告,或者寫(xiě)的報(bào)告未能準(zhǔn)確清楚地表達(dá)出數(shù)據(jù)中隱含的規(guī)律,那數(shù)據(jù)的價(jià)值將大打折扣。一份好的分析報(bào)告,數(shù)據(jù)資料是功底,報(bào)告的框架是支柱,報(bào)告的格式是軍裝,獨(dú)特見(jiàn)解是亮點(diǎn),預(yù)測(cè)方法是刀槍,正確的判斷是見(jiàn)證。

在撰寫(xiě)報(bào)告時(shí),深入地思考,深入分析,邏輯嚴(yán)謹(jǐn),結(jié)論有說(shuō)服力,能提前預(yù)測(cè)數(shù)據(jù)趨 勢(shì),能從問(wèn)題中引申出解決方案,提出有指導(dǎo)意義的分析建議,這些都是一名優(yōu)秀的分析師所體現(xiàn)的特質(zhì)。

除了以上的硬實(shí)力,數(shù)據(jù)敏感力、邏輯思維能力、歸納能力、批判性思維能力、交流溝通能力、責(zé)任力這些軟性的技能也是優(yōu)秀分析師必須具備的素質(zhì)。另外,如果分析師能站在更高的角 度思考問(wèn)題,有管理者的思維,則能在眾多分析師中能脫穎而出。

以上有些素質(zhì)是我們?cè)谌肼殘?chǎng)之前就具備的,而有些則需要進(jìn)入行業(yè)環(huán)境后逐步積累和建立。 成為優(yōu)秀的數(shù)據(jù)分析師需要具備過(guò)硬的業(yè)務(wù)素養(yǎng)和技術(shù)能力,這絕非一朝一夕之功,需要在實(shí)踐 中不斷成長(zhǎng)和升華。一個(gè)優(yōu)秀的數(shù)據(jù)分析師應(yīng)該以數(shù)據(jù)價(jià)值為導(dǎo)向,放眼全局、立足業(yè)務(wù)、善于 溝通,認(rèn)真對(duì)待每一次的數(shù)據(jù)分析工作,在工作中快速成長(zhǎng)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    6837

    瀏覽量

    88754
  • 分析師
    +關(guān)注

    關(guān)注

    0

    文章

    16

    瀏覽量

    7555

原文標(biāo)題:4個(gè)數(shù)據(jù)分析師的必備技能,讓你不走彎路!

文章出處:【微信號(hào):AI_shequ,微信公眾號(hào):人工智能愛(ài)好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    raid 在大數(shù)據(jù)分析中的應(yīng)用

    RAID(Redundant Array of Independent Disks,獨(dú)立磁盤(pán)冗余陣列)在大數(shù)據(jù)分析中的應(yīng)用主要體現(xiàn)在提高存儲(chǔ)系統(tǒng)的性能、可靠性和容量上。以下是RAID在大數(shù)據(jù)分析
    的頭像 發(fā)表于 11-12 09:44 ?58次閱讀

    SUMIF函數(shù)在數(shù)據(jù)分析中的應(yīng)用

    在商業(yè)和科學(xué)研究中,數(shù)據(jù)分析是一項(xiàng)基本且關(guān)鍵的技能。Excel作為最常用的數(shù)據(jù)分析工具之一,提供了多種函數(shù)來(lái)幫助用戶處理和分析數(shù)據(jù)。SUMI
    的頭像 發(fā)表于 11-11 09:14 ?161次閱讀

    數(shù)據(jù)分析除了spss還有什么

    數(shù)據(jù)分析是當(dāng)今世界中一個(gè)非常重要的領(lǐng)域,它涉及到從大量數(shù)據(jù)中提取有用信息、發(fā)現(xiàn)模式和趨勢(shì),并為決策提供支持。SPSS(Statistical Package for the Social
    的頭像 發(fā)表于 07-05 15:01 ?517次閱讀

    數(shù)據(jù)分析的工具有哪些

    數(shù)據(jù)分析是一個(gè)涉及收集、處理、分析和解釋數(shù)據(jù)以得出有意義見(jiàn)解的過(guò)程。在這個(gè)過(guò)程中,使用正確的工具至關(guān)重要。以下是一些主要的數(shù)據(jù)分析工具,以及
    的頭像 發(fā)表于 07-05 14:54 ?731次閱讀

    數(shù)據(jù)分析有哪些分析方法

    數(shù)據(jù)分析是一種重要的技能,它可以幫助我們從大量的數(shù)據(jù)中提取有價(jià)值的信息,從而做出更明智的決策。在這篇文章中,我們將介紹數(shù)據(jù)分析的各種方法,包括描述性
    的頭像 發(fā)表于 07-05 14:51 ?484次閱讀

    四個(gè)2輸入異或門(mén)數(shù)據(jù)

    電子發(fā)燒友網(wǎng)站提供《四個(gè)2輸入異或門(mén)數(shù)據(jù)表.pdf》資料免費(fèi)下載
    發(fā)表于 05-22 09:58 ?0次下載
    <b class='flag-5'>四個(gè)</b>2輸入異或門(mén)<b class='flag-5'>數(shù)據(jù)</b>表

    四個(gè)2輸入正極和柵極數(shù)據(jù)

    電子發(fā)燒友網(wǎng)站提供《四個(gè)2輸入正極和柵極數(shù)據(jù)表.pdf》資料免費(fèi)下載
    發(fā)表于 05-17 10:28 ?0次下載
    <b class='flag-5'>四個(gè)</b>2輸入正極和柵極<b class='flag-5'>數(shù)據(jù)</b>表

    四個(gè)2輸入正極和柵極數(shù)據(jù)

    電子發(fā)燒友網(wǎng)站提供《四個(gè)2輸入正極和柵極數(shù)據(jù)表.pdf》資料免費(fèi)下載
    發(fā)表于 05-16 10:22 ?0次下載
    <b class='flag-5'>四個(gè)</b>2輸入正極和柵極<b class='flag-5'>數(shù)據(jù)</b>表

    四個(gè)2輸入異或門(mén)數(shù)據(jù)

    電子發(fā)燒友網(wǎng)站提供《四個(gè)2輸入異或門(mén)數(shù)據(jù)表.pdf》資料免費(fèi)下載
    發(fā)表于 05-13 11:04 ?0次下載
    <b class='flag-5'>四個(gè)</b>2輸入異或門(mén)<b class='flag-5'>數(shù)據(jù)</b>表

    四個(gè)2輸入正極和柵極數(shù)據(jù)

    電子發(fā)燒友網(wǎng)站提供《四個(gè)2輸入正極和柵極數(shù)據(jù)表.pdf》資料免費(fèi)下載
    發(fā)表于 05-10 10:10 ?0次下載
    <b class='flag-5'>四個(gè)</b>2輸入正極和柵極<b class='flag-5'>數(shù)據(jù)</b>表

    求助,關(guān)于AD采集到的數(shù)據(jù)分析問(wèn)題

    問(wèn)題描述:使用AD采集一個(gè)10Hz到2MHz的脈沖,脈沖底部可能大于零,由采集到的數(shù)據(jù)分析出該脈沖的上升時(shí)間,幅值和占空比。 備注:在分析的時(shí)候已經(jīng)知道脈沖的頻率,精度為2X10^-5. 在
    發(fā)表于 05-09 07:40

    優(yōu)秀電源工程需要哪些必備技能

    。1、建模仿真電路建模仿真是電源工程必備技能之一。它是電源開(kāi)發(fā)過(guò)程中不可或缺的一個(gè)環(huán)節(jié),可以幫助工程們驗(yàn)證設(shè)計(jì)方案的準(zhǔn)確性與可行性。電源
    發(fā)表于 01-29 11:29

    優(yōu)秀電源工程必備技能大揭秘!

    就帶大家細(xì)數(shù)一下優(yōu)秀電源工程具備的那些技能。新手必備課程成為一名電源高手需要扎實(shí)的理論基礎(chǔ),涉及電路原理、語(yǔ)言編程和控制理論等多個(gè)學(xué)科領(lǐng)域。為了幫助大家更好地掌握
    的頭像 發(fā)表于 12-19 08:23 ?1664次閱讀
    優(yōu)秀電源工程<b class='flag-5'>師</b>的<b class='flag-5'>必備</b><b class='flag-5'>技能</b>大揭秘!

    Get職場(chǎng)新知識(shí):做分析,用大數(shù)據(jù)分析工具

    數(shù)據(jù)管理的。 隨著原來(lái)越多的企業(yè)加入了數(shù)字化轉(zhuǎn)型的隊(duì)伍,大數(shù)據(jù)分析工具也越來(lái)越多地被應(yīng)用于各行各業(yè)的業(yè)務(wù)數(shù)據(jù)分析中,直至今日,大數(shù)據(jù)分析工具也成為了
    發(fā)表于 12-05 09:36

    vlookup函數(shù)的四個(gè)參數(shù)含義

    VLOOKUP函數(shù)是一種用于在Excel中查找和提取數(shù)據(jù)的功能強(qiáng)大的函數(shù)。它的四個(gè)參數(shù)含義分別是:查找值、查找范圍、返回列索引和區(qū)域或表標(biāo)志。 首先,讓我們來(lái)詳細(xì)了解這四個(gè)參數(shù)的含義,并討論如何正確
    的頭像 發(fā)表于 12-01 09:57 ?6873次閱讀