0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

想要從事數(shù)據(jù)科學(xué),5種類型項目需要掌握

電子工程師 ? 來源:網(wǎng)絡(luò)整理 ? 作者:工程師飛燕 ? 2018-07-01 10:05 ? 次閱讀

一年一度的秋招已經(jīng)打響了發(fā)令槍,從去年的薪酬排行來看,算法工程師和數(shù)據(jù)分析等工作排在前列,很多相關(guān)專業(yè)的學(xué)生一直在自學(xué)一些網(wǎng)絡(luò)上的公開課并閱讀一些專業(yè)書籍,比如“西瓜書”、“花書”等,如果你現(xiàn)在仍然什么也沒有準(zhǔn)備的話,然而還想從事數(shù)據(jù)科學(xué)領(lǐng)域這個似乎令人望而生畏的工作話,現(xiàn)在就要抓緊補補相關(guān)的知識了。在這里要提示一點,自我完善的知識不要局限于數(shù)據(jù)分析相關(guān)的知識,還要額外補充下相關(guān)領(lǐng)域的知識。另外,簡歷上展示個人技能的最佳方式是使用技能組合的形式,這樣能讓雇主相信你可以使用你已經(jīng)學(xué)習(xí)的技能。為了展示這些技能,以下是你應(yīng)該著重補充的5種數(shù)據(jù)科學(xué)項目組合類型:

1.數(shù)據(jù)清理

數(shù)據(jù)科學(xué)家預(yù)計在一個新項目的清理數(shù)據(jù)處理上花費多達(dá)80%的時間,這對于團(tuán)隊來說是一個巨大的代價。如果你可以證明你在數(shù)據(jù)清理方面經(jīng)驗豐富,那么你將立即變得更有價值。練習(xí)這項能力的方法是創(chuàng)建一個數(shù)據(jù)清理項目,找到一些混亂的數(shù)據(jù)集并開始進(jìn)行清理。

如果你使用Python語言進(jìn)行編程,那么Pandas是一個很好用的庫,如果你使用R語言編程,那么你可以使用dplyr數(shù)據(jù)包。你實踐的數(shù)據(jù)清洗項目應(yīng)該確保展示以下技能:

導(dǎo)入數(shù)據(jù)

加入多個數(shù)據(jù)集

檢測缺失值

檢測異常

輸入缺失的值

數(shù)據(jù)質(zhì)量保證

2.探索性數(shù)據(jù)分析

數(shù)據(jù)科學(xué)的另一個重要方面是探索性數(shù)據(jù)分析(EDA),這是一個生成問題并用可視化方法對其進(jìn)行調(diào)查的過程。 EDA允許分析人員從數(shù)據(jù)中得出結(jié)論來推動業(yè)務(wù)影響,它可能包括基于客戶細(xì)分的有趣洞察,或基于季節(jié)效應(yīng)的銷售趨勢。通常你可以通過探索性數(shù)據(jù)分析來得到一些有趣的發(fā)現(xiàn)。

用于探索性分析的一些有用的Python庫有Pandas和Matplotlib。對于R用戶而言,ggplot2軟件包將會很有用。你實踐的EDA項目應(yīng)該顯示以下技能:

能夠制定相關(guān)的調(diào)查問題

識別趨勢

識別變量之間的協(xié)變

使用可視化有效地傳達(dá)結(jié)果(散點圖,直方圖,餅圖等)

3.交互式數(shù)據(jù)可視化

交互式數(shù)據(jù)可視化包括諸如儀表板之類的工具,這些工具對于數(shù)據(jù)科學(xué)團(tuán)隊以及更多面向業(yè)務(wù)的最終用戶都是很有用的。儀表盤允許數(shù)據(jù)科學(xué)團(tuán)隊進(jìn)行協(xié)作并共同繪制見解。更重要的是,它們?yōu)槊嫦蛏虡I(yè)的客戶提供了交互式工具,這些人專注于戰(zhàn)略目標(biāo)而不是技術(shù)細(xì)節(jié)。數(shù)據(jù)科學(xué)項目的交付成果往往以儀表板的形式出現(xiàn)。

對于Python用戶而言,Bokeh和Plotly庫是非常適合用來創(chuàng)建儀表板的。而對于R用戶,可以使用RStudio的Shiny軟件包。你實踐的儀表板項目應(yīng)該強調(diào)這些重要技能:

包括與客戶需求相關(guān)的指標(biāo)

創(chuàng)建有用的功能邏輯布局(易于掃描的“F模式”)

創(chuàng)建最佳刷新率

生成報告或其他自動操作

4.機器學(xué)習(xí)

機器學(xué)習(xí)項目是數(shù)據(jù)科學(xué)產(chǎn)品組合的另一個重要組成部分。現(xiàn)在,在開始進(jìn)行一些深度學(xué)習(xí)項目之前,請保持耐心。不要一開始就構(gòu)建復(fù)雜的機器學(xué)習(xí)模型,而要堅持從基礎(chǔ)知識開始學(xué)起。線性回歸和邏輯回歸是很好的開始,這些模型更容易解釋并能清晰地與上層管理人員溝通。此外,我還建議專注于具有業(yè)務(wù)影響的項目,例如預(yù)測客戶流失,欺詐檢測或貸款違約等,這些比預(yù)測花型更實用。

想要從事數(shù)據(jù)科學(xué),5種類型項目需要掌握

如果你是Python用戶,請使用Scikit-Learn學(xué)習(xí)庫。而對于R用戶,請使用Caret軟件包。你實踐的機器學(xué)習(xí)項目應(yīng)該傳達(dá)以下技能:

選擇使用某個具體機器學(xué)習(xí)模型的原因

將數(shù)據(jù)分成訓(xùn)練/測試集(k-fold交叉驗證)以避免過度擬合

選擇正確的評估指標(biāo)(AUC、adj-R ^ 2、混淆矩陣等)

特征工程和選擇

超參數(shù)調(diào)整

5.溝通

溝通是數(shù)據(jù)科學(xué)的一個重要方面,對于工科人員而言這點尤其欠缺。能夠有效地傳達(dá)結(jié)果是區(qū)分優(yōu)秀的數(shù)據(jù)科學(xué)家與偉大的數(shù)據(jù)科學(xué)家的重要衡量標(biāo)準(zhǔn)之一。無論你的模型多么華麗,如果你不能向隊友或顧客解釋它,你都不會得到他們的支持,就如同對牛彈琴一般?;脽羝蚇otebook都是很好的溝通工具,可以將你的機器學(xué)習(xí)項目按照項目過程以PPT的形式展示,也可以使用Jupyter Notebook或RMarkdown文件進(jìn)行溝通。

想要從事數(shù)據(jù)科學(xué),5種類型項目需要掌握

確保了解你的目標(biāo)受眾是誰,向高管呈現(xiàn)的內(nèi)容與向機器學(xué)習(xí)專家呈現(xiàn)的內(nèi)容二者是完全不同的。確保具備這些技能:

了解目標(biāo)受眾

提供相關(guān)的可視化

幻燈片不要寫太多的內(nèi)容

確保演示文稿流暢

將結(jié)果與業(yè)務(wù)影響聯(lián)系起來(降低成本,增加收入)

確保在Jupyter筆記本或RMarkdown文件中記錄自己的項目。然后,也可以使用Github 免費將這些Markdown文件轉(zhuǎn)換為靜態(tài)網(wǎng)站。這是向潛在雇主展示個人技能組合的好方法,即GitHub主頁或CSDN博客等。

最后,在求職的道路上請保持積極的態(tài)度,作為應(yīng)屆生,不要被一次次面試、筆試所擾亂心態(tài),請保持繼續(xù)補充知識、練習(xí)項目并參加一些競賽等。不要慌張,秋招過去,還有春招,春招過去還有社招,只要你一直努力提升自己,相信最終會有好的結(jié)果等著你,希望你能夠快樂求職,并且在數(shù)據(jù)科學(xué)領(lǐng)域工作順心。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏

    評論

    相關(guān)推薦

    想要從事單片機行業(yè)!

    本人應(yīng)屆生,即將開始就業(yè)···個人非常喜歡單片機,想要從事單片機軟硬件設(shè)計的工作,不怕遠(yuǎn)離家鄉(xiāng),只要有機會自己就會努力的。因地處偏遠(yuǎn),所以只能網(wǎng)上向內(nèi)地投簡歷了,希望能有機會實現(xiàn)自己的工程師夢!
    發(fā)表于 10-19 23:47

    5月份Github上最熱門的數(shù)據(jù)科學(xué)和機器學(xué)習(xí)項目榜單概述

    5月份Github上最熱門的數(shù)據(jù)科學(xué)和機器學(xué)習(xí)項目
    發(fā)表于 07-29 06:57

    掌握數(shù)據(jù)類型

    掌握數(shù)據(jù)類型
    發(fā)表于 11-24 16:41

    Windows -編程-數(shù)據(jù)類型

    驅(qū)動開發(fā)外包請記住,Rust 是一靜態(tài)類型語言,這意味著它必須在編譯時知道所有變量的類型。編譯器通??梢愿鶕?jù)值以及我們?nèi)绾问褂盟鼇硗茢辔覀?b class='flag-5'>想要使用的
    發(fā)表于 08-24 14:30

    種類型的軸承數(shù)據(jù)

    參見相關(guān)說明,或者參見其他帖子。然后下載其中某一個類別的某一個故障數(shù)據(jù)文件后,文件類型是.mat格式,可以使用MATLAB打開,打開后發(fā)現(xiàn)里面又區(qū)分了三種類型數(shù)據(jù),如上圖,這里不太清
    發(fā)表于 09-08 06:32

    WEBRTC有哪幾種類型

    WEBRTC三種類型(Mesh、MCU 和 SFU)的多方通信架構(gòu)WebRTC 本身提供的是 1 對 1 的通信模型,在 STUN/TURN 的輔助下,如果能實現(xiàn) NAT 穿越,那么兩個瀏覽器是可以
    發(fā)表于 11-01 06:34

    想要從事嵌入式開發(fā)需要掌握哪些技能呢?

    嵌入式開發(fā)可以說是當(dāng)下有前途的IT應(yīng)用領(lǐng)域,小到電子詞典、手機,大到航空航天設(shè)備都是典型的嵌入式系統(tǒng),因此,通過嵌入式技術(shù)人才的職業(yè)發(fā)展空間是非常大的。新手怎么學(xué)習(xí)嵌入式開發(fā),想要從事嵌入式開發(fā)需要
    發(fā)表于 11-08 09:18

    編譯的三種類型是什么?

    編譯的三種類型是什么?ARM_Linux制作嵌入式遠(yuǎn)程調(diào)試工具
    發(fā)表于 12-24 06:42

    嵌入式軟件工程師需要掌握哪些專業(yè)技能?

    嵌入式軟件工程師做什么?需要掌握哪些專業(yè)技能?嵌入式軟件工程師在企業(yè)中主要從事嵌入式軟件開發(fā)工作,工作中會涉及應(yīng)用層以及底層軟件開發(fā)和設(shè)計工作。嵌入式軟件工程師需要精通嵌入式Linux
    發(fā)表于 12-24 08:19

    WEBRTC有哪幾種類型

    WEBRTC三種類型(Mesh、MCU 和 SFU)的多方通信架構(gòu)WebRTC 本身提供的是 1 對 1 的通信模型,在 STUN/TURN 的輔助下,如果能實現(xiàn) NAT 穿越,那么兩個瀏覽器是可以
    發(fā)表于 02-14 06:36

    HDMI常見的5種類型

    HDMI線目前已經(jīng)十分普及,作為連接4K或是8K畫面的必備線纜,發(fā)展至今也有了很多版本。了解HDMI必須要從其基礎(chǔ)的規(guī)范入手,還好它不像USB種類繁多,我們可以根據(jù)自己的實際需要,按照版本區(qū)別,找到心儀的HDMI線。
    的頭像 發(fā)表于 12-08 09:53 ?2.3w次閱讀

    NoSQL數(shù)據(jù)庫的四種類型

    在本文中,我們將簡要介紹NoSQL數(shù)據(jù)庫的四種類型
    的頭像 發(fā)表于 04-25 17:21 ?4048次閱讀

    人工智能需要哪些知識

    人工智能需要哪些知識 隨著人工智能的發(fā)展和普及,越來越多的人開始關(guān)注這一領(lǐng)域。但是,想要從事人工智能相關(guān)的工作,不僅需要具備一定的技術(shù)水平,還需要
    的頭像 發(fā)表于 08-12 17:27 ?817次閱讀

    常見的socket三種類型

    常見的socket三種類型? Socket是計算機網(wǎng)絡(luò)中常用的通信機制,在網(wǎng)絡(luò)編程中起到了非常重要的作用。Socket可以分為三種類型:流套接字(Stream Socket)、數(shù)據(jù)報套接字
    的頭像 發(fā)表于 12-08 11:18 ?2147次閱讀

    C語言如何掌握強制類型轉(zhuǎn)換的精髓

    強制類型轉(zhuǎn)換是把變量從一種類型轉(zhuǎn)換為另一種數(shù)據(jù)類型。例如,如果您想存儲一個 long 類型的值到一個簡單的整型中,您需要把 long
    的頭像 發(fā)表于 02-26 11:00 ?386次閱讀
    C語言如何<b class='flag-5'>掌握</b>強制<b class='flag-5'>類型</b>轉(zhuǎn)換的精髓