0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

下一代數(shù)據(jù)科學(xué)家必須掌握的領(lǐng)域:機(jī)器學(xué)習(xí)

如意 ? 來(lái)源:讀芯術(shù)微信公眾號(hào) ? 作者:讀芯術(shù)微信公眾號(hào) ? 2020-09-15 14:07 ? 次閱讀

數(shù)據(jù)科學(xué)一直是個(gè)引人注目的領(lǐng)域,尤其是對(duì)于那些有計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)、業(yè)務(wù)分析、工程管理、物理、數(shù)學(xué)等學(xué)科背景的年輕人。但霧里看花始終看不清晰,人們總是認(rèn)為數(shù)據(jù)科學(xué)背后有許多神秘的地方,覺(jué)得它不僅僅是機(jī)器學(xué)習(xí)和統(tǒng)計(jì)。

多年來(lái),我與許多專業(yè)人士討論過(guò)該如何進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域。為什么總有關(guān)于數(shù)據(jù)科學(xué)的炒作?能夠幫助人們走進(jìn)這一領(lǐng)域的仍然是統(tǒng)計(jì)數(shù)據(jù)和機(jī)器學(xué)習(xí)嗎?未來(lái)也仍是如此嗎?

兩個(gè)月前,我從研究生院畢業(yè)后直接作為數(shù)據(jù)科學(xué)家加入了媒體巨頭ViacomCBS。除了研究助理和實(shí)習(xí)之外,沒(méi)有任何全職行業(yè)經(jīng)驗(yàn)。我的工作職責(zé)包括從構(gòu)想、開(kāi)發(fā)到生產(chǎn)ML產(chǎn)品,使用過(guò)文中列出的大部分工作方式。希望本文能幫到所有有志于進(jìn)軍這一領(lǐng)域的數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師們。

為什么總有關(guān)于數(shù)據(jù)科學(xué)的炒作?

幾乎人人都想要進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域。幾年前,數(shù)據(jù)科學(xué)領(lǐng)域存在供需問(wèn)題:自從DJPatil博士和JeffHammerbacher創(chuàng)造了Data Science一詞后,對(duì)數(shù)據(jù)科學(xué)家的需求大大增加,相關(guān)人才顯得供不應(yīng)求。

到了2020年,情況有所好轉(zhuǎn)。受到過(guò)正規(guī)或者M(jìn)OOC教育的數(shù)據(jù)科學(xué)愛(ài)好者的數(shù)量有所增加,人才需求也有所增加,但沒(méi)達(dá)到前者的增長(zhǎng)程度。這一術(shù)語(yǔ)所涵蓋的領(lǐng)域越來(lái)越廣泛,包含了人們進(jìn)行數(shù)據(jù)科學(xué)工作所需的大多數(shù)功能。每個(gè)人都在談?wù)摂?shù)據(jù)科學(xué),但大多數(shù)卻不得其法。

我認(rèn)為數(shù)據(jù)科學(xué)總被炒作有以下幾個(gè)原因:

前沿發(fā)展

工作滿意度高

業(yè)務(wù)影響巨大

數(shù)據(jù)生成量增加

數(shù)據(jù)科學(xué)家頭銜背后的神秘感

數(shù)據(jù)很好看?。ú皇亲置嬉馑紐)

大量學(xué)校和訓(xùn)練營(yíng)能提供數(shù)據(jù)科學(xué)學(xué)位

許多招聘網(wǎng)站將其評(píng)為最熱門的工作(最近3年被Glassdoor評(píng)為美國(guó)最熱門的工作)

自稱是數(shù)據(jù)科學(xué)家的人?

總有人會(huì)這么介紹自己,所以讓我就當(dāng)前的行業(yè)狀況講一些真相。

由于職位需求的增加和數(shù)據(jù)科學(xué)家頭銜的光鮮,許多公司已開(kāi)始將產(chǎn)品分析師、商業(yè)情報(bào)分析師、業(yè)務(wù)分析師、供應(yīng)鏈分析師、數(shù)據(jù)分析師和統(tǒng)計(jì)學(xué)家的職位改為數(shù)據(jù)科學(xué)家,因?yàn)樵S多人離職的原因便是去應(yīng)聘數(shù)據(jù)科學(xué)家的職位,但實(shí)際上這些公司提供的工作內(nèi)容往往是一樣的。

許多人從職位頭銜微小的字詞變化中感到了被尊重。因此,公司們以相同的思路改變職位名稱,使他們的職位顯得更耀眼也更令人期待,例如數(shù)據(jù)科學(xué)家-分析方向、產(chǎn)品數(shù)據(jù)科學(xué)家、數(shù)據(jù)科學(xué)家-增長(zhǎng)方向、數(shù)據(jù)科學(xué)家-供應(yīng)鏈方向、數(shù)據(jù)科學(xué)家-可視化方向或數(shù)據(jù)科學(xué)家,還有什么不能加的方向?

大多數(shù)接受教育或者在線培訓(xùn)的人都有一個(gè)誤區(qū),認(rèn)為所有數(shù)據(jù)科學(xué)家都會(huì)建立精致的機(jī)器學(xué)習(xí)模型,但這種認(rèn)知并不完全正確。我剛開(kāi)始攻讀應(yīng)用數(shù)據(jù)科學(xué)碩士時(shí)就是這樣想的,以為大多數(shù)數(shù)據(jù)科學(xué)家都是做機(jī)器學(xué)習(xí)。

但是當(dāng)我開(kāi)始在美國(guó)實(shí)習(xí)和就業(yè)時(shí),才逐漸了解真相。推動(dòng)人們走向數(shù)據(jù)科學(xué)的力量,其實(shí)源自對(duì)人工智能及其業(yè)務(wù)影響的炒作。

下一代數(shù)據(jù)科學(xué)家——機(jī)器學(xué)習(xí)

在2020年,對(duì)于想要以數(shù)據(jù)科學(xué)家-ML方向(這樣命名因?yàn)樗皇菙?shù)據(jù)科學(xué)家-分析方向)的身份進(jìn)行應(yīng)用機(jī)器學(xué)習(xí),卻又沒(méi)有博士學(xué)位的人來(lái)說(shuō),除了人人都可做的將機(jī)器學(xué)習(xí)應(yīng)用到數(shù)據(jù)集,可選的方法更多了。我將從自身經(jīng)驗(yàn)出發(fā)分享一些關(guān)鍵點(diǎn),或許有助于你的面試:

分布式數(shù)據(jù)處理/機(jī)器學(xué)習(xí):掌握Apache Spark、ApacheHadoop、Dask等技術(shù)的實(shí)踐經(jīng)驗(yàn)?zāi)軌蜃C明你可以大規(guī)模創(chuàng)建Data / ML管道。有以上任何一種技術(shù)的應(yīng)用經(jīng)驗(yàn)都很加分,不過(guò)我還是建議使用Apache Spark(使用Python或Scala)。

生產(chǎn)環(huán)境機(jī)器學(xué)習(xí)/數(shù)據(jù)管道:如果可以親身體驗(yàn)Apache Airflow就再好不過(guò)了。ApacheAirflow是用于創(chuàng)建數(shù)據(jù)和機(jī)器學(xué)習(xí)管道的標(biāo)準(zhǔn)開(kāi)源作業(yè)編排工具。行業(yè)里已經(jīng)在使用它,因此建議你學(xué)習(xí)并圍繞它進(jìn)行一些項(xiàng)目。

DevOps/Cloud:數(shù)據(jù)科學(xué)領(lǐng)域,很多人都過(guò)分忽視了DevOps。如果沒(méi)有基礎(chǔ)架構(gòu)的話,要如何構(gòu)建ML管道?構(gòu)建在本地計(jì)算機(jī)上運(yùn)行的筆記本或代碼,并不像我們?cè)谡n程中所做的那樣容易。你編寫(xiě)的代碼應(yīng)該可跨自己或其他人可能在團(tuán)隊(duì)中創(chuàng)建的基礎(chǔ)結(jié)構(gòu)進(jìn)行擴(kuò)展。

許多公司可能尚未布局ML基礎(chǔ)架構(gòu),正在尋找入門人員。即使在課程學(xué)習(xí)中,熟悉Docker,Kubernetes以及使用Flask之類的框架構(gòu)建ML應(yīng)用程序也應(yīng)該是標(biāo)準(zhǔn)做法。我喜歡Docker,因?yàn)樗哂锌蓴U(kuò)展性,可以構(gòu)建基礎(chǔ)架構(gòu)映像,并在Kubernetes集群上的服務(wù)器/云上復(fù)制相同的內(nèi)容。

數(shù)據(jù)庫(kù):必須了解數(shù)據(jù)庫(kù)和查詢語(yǔ)言。盡管SQL被嚴(yán)重忽略,但無(wú)論在任何云平臺(tái)或數(shù)據(jù)庫(kù)上,它仍然是行業(yè)標(biāo)準(zhǔn)。開(kāi)始在leetcode上練習(xí)復(fù)雜的SQL將幫助到你應(yīng)對(duì)在DS profiles中的某些編碼面試部分,因?yàn)槟阋?fù)責(zé)在預(yù)處理進(jìn)行時(shí)從倉(cāng)庫(kù)中導(dǎo)入數(shù)據(jù),這將簡(jiǎn)化你在運(yùn)行ML模型前進(jìn)行預(yù)處理。使用SQL將數(shù)據(jù)傳輸?shù)侥P椭袝r(shí),大多數(shù)功能工程可以隨時(shí)隨地完成,然而很多人會(huì)忽略這點(diǎn)。

編程語(yǔ)言:推薦用于數(shù)據(jù)科學(xué)的編程語(yǔ)言是Python、R語(yǔ)言、Scala和Java,了解他們中的任何一個(gè)都可以幫助你解決問(wèn)題。對(duì)于ML類型的工作,面試過(guò)程中都將進(jìn)行現(xiàn)場(chǎng)編碼,因此你需要在自己覺(jué)得有效率的地方練習(xí)——Leetcode或者Hackerrank等。

如今,除非你足夠幸運(yùn),在行業(yè)中有一些重要的關(guān)系(建立人際關(guān)系網(wǎng)非常重要?。┗驌碛惺鹈某錾芯坑涗?,否則只了解機(jī)器學(xué)習(xí)或統(tǒng)計(jì)學(xué)的話,你仍無(wú)法進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域并學(xué)習(xí)ML。商業(yè)應(yīng)用程序和領(lǐng)域知識(shí)往往需要工作經(jīng)驗(yàn),但是除了在相關(guān)行業(yè)進(jìn)行實(shí)習(xí)之外,這些經(jīng)驗(yàn)事先無(wú)從習(xí)得。

我也曾站在數(shù)據(jù)科學(xué)的路口徘徊,如今就要親歷下一代數(shù)據(jù)科學(xué)家進(jìn)入領(lǐng)域的需求在當(dāng)下成型。這個(gè)行業(yè)日新月異,需要你不斷調(diào)整自己跟上它的腳步。
責(zé)編AJX

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    下一代機(jī)器人技術(shù):工業(yè)自動(dòng)化的五大趨勢(shì)

    隨著人工智能(AI)技術(shù)的迅猛發(fā)展和全球制造業(yè)的轉(zhuǎn)型升級(jí),下一代機(jī)器人技術(shù)正在引領(lǐng)工業(yè)自動(dòng)化領(lǐng)域的新輪變革。這些變革不僅深刻影響著生產(chǎn)模式,還為企業(yè)帶來(lái)了前所未有的機(jī)遇和挑戰(zhàn)。
    的頭像 發(fā)表于 10-23 15:52 ?411次閱讀

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    了傳統(tǒng)學(xué)科界限,使得科學(xué)家們能夠從更加全面和深入的角度理解生命的奧秘。同時(shí),AI技術(shù)的引入也催生了種全新的科學(xué)研究范式,即數(shù)據(jù)驅(qū)動(dòng)的研究范式,這種范式強(qiáng)調(diào)從大量
    發(fā)表于 10-14 09:21

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得

    人工智能:科學(xué)研究的加速器 第章清晰地闡述了人工智能作為科學(xué)研究工具的強(qiáng)大功能。通過(guò)機(jī)器學(xué)習(xí)、深度學(xué)
    發(fā)表于 10-14 09:12

    IaaS+on+DPU(IoD)+下一代高性能算力底座技術(shù)白皮書(shū)

    大規(guī)模生產(chǎn)環(huán)境落地應(yīng)用的條件。某種程度上,IoD 技術(shù)已成為下一代高性能算力底座的核心技術(shù)與最佳實(shí)踐。 白皮書(shū)下載:*附件:IaaS+on+DPU(IoD)+下一代高性能算力底座+技術(shù)白皮書(shū)(1).pdf
    發(fā)表于 07-24 15:32

    國(guó)科微AI首席科學(xué)家邢國(guó)良:打造全系邊端AI芯片,賦能下一代自動(dòng)駕駛

    7月4日,2024世界人工智能大會(huì)在上海開(kāi)幕。香港中文大學(xué)教授、國(guó)科微AI首席科學(xué)家邢國(guó)良在智能汽車主題論壇發(fā)表《下一代自動(dòng)駕駛技術(shù):從嵌入式視覺(jué)到車路協(xié)同》演講。他表示,智能網(wǎng)聯(lián)為自動(dòng)駕駛帶來(lái)全新
    的頭像 發(fā)表于 07-09 11:35 ?463次閱讀
    國(guó)科微AI首席<b class='flag-5'>科學(xué)家</b>邢國(guó)良:打造全系邊端AI芯片,賦能<b class='flag-5'>下一代</b>自動(dòng)駕駛

    天津大學(xué)科學(xué)家突破人類大腦器官成功驅(qū)動(dòng)機(jī)器

    在科技探索的征途上,天津大學(xué)的科研團(tuán)隊(duì)再次邁出了令人矚目的步伐。7月5日,該校宣布了項(xiàng)革命性的成果——科學(xué)家們利用前沿的干細(xì)胞技術(shù),成功培育出了高度模擬人類大腦的類腦器官,并創(chuàng)新性地將其與機(jī)器人系統(tǒng)通過(guò)先進(jìn)的片上腦機(jī)接口技術(shù)緊
    的頭像 發(fā)表于 07-08 16:00 ?545次閱讀

    新華社:突破性成果!祝賀我國(guó)科學(xué)家成功研發(fā)這傳感器!

    6月25日,新華社以《突破性成果!祝賀我國(guó)科學(xué)家》為標(biāo)題,報(bào)道了由我國(guó)科學(xué)家研發(fā)的傳感器成果。 我國(guó)科學(xué)家研發(fā)高通道神經(jīng)探針實(shí)現(xiàn)獼猴全腦尺度神經(jīng)活動(dòng)監(jiān)測(cè) 神經(jīng)探針是種用來(lái)記錄神經(jīng)活動(dòng)
    的頭像 發(fā)表于 06-27 18:03 ?397次閱讀
    新華社:突破性成果!祝賀我國(guó)<b class='flag-5'>科學(xué)家</b>成功研發(fā)這<b class='flag-5'>一</b>傳感器!

    前OpenAI首席科學(xué)家創(chuàng)辦新的AI公司

    在人工智能領(lǐng)域擁有豐富經(jīng)驗(yàn)和卓越成就的深度學(xué)習(xí)專家伊爾亞·蘇茨克維(Ilya Sutskever)周三宣布,他正在創(chuàng)辦家名為Safe Superintelligence的新型人工智能公司。這
    的頭像 發(fā)表于 06-21 10:42 ?482次閱讀

    24芯M16插頭在下一代技術(shù)中的潛力

      德索工程師說(shuō)道隨著科技的飛速發(fā)展,下一代技術(shù)正逐漸展現(xiàn)出其獨(dú)特的魅力和潛力。在這背景下,24芯M16插頭作為種高性能、多功能的連接器,將在下一代技術(shù)中發(fā)揮至關(guān)重要的作用。以下是
    的頭像 發(fā)表于 06-15 18:03 ?275次閱讀
    24芯M16插頭在<b class='flag-5'>下一代</b>技術(shù)中的潛力

    東盟能源和華為主編的《東盟下一代數(shù)據(jù)中心建設(shè)白皮書(shū)》正式發(fā)布

    2024年5月17日,在2024全球數(shù)據(jù)中心產(chǎn)業(yè)論壇上,由東盟能源中心(ASEAN Center for Energy)和華為主編的《東盟下一代數(shù)據(jù)中心建設(shè)白皮書(shū)》(以下簡(jiǎn)稱《白皮書(shū)》)重磅發(fā)布,旨在推動(dòng)?xùn)|盟數(shù)據(jù)中心產(chǎn)業(yè)加快綠色
    的頭像 發(fā)表于 05-19 14:19 ?744次閱讀
    東盟能源和華為主編的《東盟<b class='flag-5'>下一代數(shù)據(jù)</b>中心建設(shè)白皮書(shū)》正式發(fā)布

    使用NVIDIA Holoscan for Media構(gòu)建下一代直播媒體應(yīng)用

    NVIDIA Holoscan for Media 現(xiàn)已向所有希望在完全可重復(fù)使用的集群上構(gòu)建下一代直播媒體應(yīng)用的開(kāi)發(fā)者開(kāi)放。
    的頭像 發(fā)表于 04-16 14:04 ?576次閱讀

    NVIDIA首席科學(xué)家Bill Dally:深度學(xué)習(xí)硬件趨勢(shì)

    Bill Dally于2009年1月加入NVIDIA擔(dān)任首席科學(xué)家,此前在斯坦福大學(xué)任職12年,擔(dān)任計(jì)算機(jī)科學(xué)系主任。Dally及其斯坦福團(tuán)隊(duì)開(kāi)發(fā)了系統(tǒng)架構(gòu)、網(wǎng)絡(luò)架構(gòu)、信號(hào)傳輸、路由和同步技術(shù),在今天的大多數(shù)大型并行計(jì)算機(jī)中都可以找到。
    的頭像 發(fā)表于 02-25 16:16 ?1022次閱讀
    NVIDIA首席<b class='flag-5'>科學(xué)家</b>Bill Dally:深度<b class='flag-5'>學(xué)習(xí)</b>硬件趨勢(shì)

    科學(xué)家如何加速下一代微電子技術(shù)的發(fā)展

    揚(yáng)聲器、救生醫(yī)療設(shè)備和電動(dòng)汽車等幾乎任何用途的微小硅組件,而個(gè)由勞倫斯伯克利國(guó)家實(shí)驗(yàn)室(伯克利實(shí)驗(yàn)室)領(lǐng)導(dǎo)的新中心可以加速微芯片的下一次革命。 △Beihang Yu準(zhǔn)備硅晶圓,以便在分子工廠的納米制造設(shè)施進(jìn)行檢查。(圖片來(lái)源:Marilyn Sargent/伯克利實(shí)
    的頭像 發(fā)表于 01-23 13:42 ?324次閱讀

    谷歌DeepMind科學(xué)家欲建AI初創(chuàng)公司

    據(jù)知情人士透露,谷歌人工智能部門DeepMind的兩名杰出科學(xué)家Laurent Sifre和Karl Tuyls正在與投資者商討在巴黎成立家新的人工智能初創(chuàng)公司的事宜。
    的頭像 發(fā)表于 01-22 14:41 ?441次閱讀

    芯原推出面向下一代數(shù)據(jù)中心的全新VC9800系列IP

    包括視頻轉(zhuǎn)碼服務(wù)器、AI服務(wù)器、云桌面和云游戲等在內(nèi)的下一代數(shù)據(jù)中心的先進(jìn)需求。 VC9800系列視頻處理器IP具備高性能、高吞吐量和服務(wù)器級(jí)別的多碼流編解碼能力,可支持最高256路碼流,并兼容所有的主流視頻格式,包括新一代先進(jìn)格式VVC等。該系列IP可通過(guò)快
    的頭像 發(fā)表于 01-09 13:18 ?348次閱讀