0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為什么說(shuō)數(shù)學(xué)知識(shí)是數(shù)據(jù)科學(xué)家的先決條件?

DPVg_AI_era ? 來(lái)源:lq ? 2019-01-29 09:19 ? 次閱讀

AI機(jī)器學(xué)習(xí)的火熱讓數(shù)據(jù)科學(xué)家成為近幾年熱門職業(yè)之一。但對(duì)于試圖從事這一職業(yè)的新人來(lái)說(shuō),數(shù)學(xué)可能最大的攔路虎之一。不過(guò)本文作者認(rèn)為,當(dāng)數(shù)據(jù)科學(xué)家并不一定需要堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),并給出了9類無(wú)需數(shù)學(xué)基礎(chǔ)的數(shù)據(jù)科學(xué)任務(wù)。

在當(dāng)今世界上,數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)已成為最令人向往的職業(yè)方向之一,從大學(xué)生到職業(yè)生涯中期的專業(yè)人士,很多人都希望進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域。但是,在追求數(shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí)領(lǐng)域時(shí)想到的第一個(gè)先決條件是,要具備深入研究復(fù)雜數(shù)學(xué)問(wèn)題的能力,才能走進(jìn)數(shù)據(jù)科學(xué)的大門。

但是那些數(shù)學(xué)基礎(chǔ)薄弱,不具備扎實(shí)數(shù)學(xué)背景的人怎么辦?他們就沒有希望進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域了嗎?

當(dāng)然不是。本文將提供踏入數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)世界之前,是否強(qiáng)制要求數(shù)學(xué)背景知識(shí)的真實(shí)情況。

為什么說(shuō)數(shù)學(xué)知識(shí)是數(shù)據(jù)科學(xué)家的先決條件?

與大學(xué)其他專業(yè)相比,數(shù)據(jù)科學(xué)更多地是關(guān)于如何快速準(zhǔn)確地學(xué)習(xí)。通過(guò)嚴(yán)格的數(shù)學(xué)運(yùn)算,快速準(zhǔn)確地掌握技術(shù),并且通??梢员却蠖鄶?shù)人更容易地學(xué)習(xí)。

數(shù)據(jù)科學(xué)家基本上都是統(tǒng)計(jì)學(xué)家,大多數(shù)人擁有研究生水平的數(shù)學(xué)和統(tǒng)計(jì)學(xué)知識(shí)。這是從事實(shí)際項(xiàng)目所必需的知識(shí),對(duì)于正確使用算法和假設(shè)檢驗(yàn)至關(guān)重要。

掌握邏輯回歸、決策樹、置信區(qū)間等標(biāo)準(zhǔn)數(shù)學(xué)工具也很重要。大多數(shù)企業(yè)都會(huì)使用這些標(biāo)準(zhǔn)工具。因此,招聘人員也傾向于尋找具備扎實(shí)數(shù)學(xué)背景的求職者,這主要是出于歷史原因。

堅(jiān)持使用標(biāo)準(zhǔn)的數(shù)學(xué)訓(xùn)練和標(biāo)準(zhǔn)工具,對(duì)有興趣成為硬核數(shù)據(jù)科學(xué)家的人是非常有用的。

數(shù)據(jù)科學(xué)家需要掌握哪些知識(shí)呢?

一位優(yōu)秀的數(shù)據(jù)科學(xué)家或工程師必須具備豐富的數(shù)據(jù)庫(kù)知識(shí)和工程實(shí)踐知識(shí)。包括處理和記錄錯(cuò)誤、監(jiān)控系統(tǒng),構(gòu)建人為錯(cuò)誤容錯(cuò)渠道,了解擴(kuò)展項(xiàng)目所需的條件、處理持續(xù)整合問(wèn)題、掌握數(shù)據(jù)庫(kù)管理知識(shí),維護(hù)數(shù)據(jù)清理以及確保確定性處理流程等。

凡事有例外,高中數(shù)學(xué)水平的人也有機(jī)會(huì)

實(shí)際上,在機(jī)器學(xué)習(xí)的所有方面的技術(shù)中,數(shù)據(jù)科學(xué)背后的統(tǒng)計(jì)引擎并不涉及高中以后的任何數(shù)學(xué)或統(tǒng)計(jì)理論。

如果具備強(qiáng)大的數(shù)據(jù)和編程背景,任何人都可以非??焖俚貙W(xué)習(xí)數(shù)據(jù)科學(xué)。

不過(guò),由硬核數(shù)學(xué)導(dǎo)向的數(shù)據(jù)科學(xué)家開發(fā)的一些技術(shù)并不使用數(shù)學(xué)或統(tǒng)計(jì)學(xué),這些技術(shù)同樣有效,其中一些技術(shù)已經(jīng)被證明不輸于使用數(shù)學(xué)的同類技術(shù),而且性能通常更加強(qiáng)大。此外,這些技術(shù)更易于理解,并且可解釋性更強(qiáng)。

數(shù)據(jù)科學(xué)家的實(shí)際工作有多少和數(shù)學(xué)有關(guān)?

打破神話,揭示現(xiàn)實(shí)。

從入門級(jí)數(shù)據(jù)科學(xué)家到中級(jí)數(shù)據(jù)科學(xué)家,一般花在數(shù)學(xué)上的時(shí)間不到5%,機(jī)器學(xué)習(xí)也是如此,尤其是建立模型時(shí),很少有時(shí)間做任何數(shù)學(xué)上的工作。對(duì)于機(jī)器學(xué)習(xí),需要學(xué)習(xí)的真正的必要技能是數(shù)據(jù)分析,以便建立能夠進(jìn)行準(zhǔn)確預(yù)測(cè)的模型。初學(xué)者其實(shí)不需過(guò)多掌握微積分和線性代數(shù)。

只有參與學(xué)術(shù)上的機(jī)器學(xué)習(xí)研究或者少數(shù)先進(jìn)的數(shù)據(jù)科學(xué)家團(tuán)隊(duì)時(shí),數(shù)學(xué)的作用才顯得特別重要。高水平的業(yè)內(nèi)人士也經(jīng)常使用高等數(shù)學(xué)。一些人正在拓展機(jī)器學(xué)習(xí)研究人員的研究邊界。

像谷歌和Facebook這樣的公司中,人們只會(huì)在工作中經(jīng)常使用微積分、線性代數(shù)和更高級(jí)的數(shù)學(xué)工具。

最重要的是,在產(chǎn)業(yè)界中,數(shù)據(jù)科學(xué)家只是沒有將太多時(shí)間花在數(shù)學(xué)上,但花了大量時(shí)間來(lái)獲取數(shù)據(jù)、清理數(shù)據(jù)、探索數(shù)據(jù)。實(shí)際上,80%的人所做的是數(shù)據(jù)整理和數(shù)據(jù)的可視化。

9類無(wú)需數(shù)學(xué)技術(shù)的數(shù)據(jù)科學(xué)任務(wù)

1、使用基本的Excel進(jìn)行高級(jí)機(jī)器學(xué)習(xí):此方法是一種輕量級(jí)的技術(shù)實(shí)現(xiàn),包括非常簡(jiǎn)單易懂的基本Excel實(shí)現(xiàn)。目前可用于Python、Perl,Julia和R。未來(lái)預(yù)計(jì)還將支持SQL實(shí)現(xiàn)。

2、使用HDT進(jìn)行自動(dòng)化的機(jī)器學(xué)習(xí):此方法融合了名為“決策樹”和“回歸”的兩種傳統(tǒng)技術(shù)。但是這種實(shí)現(xiàn)不涉及任何節(jié)點(diǎn)分割或任何傳統(tǒng)的回歸模型,回歸部分是與數(shù)學(xué)無(wú)關(guān)的Jack-knife回歸。早期版本使用邏輯回歸,但由于數(shù)據(jù)轉(zhuǎn)換過(guò)程比較簡(jiǎn)單,使用的參數(shù)較少,導(dǎo)致邏輯回歸被Jack-knife回歸所取代。

3、無(wú)模型置信區(qū)間:需要對(duì)隨機(jī)變量和概率分布有基本的了解才能知道置信區(qū)間的概念。這類置信區(qū)間方法基于百分位數(shù),非常易于理解,無(wú)需數(shù)學(xué)知識(shí)且可靠性高,可用于預(yù)測(cè)分析。

4、假設(shè)檢驗(yàn):這是學(xué)生在統(tǒng)計(jì)課程中的難題之一。這里已被置信區(qū)間的簡(jiǎn)單變體所取代,便于直觀理解。

5、使用Excel的Jack-knife回歸:這些回歸技術(shù)非常簡(jiǎn)單高效,可以在Excel或SQL中輕松實(shí)現(xiàn)。

6、Jack-knife回歸:理論 – 無(wú)須統(tǒng)計(jì)理論的回歸,甚至不涉及線性代數(shù)。不過(guò)帶有置信區(qū)間。在該方法中,即使使用少量元參數(shù),與經(jīng)典回歸相比,也能實(shí)現(xiàn)最低限度的精度損失。該方法在存在異常值、高度相關(guān)的特征或其他違反假設(shè)的情況下性能良好,這些假設(shè)條件在使用傳統(tǒng)回歸時(shí)必須通過(guò)一個(gè)數(shù)據(jù)集滿足。

7、索引,編目和NLP:無(wú)需數(shù)學(xué)知識(shí)的監(jiān)督聚類方法。

8、快速組合特征選擇:這種方法通常需要理解隨機(jī)變量的概念。

9、方差,聚類和密度估計(jì):這些方法中也不大涉及數(shù)學(xué)。

要成為高效的數(shù)據(jù)科學(xué)家,還是要懂點(diǎn)數(shù)學(xué)的

其實(shí),這里的關(guān)鍵點(diǎn)是,對(duì)于初出茅廬的數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)從業(yè)者來(lái)說(shuō),數(shù)據(jù)專業(yè)知識(shí)的重要性要優(yōu)于數(shù)學(xué)專業(yè)知識(shí),因此,如果你的目標(biāo)是獲得一份工作,進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域,那么最重要的任務(wù)是必須掌握數(shù)據(jù)分析,而不是掌握微積分。數(shù)據(jù)科學(xué)家要做的不是做證明題或研究數(shù)學(xué)問(wèn)題,能夠分析數(shù)據(jù)才是最重要的。

初學(xué)者需要盡快掌握如何收集數(shù)據(jù)、探索和準(zhǔn)備數(shù)據(jù)。全面掌握數(shù)據(jù)可視化和數(shù)據(jù)處理(包括聚合)是關(guān)鍵環(huán)節(jié),這樣才可以同時(shí)使用它們來(lái)執(zhí)行探索性數(shù)據(jù)分析任務(wù)。

盡管這些無(wú)需數(shù)學(xué)知識(shí)的工具和方法,確實(shí)凸顯了在不具備堅(jiān)實(shí)數(shù)學(xué)基礎(chǔ)的情況下從事數(shù)據(jù)科學(xué)的可能性,但并一定能夠滿足行業(yè)的期望,因?yàn)槟芊瘾@得數(shù)據(jù)科學(xué)家的職位,完全取決于你從事的工作內(nèi)容,以及你心儀的公司究竟從事什么業(yè)務(wù)。

在不具備數(shù)學(xué)背景知識(shí)的情況下,確實(shí)有可能成為一名數(shù)據(jù)科學(xué)家。但按以往經(jīng)驗(yàn)來(lái)看,如果沒有一定程度的數(shù)學(xué)素養(yǎng),從長(zhǎng)期而言,很難成為一個(gè)高效的數(shù)據(jù)科學(xué)家,而高效這一點(diǎn)無(wú)疑是更為重要的。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:不懂?dāng)?shù)學(xué),照樣做數(shù)據(jù)科學(xué)家

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    SAP B1 Web Client & MS Teams App集成連載一:先決條件/Prerequisites

    一、先決條件/Prerequisites 在設(shè)置 SAP Business One 應(yīng)用之前,確保您已具備以下各項(xiàng):Before you set up the SAP Business One
    的頭像 發(fā)表于 09-14 16:29 ?85次閱讀
    SAP B1 Web Client &amp; MS Teams App集成連載一:<b class='flag-5'>先決條件</b>/Prerequisites

    受人眼啟發(fā)!科學(xué)家開發(fā)出新型改良相機(jī)

    新型事件相機(jī)系統(tǒng)與標(biāo)準(zhǔn)事件相機(jī)系統(tǒng)對(duì)比圖。 馬里蘭大學(xué)計(jì)算機(jī)科學(xué)家領(lǐng)導(dǎo)的一個(gè)研究小組發(fā)明了一種照相機(jī)裝置,可以改善機(jī)器人觀察周圍世界并做出反應(yīng)的方式。受人眼工作原理的啟發(fā),他們的創(chuàng)新型照相機(jī)系統(tǒng)模仿
    的頭像 發(fā)表于 07-22 06:24 ?198次閱讀
    受人眼啟發(fā)!<b class='flag-5'>科學(xué)家</b>開發(fā)出新型改良相機(jī)

    中國(guó)科學(xué)家發(fā)現(xiàn)新型高溫超導(dǎo)體

    據(jù)新華社報(bào)道,我國(guó)科學(xué)家再立新功,又一新型高溫超導(dǎo)體被發(fā)現(xiàn)。 復(fù)旦大學(xué)物理學(xué)系趙俊團(tuán)隊(duì)利用高壓光學(xué)浮區(qū)技術(shù)成功生長(zhǎng)了三層鎳氧化物,成功證實(shí)在鎳氧化物中具有壓力誘導(dǎo)的體超導(dǎo)電性,而且超導(dǎo)體積分?jǐn)?shù)達(dá)到
    的頭像 發(fā)表于 07-19 15:14 ?485次閱讀

    天津大學(xué)科學(xué)家突破人類大腦器官成功驅(qū)動(dòng)機(jī)器人

    在科技探索的征途上,天津大學(xué)的科研團(tuán)隊(duì)再次邁出了令人矚目的步伐。7月5日,該校宣布了一項(xiàng)革命性的成果——科學(xué)家們利用前沿的干細(xì)胞技術(shù),成功培育出了高度模擬人類大腦的類腦器官,并創(chuàng)新性地將其與機(jī)器人系統(tǒng)通過(guò)先進(jìn)的片上腦機(jī)接口技術(shù)緊密相連,開啟了人腦與機(jī)器深度融合的新紀(jì)元。
    的頭像 發(fā)表于 07-08 16:00 ?461次閱讀

    新華社:突破性成果!祝賀我國(guó)科學(xué)家成功研發(fā)這一傳感器!

    6月25日,新華社以《突破性成果!祝賀我國(guó)科學(xué)家》為標(biāo)題,報(bào)道了由我國(guó)科學(xué)家研發(fā)的傳感器成果。 我國(guó)科學(xué)家研發(fā)高通道神經(jīng)探針實(shí)現(xiàn)獼猴全腦尺度神經(jīng)活動(dòng)監(jiān)測(cè) 神經(jīng)探針是一種用來(lái)記錄神經(jīng)活動(dòng)的針狀電傳
    的頭像 發(fā)表于 06-27 18:03 ?308次閱讀
    新華社:突破性成果!祝賀我國(guó)<b class='flag-5'>科學(xué)家</b>成功研發(fā)這一傳感器!

    前OpenAI首席科學(xué)家創(chuàng)辦新的AI公司

    消息在業(yè)界引起了廣泛關(guān)注,因?yàn)樘K茨克維曾是OpenAI的聯(lián)合創(chuàng)始人及首席科學(xué)家,并在去年在OpenAI董事會(huì)上扮演了重要角色。
    的頭像 發(fā)表于 06-21 10:42 ?427次閱讀

    自動(dòng)控制原理需要哪些基礎(chǔ)知識(shí)

    自動(dòng)控制原理是工程學(xué)和應(yīng)用科學(xué)領(lǐng)域的一個(gè)重要分支,它涉及到系統(tǒng)的設(shè)計(jì)、分析和維護(hù),以確保系統(tǒng)能夠自動(dòng)地、準(zhǔn)確地響應(yīng)外部或內(nèi)部的變化。 基礎(chǔ)數(shù)學(xué)知識(shí) 自動(dòng)控制原理涉及到大量的數(shù)學(xué)運(yùn)算和公式,因此,掌握
    的頭像 發(fā)表于 06-11 11:08 ?1677次閱讀

    本源量子參與的國(guó)家重點(diǎn)研發(fā)計(jì)劃青年科學(xué)家項(xiàng)目啟動(dòng)會(huì)順利召開

    2024年4月23日,國(guó)家重點(diǎn)研發(fā)計(jì)劃“先進(jìn)計(jì)算與新興軟件”重點(diǎn)專項(xiàng)“面向復(fù)雜物理系統(tǒng)求解的量子科學(xué)計(jì)算算法、軟件、應(yīng)用與驗(yàn)證”青年科學(xué)家項(xiàng)目啟動(dòng)會(huì)暨實(shí)施方案論證會(huì)在合肥順利召開。該項(xiàng)目由合肥綜合性國(guó)家科學(xué)中心人工智能研究院(安
    的頭像 發(fā)表于 05-11 08:22 ?393次閱讀
    本源量子參與的國(guó)家重點(diǎn)研發(fā)計(jì)劃青年<b class='flag-5'>科學(xué)家</b>項(xiàng)目啟動(dòng)會(huì)順利召開

    NVIDIA首席科學(xué)家Bill Dally:深度學(xué)習(xí)硬件趨勢(shì)

    Bill Dally于2009年1月加入NVIDIA擔(dān)任首席科學(xué)家,此前在斯坦福大學(xué)任職12年,擔(dān)任計(jì)算機(jī)科學(xué)系主任。Dally及其斯坦福團(tuán)隊(duì)開發(fā)了系統(tǒng)架構(gòu)、網(wǎng)絡(luò)架構(gòu)、信號(hào)傳輸、路由和同步技術(shù),在今天的大多數(shù)大型并行計(jì)算機(jī)中都可以找到。
    的頭像 發(fā)表于 02-25 16:16 ?866次閱讀
    NVIDIA首席<b class='flag-5'>科學(xué)家</b>Bill Dally:深度學(xué)習(xí)硬件趨勢(shì)

    康奈爾大學(xué)科學(xué)家研制出5分鐘快速充電鋰電池

    鋰離子電池如今廣泛應(yīng)用于電動(dòng)汽車及智能手機(jī)領(lǐng)域。其優(yōu)點(diǎn)包括輕巧、抗震、環(huán)保,但充電時(shí)間較長(zhǎng)及承受大功率電涌的能力不足。隨著最新研究成果發(fā)布,科學(xué)家找到了一種獨(dú)特的銦陽(yáng)極材料,與鋰離子電池內(nèi)的陰極材料實(shí)現(xiàn)良好配合。
    的頭像 發(fā)表于 01-26 09:57 ?521次閱讀
    康奈爾大學(xué)<b class='flag-5'>科學(xué)家</b>研制出5分鐘快速充電鋰電池

    谷歌DeepMind科學(xué)家欲建AI初創(chuàng)公司

    據(jù)知情人士透露,谷歌人工智能部門DeepMind的兩名杰出科學(xué)家Laurent Sifre和Karl Tuyls正在與投資者商討在巴黎成立一家新的人工智能初創(chuàng)公司的事宜。
    的頭像 發(fā)表于 01-22 14:41 ?389次閱讀

    飛騰首席科學(xué)家竇強(qiáng)榮獲 “國(guó)家卓越工程師” 稱號(hào)

    ? ? ?飛騰首席科學(xué)家竇強(qiáng)榮獲 “國(guó)家卓越工程師” 稱號(hào) 1月19日上午,首屆 “國(guó)家工程師獎(jiǎng)” 表彰大會(huì)在北京人民大會(huì)堂隆重舉行。81 名個(gè)人被授予 “國(guó)家卓越工程師” 稱號(hào),50 個(gè)團(tuán)隊(duì)被授予
    的頭像 發(fā)表于 01-19 19:22 ?1431次閱讀
    飛騰首席<b class='flag-5'>科學(xué)家</b>竇強(qiáng)榮獲 “國(guó)家卓越工程師” 稱號(hào)

    Open AI首席科學(xué)家:ChatGPT可能已經(jīng)有了意識(shí),AI將萬(wàn)世不朽

    我是來(lái)和OpenAI的聯(lián)合創(chuàng)始人兼首席科學(xué)家Sutskever會(huì)面的,他的公司位于舊金山傳教區(qū)一條不起眼的街道上,辦公樓沒有任何標(biāo)志,我想聽聽他一手打造的這項(xiàng)顛覆世界的技術(shù)的下一步計(jì)劃。我還想知道他的下一步計(jì)劃,尤其是,為什么建立他公司的下一代旗艦生成模型不再是他的工作重點(diǎn)。
    的頭像 發(fā)表于 11-02 15:58 ?645次閱讀

    中國(guó)科學(xué)家成功研制“九章三號(hào)” 255個(gè)光子的量子計(jì)算原型機(jī)

    ? ? ? ?中國(guó)科學(xué)家再立新功,中國(guó)科學(xué)技術(shù)大學(xué)潘建偉、陸朝陽(yáng)、劉乃樂(lè)等組成的研究團(tuán)隊(duì)與中國(guó)科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所、國(guó)家并行計(jì)算機(jī)工程技術(shù)研究中心成功研制“九章三號(hào)”量子計(jì)算原型機(jī)
    的頭像 發(fā)表于 10-11 17:06 ?1315次閱讀

    MATLAB編程在優(yōu)化中的應(yīng)用介紹

    資源。近年來(lái),優(yōu)化技術(shù)沒有發(fā)生顯著變化,但應(yīng)用領(lǐng)域卻以顯著的速度迅速發(fā)展。在專業(yè)實(shí)踐中成功嵌入優(yōu)化的使用至少需要三個(gè)先決條件。它們包括設(shè)計(jì)問(wèn)題的數(shù)學(xué)建模、計(jì)算機(jī)編程知識(shí)和優(yōu)化技術(shù)知識(shí)。
    發(fā)表于 09-21 07:07