0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深入研究數(shù)據(jù)科學(xué)家使用的常見統(tǒng)計(jì)和分析技術(shù)

454398 ? 來源: 企業(yè)網(wǎng)D1Net ? 作者: Ronald Schmelzer ? 2021-01-14 16:09 ? 次閱讀

數(shù)據(jù)科學(xué)技術(shù)如今已在許多組織中占有一席之地,數(shù)據(jù)科學(xué)家正迅速成為以數(shù)據(jù)為中心的組織最受歡迎的角色之一。數(shù)據(jù)科學(xué)的應(yīng)用程序利用機(jī)器學(xué)習(xí)等技術(shù)和大數(shù)據(jù)的力量來獲取深入的見解和新的功能,其中包括預(yù)測(cè)分析、圖像和對(duì)象識(shí)別、會(huì)話人工智能系統(tǒng)等。

事實(shí)上,那些沒有在數(shù)據(jù)科學(xué)上進(jìn)行充分投資的組織可能很快落后于在數(shù)據(jù)科學(xué)方面獲得顯著競(jìng)爭(zhēng)優(yōu)勢(shì)的競(jìng)爭(zhēng)對(duì)手。

數(shù)據(jù)科學(xué)家可以做些什么以提供這種變革性的業(yè)務(wù)收益?數(shù)據(jù)科學(xué)領(lǐng)域是一些關(guān)鍵要素的集合:準(zhǔn)確提取可量化數(shù)據(jù)的統(tǒng)計(jì)和數(shù)學(xué)方法;使用先進(jìn)的分析技術(shù)和方法從科學(xué)角度解決數(shù)據(jù)分析的技術(shù)和算法,有助于處理大型數(shù)據(jù)集;以及可以幫助將大量數(shù)據(jù)整理成獲得高質(zhì)量見解的所需格式的工具和方法。

以下將更深入地研究數(shù)據(jù)科學(xué)家使用的常見統(tǒng)計(jì)和分析技術(shù)。其中一些數(shù)據(jù)科學(xué)技術(shù)植根于數(shù)世紀(jì)的數(shù)學(xué)和統(tǒng)計(jì)工作,而另一些技術(shù)則相對(duì)較新,利用了機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和其他形式的高級(jí)分析的研究成果。

數(shù)據(jù)科學(xué)如何發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系

當(dāng)識(shí)別大量數(shù)據(jù)中的信息時(shí),數(shù)據(jù)科學(xué)家首先需要辨別不同的數(shù)據(jù)元素如何相互關(guān)聯(lián)。例如,如果在一張圖上繪制了一堆數(shù)據(jù)點(diǎn),那么如何知道它們是否有意義?

數(shù)據(jù)科學(xué)家最廣泛使用的有三種統(tǒng)計(jì)和分析技術(shù)。也許數(shù)據(jù)表示兩個(gè)或多個(gè)變量之間的關(guān)系,而其工作是繪制某種最能描述這種關(guān)系的曲線或多維平面?;蛘?,它代表具有某種親和力的集群。其他數(shù)據(jù)可能代表不同的類別。通過發(fā)現(xiàn)這些關(guān)系,可以使數(shù)據(jù)的其他隨機(jī)性具有意義,然后可以對(duì)其進(jìn)行分析和可視化,以提供組織可以用來制定決策或計(jì)劃策略的信息。

以下了解可用于執(zhí)行分析的各種數(shù)據(jù)科學(xué)技術(shù)和方法:

分類技術(shù)

在分類問題中,數(shù)據(jù)科學(xué)家要回答的首要問題是:“這些數(shù)據(jù)屬于什么類別?”將數(shù)據(jù)分類的原因很多。也許數(shù)據(jù)是手繪的圖像,人們需要知道圖像代表什么字母或數(shù)字?;蛘叽碣J款申請(qǐng)的數(shù)據(jù),想知道它應(yīng)該屬于“已批準(zhǔn)”還是“已拒絕”類別。其他分類可以集中在確定患者治療方案或電子郵件是否是垃圾郵件。

數(shù)據(jù)科學(xué)家用來將數(shù)據(jù)過濾到類別中的算法和方法包括:

?決策樹。這些是分支邏輯結(jié)構(gòu),使用機(jī)器生成的參數(shù)和數(shù)值樹將數(shù)據(jù)分類為已定義的類別。

?貝葉斯分類器。利用概率的力量,貝葉斯分類器可以幫助將數(shù)據(jù)分為簡(jiǎn)單的類別。

?支持向量機(jī)(SVM)。支持向量機(jī)的目標(biāo)是繪制一條寬邊距的曲線或平面,將數(shù)據(jù)分成不同的類別。

?K-近鄰算法。該技術(shù)使用一種簡(jiǎn)單的“惰性決策”方法,根據(jù)數(shù)據(jù)集中最鄰近的類別來確定數(shù)據(jù)點(diǎn)應(yīng)該屬于哪個(gè)類別。

?邏輯回歸。盡管使用了分類技術(shù),但它使用將數(shù)據(jù)擬合到一條線的想法來區(qū)分每一邊的不同類別。這條線的形狀使數(shù)據(jù)可以移至某個(gè)類別。

?神經(jīng)網(wǎng)絡(luò)。這種方法使用訓(xùn)練有素的人工神經(jīng)網(wǎng)絡(luò),尤其是具有多個(gè)隱藏層的深度學(xué)習(xí)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)已經(jīng)顯示出強(qiáng)大的分類能力,其中包含大量的訓(xùn)練數(shù)據(jù)。

回歸技術(shù)

如果不知道數(shù)據(jù)屬于哪一類,而是想知道不同數(shù)據(jù)點(diǎn)之間的關(guān)系該怎么辦?回歸的主要思想是回答以下問題:“這個(gè)數(shù)據(jù)的預(yù)測(cè)值是多少?”一個(gè)簡(jiǎn)單的概念來自“均值回歸”的統(tǒng)計(jì)概念,它可以是一個(gè)獨(dú)立變量和一個(gè)因變量之間的直接回歸,也可以是一個(gè)試圖找到多個(gè)變量之間關(guān)系的多維回歸。

例如決策樹支持向量機(jī)(SVM)和神經(jīng)網(wǎng)絡(luò)一些分類技術(shù),也可以用來進(jìn)行回歸。此外,數(shù)據(jù)科學(xué)家可以使用的回歸技術(shù)包括:

?線性回歸。作為數(shù)據(jù)科學(xué)中應(yīng)用最廣泛的方法之一,這種方法試圖根據(jù)兩個(gè)變量之間的相關(guān)性找到最適合所分析數(shù)據(jù)的曲線。

?套索回歸。Lasso(套索)是“最小絕對(duì)收縮和選擇算符”的縮寫,是一種通過在最終模型中使用數(shù)據(jù)子集來提高線性回歸模型預(yù)測(cè)準(zhǔn)確性的技術(shù)。

?多元回歸。這涉及尋找適合可能包含多個(gè)變量的多維數(shù)據(jù)的線或平面的不同方法。

聚類和關(guān)聯(lián)分析技術(shù)

另一組數(shù)據(jù)科學(xué)技術(shù)側(cè)重于回答這樣一個(gè)問題:“這些數(shù)據(jù)是如何分組的,不同的數(shù)據(jù)點(diǎn)屬于哪些組?”數(shù)據(jù)科學(xué)家可以發(fā)現(xiàn)相關(guān)數(shù)據(jù)點(diǎn)的聚類,這些數(shù)據(jù)點(diǎn)具有共同的各種特征,從而在分析應(yīng)用程序中產(chǎn)生有用的信息。

可用于聚類用途的方法包括:

?K-均值聚類。K-均值算法確定數(shù)據(jù)集中的一定數(shù)量的聚類,并找到“質(zhì)心”,以標(biāo)識(shí)不同聚類的位置,并將數(shù)據(jù)點(diǎn)分配給最接近的聚類。

?均值漂移聚類。另一種基于質(zhì)心的聚類技術(shù),它可以單獨(dú)使用,也可以通過移動(dòng)指定的質(zhì)心來改進(jìn)k-均值聚類。

?DBSCAN。DBSCAN是“基于密度的帶噪空間聚類算法DBSCAN”的縮寫,是另一種發(fā)現(xiàn)聚類的技術(shù),它使用一種更高級(jí)的方法來識(shí)別聚類的密度。

?高斯混合模型。高斯混合模型通過使用高斯分布將數(shù)據(jù)分組在一起而不是將數(shù)據(jù)視為奇點(diǎn)來幫助找到聚類。

?分層聚類。與決策樹類似,這種技術(shù)使用層次化的分支方法來查找聚類。

關(guān)聯(lián)分析是一種相關(guān)但獨(dú)立的技術(shù)。其背后的主要思想是找到描述不同數(shù)據(jù)點(diǎn)之間公共性的關(guān)聯(lián)規(guī)則。與聚類類似,人們正在尋找數(shù)據(jù)所屬的組。但是在這種情況下,試圖確定何時(shí)數(shù)據(jù)點(diǎn)一起出現(xiàn),而不是僅僅識(shí)別它們的集群。在聚類中,其目標(biāo)是將大數(shù)據(jù)集劃分為可識(shí)別的組,而通過關(guān)聯(lián)分析,人們正在測(cè)量數(shù)據(jù)點(diǎn)之間的關(guān)聯(lián)程度。

數(shù)據(jù)科學(xué)應(yīng)用實(shí)例

數(shù)據(jù)科學(xué)工具帶中的上述方法和技術(shù)需要適當(dāng)?shù)貞?yīng)用于特定的分析問題以及可用于解決這些問題的數(shù)據(jù)。優(yōu)秀的數(shù)據(jù)科學(xué)家必須能夠理解當(dāng)前問題的本質(zhì)——是聚類、分類還是回歸?以及在給定數(shù)據(jù)特征的情況下可以產(chǎn)生所需答案的最佳算法。這就是數(shù)據(jù)科學(xué)實(shí)際上是一個(gè)科學(xué)過程而不是具有嚴(yán)格規(guī)則的過程,并允許通過編程解決問題的原因。

使用這些技術(shù),數(shù)據(jù)科學(xué)家可以處理廣泛的應(yīng)用程序,其中許多應(yīng)用程序通常出現(xiàn)在不同類型的行業(yè)和組織中。以下是一些例子:

·異常檢測(cè)。如果可以找到預(yù)期或正常數(shù)據(jù)的模式,那么也可以找到那些不符合模式的數(shù)據(jù)點(diǎn)。金融服務(wù)、醫(yī)療保健、零售和制造業(yè)等行業(yè)組織經(jīng)常采用各種數(shù)據(jù)科學(xué)方法來識(shí)別其數(shù)據(jù)中的異常情況,以用于欺詐檢測(cè)、客戶分析、網(wǎng)絡(luò)安全和IT系統(tǒng)監(jiān)控。異常檢測(cè)還可以用來消除數(shù)據(jù)集中的異常值,以提高分析的準(zhǔn)確性。

·二分類和多分類。分類技術(shù)的一個(gè)主要應(yīng)用是確定某物是否屬于某一特定類別。這就是所謂的二分類,因?yàn)槿藗兛赡軙?huì)問諸如“圖片中是否有貓?”之類的問題。實(shí)際的業(yè)務(wù)應(yīng)用是使用圖像識(shí)別在大量文件中識(shí)別合同或發(fā)票。在多類分類中,在數(shù)據(jù)集中有許多不同的類別,正在努力尋找最適合數(shù)據(jù)點(diǎn)的類別。例如,美國(guó)勞工統(tǒng)計(jì)局會(huì)對(duì)工傷進(jìn)行自動(dòng)分類。

·個(gè)性化。希望與客戶進(jìn)行個(gè)性化交互或向客戶推薦產(chǎn)品和服務(wù)的組織首先需要將數(shù)據(jù)分組到具有共享特征的數(shù)據(jù)桶中。有效的數(shù)據(jù)科學(xué)工作可以使用推薦引擎和超個(gè)性化系統(tǒng)等技術(shù),根據(jù)個(gè)人的具體需求和喜好量身來定制網(wǎng)站,推銷產(chǎn)品及更多內(nèi)容,這些技術(shù)是通過匹配人員詳細(xì)資料中的數(shù)據(jù)來驅(qū)動(dòng)的。

這只是數(shù)據(jù)科學(xué)應(yīng)用程序的一些示例。通過采用數(shù)據(jù)分析的各種工具和方法,數(shù)據(jù)科學(xué)家可以幫助使用它們的組織獲得戰(zhàn)略和競(jìng)爭(zhēng)優(yōu)勢(shì)。
編輯:hfy

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    中國(guó)科學(xué)家發(fā)現(xiàn)新型高溫超導(dǎo)體

    據(jù)新華社報(bào)道,我國(guó)科學(xué)家再立新功,又一新型高溫超導(dǎo)體被發(fā)現(xiàn)。 復(fù)旦大學(xué)物理學(xué)系趙俊團(tuán)隊(duì)利用高壓光學(xué)浮區(qū)技術(shù)成功生長(zhǎng)了三層鎳氧化物,成功證實(shí)在鎳氧化物中具有壓力誘導(dǎo)的體超導(dǎo)電性,而且超導(dǎo)體積分?jǐn)?shù)達(dá)到
    的頭像 發(fā)表于 07-19 15:14 ?485次閱讀

    天津大學(xué)科學(xué)家突破人類大腦器官成功驅(qū)動(dòng)機(jī)器人

    在科技探索的征途上,天津大學(xué)的科研團(tuán)隊(duì)再次邁出了令人矚目的步伐。7月5日,該校宣布了一項(xiàng)革命性的成果——科學(xué)家們利用前沿的干細(xì)胞技術(shù),成功培育出了高度模擬人類大腦的類腦器官,并創(chuàng)新性地將其與機(jī)器人系統(tǒng)通過先進(jìn)的片上腦機(jī)接口技術(shù)
    的頭像 發(fā)表于 07-08 16:00 ?461次閱讀

    新華社:突破性成果!祝賀我國(guó)科學(xué)家成功研發(fā)這一傳感器!

    6月25日,新華社以《突破性成果!祝賀我國(guó)科學(xué)家》為標(biāo)題,報(bào)道了由我國(guó)科學(xué)家研發(fā)的傳感器成果。 我國(guó)科學(xué)家研發(fā)高通道神經(jīng)探針實(shí)現(xiàn)獼猴全腦尺度神經(jīng)活動(dòng)監(jiān)測(cè) 神經(jīng)探針是一種用來記錄神經(jīng)活動(dòng)的針狀電傳
    的頭像 發(fā)表于 06-27 18:03 ?308次閱讀
    新華社:突破性成果!祝賀我國(guó)<b class='flag-5'>科學(xué)家</b>成功研發(fā)這一傳感器!

    前OpenAI首席科學(xué)家創(chuàng)辦新的AI公司

    消息在業(yè)界引起了廣泛關(guān)注,因?yàn)樘K茨克維曾是OpenAI的聯(lián)合創(chuàng)始人及首席科學(xué)家,并在去年在OpenAI董事會(huì)上扮演了重要角色。
    的頭像 發(fā)表于 06-21 10:42 ?427次閱讀

    助力科學(xué)發(fā)展,NVIDIA AI加速HPC研究

    科學(xué)家研究人員正在利用 NVIDIA 技術(shù)將生成式 AI 應(yīng)用于代碼生成、天氣預(yù)報(bào)、遺傳學(xué)和材料科學(xué)領(lǐng)域的 HPC 工作。
    的頭像 發(fā)表于 05-14 09:17 ?292次閱讀
    助力<b class='flag-5'>科學(xué)</b>發(fā)展,NVIDIA AI加速HPC<b class='flag-5'>研究</b>

    本源量子參與的國(guó)家重點(diǎn)研發(fā)計(jì)劃青年科學(xué)家項(xiàng)目啟動(dòng)會(huì)順利召開

    2024年4月23日,國(guó)家重點(diǎn)研發(fā)計(jì)劃“先進(jìn)計(jì)算與新興軟件”重點(diǎn)專項(xiàng)“面向復(fù)雜物理系統(tǒng)求解的量子科學(xué)計(jì)算算法、軟件、應(yīng)用與驗(yàn)證”青年科學(xué)家項(xiàng)目啟動(dòng)會(huì)暨實(shí)施方案論證會(huì)在合肥順利召開。該項(xiàng)目由合肥綜合性國(guó)家科學(xué)中心人工智能
    的頭像 發(fā)表于 05-11 08:22 ?393次閱讀
    本源量子參與的國(guó)家重點(diǎn)研發(fā)計(jì)劃青年<b class='flag-5'>科學(xué)家</b>項(xiàng)目啟動(dòng)會(huì)順利召開

    量子夢(mèng)

    可以模擬原子和分子之間的相互作用,幫助科學(xué)家設(shè)計(jì)新材料、藥物,甚至加速新材料的發(fā)現(xiàn)過程。這將有助于推動(dòng)科學(xué)研究的進(jìn)展,加快新技術(shù)的開發(fā)。 總的來說,量子計(jì)算機(jī)的夢(mèng)想是通過利用量子力學(xué)的奇特性質(zhì),解決傳
    發(fā)表于 03-13 18:18

    透射電鏡TEM測(cè)試解剖芯片結(jié)構(gòu):深入微觀世界的技術(shù)探索

    在芯片制造領(lǐng)域,透射電鏡TEM技術(shù)發(fā)揮著至關(guān)重要的作用。通過TEM測(cè)試,科學(xué)家可以觀察芯片中晶體結(jié)構(gòu)的變化,分析晶體缺陷,研究材料界面結(jié)構(gòu),從而深入
    的頭像 發(fā)表于 02-27 16:48 ?658次閱讀
    透射電鏡TEM測(cè)試解剖芯片結(jié)構(gòu):<b class='flag-5'>深入</b>微觀世界的<b class='flag-5'>技術(shù)</b>探索

    NVIDIA首席科學(xué)家Bill Dally:深度學(xué)習(xí)硬件趨勢(shì)

    Bill Dally于2009年1月加入NVIDIA擔(dān)任首席科學(xué)家,此前在斯坦福大學(xué)任職12年,擔(dān)任計(jì)算機(jī)科學(xué)系主任。Dally及其斯坦福團(tuán)隊(duì)開發(fā)了系統(tǒng)架構(gòu)、網(wǎng)絡(luò)架構(gòu)、信號(hào)傳輸、路由和同步技術(shù),在今天的大多數(shù)大型并行計(jì)算機(jī)中都可
    的頭像 發(fā)表于 02-25 16:16 ?866次閱讀
    NVIDIA首席<b class='flag-5'>科學(xué)家</b>Bill Dally:深度學(xué)習(xí)硬件趨勢(shì)

    康奈爾大學(xué)科學(xué)家研制出5分鐘快速充電鋰電池

    鋰離子電池如今廣泛應(yīng)用于電動(dòng)汽車及智能手機(jī)領(lǐng)域。其優(yōu)點(diǎn)包括輕巧、抗震、環(huán)保,但充電時(shí)間較長(zhǎng)及承受大功率電涌的能力不足。隨著最新研究成果發(fā)布,科學(xué)家找到了一種獨(dú)特的銦陽極材料,與鋰離子電池內(nèi)的陰極材料實(shí)現(xiàn)良好配合。
    的頭像 發(fā)表于 01-26 09:57 ?521次閱讀
    康奈爾大學(xué)<b class='flag-5'>科學(xué)家</b>研制出5分鐘快速充電鋰電池

    谷歌DeepMind科學(xué)家欲建AI初創(chuàng)公司

    據(jù)知情人士透露,谷歌人工智能部門DeepMind的兩名杰出科學(xué)家Laurent Sifre和Karl Tuyls正在與投資者商討在巴黎成立一家新的人工智能初創(chuàng)公司的事宜。
    的頭像 發(fā)表于 01-22 14:41 ?389次閱讀

    飛騰首席科學(xué)家竇強(qiáng)榮獲 “國(guó)家卓越工程師” 稱號(hào)

    “國(guó)家卓越工程師團(tuán)隊(duì)” 稱號(hào)。中國(guó)電子信息產(chǎn)業(yè)集團(tuán)首席科學(xué)家、科技委副主任,飛騰信息技術(shù)有限公司首席科學(xué)家竇強(qiáng)博士憑借其在飛騰系列國(guó)產(chǎn)自主核心芯片科研攻關(guān)方面取得的卓越成就,榮獲 “國(guó)家卓越工程師” 稱號(hào)。 竇強(qiáng)博士作為飛騰系
    的頭像 發(fā)表于 01-19 19:22 ?1431次閱讀
    飛騰首席<b class='flag-5'>科學(xué)家</b>竇強(qiáng)榮獲 “國(guó)家卓越工程師” 稱號(hào)

    中國(guó)聯(lián)通研究院副院長(zhǎng)、首席科學(xué)家唐雄燕一行蒞臨中科馭數(shù)交流合作

    12月7日,中國(guó)聯(lián)通研究院副院長(zhǎng)、首席科學(xué)家唐雄燕蒞臨中科馭數(shù)參觀調(diào)研, 中國(guó)聯(lián)通研究院未來研究部總監(jiān)曹暢、高級(jí)專家楊文聰陪同考察, 與中科馭數(shù)創(chuàng)始人、CEO鄢貴海以及公司管理團(tuán)隊(duì)就D
    的頭像 發(fā)表于 12-08 18:40 ?492次閱讀
    中國(guó)聯(lián)通<b class='flag-5'>研究</b>院副院長(zhǎng)、首席<b class='flag-5'>科學(xué)家</b>唐雄燕一行蒞臨中科馭數(shù)交流合作

    電導(dǎo)率分析儀在環(huán)境科學(xué)中的應(yīng)用

    電導(dǎo)率分析儀是一種重要的實(shí)驗(yàn)室設(shè)備,常應(yīng)用于環(huán)境科學(xué)領(lǐng)域。它能夠測(cè)量溶液中可移動(dòng)離子導(dǎo)電的能力,為環(huán)境科學(xué)家提供有關(guān)物質(zhì)濃度的關(guān)鍵信息。 在環(huán)境科學(xué)研究中,電導(dǎo)率
    的頭像 發(fā)表于 11-09 10:22 ?430次閱讀
    電導(dǎo)率<b class='flag-5'>分析</b>儀在環(huán)境<b class='flag-5'>科學(xué)</b>中的應(yīng)用

    中國(guó)科學(xué)家成功研制“九章三號(hào)” 255個(gè)光子的量子計(jì)算原型機(jī)

    ? ? ? ?中國(guó)科學(xué)家再立新功,中國(guó)科學(xué)技術(shù)大學(xué)潘建偉、陸朝陽、劉乃樂等組成的研究團(tuán)隊(duì)與中國(guó)科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所、國(guó)家并行計(jì)算
    的頭像 發(fā)表于 10-11 17:06 ?1315次閱讀