0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)科學(xué)家需要知道的5個(gè)基本統(tǒng)計(jì)概念,如何才能最有效地應(yīng)用它們

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-11-07 10:57 ? 次閱讀

對(duì)于數(shù)據(jù)科學(xué)的藝術(shù),統(tǒng)計(jì)學(xué)可以說是一個(gè)強(qiáng)大的工具。從高層次的角度來看,統(tǒng)計(jì)是利用數(shù)學(xué)對(duì)數(shù)據(jù)進(jìn)行技術(shù)分析。一個(gè)基本的可視化,如條形圖,可以給你提供一些高級(jí)的信息,但是通過統(tǒng)計(jì)學(xué),我們可以以一種更加以信息驅(qū)動(dòng)和更有針對(duì)性的方式來操作數(shù)據(jù)。所用到的數(shù)學(xué)方法能幫助我們對(duì)數(shù)據(jù)形成具體的結(jié)論,而不是去靠猜測(cè)。

通過使用統(tǒng)計(jì)學(xué),我們可以更深入、更細(xì)致地了解我們的數(shù)據(jù)到底是如何構(gòu)造的,并基于這種結(jié)構(gòu),我們?nèi)绾巫罴训貞?yīng)用其他數(shù)據(jù)科學(xué)技術(shù)來獲取更多的信息。現(xiàn)在,我們來看看數(shù)據(jù)科學(xué)家們需要知道的5個(gè)基本統(tǒng)計(jì)概念,以及如何才能最有效地應(yīng)用它們!

統(tǒng)計(jì)特征

統(tǒng)計(jì)特征可能是數(shù)據(jù)科學(xué)中最常用的統(tǒng)計(jì)概念。這通常是你在研究數(shù)據(jù)集時(shí)應(yīng)用的第一種統(tǒng)計(jì)技術(shù),包括偏差、方差、平均值、中位數(shù)、百分位數(shù)等。這一切都相當(dāng)容易理解并在代碼中實(shí)現(xiàn)!看看下面的圖表。

一個(gè)簡單的箱型圖

中間的那條線是數(shù)據(jù)的中位數(shù)。由于中位數(shù)對(duì)離群值的魯棒性更強(qiáng),因此中位數(shù)比平均值用得更多。第一個(gè)四分位數(shù)本質(zhì)上是第25百分位數(shù),表示數(shù)據(jù)中25%的點(diǎn)低于這個(gè)值。第三個(gè)四分位數(shù)是第75百分位數(shù),表示數(shù)據(jù)中75%的點(diǎn)都低于這個(gè)值。最小值和最大值表示數(shù)據(jù)范圍的上、下端。

一個(gè)箱型圖完美地闡述了我們能用基本統(tǒng)計(jì)特征做什么:

當(dāng)框圖很短時(shí),它意味著許多數(shù)據(jù)點(diǎn)是相似的,因?yàn)樵谛》秶鷥?nèi)有許多值

當(dāng)框圖很長時(shí),它意味著許多數(shù)據(jù)點(diǎn)是完全不同的,因?yàn)檫@些值分布在一個(gè)較廣的范圍內(nèi)

如果中值更接近底部,那么我們知道大多數(shù)數(shù)據(jù)的值更低。如果中值更接近頂部,那么我們知道大多數(shù)數(shù)據(jù)都有更高的值?;旧?,如果中值線不在方框中間,那么它就表示數(shù)據(jù)有偏斜。

是否有長尾?這意味著你的數(shù)據(jù)有很高的標(biāo)準(zhǔn)差和方差,說明這些值是分散的,高度不同。如果你在盒子的一邊有長尾而在另一邊沒有,那么你的數(shù)據(jù)可能只在一個(gè)方向上有很大的變化。

所有這些信息都來自一些簡單的統(tǒng)計(jì)特征,并且很容易計(jì)算!當(dāng)你需要對(duì)數(shù)據(jù)進(jìn)行快速而有效的查看時(shí),請(qǐng)嘗試這些方法。

概率分布

我們可以將概率定義為某個(gè)事件發(fā)生的概率百分比。在數(shù)據(jù)科學(xué)中,通常在0到1之間進(jìn)行量化,0表示我們確信不會(huì)發(fā)生,1表示我們確信它會(huì)發(fā)生。概率分布是一個(gè)函數(shù),表示實(shí)驗(yàn)中所有可能值的概率。請(qǐng)看下面的圖表。

均勻分布是我們?cè)谶@里展示的3個(gè)分布中最基本的。它只有一個(gè)值,這個(gè)值只出現(xiàn)在某個(gè)范圍內(nèi),而超出這個(gè)范圍的任何值都是0。這在很大程度上是一種“開關(guān)”分布。我們也可以把它看作是一個(gè)有兩個(gè)類別的分類變量:0或其他值。你的分類變量可能有多個(gè)非0的值,但我們?nèi)匀豢梢园阉胂蟪啥鄠€(gè)均勻分布的分段函數(shù)。

正態(tài)分布,通常被稱為高斯分布,由均值和標(biāo)準(zhǔn)差定義。均值在空間上平移分布,標(biāo)準(zhǔn)差控制分散程度。與其他分布的重要區(qū)別(比如泊松分布)是,其所有方向上的標(biāo)準(zhǔn)差都是一樣的。因此,對(duì)于高斯分布,我們知道數(shù)據(jù)集的平均值以及數(shù)據(jù)的發(fā)散程度(例如,它是廣泛分布的還是高度集中在少數(shù)幾個(gè)值)。

泊松分布與正態(tài)分布相似,但增加了偏斜因子。在偏態(tài)值較低的情況下,泊松分布會(huì)像正態(tài)分布一樣向各個(gè)方向均勻發(fā)散。但當(dāng)偏度值較大時(shí),我們的數(shù)據(jù)在不同方向的發(fā)散會(huì)不同;在一個(gè)方向,它將非常分散,在另一個(gè)方向,它將高度集中。

雖然有很多的分布可以深入研究,但這3個(gè)已經(jīng)給我們帶來了很多價(jià)值。我們可以用均勻分布快速地看到和解釋分類變量。如果我們看到一個(gè)高斯分布便知道有很多算法在默認(rèn)情況下都能很好地處理高斯分布,所以我們應(yīng)該這樣做。有了泊松分布,我們會(huì)發(fā)現(xiàn)必須特別小心選擇一種對(duì)空間發(fā)散的變化具有魯棒性的算法。

降維

降維這個(gè)術(shù)語很容易理解。我們有一個(gè)數(shù)據(jù)集,希望減少它的維數(shù)。在數(shù)據(jù)科學(xué)中,它是特征變量的數(shù)量。請(qǐng)看下面的圖表。

降維

立方體代表我們的數(shù)據(jù)集,它有三個(gè)維度,總共有1000個(gè)點(diǎn)。雖然1000個(gè)點(diǎn)的計(jì)算在今天很容易處理,但是對(duì)于更大的范圍我們?nèi)匀粫?huì)遇到問題。然而,僅僅從二維的角度來看我們的數(shù)據(jù),例如從立方體的一邊,我們可以看到,從這個(gè)角度劃分所有的顏色是很容易的。通過降維,我們可以將三維數(shù)據(jù)投射到二維平面上。這有效地將我們需要計(jì)算的點(diǎn)數(shù)減少了100,大大節(jié)省了計(jì)算量!

另一種降維方法是特征剪枝。有了特征剪枝,我們可以刪除對(duì)分析不重要的任何特征。例如,在研究數(shù)據(jù)集之后,我們可能會(huì)發(fā)現(xiàn),在10個(gè)特性中,有7個(gè)特性與輸出的相關(guān)性很高,而其他3個(gè)特性的相關(guān)性很低。那么,這3個(gè)低相關(guān)特性可能不值得計(jì)算,不過我們只能根據(jù)分析在不影響輸出的情況下將它們刪除。

當(dāng)前用于降維的最常見的技術(shù)是PCA,它本質(zhì)上是創(chuàng)建了特征的向量表示,顯示它們對(duì)輸出有多重要,比如他們的相關(guān)性。PCA可以用于上面討論的兩種降維方式。在此教程中可以了解到更多信息。

過采樣與欠采樣

過采樣和欠采樣是用于分類問題的技術(shù)。有時(shí),我們的分類數(shù)據(jù)集可能會(huì)嚴(yán)重傾斜到一邊。例如,類1有2000個(gè)樣本,但類2只有200個(gè)。這將對(duì)很多我們常用于建模并預(yù)測(cè)的機(jī)器學(xué)習(xí)技術(shù)帶來影響!但過采樣和欠采樣可以與之對(duì)抗。請(qǐng)看下面的圖表。

欠采樣與過采樣

在上圖的左邊和右邊,我們的藍(lán)色類比橙色類擁有更多的樣本。在這種情況下,有兩個(gè)預(yù)處理選項(xiàng)可以幫助我們的機(jī)器學(xué)習(xí)模型的訓(xùn)練。

欠采樣意味著我們將只從多數(shù)類中選擇一部分?jǐn)?shù)據(jù),只使用與少數(shù)類樣本數(shù)相同的數(shù)量。這個(gè)方案應(yīng)當(dāng)保證采樣后類別的概率分布與之前相同。操作很容易,我們只是通過取更少的樣本來平衡數(shù)據(jù)集!

過采樣意味著我們將創(chuàng)建少數(shù)類的副本,以便擁有與多數(shù)類相同的樣本。創(chuàng)建副本時(shí)應(yīng)當(dāng)保證少數(shù)類的分布不變。這個(gè)方案中,我們只是把我們的數(shù)據(jù)集變得更均衡,并沒有得到更多的數(shù)據(jù)!

貝葉斯統(tǒng)計(jì)

為了充分理解為什么我們要使用貝葉斯統(tǒng)計(jì),需要首先了解頻率統(tǒng)計(jì)不足的地方。頻率統(tǒng)計(jì)是大多數(shù)人聽到“概率”這個(gè)詞時(shí)會(huì)想到的統(tǒng)計(jì)方法。它應(yīng)用數(shù)學(xué)來分析某些事件發(fā)生的概率,具體來說,我們使用的數(shù)據(jù)都是先驗(yàn)的。

我們看一個(gè)例子。假設(shè)給你一個(gè)骰子然后問你擲出6的概率是多少,大多數(shù)人會(huì)說1 / 6。確實(shí),如果我們做頻率分析,會(huì)通過一些數(shù)據(jù)比如某人擲骰子10000次,然后計(jì)算每個(gè)數(shù)字出現(xiàn)的頻率;大概是1 / 6!

但如果有人告訴你,給你的那個(gè)骰子是被改造過的并且落地后總會(huì)是6的那面朝上呢?頻率分析只考慮了先驗(yàn)的數(shù)據(jù),并沒有考慮骰子被改造過這個(gè)因素。

貝葉斯統(tǒng)計(jì)確實(shí)考慮到了這個(gè)問題,可以用貝葉定理來說明這一點(diǎn):

貝葉斯定律

方程中的概率P(H)基本上就是頻率分析;表示根據(jù)之前的先驗(yàn)數(shù)據(jù),事件發(fā)生的概率是多少。方程中的P(E|H)被稱為似然,本質(zhì)上是根據(jù)頻率分析得到的信息的條件下,我們得到的結(jié)論是正確的概率。例如,滾動(dòng)骰子10000次,而前1000次全部得到6,你會(huì)開始肯定,骰子是被改造過的!P(E)是實(shí)際結(jié)論成立的概率。如果我告訴你,骰子是改造過的,你能相信我并說它是真的嗎?

如果我們的頻率分析很好那么就會(huì)有一定的權(quán)重說明:是的,我們對(duì)6的猜測(cè)是正確的。與此同時(shí),我們考慮了改造骰子的事實(shí),它是否為真,同時(shí)基于它自己的先驗(yàn)和頻率分析。從方程的布局可以看出,貝葉斯統(tǒng)計(jì)考慮了所有的因素。當(dāng)你覺得之前的數(shù)據(jù)不能很好地代表未來的數(shù)據(jù)和結(jié)果時(shí),就使用它。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:數(shù)據(jù)科學(xué)家需要知道的 5 個(gè)基本統(tǒng)計(jì)學(xué)概念

文章出處:【微信號(hào):DBDevs,微信公眾號(hào):數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    TI科學(xué)家談浮點(diǎn)DSP未來發(fā)展

    TI科學(xué)家談浮點(diǎn)DSP未來發(fā)展 自十多年前浮點(diǎn)數(shù)字信號(hào)處理器(DSP)誕生以來,便為實(shí)時(shí)信號(hào)處理提供了算術(shù)上更為先進(jìn)的備選方案。不過,定點(diǎn)器件至今仍是業(yè)界的主流--當(dāng)然低成本是主要原因。定點(diǎn)DSP每
    發(fā)表于 11-03 15:18

    科學(xué)家研制可在黑暗中使用的細(xì)菌發(fā)電生物電池

    促使細(xì)胞內(nèi)發(fā)生化學(xué)反應(yīng)。科學(xué)家已經(jīng)清楚,細(xì)菌會(huì)對(duì)礦物質(zhì)和金屬產(chǎn)生影響,但這是首次證實(shí)它們可以直接釋放電流。在這方面可能有其他種類的細(xì)菌比我們當(dāng)前采用的細(xì)菌做得更加出色。未來的生物電池將在沒有太陽能
    發(fā)表于 12-03 12:41

    科學(xué)家建新設(shè)備將光束變固體 可用于研制量子計(jì)算機(jī)

    更進(jìn)一步地分析和探究之外,還將有助于他們最終制造出量子計(jì)算機(jī)?! 榱酥圃斐鲎钚略O(shè)備,研究人員制造出了一個(gè)結(jié)構(gòu),由包含有1000億個(gè)原子的超導(dǎo)材料組成,科學(xué)家們采用工程學(xué)方法,使這1000億個(gè)
    發(fā)表于 09-28 10:34

    科學(xué)家推出多種波動(dòng)描記傳感器

      美國得克薩斯大學(xué)的科學(xué)家們最新一項(xiàng)研究結(jié)果表明,人們很快將根據(jù)腸子的波動(dòng)情況當(dāng)場揭穿騙子的謊言?! ≡摯髮W(xué)的科研小組還認(rèn)為,將來有一天,以記錄心臟活動(dòng)為主的多種波動(dòng)描記器將極大地提高其工作質(zhì)量
    發(fā)表于 10-24 11:40

    如何有效地盤活閑置的頻譜資源?

    ;另一方面,已經(jīng)分配或指配給現(xiàn)有很多無線業(yè)務(wù)的頻譜卻在時(shí)間和空間上存在不同程度的閑置。那么,如何有效地盤活那些閑置的頻譜資源,解決這一制約無線通信發(fā)展的新瓶頸?美國科學(xué)家Joseph Mitola博士提出了認(rèn)知無線電(CR)的概念
    發(fā)表于 08-02 08:21

    AI人才炙手可熱 數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師出現(xiàn)大缺口

    Culbertson說數(shù)據(jù)科學(xué)家是最熱門的AI職缺,AI需要輸入大量的高品質(zhì)數(shù)據(jù),才能發(fā)揮效用,數(shù)據(jù)
    發(fā)表于 03-03 11:13 ?1017次閱讀

    通往數(shù)據(jù)科學(xué)家的崎嶇道路

    如果你曾經(jīng)查看過數(shù)據(jù)科學(xué)家的崗位要求,你就知道它的職責(zé)范圍有多廣。有的數(shù)據(jù)科學(xué)家致力于自然語言處理、計(jì)算機(jī)視覺、深度學(xué)習(xí),有的則從事A/B測(cè)
    的頭像 發(fā)表于 07-26 09:17 ?2532次閱讀

    哪些才是對(duì)數(shù)據(jù)科學(xué)家最迫切的技能呢?

    AngelList提供的是列出數(shù)據(jù)科學(xué)家崗位的公司數(shù)而不是崗位數(shù)。我把AngelList從所有分析里面排除掉了,因?yàn)槠渌阉魉惴ㄋ坪醢凑誒R型的邏輯搜索進(jìn)行,沒有辦法改成AND。如果你尋找的是“數(shù)據(jù)
    的頭像 發(fā)表于 11-19 18:14 ?3035次閱讀

    什么是數(shù)據(jù)科學(xué)家需要認(rèn)證嗎?

    得以清晰化?!盕leming指出,IBM目前雇傭了大約1.5萬名被定義為數(shù)據(jù)科學(xué)家的技術(shù)人員,預(yù)計(jì)數(shù)據(jù)科學(xué)家人數(shù)的增長速度超過其雇員總數(shù)的增長速度。
    的頭像 發(fā)表于 02-14 09:41 ?6542次閱讀

    數(shù)據(jù)科學(xué)家與機(jī)器學(xué)習(xí)工程師怎么區(qū)分

    們只有統(tǒng)計(jì)學(xué)的時(shí)候,這個(gè)世界顯得更加簡單,但簡單并不總是科學(xué)的。而除了世界對(duì)數(shù)據(jù)科學(xué)家的需求程度以外,數(shù)據(jù)
    的頭像 發(fā)表于 05-18 11:24 ?3192次閱讀

    數(shù)據(jù)科學(xué)家常犯的10個(gè)編程錯(cuò)誤

    數(shù)據(jù)科學(xué)家是“比軟件工程師更擅長統(tǒng)計(jì)學(xué),比統(tǒng)計(jì)學(xué)家更擅長軟件工程的人”。
    的頭像 發(fā)表于 05-24 14:50 ?2642次閱讀

    采訪資深數(shù)據(jù)科學(xué)家:成為數(shù)據(jù)科學(xué)家應(yīng)具有的品質(zhì)

    作為一門逐漸成熟的新興領(lǐng)域,與數(shù)據(jù)科學(xué)相關(guān)的很多領(lǐng)域開始變得備受青睞,比如數(shù)據(jù)工程,數(shù)據(jù)分析以及機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。數(shù)據(jù)
    的頭像 發(fā)表于 06-30 11:28 ?2246次閱讀

    什么是數(shù)據(jù)科學(xué)家的最佳編程語言?

    每個(gè)數(shù)據(jù)科學(xué)學(xué)習(xí)者都最常問的問題:“ 什么是數(shù)據(jù)科學(xué)家的最佳編程語言?”。
    的頭像 發(fā)表于 07-05 11:32 ?2472次閱讀

    深入研究數(shù)據(jù)科學(xué)家使用的常見統(tǒng)計(jì)和分析技術(shù)

    數(shù)據(jù)科學(xué)技術(shù)如今已在許多組織中占有一席之地,數(shù)據(jù)科學(xué)家正迅速成為以數(shù)據(jù)為中心的組織最受歡迎的角色之一。數(shù)
    的頭像 發(fā)表于 01-14 16:09 ?1950次閱讀

    面向工程師和科學(xué)家的大數(shù)據(jù)

      為了有效地利用大數(shù)據(jù)的優(yōu)勢(shì),工程師和科學(xué)家需要個(gè)可擴(kuò)展的工具,例如 MATLAB,以提供對(duì)用于存儲(chǔ)和管理
    的頭像 發(fā)表于 10-06 07:52 ?606次閱讀