0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

介紹一種基于中位數(shù)的離群值檢測(cè)方法

冬至子 ? 來(lái)源:菜J數(shù)據(jù)分析 ? 作者:菜J數(shù)據(jù)分析 ? 2023-06-20 17:13 ? 次閱讀

Hampel濾波器是一種基于中位數(shù)的離群值檢測(cè)方法,它可以用于消除在數(shù)據(jù)中存在的離群值。Hampel濾波器是由John Hampel在1974年提出的,他是一位德國(guó)數(shù)學(xué)家和統(tǒng)計(jì)學(xué)家,因其在離群值檢測(cè)領(lǐng)域的貢獻(xiàn)而聞名。

在統(tǒng)計(jì)學(xué)中,離群值是指與其他值明顯不同的異常值。這些異常值可能是由于數(shù)據(jù)損壞或錯(cuò)誤導(dǎo)致的,也可能是由于真實(shí)數(shù)據(jù)的異常情況而導(dǎo)致的。無(wú)論原因如何,離群值都會(huì)對(duì)數(shù)據(jù)分析和建模產(chǎn)生負(fù)面影響。

一、基本原理

Hampel濾波器通過(guò)將中位數(shù)作為估計(jì)量來(lái)檢測(cè)和替換離群值。該方法的主要步驟如下:

(1)計(jì)算數(shù)據(jù)中每個(gè)數(shù)據(jù)點(diǎn)的中位數(shù)。

(2)計(jì)算每個(gè)數(shù)據(jù)點(diǎn)與中位數(shù)之間的差異。

(3)計(jì)算差異的中位數(shù)和標(biāo)準(zhǔn)差。

(4)根據(jù)中位數(shù)和標(biāo)準(zhǔn)差確定離群值的閾值。

(5)將超過(guò)閾值的值替換為中位數(shù)。

圖片

Hampel濾波器可以通過(guò)調(diào)整閾值來(lái)平衡過(guò)濾離群值和保留異常值之間的折衷。較小的閾值會(huì)更有效地檢測(cè)離群值,但可能會(huì)錯(cuò)誤地移除真實(shí)的異常值。較大的閾值可能會(huì)忽略一些離群值,但也可能會(huì)保留一些真實(shí)的異常值。

二、特點(diǎn)

與其他離群值檢測(cè)方法相比,Hampel濾波器具有以下優(yōu)點(diǎn):

(1)它是一種魯棒性較強(qiáng)的方法,對(duì)數(shù)據(jù)的分布不太敏感。

(2)它可以在不需要事先了解數(shù)據(jù)分布的情況下進(jìn)行離群值檢測(cè)。

(3)它可以檢測(cè)并替換多個(gè)離群值,而不是只能處理單個(gè)異常值。

雖然Hampel濾波器在某些情況下可能不是最佳選擇,但它是一種簡(jiǎn)單而有效的方法,可用于許多數(shù)據(jù)分析任務(wù)中。

三、用法

hampel(x, window_size=3, n_sigmas=3, imputation='padded')

其中,x是待處理的一維數(shù)據(jù)數(shù)組,window_size是用于計(jì)算中位數(shù)和標(biāo)準(zhǔn)差的窗口大小,默認(rèn)為3,表示使用當(dāng)前數(shù)據(jù)點(diǎn)及其相鄰的前后兩個(gè)數(shù)據(jù)點(diǎn)計(jì)算中位數(shù)和標(biāo)準(zhǔn)差。n_sigmas是判斷異常值的閾值,它表示數(shù)據(jù)點(diǎn)與中位數(shù)之間的偏差超過(guò)多少個(gè)標(biāo)準(zhǔn)差時(shí)被認(rèn)為是異常值,默認(rèn)為3。imputation參數(shù)用于指定處理數(shù)據(jù)邊緣(即數(shù)組的第一個(gè)和最后一個(gè)數(shù)據(jù)點(diǎn))時(shí)采用的方法,默認(rèn)為'padded',表示使用填充方式進(jìn)行處理。

例如,下面的代碼演示了如何使用Hampel函數(shù)對(duì)一組數(shù)據(jù)進(jìn)行異常值檢測(cè):

import numpy as np
from statsmodels.robust.scale import hampel


# 生成一組隨機(jī)數(shù)據(jù)
x = np.random.normal(0, 1, 100)


# 在數(shù)據(jù)中添加幾個(gè)異常值
x[10] = 10
x[20] = -10


# 使用Hampel函數(shù)檢測(cè)異常值
y = hampel(x, window_size=5, n_sigmas=3)


# 輸出結(jié)果
print(x)
print(y)
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19100

    瀏覽量

    228817
  • 濾波器
    +關(guān)注

    關(guān)注

    160

    文章

    7704

    瀏覽量

    177487
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    介紹一種基于分級(jí)的RFID隱私保護(hù)方法

    介紹一種基于分級(jí)的RFID隱私保護(hù)方法
    發(fā)表于 05-26 06:17

    介紹一種按鍵檢測(cè)電路

    介紹一種按鍵檢測(cè)電路
    發(fā)表于 01-18 07:41

    如何去緩沖STM32F401上ADC噪聲的輸入呢

    過(guò)程中始終是室溫,萬(wàn)用表沒(méi)有改變個(gè)毫伏,而變化由 ADC 記錄。接下來(lái),我設(shè)置了個(gè)過(guò)濾器,以從中位數(shù)中刪除 +/- 2 攝氏度以外的所有,并刪除了 555 個(gè)
    發(fā)表于 12-26 07:10

    基于置信區(qū)間的偏離群數(shù)據(jù)檢測(cè)方法

    異常數(shù)據(jù)檢測(cè)與處理是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中數(shù)據(jù)清洗領(lǐng)域的研究熱點(diǎn)。該文提出一種基于置信區(qū)間的偏離群數(shù)據(jù)檢測(cè)方法,從總體中篩選出有效樣本,利用遺傳算法
    發(fā)表于 04-11 09:13 ?11次下載

    一種基于混合模式的密碼協(xié)議入侵檢測(cè)方法

    本文結(jié)合特征入侵檢測(cè)和異常入侵檢測(cè)技術(shù),提出了一種在密碼協(xié)議運(yùn)行中,能動(dòng)態(tài)監(jiān)視安全協(xié)議運(yùn)行,實(shí)時(shí)檢測(cè)其上攻擊的方法,詳細(xì)
    發(fā)表于 07-08 09:36 ?18次下載

    一種多點(diǎn)脈搏信號(hào)檢測(cè)方法

    一種多點(diǎn)脈搏信號(hào)檢測(cè)方法:
    發(fā)表于 03-30 15:41 ?22次下載
    <b class='flag-5'>一種</b>多點(diǎn)脈搏信號(hào)<b class='flag-5'>檢測(cè)</b><b class='flag-5'>方法</b>

    局部密度離群點(diǎn)檢測(cè)算法

    已有的密度離群點(diǎn)檢測(cè)算法LOF不能適應(yīng)數(shù)據(jù)分布異常情況離群點(diǎn)檢測(cè),INFLO算法雖引入反向五近鄰點(diǎn)集有效地解決了數(shù)據(jù)分布異常情況的離群點(diǎn)
    發(fā)表于 11-25 09:34 ?6次下載
    局部密度<b class='flag-5'>離群</b>點(diǎn)<b class='flag-5'>檢測(cè)</b>算法

    一種散亂點(diǎn)云近離群點(diǎn)的識(shí)別算法

    針對(duì)原始曲面變化度的局部離群系數(shù)( SVLOF)無(wú)法有效濾除三維實(shí)體的棱邊或棱角處的離群點(diǎn)問(wèn)題,提出了一種散亂點(diǎn)云近離群點(diǎn)的濾除算法。該算法首先將SVLOF定義在類K鄰域上,并將SVL
    發(fā)表于 01-12 16:44 ?0次下載

    一種新的圖像局部模糊區(qū)域檢測(cè)方法

    針對(duì)當(dāng)前相關(guān)圖像模糊測(cè)量方法不能有效檢測(cè)紋理平坦清晰區(qū)域的問(wèn)題,提出一種新的圖像局部模糊區(qū)域檢測(cè)方法,將其應(yīng)用于存在運(yùn)動(dòng)模糊的靜態(tài)圖像運(yùn)動(dòng)目
    發(fā)表于 02-05 14:00 ?2次下載

    數(shù)據(jù)科學(xué)家需要知道的5個(gè)基本統(tǒng)計(jì)概念,如何才能最有效地應(yīng)用它們

    中間的那條線是數(shù)據(jù)的中位數(shù)。由于中位數(shù)對(duì)離群的魯棒性更強(qiáng),因此中位數(shù)比平均值用得更多。第個(gè)四
    的頭像 發(fā)表于 11-07 10:57 ?2295次閱讀
    數(shù)據(jù)科學(xué)家需要知道的5個(gè)基本統(tǒng)計(jì)概念,如何才能最有效地應(yīng)用它們

    一種新型的高維數(shù)據(jù)流離群點(diǎn)快速檢測(cè)算法

    現(xiàn)有數(shù)據(jù)流離群點(diǎn)檢測(cè)算法在面對(duì)海量高維數(shù)據(jù)流時(shí)普遍存在運(yùn)算時(shí)間過(guò)長(zhǎng)的問(wèn)題。為此,提出一種引入局部向量點(diǎn)積密度的高維數(shù)據(jù)流離群點(diǎn)快速檢測(cè)算法。
    發(fā)表于 03-17 16:18 ?12次下載
    <b class='flag-5'>一種</b>新型的高維數(shù)據(jù)流<b class='flag-5'>離群</b>點(diǎn)快速<b class='flag-5'>檢測(cè)</b>算法

    高階多視圖離群點(diǎn)檢測(cè)及其研究綜述

    由于數(shù)據(jù)在不同視圖之間的分布比較復(fù)雜,傳統(tǒng)的單視圖離群點(diǎn)檢測(cè)方法不再適用于多視圖離群點(diǎn)的檢測(cè),使得多視圖
    發(fā)表于 05-07 11:22 ?16次下載

    基于離群點(diǎn)檢測(cè)算法的電力市場(chǎng)異常行為辨識(shí)

    為了監(jiān)管電力市場(chǎng)中存在的各類違規(guī)行為,保證市場(chǎng)的公平竟?fàn)?,提岀?b class='flag-5'>一種基于分階段離群點(diǎn)檢測(cè)算法的電力市場(chǎng)異常行為辨識(shí)方法。梳理不同交易階段異常行為的特征,提取相應(yīng)的特征指標(biāo),采用主成分分
    發(fā)表于 06-01 10:43 ?4次下載

    有關(guān)中位數(shù)計(jì)算是什么

    ?中位數(shù)是數(shù)理統(tǒng)計(jì)中個(gè)重要的指標(biāo),它可以自動(dòng)忽略數(shù)據(jù)極差帶來(lái)的影響, ??能夠很好的評(píng)估數(shù)據(jù),在數(shù)理統(tǒng)計(jì)中很常用。本文主要介紹在Python中和Mysql 中如何來(lái)求中位數(shù),重點(diǎn)
    的頭像 發(fā)表于 02-23 16:22 ?572次閱讀
    有關(guān)<b class='flag-5'>中位數(shù)</b>計(jì)算是什么

    基于一種用于JumpStarter的抗離群的采樣算法

    了長(zhǎng)時(shí)間的初始化時(shí)間,以獲得足夠的培訓(xùn)數(shù)據(jù)。本文壓縮感測(cè)技術(shù)引入了多元時(shí)間序列異常檢測(cè),以快速初始化。為了構(gòu)建跳躍異常檢測(cè)器,提出了一種名為Jumpstarter的方法?;谟蛱禺愋砸?jiàn)
    的頭像 發(fā)表于 07-05 10:30 ?651次閱讀
    基于<b class='flag-5'>一種</b>用于JumpStarter的抗<b class='flag-5'>離群</b>的采樣算法