傳統(tǒng)顯著性檢驗(yàn)用于推斷樣本所代表的總體均值是否相等,它的檢驗(yàn)假設(shè)為樣本來自同一總體(即總體均值相等)。在應(yīng)用中,顯著性檢驗(yàn)結(jié)果不能評(píng)價(jià)差別的大小,也不能說明差別是否有實(shí)際意義,所謂差別顯著是指在統(tǒng)計(jì)學(xué)理論上認(rèn)為樣本來自不同的總體。另外顯著性檢驗(yàn)在均值差異性比較中也存在一定的局限性,下面我們以雙樣本t檢驗(yàn)為例來說明。
顯著性檢驗(yàn)的局限性
我們看到下表1中兩種測(cè)試方法得到的數(shù)據(jù),希望比較兩種測(cè)試方法得到的結(jié)果是否一致(等效)。
可能首先想到的方法就是用雙樣本t檢驗(yàn),我們來試試看(前提條件驗(yàn)證略)。
雙樣本t檢驗(yàn)的結(jié)果顯示,P=0.001<0.05,所以我們得到的結(jié)論是:兩種測(cè)試方法的結(jié)果是有顯著性差異的。拒絕是有說服力的,所以我們也不用擔(dān)心犯第二類錯(cuò)誤。
現(xiàn)在我們?cè)賮砜纯聪卤?中兩種測(cè)試方法的數(shù)據(jù),也想來比較有沒有顯著性差異。
同理,我們也來執(zhí)行雙樣本t檢驗(yàn)(前提條件驗(yàn)證略),得到如下結(jié)果。
雙樣本t檢驗(yàn)的結(jié)果顯示,P=0.081>0.05,所以我們得到的結(jié)論是:兩種測(cè)試方法的結(jié)果無顯著性差異的,即不拒絕原假設(shè)。不拒絕是沒有說服力的,可能是樣本量不夠?qū)е碌模ńㄗh做功效與樣本量的計(jì)算)。
基于以上分析,總結(jié)如下:
但是,如果你仔細(xì)去看一看表1和表2中的數(shù)據(jù),有沒有發(fā)現(xiàn)表1中兩種測(cè)試方法結(jié)果差異比較?。ǖp樣本t檢驗(yàn)結(jié)果P=0.001<0.05),表2中兩種測(cè)試方法結(jié)果差異比較大(但雙樣本t檢驗(yàn)結(jié)果P=0.081>0.05),注意,這不是錯(cuò)覺,這是t檢驗(yàn)本身存在的局限性。
為什么這么說,我們以表2中數(shù)據(jù)(兩總體標(biāo)準(zhǔn)差未知但相等)為例來看看t檢驗(yàn)的基本原理。
T=2.32小于拒絕域臨界值2.776,及檢驗(yàn)統(tǒng)計(jì)量T落在非拒絕域(白色區(qū)域),故不拒絕原假設(shè)。換句話說,如果想拒絕原假設(shè)(得到兩種測(cè)試方法有顯著差異的結(jié)論),就需要檢驗(yàn)統(tǒng)計(jì)量T值(絕對(duì)值)足夠大,大到超過2.776,那么怎么做才能實(shí)現(xiàn)呢?通過后臺(tái)公式我們能發(fā)現(xiàn)只需要:樣本量足夠大且/或合并標(biāo)準(zhǔn)差SP足夠小。
其實(shí)這是一個(gè)有悖邏輯的發(fā)現(xiàn),因?yàn)槿绻娴娜绱说脑?,那我以后直接選擇擺爛不就可以嗎(樣本量少抽一點(diǎn),測(cè)量變異搞大點(diǎn),這樣越不容易得到有顯著差異)。
等價(jià)檢驗(yàn)
從功能和實(shí)用意義上來講,產(chǎn)品之間存在微小差異并不總是十分重要。例如,在200 mg的藥物劑量中,相差1mg不會(huì)產(chǎn)生任何實(shí)際效應(yīng),那如果我想證明藥物劑量不同對(duì)療效是相同的或相近的,又該如何去驗(yàn)證呢?可不可以用顯著性檢驗(yàn)的方法(如t檢驗(yàn))?
顯著性檢驗(yàn)確定備擇假設(shè)的方法是“想證明什么結(jié)論就把它放在備擇假設(shè)上”,那能否把相等的結(jié)論放在備擇假設(shè)上,如H0:μ≠μ0, H1: μ=μ0很遺憾,統(tǒng)計(jì)學(xué)中不可能處理這種“原假設(shè)是某個(gè)范圍,而備擇假設(shè)只是一個(gè)單點(diǎn)”的情況,只能處理備擇假設(shè)為
H1:|μ-μ0|<△
H1: μ1<μ<μ2
其中μ1=μ0-△,μ2=μ0+△
這類檢驗(yàn)問題稱為等價(jià)檢驗(yàn)(equivalence test)問題,也稱等效性檢驗(yàn)問題。其中(μ1,μ2)稱為等價(jià)區(qū)間。它的原假設(shè)和備擇假設(shè)為:
H0:μ<μ1或μ>μ2 H1:μ1≤μ≤μ2
等價(jià)檢驗(yàn)實(shí)際上是雙單側(cè)假設(shè)檢驗(yàn)(TOST),當(dāng)左右兩邊的原假設(shè)同時(shí)被拒絕時(shí)才能認(rèn)為原假設(shè)不成立。
等價(jià)檢驗(yàn) VS 顯著性檢驗(yàn)
等價(jià)檢驗(yàn)與顯著性檢驗(yàn)比較如上圖,下面我們通過一個(gè)具體案例來說明一下(案例來自于藍(lán)皮書第三版P161)。
示例:在焊接電路板的過程中,焊錫膏的涂抹厚度是關(guān)鍵的控制量之一。工藝標(biāo)準(zhǔn)要求涂抹厚度的均值是60微米,均值偏差在5微米內(nèi)?,F(xiàn)在收集了25個(gè)焊點(diǎn)上的焊錫膏涂抹厚度。我們希望驗(yàn)證,涂抹厚度均值是60微米嗎?涂抹厚度均值是落在(55,65)之內(nèi)嗎?
我們先來看看如果是用顯著性檢驗(yàn)(單樣本t檢驗(yàn))會(huì)得到什么結(jié)果。
由于P值為0.111,因此無法拒絕原假設(shè),也就是說沒有充分的理由否認(rèn)焊錫膏涂抹厚度均值為60。但“不否認(rèn)”還不是明確的說明“均值就是60微米”的有說服力的結(jié)論。如果需要進(jìn)一步確定“均值就是60微米”,或者更進(jìn)一步判斷其均值是否落入(55,65),則只能使用單樣本等價(jià)檢驗(yàn)方法(注意:即使是等價(jià)檢驗(yàn)對(duì)于備擇假設(shè)只是一個(gè)單點(diǎn)也是無能為力的)。
正如Minitab告訴你的,不能認(rèn)為是等價(jià)的,即焊錫膏涂抹厚度均值可以認(rèn)為是60微米,但未落在(55,65)之內(nèi),即精確度未達(dá)到誤差小于5微米的水平。
那如果允許誤差放大些,比如說(50,70),結(jié)果就可以認(rèn)為是等價(jià)的了。
請(qǐng)注意,我在這里不得不說明一下,千萬不要說為了得到等價(jià)的結(jié)論而去改等價(jià)區(qū)間,我在這里修改只是為了說明問題,我們?cè)趯?shí)際工作一定是要事先指定好等價(jià)區(qū)間范圍(防止扯皮)。
小結(jié)
要在等價(jià)檢驗(yàn)和標(biāo)準(zhǔn)t檢驗(yàn)之間進(jìn)行選擇,請(qǐng)考慮您希望證明或說明的內(nèi)容。如果您希望證明兩個(gè)均值相等或者證明均值等于目標(biāo)值,而且您可以確切地定義在所屬領(lǐng)域中屬于重要差值的差值大小,則您可能希望使用等價(jià)檢驗(yàn),而不是標(biāo)準(zhǔn)t檢驗(yàn)。
審核編輯 黃昊宇
-
檢驗(yàn)
+關(guān)注
關(guān)注
0文章
49瀏覽量
15087 -
Minitab
+關(guān)注
關(guān)注
0文章
161瀏覽量
11653
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論