雙尾檢定 單尾檢定

作者:謝維馨/有勁生物科技

一般來說,當我們希望藉由統計的方法來協助我們進行推論時,我們會先針對結果提出假設,並希望能夠利用有限的的資料加以證實我們提出的假設,而假設檢定就是一種用來檢驗統計假設的方法。

在研究的過程中,要提出一個強而有力的證據來證明假設為真是不容易的,因此在進行假設檢定的過程中,我們會先將結果分成兩種相反的決策:虛無假設 (Null Hypothesis, H0)和對立假設(Alternative Hypothesis, H1),並利用反證法來證實我們的推論。換句話說,進行假設檢定的目標,不是在於證明立論為真,而是希望能夠有足夠的證據可以推翻相反的立論。因此,我們通常會將我們希望推翻的目標設為虛無假設 (H0)、將我們期望證實的結果設為對立假設 (H1),並期望可以透過推翻虛無假設來證實我們的推論。

根據H0所定訂範圍的差異,可將假設檢定的型式分成兩種:單尾檢定 (one-tailed tests)以及雙尾檢定 (two-tailed tests)。其中,單尾檢定又可細分為右尾檢定 (upper-tail test)和左尾檢定  (lower-tail test)。當樣本檢定量越大,越容易拒絕H0時,即為右尾檢定;反之,當樣本檢定量越小,越容易拒絕H0時,就稱為左尾檢定;若樣本檢定量越大或越小均可能拒絕H0時,則為雙尾檢定。

雙尾檢定 單尾檢定

然而,如果虛無假設在事實上成立,但是檢驗的結果卻將虛無假設推翻,而造成檢定錯誤,我們稱之為型一誤差 (Type I Error)。若虛無假設事實上不成立,但是檢驗結果卻沒有推翻虛無假設,我們將此類型的錯誤稱之為型二誤差 (Type II Error)。

在理想上,我們會希望正確率越高越好,然而在實務上,我們受限於技術與金費,發生檢定錯誤是在所難免的,因此當我們在進行假設檢定時,我們會控制型一誤差的發生,給定一個我們容許型一誤差發生的上限,稱之為顯著水準 (Significance level, α )。

雙尾檢定 單尾檢定

給定顯著水準後,便可以開始進行檢定。檢定統計假設的方法主要有兩種:臨界值法 (Critical value method)和P值法 (P-value method)。

使用臨界值法時,我們一般會給定拒絕域 (拒絕H0的區域)以及接受域 (不拒絕H0的區域),當檢定統計量落入拒絕域時,則表示我們的樣本有足夠的證據來拒絕H0;反之,當檢定統計量落入接受域的時候,就表示我們的樣本資訊沒有足夠的證據來拒絕H0。

使用P值法時,我們會再H0為真的條件下,計算拒絕H0的最大機率。若P值小於 α ,則拒絕虛無假設 (H0),否則便無法拒絕H0。

雙尾檢定 單尾檢定

假設檢定流程為:(1) 提出相關的虛無假設和對立假設、(2)選擇檢定統計量、(3)選擇顯著水準並決定決策法則、(4)比較樣本統計量與臨界值並下結論。

本篇將整個假設檢定流程大略走一遍,幫助理解統計這個學科,並讓一個局外人看完這篇對初統有初步的認識,甚至厲害一點的人可以馬上學會初統!

2015.11.7 各種優化並豐富數學內涵
2015.9.30 以假設檢定流程為主軸重新編排內容
2015.3.31 初版

一、提出虛無假設和對立假設



1. 虛無假設和對立假設

  1. $H_0$,虛無假設(null hypothesis):零假設通常由研究者決定,反應研究者對未知參數的看法。
  2. $H_1$,對立假設(alternative hypothesis):它通常反應了執行檢定的研究者對參數可能數值的另一種看法。


[用心去感覺] 對立假設通常才是研究者最想知道的

把想要檢定的假設定為 H1,H0 則為其相反之假設。也就是說,虛無假設是「一般情形」,而對立假設是你想證明的「特殊觀點」。

雙尾檢定 單尾檢定

2. 假設檢定中可能的錯誤

型 I 誤差 (Type I Error):

  • 當 $H_0$ 為真,而拒絕 $H_0$ 所發生的錯誤。
  • P(Type I error) = α,α 又稱為顯著水準(significance level)。

型 II 誤差 (Type II Error):

  • 當 $H_0$ 為假,而不拒絕 H0 所發生的錯誤(也就是 $H_1$ 為真,沒有接受 $H_1$ 為真所發生的錯誤)。
  • P(Type II error) = β

雙尾檢定 單尾檢定

二、選擇檢定統計量(test statistic)

檢定統計量是由樣本所算出來的一個值,用來決定是否接受或拒絕 $H_0$。常用的檢定統計量有:Z, t, F 與 χ2。

1. Z檢驗:使用常態分配做檢定


Z分配

:標準正態分佈。

Z檢驗

:一般用於大樣本(即樣本容量大於30)平均值差異性檢驗的方法。它是用標準正態分佈的理論來推斷差異發生的機率,從而比較兩個平均數的差異是否顯著。

[注意] 當已知標準差時,驗證一組數的均值是否與某一期望值相等時,用Z檢驗。但是這種方法理論上成立,事實上由於總體參數標準差未知,因此一般使用T檢驗。

2. T檢驗:使用T分配做檢定

T分配

:T分配相似於常態分配的曲線,不同的是他是依著自由度來改變分配的形狀。常態分配其實是T分配的的一個特例,當df=∞,T分配就是常態分配。實際的例子上,只要df=30,t分配就已經很接近常態分配。

T檢驗 (單樣本)

:檢驗零假說為一群來自常態分配獨立樣本 $x_i$ 之母體期望值 $μ$ 為 $μ_0$ 可利用以下統計量

$t = \frac{\overline{x} - \mu_0}{s/\sqrt{n}} $

其中 $i = 1 \ldots n,\overline{x} = \frac{\sum_{i=1}^{n} x_i}{n}$ 為樣本平均數,$s = \sqrt{\frac{\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1}}$ 為樣本標準偏差,$n$ 為樣本數。該統計量 $t$ 在零假說:$μ = μ_0$ 為真的條件下服從自由度為 $n − 1$ 的 $t$ 分布。



[用心去感覺] Z檢定與T檢定的選擇

在母體平均數的假設檢定裡,不同的情形下使用不同的檢定統計量。

  • 母體已知:無論樣本數大小,皆使用常態分配
  • 母體未知:
    • 當樣本數 n > 30,可以使用 z 分配 (常態分配)
    • 當樣本數 n < 30,使用 t 分配

雙尾檢定 單尾檢定


3. 卡方檢驗:使用卡方分配做檢定


卡方分配

:卡方分配為一定義在大於等於0(正數)範圍的右偏分配,不同的自由度決定不同的卡方分配。卡方分配只有一個參數即自由度,表為 $v$。

常態分配其實是卡方分配的的一個特例,卡方分配當自由度增加而逐漸對稱,當自由度趨近於無窮大時,卡方分配會趨近於常態分配。

卡方檢定

:卡方檢定適用於探討兩個類別變數的相關,是實務上最常用到的方法之一。

The value of the test-statistic is

$\chi^2 = \sum_{i=1}^{n} \frac{(O_i - E_i)^2}{E_i} =  N \sum_{i=1}^n p_i \left(\frac{O_i/N - p_i}{p_i}\right)^2$

where

$\chi^2$ = Pearson's cumulative test statistic, which asymptotically approaches a \chi^2 distribution.

$O_i$ = the number of observations of type i.

$N$ = total number of observations

$E_i = N p_i$ = the expected (theoretical) frequency of type i, asserted by the null hypothesis that the fraction of type i in the population is  $p_i$

$n$ = the number of cells in the table.

    雙尾檢定 單尾檢定



    [用心去感覺] 說好的證明呢(?)

    初等統計大多數都是背背背,沒有證明各種分配是怎麼來的,學起來毛毛的。但是證明也十分複雜一時間無法領會,待往後有機會參透時補齊。

    三、決定決策法則

    A. 第一種決策法則 - Traditional method - Using Rejection Regions (critical value approach)

    決策法則通常是決定一個接受域與拒絕域

    • 接受域: 接受 H0
    • 拒絕域: 接受 H1
    • 臨界點(Critical Point):接受域與拒絕域的接點,稱為臨界點。

    臨界值的決定,是根據顯著水準α並利用機率分配計算而得,分成單尾和雙尾檢定兩種。

    『單尾檢定』與『雙尾檢定』是什麼意思。?

    單尾T檢定是用在只關心特定方向的結果時;而雙尾T檢定結果的兩個方向都關心。

    如何判斷雙尾檢定?

    當樣本檢定量越大,越容易拒絕H0時,即為右尾檢定;反之,當樣本檢定量越小,越容易拒絕H0時,就稱為左尾檢定;若樣本檢定量越大或越小均可能拒絕H0時,則為雙尾檢定

    significance level 怎麼算?

    任何檢定皆有兩種可能的錯誤。 型I 錯誤的發生是當我們拒絕一個真的虛無假設。 型II 錯誤的發生是當我們無法拒絕一個錯誤的虛無 假設。 P ( 型II 錯誤) = β α 被稱為顯著水準(significance level)。

    假設檢定怎麼設?

    最初研究假设为真相不明。.
    提出相关的虛無假說和對立假說。.
    考虑检验中对样本做出的统计假设;例如,关于母體資料的分布形式或关于独立性的假设。 ... .
    选择一个顯著水準(α),若低于这个概率阈值,就拒绝零假设。 ... .
    選擇適合的检验统计量(Test statistic) T 。.
    在設定虛無假說為真下推导检验统计量的分布。.