문과생 네버랜드의 데이터 창고

40. 일원배치 분산분석 본문

수리통계

40. 일원배치 분산분석

K JI 2023. 7. 30. 20:05
  1. 분산분석이란 무엇인가?
    1) 분산분석이란 2개 이상의 확률변수간 평균 차이를 그 분산을 이용하여 검증하는 분석 방법론이다.

    ${(1)}$ 왜 평균 차이를 검정하는데 (표본)분산을 이용하는지는 아래의 일원배치 분산분석 유도를 보면 이해할 수 있다.
    -. 가설 검정에 대한 우도비함수를 정의하면서 정리하면 결국에는 분자 분모 모두  표본분산만이 남게 된다.
    -. 표본 분산의 비율로 정의된 이 통계량은 분자 분모의 표본분산식이  $X^{2}$를 따른다고 할 때, 그 비율로서 정의되는 F분포를 활용한다.

    2) 분산분석을 수행하기 전에 만족해야하는 조건은 아래와 같다.

    ${(1)}$ 각 확률변수는 정규분포를 따라야한다 : 구체적으로는, 분산분석 모델을 적합하고 나서 그 잔차가 정규분포를 따라야 한다. 

    -. 마찬가지로 평균차이를 검정하는 T검정과는 다른점이 이 지점이다.
    ① T검정은 중심극한정리에 의해 확률변수에 대해 특별한 가정을 하지 않아도 그 평균이 정규분포로 수렴한다고 가정할 수 있다.
    ② 반면에 F분포를 활용하는 분산분석은 방법론 유도의 출발점 자체가 정규분포를 가정하기 때문에, 이 가정 자체가 만족하지 않은경우 분산분석을 활용하기 어렵다.

    ${(2)}$ 각 확률변수는 모두 동일한 분산을 가지고 있어야한다 : 마찬가지로, F분포를 유도하는 과정에서 모든 확률변수가 동일한 분산을 갖고있다는 전제조건이 필요하다. 

    ${(3)}$ 각 확률변수는 서로 확률적으로 독립이어야 한다.

  2. 일원배치 분산분석의 유도
    1) 평균이 $\mu_{1}, \dots, \mu_{b}$로 다르고, 분산이 모두 $\sigma^{2}$으로 같은 정규분포를 따르는 b개의 확률변수 $X_{1}, \dots, X_{n}$을 정의하자.
    각각의 확률변수에서 추출한 확률표본을 아래와 같이 정의하자.
    $[[X_{11},X_{21}, \dots X_{a1}], [X_{12},X_{22}, \dots X_{a2}], \dots, [X_{1b},X_{2b}, \dots X_{ab}]$
    각 소집단에 속해있는 확률표본들은 각각 정규분포 $N(\mu_{j}, \sigma^{2}), j = 1, \dots, b$를 따른다.

    이 때, 관측값에 대하여 다음과 같은 모형을 적합한다 하자.
    $X_{ij} = \mu_{j} + e_{ij}$
    단, $e_{ij}$는 정규분포 $N(0,\sigma^{2})$을 따랴아 한다.

    다음의 가설을 검정하고자 한다.
    $$H_{0} : \mu_{1} = \mu_{2} = \dots \mu_{b} \ VS \ H_{1} : 적어도 \ 하나는 \ 같지 \ 않다$$

    최대우도검정에서의 논리를 따라, 전체 모수공간과 (축소된) 가설공간을 다음과 같이 정의하자
    -. 총 모수공간
    $$\Omega = \{(\mu_{1},\mu_{2}, \dots, \mu_{b}, \sigma^{2}) : -\infty < \mu_{j} < \infty, 0 < \sigma^{2} < \infty\}$$
    -. 가설공간
    $$\omega = \{(\mu_{1}, \mu_{2}, \dots, \mu_{b}, \sigma^{2}), -\infty < \mu = \mu_{1} = \mu_{2} = \dots = \mu_{j} < \infty, 0 < \sigma^{2} < \infty\}$$
    이 공간하에서 우도함수를 각각 다음과같이 정의하자.

    -. $L(\Omega) = \begin{bmatrix}\frac{1}{2\pi\sigma}\end{bmatrix}^{\frac{ab}{2}}exp(-\frac{\sum\sum(x_{ij}-\mu_{j})^{2}}{2\sigma^{2}})$
    -. $L(\omega) = \begin{bmatrix}\frac{1}{2\pi\sigma}\end{bmatrix}^{\frac{ab}{2}}exp(-\frac{\sum\sum(x_{ij}-\mu)^{2}}{2\sigma^{2}})$

    우선, $L(\omega)$에 대한 최대우도검정을 준비하자.
    최대우도검정을 수행하기 위해 $\mu$, $\sigma^{2}$에 대한 최대우도추정량이 필요하다.

    ① $\sigma^{2}$에 대한 최대우도추정량을 구하면
    -. $\frac{\partial logL(\omega)}{\partial \sigma^{2}} = \frac{\partial (\frac{ab}{2}log2\pi\sigma + [-\frac{1}{2\sigma^{2}}\sum\sum(X_{ij}-\mu)^{2}])}{\partial \sigma^{2}} = -\frac{ab}{2\sigma^{2}}+\frac{1}{2\sigma^{4}}\sum\sum x_{ij}-\mu)^{2} = 0$
    따라서 $\widehat{\sigma^{2}} = \frac{\sum\sum(X_{ij}-\mu)^{2}}{ab}$

    ② $\mu$에 대한 최대우도추정량을 구하면
    -. $\frac{\partial logL(\omega)}{\partial \mu} = \frac{\partial (\frac{ab}{2}log2\pi\sigma + [-\frac{1}{2\sigma^{2}}\sum\sum(X_{ij}-\mu)^{2}])}{\partial \mu} = \frac{(\sum\sum x_{ij}-\mu)}{\sigma^{2}} = 0$
    따라서 $\sum\sum x_{ij}-ab\mu = 0$에서  $\widehat{\mu} = \frac{\sum\sum(X_{ij})}{ab} = \overline{X}$

    최대우도추정량을 이용하여 $L(\omega)$를 다시 정의하면
    $L(\widehat{\omega}) = \begin{bmatrix}\frac{ab}{2\pi\sum\sum(X_{ij}-\overline{x})^{2}}\end{bmatrix}^{\frac{ab}{2}}exp(-\frac{ab\sum\sum(x_{ij}-\overline{x})^{2}}{2\sum\sum(X_{ij}-\overline{x})^{2}}) = \begin{bmatrix}\frac{ab}{2\pi\sum\sum(X_{ij}-\overline{x})^{2}}\end{bmatrix}^{\frac{ab}{2}}exp(-\frac{ab}{2})$

    마찬가지로 $L(\Omega)$에 대해서도 최대우도검정을 준비하면
    최대우도검정을 수행하기 위해 $\mu$, $\sigma^{2}$에 대한 최대우도추정량이 필요하다.

    ① $\sigma^{2}$에 대한 최대우도추정량을 구하면
    -. $\frac{\partial logL(\Omega)}{\partial \sigma^{2}} = \frac{\partial (\frac{ab}{2}log2\pi\sigma + [-\frac{1}{2\sigma^{2}}\sum\sum(X_{ij}-\mu_{j})^{2}])}{\partial \sigma^{2}} = -\frac{ab}{2\sigma^{2}}+\frac{1}{2\sigma^{4}}\sum\sum x_{ij}-\mu_{j})^{2} = 0$
    따라서 $\widehat{\sigma^{2}} = \frac{\sum\sum(X_{ij}-\mu_{j})^{2}}{ab}$

    ② $\mu_{j}$에 대한 최대우도추정량을 구하면
    -. $\frac{\partial logL(\omega)}{\partial \mu_{j}} = \frac{\partial (\frac{ab}{2}log2\pi\sigma + [-\frac{1}{2\sigma^{2}}\sum\sum(X_{ij}-\mu_{j})^{2}])}{\partial \mu_{j}} = \frac{(\sum\sum x_{ij}-\mu_{j})}{\mu_{j}^{2}} = 0$
    따라서 $\sum\sum x_{ij}-ab\mu_{j} = 0$에서  $\widehat{\mu_{j}} = \frac{\sum\sum(X_{ij})}{a} = \overline{X_{j}}, j = 1,\dots,b$

    최대우도추정량을 이용하여 $L(\Omega)$를 다시 정의하면
    $L(\widehat{\Omega}) = \begin{bmatrix}\frac{ab}{2\pi\sum\sum(X_{ij}-\overline{x}_{j})^{2}}\end{bmatrix}^{\frac{ab}{2}}exp(-\frac{ab\sum\sum(x_{ij}-\overline{x}_{j})^{2}}{2\sum\sum(X_{ij}-\overline{x}_{j})^{2}}) = \begin{bmatrix}\frac{ab}{2\pi\sum\sum(X_{ij}-\overline{x}_{j})^{2}}\end{bmatrix}^{\frac{ab}{2}}exp(-\frac{ab}{2})$

    최대우도검정을 위한 우도비를 다음과 같이 정의하자
    $$\Lambda = \frac{L(\widehat{\omega})}{L(\widehat{\Omega})} = \frac{\begin{bmatrix}\frac{ab}{2\pi\sum\sum(X_{ij}-\overline{x})^{2}}\end{bmatrix}^{\frac{ab}{2}}exp(-\frac{ab}{2})}{\begin{bmatrix}\frac{ab}{2\pi\sum\sum(X_{ij}-\overline{x}_{j})^{2}}\end{bmatrix}^{\frac{ab}{2}}exp(-\frac{ab}{2})} = \begin{bmatrix}\frac{\sum\sum(X_{ij}-\overline{x}_{j})^{2}}{\sum\sum(X_{ij}-\overline{x})^{2}}\end{bmatrix}^{\frac{ab}{2}}$$

    이 때, 이 우도비함수 $\Lambda$는 정규분포의 완비충분통계량 $Y = \sum\sum(x_{ij})^{2}$의 함수꼴이다.

    완비충분통계량을 이용한 우도비 함수최강력 검정에 속하므로,
    정리에 따라 완비충분통계량(의 함수꼴)만을 이용한 가설검정을 수행할 수 있다.

    $\frac{\sum\sum(X_{ij}-\overline{x})^{2}}{ab}$ 를 어떤 2차형식 $\frac{Q}{ab}$로 놓고
    $\frac{\sum\sum(X_{ij}-\overline{x}_{j})^{2}}{ab}$ 를 어떤2차형식$\frac{Q_{3}}{ab}$로 놓자.

    2차형식에서 정의한 F분포의 유도 중 $Q = Q_{3} + Q_{4}$를 준용하여
    $Q = \sum\sum(X_{ij}-\overline{x}) = S^{2}$
    $Q_{3} = \sum\sum(X_{ij}-\overline{x}_{j})^{2}$ 로 정의하면, 
    $$\Lambda = \frac{Q_{3}}{Q} = \frac{Q_{3}}{Q_{3} + Q_{4}} = \frac{1}{1+\frac{Q_{4}}{Q_{3}}}$$
    완비충분통계량을 이용한 최량기각역을 정의하면 다음과 같은 식을 만들 수 있다.
    $$\alpha = P_{H0}[\frac{1}{1+\frac{Q_{4}}{Q_{3}}} < z] = P_{H0}[\frac{Q_{4}}{Q_{3}} > c(Z)]$$
    이 때, $\frac{\frac{Q_{4}}{ab}}{\frac{Q_{3}}{a(b-1)}} \sim F(ab, a(b-1))$임을 이미 유도하였다.

    따라서, 다음과 같이 검정식을 정리할 수 있다.
    $$\alpha = P_{H0}[\frac{Q_{4}}{Q_{3}} > c(Z)] = P_{H0}[\frac{Q_{4} / ab}{Q_{3} / a(b-1)} > d(Z)]$$
    이 결정규칙은 $F[ab, a(b-1)]$을 따른다.
    2) 유도식에서 확인할 수 있는 인사이트들은 다음과 같다.

    ${(1)}$ 시작은 평균에 대한 검정으로 시작했으나, 검정식은 분산에 대한 꼴로 정리되었다. 이것이 바로 '분산분석'이라고 불리우는 이유

    ${(2)}$ 표본분산을 $X^{2}$과 연결지어 그 비율인 F분포로 연결지었다. 즉, 분산분석은 F분포를 활용하는 분석 방법론이다.

    ${(3)}$ 마치 회귀식과 같은 선형결합식을 산정하였다. $X_{ij} = \mu_{j} + e_{ij}$로 선형모델을 정의한 부분이 그것이며, $e_{ij}$를 일종의 잔차라고 본다면, 그 잔차 $e_{ij}$는 $N(0, \sigma^{2})$의 정규분포를 따를것이 요구된다(정규분포 가정)

    ${(4)}$ 또한, 모든 확률변수가 동일한 분산 $\sigma^{2}$을 공유하고 있음을 가정하였다. 따라서 등분산 조건을 만족할것을 요구한다.