다중비교의 의미와 필요성 1) 분산분석과의 관계 ${(1)}$ 분산분석을 살펴보면서, 분산분석이 다음의 가설을 검정한다는것을 보였다
다음의 가설을 검정하고자 한다. $$H_{0} : \mu_{1} = \mu_{2} = \dots \mu_{b} \ VS \ H_{1} : 적어도 \ 하나는 \ 같지 \ 않다$$
${(2)}$ 확률변수 $X_{1}, \dots, X_{n}$ 에 대하여 분산분석 결과 가설 $H_{1}$을 채택했다고 가정하자. -. 이 때, 우리가 알 수 있는 정보는 그저 '적어도 평균 $\mu_{j}$ 중 하나는 같지 않다'는 정보뿐이다. -. 구체적인 인사이트를 얻기 위해서는, 어떤 확률변수 사이에 유의미한 차이가 있는지를 구체적으로 확인해야한다.
${(3)}$ 가장 직관적으로 떠올려볼 수 있는 방법은, 모든 짝에 대하여 T검정을 수행하는 방법이다.
-. 그러나, 모든 짝에 대하여 T검정을 수행하는 방법론은 자칫 잘못된 의사결정을 낳을수도 있다.
-. 모든 가설검정은 연구자가 허용한 1종오류의 확률을 내포하고 있다. 이를 보통 유의수준 $\alpha$로 표현하며, 단짝 검정일 경우엔 단지 $\alpha$의 잘못될 확률만 고려하면 된다.
-. 그러나, 다중 짝(Multi-wise)에 대하여 검정을 수행할 경우엔 이 1종오류의 확률이 누적되게 된다. 이를 Family-wise Error Rate(FWER)이라고 표현하고, 아래와 같이 계산한다. $$FWER = 1 - (1 - \alpha)^{n}$$
-. n은 검정을 수행하는 짝의 갯수이다. n이 늘어날수록 FWER은 비례하여 커지며, 6개의 짝에 대하여 연구자가 $\alpha = 0.05$를 가정했다 하더라도 $1-(1-\alpha)^{6} = 0.264$로 당초 의도보다 그 오류 확률이 매우 크게 커지게 된다.
2) 모수들을 하나로 통합한 '결합모수'
${(1)}$ 위와 같은 상황을 보정하기 위해 등장한 교정법이 '다중비교' 방법론이다.
-. 다중비교 방법론은 다중 모수들의 선형결합을 통해 하나의 통합 모수를 도출하고, 이 통합모수의 신뢰구간을 도출한다.
-. 신뢰구간이 도출된다는 의미는 어떤 가설에 대하여 검정을 수행할 수 있다는 의미가 된다.
${(2)}$ 다중비교 방법론은 아래의 정의와 수리통계학 이론적 근거를 가지고 있다.
다중비교란, 여러개의 모수들(ex. $\mu_{1}, \dots, \mu_{j}$)을 가지는 확률변수들을 선형결합하여 통합된 하나의 '결합 모수' (ex. $\sum k_{j}\mu_{j}$)에 대하여 신뢰구간을 구하는 방법론이다.
$[\mu_{1}, \dots, \mu_{n}]$과 공통분산 $\sigma^{2}$을 가지는 서로 독립인 확률변수 $X_{1}, \dots X_{n}$을 정의하자. 우리의 목표는 모수의 집합$[\mu_{1}, \dots, \mu_{n}]$을 하나로 결합하는 선형결합된 모수 $Y = \sum k_{j}\mu_{j}$의 신뢰구간을 발견하는 것이다.
신뢰구간을 발견하게 되면 이를 통하여 (교정된) 유의수준 $\alpha$를 통한 다중비교의 가능성이 열리게 된다.
각각의 확률변수 $X_{1}, \dots X_{n}$ 에서 추출한 확률표본들을 $X_{ij}$라고 하자. 즉, 다음의 행렬이다. $$\begin{bmatrix} X_{11} && X_{12} && \dots && X_{1j} \\ X_{21} && X_{22} && \dots && X_{2j} \\ \vdots && \vdots && \ddots && \vdots \\ X_{i1} && X_{i2} && \ddots && X_{ij} \end{bmatrix}$$ 이 때, 각 열들의 평균과, 표본분산을 이용한 $X^{2}$을 정의하면
$X^{2}(a - 1)$들의 결합분포를 다음과 같이 정의하자 $$V = \sum_{j=1}^{b}\frac{\sum_{i=1}^{a}(X_{ij}-\overline{x}_{j})^{2}}{\sigma^{2}}$$ 이 분포는 2차형식에서 F분포를 유도할 때 살펴봤듯이 $x^{2}(b[a-1])$을 따른다.
또한, 우리가 관심있어하는 모수들의 선형결합으로 나타나는 통합모수 $Y = \sum k_{j}\overline{x}_{j}$는 다변량 정규분포의 성질에 따라 $N(\sum k_{j}\overline{x}_{j}, \frac{\sum k_{j}^{2} \sigma^{2}}{a})$를 따른다.
한편, 우리는 T분포에 대하여 다음과 같은 변환확률변수의 꼴로 정의한 바 있다. $$T = \frac{W}{\sqrt{V/r}}$$ 이 때, W는 표준정규분포를, V는 $x^{2}$ 분포를 의미한다.
$N(\sum k_{j}\overline{x}_{j}, \frac{\sum k_{j}^{2} \sigma^{2}}{a})$를 따르는 Y를 표준정규분포로 변환하면 $$W = \frac{\sum k_{j}\overline{x}_{j} - \sum k_{j}\mu_{j}}{\sqrt{\frac{\sum k_{j}^{2} \sigma^{2}}{a}}}$$ 또, $x^{2}(b(a-1)$를 따르는 V를 이용하여, T분포를 정의하면 아래와 같이 나타낼 수 있다.
$$T = \frac{(\sum k_{j}\overline{x}_{j} -\sum k_{j}\mu_{j}) / \sqrt{\frac{\sum k_{j}^{2} \sigma^{2}}{a}}}{\sqrt{\sum_{j=1}^{b}\frac{\sum_{i=1}^{a}(X_{ij}-\overline{x}_{j})^{2}/b(a-1)}{\sigma^{2}}}}$$ 는 $T[b(a-1)]$ 분포를 따른다.
$$(1 - \alpha) = P[-C \leq \frac{\sum k_{j}\overline{x}_{j} -\sum k_{j}\mu_{j}}{\sqrt{V/a\sum k_{j}^{2}}} \leq C] $$ 이 때, C는 $T_{\alpha/2, b(a-1)}$를 따른다. 즉, 자유도 $b(a-1)$인 T분포이다. 이를 이용하여 $$P\begin{bmatrix}\sum k_{j}\overline{x}_{j} - C\sqrt{V/a\sum k_{j}^{2}} \leq \sum k_{j}\mu_{j} \leq \sum k_{j}\overline{x}_{j} + C\sqrt{V/a\sum k_{j}^{2}}\end{bmatrix}$$
인 확률 $(1-\alpha)$인 통합 모수의 신뢰구간을 정의할 수 있다.
${(3)}$ 모수들의 선형결합이란 워딩은 매우 다양한 가능성을 포함할 수 있다.
-. 예를 들어서, $\mu_{1}, \dots, \mu_{n}$에 대하여, $\mu_{1} = \mu_{2}$ 만 관심이 있고 나머지는 관심이 없다고 하자. 이 때, 상수들의 벡터 k에 대하여 $$ k = \begin{bmatrix} 1 \\ -1 \\ 0 \\ 0 \\ ... \\ 0 \end{bmatrix} , k \in \mathbb{R}^{n}$$ 로 정의하고, $$\sum_{j=1}^{b} k_{j}\mu_{j} = K^{T} \cdot \mu = 0$$ 이라는 선형결합을 정의하고 그 신뢰구간을 계산할 수 있다.
-. $\mu_{3} - \frac{\mu_{1} + \mu_{2}}{2}$ 라는 선형결합은 벡터 K를 $$ k = \begin{bmatrix} 1 \\ -\frac{1}{2} \\ -\frac{1}{2} \\ 0 \\ ... \\ 0 \end{bmatrix} , k \in \mathbb{R}^{n}$$ 로 정의하여 마찬가지로 그 통합 모수의 신뢰구간을 구할수도 있다.
-. 즉, 모수들의 선형결합에 대한 신뢰구간을 구한다는 관점으로부터 우리가 관심을 가질 수 있는 (선형 결합으로 표현 가능한) 모든 통계량에 대해 가설검정이 가능해진다.
-. 여기서 $\mu_{1} = \mu_{2}$와 같은 다중비교의 가능성이 열리게 된다.
${(4)}$ 그러나, 지금까지 정의한 방법론도 어떤 부분에서는 약점이 존재한다.
-.우리가 관심이 있는 모수에 대한 검정은 가능하나 전체 공간 $\mu_{1}, \dots, \mu_{n}$ 를 고려하지는 않는다는 점이다.
-. $\mu_{1} = \mu_{2}$라는 가설을 검정할 때, FWER을 최소화하기 위해선 $\mu_{1}, \dots, \mu_{n}$를 모두 고려한 공간 내에서 $\mu_{1} = \mu_{2}$를 검정해야 하나 그렇지 못하기 때문에 완전한 방법론이라고 볼 수 없다.
다중비교 방법론
1) Scheffe의 방법론
${(1)}$ $\mu_{1}, \dots, \mu_{n}$를 모두 고려하여 다중비교를 수행하는 방법론. 약점을 보완할 수 있다. ${(2)}$ 다음과 같이 유도할 수 있다.
다음의 통계량을 정의하자.
$Y = \frac{\sum_{j=1}^{b}(\overline{X}_{j} - \mu_{j})^{2}}{\sigma^{2}/a} \sim x^{2}(b)$ 이는 스튜던트의 정리에 따라 $x^{b}$를 따른다. $V = \frac{\sum_{j=1}^{b}\sum_{i=1}^{a}(X_{ij}-\overline{X}_{j})^{2}}{b(a-1)}$은 Y와 확률적으로 독립이다. 그리고, 그 비율 $\frac{Y}{V}$는 $F(b, b(a-1)]$을 따른다.
$F(b, b(a-1)]$에 대한 확률구간을 다음과 같이 정의하자. $$(1-\alpha) = P(F \leq d) = P\begin{bmatrix}\frac{a\sum_{j=1}^{b}(\overline{X}_{j} - \mu_{j})^{2}/b}{V}\leq d \end{bmatrix} = P\begin{bmatrix}\sum_{j=1}^{b}(\overline{X}_{j} - \mu_{j})^{2} \leq bd\frac{V}{a} \end{bmatrix}$$
이 확률구간 함수를 다음과 같이 정리하고자 한다 $$\sum_{j=1}^{b}(\overline{X}_{j} - \mu_{j})^{2} \Rightarrow \begin{bmatrix}\sum_{j=1}^{b}(\overline{X}_{j} - \mu_{j})\end{bmatrix}^{2}$$ 즉, 시그마를 제곱항 안으로 밀어넣는 것이다.
이를 실현하기 위해, 기하학적인 테크닉을 빌려온다.
$\sum_{j=1}^{b}(\overline{X}_{j} - \mu_{j})^{2}$ 를 살펴보면, 이는 b차원 공간에서 어떤 점 $[\overline{X}_{j}]$와 또다른 점 $[\mu_{j}]$ 사이의 거리의 제곱이다.
벡터 $[\overline{X}_{j} - \mu_{j}]$을 포함하는 초평면과 그 법선벡터 $\overset{\rightarrow}{N}$과의 관계. 초평면을 정의하기 위해서는 임의의 벡터와 그 초평면의 방향을 정의하는 법선벱터가 필요하다.
-. $\overline{X}_{j}$와 $\mu_{j}$를 포함하는 초평면의 방정식은 다음과 같이 표현할 수 있다. $k_{1}(\overline{X}_{1} - \mu_{1}) + k_{2}(\overline{X}_{2} - \mu_{2}) + \dots + k_{n}(\overline{X}_{b} - \mu_{b}) = 0$
한편, 거리가 d인 어떤 점과 이 초평면과의 최단거리는 다음과 같이 나타낼 수 있다. $$\frac{d -k_{1}(\overline{X}_{1} - \mu_{1}) + k_{2}(\overline{X}_{2} - \mu_{2}) + \dots +k_{n}(\overline{X}_{b} - \mu_{b}))}{\sqrt{k_{1}^{2}+k_{2}^{2}+\dots+k_{n}^{2}}}$$ 이 때, 그 점이 초평면 위에 있다 가정하고 $d=0$으로 놓고 다시 정리하면
위 부등식 양변에 제곱근을 씌워도 그 순서는 그대로 보존된다. 따라서 $$(1-\alpha) = P\begin{bmatrix}|\sum(k_{j}\overline{X}_{i} - k_{j}\mu_{i})| \leq \sqrt{\sum k_{j}^{2}bd\frac{V}{a}} \end{bmatrix}$$