Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 프로그래머를 위한 선형대수 #선형대수 #고유분해 #고윳값 #고유벡터
- 프로그래머를 위한 선형대수 #선형대수 #LU분해
- mmm
- 미적분 #접선의 방정식 #최적화 #뉴턴법 #뉴턴-랩슨법
- 수리통계
- Optimization
- lightweightmmm
- Marketing Mix Modeling
- 미적분 #사인과 코사인의 도함수
- 프로그래머를 위한 선형대수 #선형대수 #행렬계산
- bayesian inference
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #고유분해
- 시계열분석 #Time-Series Analysis #이상탐지 #Anomaly Detection #Spectral Residual #CNN #SR-CNN
- Media Mix Modeling
- 미적분
- 미적분 #평균값 정리 #로피탈의 정리 #접선의 방정식
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #야코비 회전법 #QR법 #하우스홀더반사 #행렬회전
- bayesian
Archives
- Today
- Total
문과생 네버랜드의 데이터 창고
36. 최강력 검정 본문
- 최강력 검정의 정의
1) 가설검정과 최강력검정(Most Powerful tests)
${(1)}$ 가설 검정과 관련된 몇가지 개념들을 이전에 정리했었다. 가설검정과 기각역, 가설검정의 오류와 검정력에 대한 개념이 그것이다.
${(2)}$ 이제, 이 개념들을 발전시켜서 '가장 효율성이 높은 가설 검정 방법'을 도출하는 방법론을 배운다. 아래 개념들을 복습하자.
가설 검정
${(1)}$ 연구자가 주장한 가설이 실제로도 유의미한지 참 / 거짓을 판별하는 방법론을 가설검정이라고 한다.
${(2)}$ 가설 검정엔 귀무가설과 대립가설이라는 두 개념이 등장한다.
-.대립가설: 연구가설이라고도 표현한다.연구자가 관심을 갖고 있는(즉 연구자가 주창한) 가설을 의미한다.
-.귀무가설: 영가설이라도고 표현한다. 대립가설에 대비되는 개념으로,연구자는 귀무가설을 기각함으로서 마침내대립가설이 참임을 증명할 수 있다.
기각역
확률표본(혹은 그의 함수)이 부분공간 C에 속하면 귀무가설을 채택하고,C 여집합에 속하면 대립가설을 채택한다.
이 때, C를 기각역이라고 표현한다.
가설검정의 오류
1) 가설검정엔 오류의 종류에 따라 1종오류와 2종오류로 분류할 수 있다.
${(1)}$ $[X_{1}, ..., X_{n}] \in C$ 라서 $H_{0}$를 기각했으나(즉, $H_{1}$을 채택했으나), 사실 $\theta \in w_{0}$ 였다면 이를 1종 오류라고 한다.
${(2)}$ $[X_{1}, ..., X_{n}] \in C^{c}$ 라서 $H_{0}$를 유지했으나(즉, $H_{1}$을 채택하지 못했으나), 사실 $\theta \in w_{1}$ 였다면 이를 2종 오류라고 한다.
검정력
${(1)}$ 유의수준 $\alpha$를 만족하는 기각역을 설정하는 방법은 그야말로 무한개의 경우의수가 발생한다.
-. 가령, 귀무가설을 참이라고 가정할 수 있는 기각역은 기각역을 아예 설정하지 않는 것($C = \phi$)에서부터 표본공간 D를 전부 점유하는($C = D$)까지 설정이 가능하다.
${(2)}$ 극단적으로, 기각역을 아예 설정하지 않은 경우($C = \phi$)를 가정했을 때
-. 이 가설검정은 항상 1종 오류가 0일 것이며($H_{0}$를 절대 기각하지 않기 때문이다),
-. 반대로 2종오류는 항상 1일 것이다($H_{0}$를 항상 채택하기 때문에, $H_{0}$가 거짓인 경우 그 확률은 항상 1이 된다.)
${(2)}$ 좋은 가설검정이란, 이렇듯 서로 Trade-off 관계에 있는 1종오류와 2종 오류 사이에서 적절한 균형을 잡아 1종오류($=\alpha$)를 최소화 하면서도 2종 오류를 최소화 하는 기각역을 설정하는 것이다.
-. $\alpha = P[X \in C]$를 만족하는 기각역 C는 무한대에 가깝게 많다. 그러면, 그 많고많은 기각역 C중 어떤 기각역을 선택하는것이 효율적이면서 옳은 결정을 이끌어낼까?
${(3)}$ 검정력 부분에도 정리했듯이, 이 의문에 답을 내는 한가지 솔루션은 다음과 같다.
-. 1종오류와 2종 오류 사이에서 적절한 균형을 잡아 1종오류($=\alpha$)를 최소화 하면서도 2종 오류를 최소화 하는 기각역을 설정하는 것이다.
-. 이 때, 2종 오류는 검정력 함수를 이용하여 계산하는 $(1-\beta)$를 최대화하면 최소화된다.
-. 즉, 우리의 목표는 $\alpha = P[X \in C]$인 C중에서 검정력 함수 $(1-\beta)$를 최대화하는 기각역을 찾는 것이며, 이런 일련의 절차를 최강력 검정이라고 한다.
${(4)}$ 수학적으로 엄밀한 정의는 아래와 같이 나타낼 수 있다.
C는 표본공간 S의 부분집합이라고 하자.
다음의 가설을 검정하고자 한다.
$$H_{0} : \theta = \theta_{h0} \ VS \ H1 : \theta = \theta_{h1}$$
이 때, 다음을 정의한다.
$\alpha = P_{\theta_{h0}}(X \in C)$
이 때, 표본공간 S내의 모든 부분집합 A가
$P_{\theta_{h0}}[X \in A] = \alpha$ 를 만족한다고 하자.
이제, $\theta_{h0}$가 아닌 $\theta_{h1}$ 차원에서 다음이 성립되는 C를 정의한다.
$P_{\theta_{h1}}[X \in C] \geq P_{\theta_{h1}}[X \in A]$
이 때 C를 최량기각역이라고 하고, C 하에서 수행하는 검정을 최강력 검정이라고 한다.
최량 기각역의 예시
$\alpha = 0.05$ 일 때,
$\alpha = P_{\theta_{Red}}(X \in 기각역)$을 만족하는 기가역이
$P_{\theta_{Blue}}(X \in 기각역)$ 을 최대화한다.비합리적 선택의 예시
$\alpha = 0.05$ 일 때,
$\alpha = P_{\theta_{Red}}(X \in 기각역)$을 만족하는 임계값 $(c, c')$사이의 구간은
$P_{\theta_{Blue}}(X \in 기각역)$ 을 0에 가깝게 수렴하게 한다.
따라서, 이는 명백히 비합리적인 선택이다.
2) 네이만-피어슨 정리
${(1)}$ 최량기각역을 정의하는 형식적이고 체계적인 방법론을 제공하는 정리이다.
${(2)}$ 우도 함수의 비율로서 최량기각역을 결정하는 방법론을 제시한다.$X_{1}, \dots, X_{n}$을 pdf(pmf) $f(x;\theta)$를 갖는 분포에서 추출한 확률표본이라 하자.
이 확률표본을 이용하여 다음의 우도함수를 정의한다.
$$L(\theta;X) = \prod_{i=1}^{n}f(x_{i};\theta)$$
또한, 전체 모수공간 $\Omega$에 대하여
관심 있는 가설 모수 $\theta_{h0}$, $\theta_{h1}$을 이 모수공간을 양분하는 요소라고 하자. 즉
$$\Omega = \{\theta : \theta = \theta_{h0} \ or \ \theta_{h1}\}$$
그리고, k를 어떤 임의의 양수라 하자.
다음의 가설을 검정하고자 한다.
$$H_{0} : \theta = \theta_{h0} \ VS \ H_{0} : \theta = \theta_{h1}$$
이제, C를 전체 표본공간의 일부인 부분집합이라고 하자.
① $X \in C \quad \frac{L(\theta_{h0};X)}{L(\theta_{h1};X)} \leq k$
② $X \in C^{c} \quad \frac{L(\theta_{h0};X)}{L(\theta_{h1};X)} \geq k$
(단, $C^{c}$는 C의 여집합을 의미한다
③ $\alpha = P_{\theta_{h0}}[X \in C]$
를 만족하는 C는 위에서 정의한 가설을 검정하는데 활용할 수 있는 최량기각역이 된다.
3) 불편 검정
${(1)}$ 불편 검정이란 우리가 설정한 1종 오류의 확률$(=\alpha)$보다 검정력의 확률($=1-\beta$)이 높은 상태를 의미한다.
-. 다음과 같이 수학적으로 엄밀하게 정의할 수 있다.$H_{0} : \theta \in W_{0} \ Vs \ H_{1} : \theta \in W_{1}$의 검정을 수행학좌 한다.
$X = [X_{1}, \dots, X_{n}]$인 확률벡터를 정의하자.
X가 결합 pdf $f(x;\theta)$를 가진다고 할 때 다음의 경우를 상정할 수 있다.
$$P_{\theta \in W_{1}}[X \in C] \geq \alpha$$
즉, $H_{1}$ 하에서의 검정력$(=1-\beta)$는 항상 1종 오류 $\alpha$보다 높다.
이런 경우에 해당하는 검정을 불편 검정이라고 한다.
${(2)}$ 최강력검정은 불편검정이다
-. 위에서 살펴봤듯이, 최량기각역 C를 갖는 최강력 검정은 이미 그 정의 자체가 불편 검정의 성질을 만족한다. - 균일 최강력 검정
1) 최강력 검정의 일반화 확장
${(1)}$ 앞서 살펴본 최강력 검정은 단순가설 $H_{0}$에 대한 단순가설 $H_{1}$의 검정이었다.
-. 즉, $$H_{0} : \theta = \theta_{H0} \ VS \ H_{1} : \theta = \theta_{H1}$$ 과 같은 $=$의 검정이다.
${(2)}$이제, 이 검정을 단순가설 $H_{0}$에 대한 복합가설 $H_{1}$으로 확장한다.
-. 즉, $$H_{0} : \theta = \theta_{H0} \ VS \ H_{1} : \theta \in \Omega_{H1} (단, \Omega_{H1}은 \theta_{H0}를 포함하지 않는다.)$$
-. 위와 같이, 대립가설이 '같다' 조건에서 '같지 않다'로 확장된 경우에 적용 가능한 최강력 검정 방법을 보인다.
${(3)}$ 위와 같이, 이제 양쪽 방향에 대하여 모두 가설검정을 수행 가능하게 만들어주는것이 바로 균일최강력검정이다.
2) 충분통계량과 균일최강력검정의 관계
${(1)}$ 충분 통계량과 우도비 검정의 관계
-. 우도비 검정은 충분통계량만으로도 수행이 가능하다. 증명은 다음과 같이 할 수 있다.$[X_{1}, \dots, X_{n}]$을 pdf $f(x;\theta)$를 가지는 분포에서 추출한 확률표본이라 하자.
$$Y = u(X_{1}, \dots X_{n})$$을 $\theta$에 대한 충분통계량이라고 하자.
이 때, 충분통계량의 정의와 네이만의 인수분해 정리에 따라 다음과 같이 그 우도함수를 표현할 수 있다.
$$L(\theta;X_{1}, \dots X_{n}) = k_{1}(X_{1}, \dots, X_{n};\theta) \cdot k_{2}(X_{1}, \dots X_{n})$$
이 때, 다음의 우도비 검정이 다음의 가설 검정
$$H_{0} : \theta = \theta_{H0} \ VS \ H_{0} : \theta \neq \theta_{H0}$$
을 충분통계량 $Y = u(X_{1}, \dots X_{n})$하에서 진행된다고 하자
$$\frac{L(\theta_{H0};X_{1}, \dots X_{n})}{L(\theta_{n};X_{1}, \dots X_{n})} = \frac{k_{1}(X_{1}, \dots, X_{n};\theta_{H0}) \cdot k_{2}(X_{1}, \dots X_{n})}{k_{1}(X_{1}, \dots, X_{n};\theta_{n}) \cdot k_{2}(X_{1}, \dots X_{n})}$$
이 때, 분자와 분모에서 $k_{2}$ 함수는 소거되므로, 다음과 같이 정리할 수 있다.
$$\frac{L(\theta_{H0};X_{1}, \dots X_{n})}{L(\theta_{n};X_{1}, \dots X_{n})} = \frac{k_{1}(X_{1}, \dots, X_{n};\theta_{H0})}{k_{1}(X_{1}, \dots, X_{n};\theta_{n})}$$
따라서, 오직 충분통계량에 의존하는 함수만으로도 우도비 검정을 수행할 수 있다.
-. 충분통계량과 우도비 함수의 관계를 정의한 바로 위의 증명에서 더 나아가서, 이 우도비 함수가 단조감소(순서를 보존하면서 꾸준히 감소하는성질)를 보일때를 가정하고 살펴보자.
-. $Y = u(X_{1}, \dots, X_{n})$ 를 충분통계량으로 활용하는 우도비 $$\frac{L(\theta_{H0} ; X_{1}, \dots X_{n})}{L(\theta_{n} ; X_{1}, \dots X_{n})}$$가 $\theta_{H0} < \theta_{n}$ 에서 단조감소성을 보인다면, 이를 단조 우도비라고 한다.
-. 단조우도비를 사용하면 균일최강력 검정을 수행할 수 있다. 증명에 네이만-피어슨 정리를 활용한다.충분통계량 Y에 대한 함수 $g(Y)$를 정의하고, g 또한 감수함소라고 하자. 다음이 성립된다고 하자.
$$\frac{L(\theta_{H0} ; X_{1}, \dots X_{n})}{L(\theta_{n} ; X_{1}, \dots X_{n})} = g(y)$$
-. 위 등식이 사실이라면, 네이만 피어슨 정리에 따라 다음의 관계를 도출해낼 수 있다.(k는 임의의 양수라 하자)
$$ ① X \in C \quad \frac{L(\theta_{H0} ; X_{1}, \dots X_{n})}{L(\theta_{n} ; X_{1}, \dots X_{n})} = g(y) \leq k \\② \alpha = P_{\theta_{H0}}[g(Y) \geq C_{y}]$$이 때, $C_{y}$는 최량기각역이다.
한걸음 더 나아가서, $g(Y)$의 역함수 $g^{-1}$이 존재한다고 하자. 그러면 ②에서 다음과 같은 관계를 이끌어 낼 수 있다.
$$\alpha = P_{\theta_{H0}}[g(Y) \geq C_{y}] \rightarrow \alpha = P_{\theta_{H0}}[Y \geq g^{-1}(C_{y})]$$
즉, 충분통계량을 이용하여 우도비에 기반한 어떠한 가설 검정을 수행할 수 있음을 암시한다.
또한, 이는 균일 최강력 검정이다. 오직 $\theta_{n} > \theta_{H0}$에서만 검정이 수행되고, $g^{-1}(C_{y})$는 오직 $\theta_{H0}$ 하에서 유일하게 결정되기 때문이다.
${(3)}$ 단조 우도비와 완비충분통계량의 관계
-. 이제 마지막이다. 단조 우도비는 균일 최강력 검정이라고 하였고, 우도비와 충분통계량 간에는 모종의 관계가 존재함을 보였다.
-. 이제, 단조우도비와 완비충분통계량간의 관계를 아래와 같이 증명할 것이다.어떤 확률표본 $[X_{1}, \dots X_{n}]$이 지수족 분포에서 추출한 확률표본이라고 하자.
지수족이기 때문에, 이 분포는 다음 꼴의 pdf를 갖는다.
$$f(x;\theta) = exp[p(\theta)k(x) + H(x) +q(\theta)]$$
$\theta_{H0} < \theta_{n}$ 이라는 조건 하에서 완비충분통계량을 이용한 우도비 검정을 정의하자. 즉
$$ \Lambda = \frac{L(\theta_{H0};X)}{L(\theta_{n};X)} = \frac{exp[p(\theta_{H0})k(x) + H(x) + q(\theta_{H0})]}{exp[p(\theta_{n})k(x) + H(x) +q(\theta_{n})]} \\ = exp[p(\theta_{H0} - \theta_{n})k(X) + H'(x) + n(q(\theta_{H0}) - q(\theta_{n}))]$$
이 우도비와 관련된 지수족 분포는 $Y = \sum k(x_{i})$라는 완비충분통계량을 갖는다.
한편 이 우도비와 관련된 지수족 분포를 검증한 결과 $p(\theta)$ 함수가 증가함수였다고 하자.
$p(\theta_{H0} - \theta_{n})$가 $\theta_{H0} < \theta_{n}$ 이라는 조건 하에서 증가함수가 되려면 $Y = \sum k(x_{i})$ 역시 증가함수여야 성립한다. 따라서, $Lambda = g(Y)$를 Y에 대한 함수라고 했을 때, 이는 단조우도비 함수가 된다.
$\alpha = P_{\theta_{H0}}[Y \geq g^{-1}(k)]$를 정의하자.
이는 다시 말해 단조우도비의 역함수 $g^{-1}$에 대한 함수이다.
이는 네이만-피어슨 정리에 따라 최량기각역을 가지며, 따라서 완비충분통계량 Y를 이용한 최강력검정을 수행할 수 있다.
3) 균일최강력검정에 대한 요약 및 필요한 이유
${(1)}$ 대부분의 경우, $\alpha = P_{\theta_{H0}}[Y \geq g^{-1}(k)]$ 에서 $g^{-1}(k)$는 관심의 대상이 아니다.
-. 오히려, $Y = u(X_{1}, \dots X_{n})$ 이라는 충분통계량(의 함수)가 어떤 분포를 따르는지가 더 중요할 수 있다.
${(2)}$ 네이만-피어슨 정리와 우도비검정 - 완비충분통계량간 관계에 대한 정리를 통해 다음을 유추할 수 있다.
-. ①네이만-피어슨 정리에 따라 $g(k) = Y$ 를 $Y = g^{-1}(k)$를 변환하여도 마찬가지로 최량 기각역이 존재하고,
-. ②우도비 검정과 완비충분통계량간 관계에 대한 정리를 통해 충분통계량만으로도 우도비 검정에 기반한 최강력 검정을 수행할 수 있으므로
-. 충분통계량 $Y = u(X_{1}, \dots X_{n})$가 어떤 분포를 따르는지만 입증할 수 있다면, $g^{-1}(k)$와는 별개로 어떠한 검정을 수행할 수 있는 길이 열린다.
${(3)}$ 아래 예제는 위에서 설명한 것에 대한 예시이다.
- 예제
1) 단조 우도비를 이용한 균일최강력검정의 정의
$[X_{1}, \dots X_{n}]$을 $N(0,\theta)$에서 추출한 확률표본이라고 하자.
다음의 가설을 검정하고자 한다.
$$H_{0} : \theta = \theta_{H0} \ VS \ H_{1} : \theta > \theta_{H0}$$
위 가설 검정에 대한 우도비 함수를 정의하자. 즉
$$\Lambda = \frac{L(\theta_{H0};X_{1}, \dots, X_{n})}{L(\theta_{n};X)} = \frac{\frac{1}{2\pi\theta_{H0}}^{n/2} \cdot exp\{-\frac{\sum x_{i}^{2}}{2\theta_{H0}}\}}{\frac{1}{2\pi\theta_{n}}^{n/2} \cdot exp\{-\frac{\sum x_{i}^{2}}{2\theta_{n}}\}} \\ = [\frac{\theta_{H0}}{\theta_{n}}]^{n/2}exp[(-\frac{\theta_{H0}-\theta_{n}}{2\theta_{H0}\theta_{n}})\sum x_{i}^{2}$$
이 때, $\Lambda$는 $Y = \sum x_{i}^{2}$을 충분통계량으로 갖는다.
우도비 검정은 완비충분통계량만으로 수행할 수 있다는 정리에 따라 이제 Y가 어떤 분포를 따르는지 확인한다.
$\frac{Y}{\theta_{H0}} \sim x^{2}(n)$ 이므로, 이제 이를 이용하여 최강력 검정을 수행할 수 있다.
네이만 - 피어슨 정리에 따라 다음의 최량기각역을 정리한다.
$$\alpha = P_{\theta_{H0}}[\frac{Y}{\theta_{H0}} \leq \frac{g^{-1}(k)}{\theta_{H0}}]$$
이제, $\frac{g^{-1}(k)}{\theta_{H0}}$는 고려하지 말고 오직 $\frac{Y}{\theta_{H0}}$만 고려한다.
이 분포는 $x^{2}(n)$의 분포를 따름을 보였으므로, 이를 이용하여 가설을 검정할 수 있다.
예를 들어, N = 15이고, $\alpha = 0.5$ 라고 하고,
연구자가 $\theta_{H0} = 3$이라고 주장하는 상황이라 하자.
$$0.5 = P_{\theta_{3}}[\frac{Y}{\theta_{3}} \leq \frac{g^{-1}(k)}{\theta_{3}}]$$
에서 $\frac{Y}{3} \sim x^{2}(15)$이므로
$x_{0.05, df=15}^{2} = 25.1$보다 $\frac{Y}{3}$이 크면 $H_{0}$를 기각하고 $H_{1}$을 채택한다.
'수리통계' 카테고리의 다른 글
38. 최소최대문제와 분류문제(with 선형판별분석) (0) | 2023.07.27 |
---|---|
37. 축차확률비 검정 (0) | 2023.07.27 |
35. 최소충분통계량과 보조통계량 (0) | 2023.07.25 |
34-1 다중 모수에서의 충분통계량 (0) | 2023.07.25 |
34. 완비충분통계량 (0) | 2023.07.24 |