Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- Optimization
- 미적분 #접선의 방정식 #최적화 #뉴턴법 #뉴턴-랩슨법
- 미적분 #사인과 코사인의 도함수
- bayesian inference
- 수리통계
- 프로그래머를 위한 선형대수 #선형대수 #고유분해 #고윳값 #고유벡터
- lightweightmmm
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #야코비 회전법 #QR법 #하우스홀더반사 #행렬회전
- mmm
- 미적분
- 프로그래머를 위한 선형대수 #선형대수 #LU분해
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #고유분해
- bayesian
- Media Mix Modeling
- Marketing Mix Modeling
- 시계열분석 #Time-Series Analysis #이상탐지 #Anomaly Detection #Spectral Residual #CNN #SR-CNN
- 프로그래머를 위한 선형대수 #선형대수 #행렬계산
- 미적분 #평균값 정리 #로피탈의 정리 #접선의 방정식
Archives
- Today
- Total
문과생 네버랜드의 데이터 창고
36. 최강력 검정 본문
- 최강력 검정의 정의
1) 가설검정과 최강력검정(Most Powerful tests)
(1) 가설 검정과 관련된 몇가지 개념들을 이전에 정리했었다. 가설검정과 기각역, 가설검정의 오류와 검정력에 대한 개념이 그것이다.
(2) 이제, 이 개념들을 발전시켜서 '가장 효율성이 높은 가설 검정 방법'을 도출하는 방법론을 배운다. 아래 개념들을 복습하자.
가설 검정
(1) 연구자가 주장한 가설이 실제로도 유의미한지 참 / 거짓을 판별하는 방법론을 가설검정이라고 한다.
(2) 가설 검정엔 귀무가설과 대립가설이라는 두 개념이 등장한다.
-.대립가설: 연구가설이라고도 표현한다.연구자가 관심을 갖고 있는(즉 연구자가 주창한) 가설을 의미한다.
-.귀무가설: 영가설이라도고 표현한다. 대립가설에 대비되는 개념으로,연구자는 귀무가설을 기각함으로서 마침내대립가설이 참임을 증명할 수 있다.
기각역
확률표본(혹은 그의 함수)이 부분공간 C에 속하면 귀무가설을 채택하고,C 여집합에 속하면 대립가설을 채택한다.
이 때, C를 기각역이라고 표현한다.
가설검정의 오류
1) 가설검정엔 오류의 종류에 따라 1종오류와 2종오류로 분류할 수 있다.
(1) [X1,...,Xn]∈C 라서 H0를 기각했으나(즉, H1을 채택했으나), 사실 θ∈w0 였다면 이를 1종 오류라고 한다.
(2) [X1,...,Xn]∈Cc 라서 H0를 유지했으나(즉, H1을 채택하지 못했으나), 사실 θ∈w1 였다면 이를 2종 오류라고 한다.
검정력
(1) 유의수준 α를 만족하는 기각역을 설정하는 방법은 그야말로 무한개의 경우의수가 발생한다.
-. 가령, 귀무가설을 참이라고 가정할 수 있는 기각역은 기각역을 아예 설정하지 않는 것(C=ϕ)에서부터 표본공간 D를 전부 점유하는(C=D)까지 설정이 가능하다.
(2) 극단적으로, 기각역을 아예 설정하지 않은 경우(C=ϕ)를 가정했을 때
-. 이 가설검정은 항상 1종 오류가 0일 것이며(H0를 절대 기각하지 않기 때문이다),
-. 반대로 2종오류는 항상 1일 것이다(H0를 항상 채택하기 때문에, H0가 거짓인 경우 그 확률은 항상 1이 된다.)
(2) 좋은 가설검정이란, 이렇듯 서로 Trade-off 관계에 있는 1종오류와 2종 오류 사이에서 적절한 균형을 잡아 1종오류(=α)를 최소화 하면서도 2종 오류를 최소화 하는 기각역을 설정하는 것이다.
-. α=P[X∈C]를 만족하는 기각역 C는 무한대에 가깝게 많다. 그러면, 그 많고많은 기각역 C중 어떤 기각역을 선택하는것이 효율적이면서 옳은 결정을 이끌어낼까?
(3) 검정력 부분에도 정리했듯이, 이 의문에 답을 내는 한가지 솔루션은 다음과 같다.
-. 1종오류와 2종 오류 사이에서 적절한 균형을 잡아 1종오류(=α)를 최소화 하면서도 2종 오류를 최소화 하는 기각역을 설정하는 것이다.
-. 이 때, 2종 오류는 검정력 함수를 이용하여 계산하는 (1−β)를 최대화하면 최소화된다.
-. 즉, 우리의 목표는 α=P[X∈C]인 C중에서 검정력 함수 (1−β)를 최대화하는 기각역을 찾는 것이며, 이런 일련의 절차를 최강력 검정이라고 한다.
(4) 수학적으로 엄밀한 정의는 아래와 같이 나타낼 수 있다.
C는 표본공간 S의 부분집합이라고 하자.
다음의 가설을 검정하고자 한다.
H0:θ=θh0 VS H1:θ=θh1
이 때, 다음을 정의한다.
α=Pθh0(X∈C)
이 때, 표본공간 S내의 모든 부분집합 A가
Pθh0[X∈A]=α 를 만족한다고 하자.
이제, θh0가 아닌 θh1 차원에서 다음이 성립되는 C를 정의한다.
Pθh1[X∈C]≥Pθh1[X∈A]
이 때 C를 최량기각역이라고 하고, C 하에서 수행하는 검정을 최강력 검정이라고 한다.
최량 기각역의 예시
α=0.05 일 때,
α=PθRed(X∈기각역)을 만족하는 기가역이
PθBlue(X∈기각역) 을 최대화한다.비합리적 선택의 예시
α=0.05 일 때,
α=PθRed(X∈기각역)을 만족하는 임계값 (c,c′)사이의 구간은
PθBlue(X∈기각역) 을 0에 가깝게 수렴하게 한다.
따라서, 이는 명백히 비합리적인 선택이다.
2) 네이만-피어슨 정리
(1) 최량기각역을 정의하는 형식적이고 체계적인 방법론을 제공하는 정리이다.
(2) 우도 함수의 비율로서 최량기각역을 결정하는 방법론을 제시한다.X1,…,Xn을 pdf(pmf) f(x;θ)를 갖는 분포에서 추출한 확률표본이라 하자.
이 확률표본을 이용하여 다음의 우도함수를 정의한다.
L(θ;X)=n∏i=1f(xi;θ)
또한, 전체 모수공간 Ω에 대하여
관심 있는 가설 모수 θh0, θh1을 이 모수공간을 양분하는 요소라고 하자. 즉
Ω={θ:θ=θh0 or θh1}
그리고, k를 어떤 임의의 양수라 하자.
다음의 가설을 검정하고자 한다.
H0:θ=θh0 VS H0:θ=θh1
이제, C를 전체 표본공간의 일부인 부분집합이라고 하자.
① X∈CL(θh0;X)L(θh1;X)≤k
② X∈CcL(θh0;X)L(θh1;X)≥k
(단, Cc는 C의 여집합을 의미한다
③ α=Pθh0[X∈C]
를 만족하는 C는 위에서 정의한 가설을 검정하는데 활용할 수 있는 최량기각역이 된다.
3) 불편 검정
(1) 불편 검정이란 우리가 설정한 1종 오류의 확률(=α)보다 검정력의 확률(=1−β)이 높은 상태를 의미한다.
-. 다음과 같이 수학적으로 엄밀하게 정의할 수 있다.H0:θ∈W0 Vs H1:θ∈W1의 검정을 수행학좌 한다.
X=[X1,…,Xn]인 확률벡터를 정의하자.
X가 결합 pdf f(x;θ)를 가진다고 할 때 다음의 경우를 상정할 수 있다.
Pθ∈W1[X∈C]≥α
즉, H1 하에서의 검정력(=1−β)는 항상 1종 오류 α보다 높다.
이런 경우에 해당하는 검정을 불편 검정이라고 한다.
(2) 최강력검정은 불편검정이다
-. 위에서 살펴봤듯이, 최량기각역 C를 갖는 최강력 검정은 이미 그 정의 자체가 불편 검정의 성질을 만족한다. - 균일 최강력 검정
1) 최강력 검정의 일반화 확장
(1) 앞서 살펴본 최강력 검정은 단순가설 H0에 대한 단순가설 H1의 검정이었다.
-. 즉, H0:θ=θH0 VS H1:θ=θH1 과 같은 =의 검정이다.
(2)이제, 이 검정을 단순가설 H0에 대한 복합가설 H1으로 확장한다.
-. 즉, H0:θ=θH0 VS H1:θ∈ΩH1(단,ΩH1은θH0를포함하지않는다.)
-. 위와 같이, 대립가설이 '같다' 조건에서 '같지 않다'로 확장된 경우에 적용 가능한 최강력 검정 방법을 보인다.
(3) 위와 같이, 이제 양쪽 방향에 대하여 모두 가설검정을 수행 가능하게 만들어주는것이 바로 균일최강력검정이다.
2) 충분통계량과 균일최강력검정의 관계
(1) 충분 통계량과 우도비 검정의 관계
-. 우도비 검정은 충분통계량만으로도 수행이 가능하다. 증명은 다음과 같이 할 수 있다.[X1,…,Xn]을 pdf f(x;θ)를 가지는 분포에서 추출한 확률표본이라 하자.
Y=u(X1,…Xn)을 θ에 대한 충분통계량이라고 하자.
이 때, 충분통계량의 정의와 네이만의 인수분해 정리에 따라 다음과 같이 그 우도함수를 표현할 수 있다.
L(θ;X1,…Xn)=k1(X1,…,Xn;θ)⋅k2(X1,…Xn)
이 때, 다음의 우도비 검정이 다음의 가설 검정
H0:θ=θH0 VS H0:θ≠θH0
을 충분통계량 Y=u(X1,…Xn)하에서 진행된다고 하자
L(θH0;X1,…Xn)L(θn;X1,…Xn)=k1(X1,…,Xn;θH0)⋅k2(X1,…Xn)k1(X1,…,Xn;θn)⋅k2(X1,…Xn)
이 때, 분자와 분모에서 k2 함수는 소거되므로, 다음과 같이 정리할 수 있다.
L(θH0;X1,…Xn)L(θn;X1,…Xn)=k1(X1,…,Xn;θH0)k1(X1,…,Xn;θn)
따라서, 오직 충분통계량에 의존하는 함수만으로도 우도비 검정을 수행할 수 있다.
-. 충분통계량과 우도비 함수의 관계를 정의한 바로 위의 증명에서 더 나아가서, 이 우도비 함수가 단조감소(순서를 보존하면서 꾸준히 감소하는성질)를 보일때를 가정하고 살펴보자.
-. Y=u(X1,…,Xn) 를 충분통계량으로 활용하는 우도비 L(θH0;X1,…Xn)L(θn;X1,…Xn)가 θH0<θn 에서 단조감소성을 보인다면, 이를 단조 우도비라고 한다.
-. 단조우도비를 사용하면 균일최강력 검정을 수행할 수 있다. 증명에 네이만-피어슨 정리를 활용한다.충분통계량 Y에 대한 함수 g(Y)를 정의하고, g 또한 감수함소라고 하자. 다음이 성립된다고 하자.
L(θH0;X1,…Xn)L(θn;X1,…Xn)=g(y)
-. 위 등식이 사실이라면, 네이만 피어슨 정리에 따라 다음의 관계를 도출해낼 수 있다.(k는 임의의 양수라 하자)
①X∈CL(θH0;X1,…Xn)L(θn;X1,…Xn)=g(y)≤k②α=PθH0[g(Y)≥Cy]이 때, Cy는 최량기각역이다.
한걸음 더 나아가서, g(Y)의 역함수 g−1이 존재한다고 하자. 그러면 ②에서 다음과 같은 관계를 이끌어 낼 수 있다.
α=PθH0[g(Y)≥Cy]→α=PθH0[Y≥g−1(Cy)]
즉, 충분통계량을 이용하여 우도비에 기반한 어떠한 가설 검정을 수행할 수 있음을 암시한다.
또한, 이는 균일 최강력 검정이다. 오직 θn>θH0에서만 검정이 수행되고, g−1(Cy)는 오직 θH0 하에서 유일하게 결정되기 때문이다.
(3) 단조 우도비와 완비충분통계량의 관계
-. 이제 마지막이다. 단조 우도비는 균일 최강력 검정이라고 하였고, 우도비와 충분통계량 간에는 모종의 관계가 존재함을 보였다.
-. 이제, 단조우도비와 완비충분통계량간의 관계를 아래와 같이 증명할 것이다.어떤 확률표본 [X1,…Xn]이 지수족 분포에서 추출한 확률표본이라고 하자.
지수족이기 때문에, 이 분포는 다음 꼴의 pdf를 갖는다.
f(x;θ)=exp[p(θ)k(x)+H(x)+q(θ)]
θH0<θn 이라는 조건 하에서 완비충분통계량을 이용한 우도비 검정을 정의하자. 즉
Λ=L(θH0;X)L(θn;X)=exp[p(θH0)k(x)+H(x)+q(θH0)]exp[p(θn)k(x)+H(x)+q(θn)]=exp[p(θH0−θn)k(X)+H′(x)+n(q(θH0)−q(θn))]
이 우도비와 관련된 지수족 분포는 Y=∑k(xi)라는 완비충분통계량을 갖는다.
한편 이 우도비와 관련된 지수족 분포를 검증한 결과 p(θ) 함수가 증가함수였다고 하자.
p(θH0−θn)가 θH0<θn 이라는 조건 하에서 증가함수가 되려면 Y=∑k(xi) 역시 증가함수여야 성립한다. 따라서, Lambda=g(Y)를 Y에 대한 함수라고 했을 때, 이는 단조우도비 함수가 된다.
α=PθH0[Y≥g−1(k)]를 정의하자.
이는 다시 말해 단조우도비의 역함수 g−1에 대한 함수이다.
이는 네이만-피어슨 정리에 따라 최량기각역을 가지며, 따라서 완비충분통계량 Y를 이용한 최강력검정을 수행할 수 있다.
3) 균일최강력검정에 대한 요약 및 필요한 이유
(1) 대부분의 경우, α=PθH0[Y≥g−1(k)] 에서 g−1(k)는 관심의 대상이 아니다.
-. 오히려, Y=u(X1,…Xn) 이라는 충분통계량(의 함수)가 어떤 분포를 따르는지가 더 중요할 수 있다.
(2) 네이만-피어슨 정리와 우도비검정 - 완비충분통계량간 관계에 대한 정리를 통해 다음을 유추할 수 있다.
-. ①네이만-피어슨 정리에 따라 g(k)=Y 를 Y=g−1(k)를 변환하여도 마찬가지로 최량 기각역이 존재하고,
-. ②우도비 검정과 완비충분통계량간 관계에 대한 정리를 통해 충분통계량만으로도 우도비 검정에 기반한 최강력 검정을 수행할 수 있으므로
-. 충분통계량 Y=u(X1,…Xn)가 어떤 분포를 따르는지만 입증할 수 있다면, g−1(k)와는 별개로 어떠한 검정을 수행할 수 있는 길이 열린다.
(3) 아래 예제는 위에서 설명한 것에 대한 예시이다.
- 예제
1) 단조 우도비를 이용한 균일최강력검정의 정의
[X1,…Xn]을 N(0,θ)에서 추출한 확률표본이라고 하자.
다음의 가설을 검정하고자 한다.
H0:θ=θH0 VS H1:θ>θH0
위 가설 검정에 대한 우도비 함수를 정의하자. 즉
Λ=L(θH0;X1,…,Xn)L(θn;X)=12πθH0n/2⋅exp{−∑x2i2θH0}12πθnn/2⋅exp{−∑x2i2θn}=[θH0θn]n/2exp[(−θH0−θn2θH0θn)∑x2i
이 때, Λ는 Y=∑x2i을 충분통계량으로 갖는다.
우도비 검정은 완비충분통계량만으로 수행할 수 있다는 정리에 따라 이제 Y가 어떤 분포를 따르는지 확인한다.
YθH0∼x2(n) 이므로, 이제 이를 이용하여 최강력 검정을 수행할 수 있다.
네이만 - 피어슨 정리에 따라 다음의 최량기각역을 정리한다.
α=PθH0[YθH0≤g−1(k)θH0]
이제, g−1(k)θH0는 고려하지 말고 오직 YθH0만 고려한다.
이 분포는 x2(n)의 분포를 따름을 보였으므로, 이를 이용하여 가설을 검정할 수 있다.
예를 들어, N = 15이고, α=0.5 라고 하고,
연구자가 θH0=3이라고 주장하는 상황이라 하자.
0.5=Pθ3[Yθ3≤g−1(k)θ3]
에서 Y3∼x2(15)이므로
x20.05,df=15=25.1보다 Y3이 크면 H0를 기각하고 H1을 채택한다.
'수리통계' 카테고리의 다른 글
38. 최소최대문제와 분류문제(with 선형판별분석) (0) | 2023.07.27 |
---|---|
37. 축차확률비 검정 (0) | 2023.07.27 |
35. 최소충분통계량과 보조통계량 (0) | 2023.07.25 |
34-1 다중 모수에서의 충분통계량 (0) | 2023.07.25 |
34. 완비충분통계량 (0) | 2023.07.24 |