Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- mmm
- 미적분 #사인과 코사인의 도함수
- 프로그래머를 위한 선형대수 #선형대수 #LU분해
- bayesian
- lightweightmmm
- 미적분
- bayesian inference
- 수리통계
- 시계열분석 #Time-Series Analysis #이상탐지 #Anomaly Detection #Spectral Residual #CNN #SR-CNN
- 미적분 #평균값 정리 #로피탈의 정리 #접선의 방정식
- Optimization
- Marketing Mix Modeling
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #고유분해
- 프로그래머를 위한 선형대수 #선형대수 #고유분해 #고윳값 #고유벡터
- 프로그래머를 위한 선형대수 #선형대수 #행렬계산
- Media Mix Modeling
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #야코비 회전법 #QR법 #하우스홀더반사 #행렬회전
- 미적분 #접선의 방정식 #최적화 #뉴턴법 #뉴턴-랩슨법
Archives
- Today
- Total
문과생 네버랜드의 데이터 창고
30. 라오-크래머 한계와 효율성 본문
-
라오-크래머 하한 부등식
1) 불편추정량의 질을 어떻게 측정할 것인가?
(1) 불편추정량을 다음과 같이 정의하였다.이때, 통계량과 모수를 연결짓는 징검다리로서 불편추정량이란 개념이 등장한다.
(1) 불편추정량의 개념은 아래와 같다.
-. 모수 θ를 갖는 pdf(f;θ)를 가지는 확률변수 X를 정의하자.
-. 이 때, X에서 독립적으로 추출한(i.i.d) 확률표본 [X1,X2,...,Xn]를 정의하자.
-. 이 확률표본을 이용한 통계량 T=T([X1,X2,...,Xn])를 정의하자.
-. 이 때, 이 통계량의 기댓값 E(T)=θ, 즉 그 기댓값이 모수와 같을경우 T를 θ의 불편추정량 이라고 표현한다.
-. 불편추정량이 여러개인 경우 : 정의상, 우리가 추정하려는 모수 θ를 기댓값으로 갖는 모든 통계량이 불편추정량이 될 수 있다. 따라서, 불편추정량은 여러개 발견될 수 있다.
(3) 이러한 문제를 해결하기 위해, 한가지 조건을 더 붙여 유일한 불편추정량을 구할 수 있다.
-. 모수 θ에 대하여 편차(bias)가 0인 불편추정량 중, 그 분산이 최소인 불편추정량을 가장 으뜸인 불편추정량으로 선정할 수 있다.
-. 위와 같이, 가장 분산이 작은 불편 추정량을 최소분산불편추정량(Minimum Variance unbiased Estimator, MVUE) 라고 지칭한다.
2) 피셔 정보
(1) 피셔 정보는 라오-크래머 부등식을 구성하는 핵심 측도이다.
(2) 도출된 형식을 이용한 피셔정보의 해석
-. 아래 수식의 유도를 통해 조금 더 엄밀하게 나타나겠지만, 피셔 정보는 '스코어 함수'의 분산으로 설명할 수 있다.
① 먼저, ∂logf(x;θ)∂θ, 즉 우도 함수에 대한 파라미터의 1계 미분을 '스코어 함수'라고 부른다. 이는 이 함수가 우도함수에서 θ가 미소하게 변할 때 얼마나 큰 영향을 미치는지(=스코어) 확인할 수 있는 측도기 때문이다.
② 그리고, 우도 함수는 관찰값(데이터)들이 주어졌을 때 어느 파라미터 θ를 가진 분포에서 추출됐을 확률이 높은지를 측정하는 측도이다
③ ①과 ②의 사실을 결합하면 다음과 같은 사실을 도출 가능하다
스코어 함수 = 0의 극값은 우도함수가 최대화되는 지점을 의미한다. 다시 말해 MLE 추정치를 의미한다.
-. 피셔정보는, 이 스코어 함수의 분산을 구하는 것이다. 즉, MLE 추정량에 대한 정보가 얼마나 변동 가능한지를 표현하는 측도이다.
(3) 우선, 다음과 같은 정칙 조건을 만족한다고 가정해야한다.
① pdf는 모수 θ가 구분되면 서로 명확히 구분된다. 즉, θ0≠θ1 이라면 f(x;θ0)≠f(x;θ1) 이다.
② 확률변수의 집합 [Xi]는 그 pdf들의 받침(support)가 모수 θ에 종속되지 않는다. 즉, pdf는 모든 θ에 대하여 공통 받침을 갖는다.
③ pdff(x;θi)는 모두 두 번 미분이 가능하다
④ pdf의 적분 ∫f(x;θ)dx는 θ의 함수로 두번 미분이 가능하다.
두번 미분이 가능하다는 조건은, 피셔정보를 구할 때 이계 미분을 활용하기 때문이다.확률변수 X의 pdf f(x;θ)를 정의하자.
따라서 pdf의 성질에 따라
1=∫∞−∞f(x;θ)dx
는 성립한다.
이제, 이 식의 양변을 θ에 대하여 미분한다. 그러면
0=∫∞−∞(∂f(x;θ)/∂θ)dx=∫∞−∞∂f(x;θ)/∂θf(x;θ)⋅f(x;θ)dx
한편, 로그함수는 원함수의 순서가 그대로 보존되므로 다음과 같이 나타낼 수도 있다.
0=∫∞−∞∂logf(x;θ)/∂θ⋅f(x;θ)dx
한편, 위 식은 가만히 살펴보면 다음과 같은 기댓값을 나타내는 식이란걸 알 수 있다.
0=E[∂logf(x;θ)∂θ]
즉, ∂logf(x;θ)∂θ 라는 확률변수에 대한 기댓값이고, 이는 곧 0이다.
위 식을 한번 더 미분(이계 미분)하면 다음과 같이 나타낼 수 있다.
0=∫∞−∞1∂θ[∂logf(x;θ)/∂θ⋅f(x;θ)]dx=∫∞−∞∂2logf(x;θ)∂θ2⋅f(x;θ)dx+∫∞−∞∂logf(x;θ)∂θ⋅∂f(x;θ)∂θdx=∫∞−∞∂2logf(x;θ)∂θ2⋅f(x;θ)dx+∫∞−∞∂logf(x;θ)∂θ⋅∂logf(x;θ)∂θf(x;θ)dx
위 적분식은 두개의 항으로 구성되어 있고, 각각 다음의 기댓값의 선형결합으로 볼 수 있다.
E[∂2logf(x;θ)∂θ2]+E[(∂logf(x;θ)∂θ)2]=0
이 때, 한쪽을 이항하면 등식관계로 만들 수 있다. 두번째 항을 좌변으로 이항하자
I(θ)=E[∂2logf(x;θ)∂θ2]=−E[(∂logf(x;θ)∂θ)2]
이는 ∂logf(x;θ)∂θ라는 확률변수의 분산을 구하는것과 동일하다.
양쪽을 모두 동등하게 피셔 정보라 부른다.
(5) 피셔정보의 선형결합
-. 피셔정보는 선형결합을 허용한다. 그것도 만약 n개의 확률변수의 선형결합이라면 단순히 nI(θ)로 나타낼 수 있다.크기 n인 확률표본 [X1,…Xn]의 집합의 결합우도함수를 L(θ)라고 정의하자.
이 때, 이 결합우도함수를 이용한 피셔정보는 다음과 같이 나타낼 수 있다.
∂logL(θ;X)∂θ=∂∂θ[f(X1;θ)]+∂∂θ[f(X2;θ)]+⋯+∂∂θ[f(Xn;θ)]=n∑i=1∂∂θ[f(Xi;θ)]
이 때, 정의한 이 확률변수의 제곱의 기댓값이 바로 피셔정보이다. 즉
I(θ)=E[(∑ni=1∂∂θ[f(Xi;θ)])2]
위 선형결합을 쭉 펼치면
n∑i=1E[(∂∂θ[f(Xi;θ)])2]=E[(∂∂θ[f(X1;θ)])2]+E[(∂∂θ[f(X2;θ)])2]+⋯+E[(∂∂θ[f(Xn;θ)])2]
한편, 위 확률표본들은 동일한 확률변수 X에서 추출된 표본들이므로,
그 기댓값을 구하는것은 X에 대한 기댓값을 구하는것과 동치이다. 따라서
n∑i=1E[(∂∂θ[f(Xi;θ)])2]→n∑i=1E[(∂∂θ[f(X;θ)])2]=nI(θ)
이 결과로 피셔정보의 선형결합은 그 정보량을 n배 증가시키는것을 증명하였다.
3) 라오-크레머 하한 부등식
(1) 라오-크레머 하한은 모수 θ에 대하여 그 불편추정량이 가질 수 있는 가장 작은 분산 추정량을 제시한다.
-. 다시 말해, 우리가 구한 불편추정량이 이 가장 작은 분산 추정량( = 라오-크래머 하한)을 가지면 그것이 그 파라미터를 추정하는 불편추정량이 가질 수 있는 최소값이며, 따라서 모든 불편추정량 중 으뜸인 MVUE으로 간주할 수 있다.
(2) 라오 - 크래머 하한 부등식은 피셔 정보를 활용한다. 다음과 같이 유도할 수 있다.
확률변수 X에서 추출한 확률표본 집합 [X1,…Xn]을 i.i.d라고 가정하자.
다음의 통계량을 가정하자
Y=u(X1,…Xn)
이 때, 이 통계량의 기댓값을 다음과 같이 정의하자
E(Y)=E[u(X1,…Xn)]=k(θ)
이 기댓값을 적분식으로 표현하면 아래와 같다.
∫∞−∞…∫∞−∞u(x1,…xn)f(x1;θ)…f(xn;θ)dx1…dxn
이 식을 θ에 대하여 미분하면, 미분의 연산법 중 곱셈연산과
피셔정보를 유도할 때 f(X:θ)로 나눠주고 곱해 형태를 만들었던 전례에 따라
k′(θ)=∫∞−∞…∫∞−∞∂∂θ[u(x1,…xn)f(x1;θ)…f(xn;θ)]dx1…dxn=∫∞−∞…∫∞−∞u(x1,…xn)n∑i=1[1f(xi;θ)⋅∂f(x;θ)∂θ]⋅n∏i=1f(xi;θ)dx1…dxn=∫∞−∞…∫∞−∞u(x1,…xn)n∑i=1[∂logf(x;θ)∂θ]⋅n∏i=1f(xi;θ)dx1…dxn…①
한편, 다음의 다변량 확률변수를 정의하자
Z=∂logf(x;θ)∂θ
피셔정보를 유도하면서 다음의 사실을 알게되었다.
E(Z)=0 이고 Var(Z)=nI(θ)
또한, Y와 Z를 이용하면 ①을 E(YZ)로 취급할 수 있다. 따라서
k′(θ)=E(YZ)=E(Y)E(Z)+ρσY√nI(θ)
이 때, \rho는 Y와 Z의 상관계수를 의미하고 뒤의 항은 공분산과 상관계수의 관계를 따왔다.
E(Z)=0이라는 사실을 이용하면
k′(θ)=ρσY√nI(θ)
우변에 상관계수 ρ만 남기고 식을 정리하면
k′(θ)2σ2YnI(θ)=ρ2
한편, ρ2은 상관계수의 정의에 따라 1 이하인 수이다. 따라서 부등식 형식으로 이를 고치면
k′(θ)2σ2YnI(θ)≤1
분모의 σ2Y, 즉 Y의 분산을 우변으로 이항하면
k′(θ)2nI(θ)≤σ2Y
이고, 이것이 바로 라오-크레머 하한 부등식이다.정식 라오-크레머 하한 부등식에서 한걸음 더 나아가보자.
Y=u(X1,…,Xn) 에서, Y를 θ에 대한 불편추정량이라고 한다면
E(Y)=k(θ)=θ이다.
θ에 대하여 θ로 1계 미분해주면 그 값은 1과 같다.
따라서 라오-크레머 부등식은 다음과 같이 간단화될 수 있다.
Var(Y)≥1nI(θ) - 효율성
1) 효율성과 효율추정량
(1) 이제, 라오-크레머 부등식을 구했으니 불편추정량이 얼마나 으뜸 추정량인지 구할 수 있다.
(2) 그 정도를 구하는데 다음의 두가지 개념이 등장한다.-. 효율 추정량
불편추정량 후보 Y를 확률표본 [X1,…,Xn]을 이용해 만든 통계량이라고 하자.
이 때, Y의 분산이 라오-크레머 부등식의 하한인 경우에 이 통계량을 효율추정량이라고 한다.-. 효율성
모수에 대하여 구한 라오-크레머 하한과 추정량의 실제 분산의 비율을 효율성이라고 한다.
효율성 함수를 e라고 정의할 때, 아래와 같은 측도로 측정이 가능하다
(1)효율성과 효율추정량은 좋은 정의지만, 지나치게 엄격하기도 하다.
-. 어떤 불편추정량들은 샘플의 수가 많아질수록 점차 라오크래머 하한에 점근적으로 가까워지기도 한다.
-. 이를 반영하여, 점근적으로 라오크레머 하한에 도달하는 경우 이를 근사적으로 효율적이다라고 표현하고, 이 정도를 측정하기 위한 측도가 근사적 효율성이다.
(2) 근사적 효율성의 유도
-. n이 커질수록 점근적으로 분산이 라오-크레머 하한에 다가가는 근사적 효율성은 아래와 같이 정의 가능하다.[X1,…Xn]을 pdf f(x;θ0)를 가지는 확률변수 X에서 추출한 확률표본이라 하자
이 확률표본을 이용하여 다음의 불편추정량인 통계량을 정의하자
ˆθ0=ˆθ0(X1,…,Xn)
이 통계량이 다음을 만족한다고 하자
√n(ˆθ0−θ0)D→N(0,σ2^θ0)
즉, 통계량 ˆθ0의 분산을 가지는 정규분포로 분포수렴한다.이 때, 근사적 효율성 함수를 e라고 할 때, 아래와 같이 정의한다.
e(^θ0)=1/I(θ0)ˆθ0
이 비율이 1에 가까울수록, 통계량 ^θ0는 근사적으료 효율적이라고 한다.이 때, 마찬가지로 θ0에 대한 불편추정량인 다음의 통계량을 정의하자
ˆθ1=ˆθ1(X1,…,Xn)
이 때, 두 추정량의 근사 효율성의 비율, 즉 근사적 상대 효율성은 다음과 같이 정의할 수 있다.
e(^θ0,^θ1)=1/I(θ)/^θ01/I(θ)/^θ1=^θ1^θ0
만약, ^θ0가 ^θ1 보다 더 양질의 추정량일경우,
근사적 상대 효율성은 1을 넘을 것이다.
-. 한편, 최대우도추정량의 경우는 아래의 중심극한정리를 만족한다.
[X1,…,Xn]을 θ0를 pdf f(X;θ0)라는 pdf를 가지는 확률변수 X에서 추출한 확률표본이라 하자.
θ0의 최대우도추정량을 ˆθ라고 할 때 다음은 참이다.
√n(ˆθ−θ0)D→N(0,1I(θ0))
증명은 Hogg et.al(2013)을 참조
-. 따라서, 어떤 추정량을 가져오던간에 항상 근사적으로 상대 효율적이다. - 참조문헌
1) Hogg et.al, “Introduction to mathematical statistics, 7th edition”,Pearson Education.Inc(2013), p.362
'수리통계' 카테고리의 다른 글
19-1 다변량 함수에서의 최대우도추정 (0) | 2023.07.18 |
---|---|
31. 최대우도검정 (0) | 2023.07.17 |
29-1 다변량 중심극한정리 (0) | 2023.07.13 |
29. 중심극한정리 (2) | 2023.07.12 |
28. 분포수렴 (1) | 2023.07.11 |