Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- 미적분 #평균값 정리 #로피탈의 정리 #접선의 방정식
- 미적분 #사인과 코사인의 도함수
- 프로그래머를 위한 선형대수 #선형대수 #고유분해 #고윳값 #고유벡터
- lightweightmmm
- 프로그래머를 위한 선형대수 #선형대수 #LU분해
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #고유분해
- 미적분
- Marketing Mix Modeling
- 프로그래머를 위한 선형대수 #선형대수 #행렬계산
- bayesian
- 미적분 #접선의 방정식 #최적화 #뉴턴법 #뉴턴-랩슨법
- bayesian inference
- 시계열분석 #Time-Series Analysis #이상탐지 #Anomaly Detection #Spectral Residual #CNN #SR-CNN
- Optimization
- Media Mix Modeling
- mmm
- 수리통계
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #야코비 회전법 #QR법 #하우스홀더반사 #행렬회전
Archives
- Today
- Total
문과생 네버랜드의 데이터 창고
19-1 다변량 함수에서의 최대우도추정 본문
-
단변량에서 다변량 MLE로 확장
1) 단변량에서 최대우도추정량을 구하는 방법을 살펴보았다.
2) 이제, 이 방법론을 다변량에 대해서 구하는 방법으로 확장한다. - 다변량 모수의 최대우도추정
1) [X1,…Xn]을 공통 pdf f(X;θ)를 갖는 i.i.d라고 하자.
2) 그 우도함수와 로그우도함수는 다음과 같이 나타낼 수 있다.
(1) 우도함수
L(θ)=n∏i=1f(xi;θ)
(2) 로그우도함수
l(θ)=n∑i=1logf(xi;θ)
3) 이 때, 우리가 알고있는 모수의 집합 [θ1,…,θn] 에 대하여 다음의 연산을 정의한다
[00⋮0]=log∂[θ1θ2…θn]×[X1X2⋮Xn]=[∂log(X1)∂(θ1)+⋯+∂log(Xn)∂(θ1)∂log(X1)∂(θ2)+⋯+∂log(Xn)∂(θ2)⋮∂log(X1)∂(θn)+⋯+∂log(Xn)∂(θn)]
즉, log∂[θ1θ2…θn]×[X1X2⋮Xn]=[∂log(X1)∂(θ1)+⋯+∂log(Xn)∂(θ1)∂log(X1)∂(θ2)+⋯+∂log(Xn)∂(θ2)⋮∂log(X1)∂(θn)+⋯+∂log(Xn)∂(θn)]의 영공간을 구하면 그것이 MLE 추정량의 해가 된다. - 다변량 모수의 피셔정보와 효율성
1) 다변량 모수의 피셔정보
(1) 다변량 피셔 정보 행렬은 다변량 모수 벡터를 입력받는 다변량 스코어 함수를 이용하는 정보 행렬이다.
다변량 스코어 함수는 다음의 벡터로 나타낼 수 있다.
θ=[θ1,…,θn]라고 할 때
▽logf(x;θ)=[∂f(X;θ)∂θ1…∂f(X;θ)∂θn]
이 때, ▽logf(x;θ)를 확률변수들의 다변량 확률벡터로 간주하고, 분산 - 공분산 행렬을 구하면
다음과 같이 나타낼 수 있다.
cov(▽logf(x;θ))=[var(∂f(X;θ)∂θ1)cov(∂f(X;θ)∂θ1,∂f(X;θ)∂θ2)⋮cov(∂f(X;θ)∂θ1∂f(X;θ)∂θi)⋮var(∂f(X;θ)∂θ2)⋱⋮⋮⋱⋱⋮cov(∂f(X;θ)∂θi,∂f(X;θ)∂θ1)cov(∂f(X;θ)∂θi,∂f(X;θ)∂θ2)…var(∂f(X;θ)∂θi)]
이것 바로 스코어 함수의 분산, 즉 피셔 정보 행렬 I(θ)이 된다.단변량 때와 마찬가지로, 이계 미분꼴의 기댓값( 혹은 스코어함수의 제곱의 기댓값) 형태로 이를 나타낼 수 있다.
1=∫f(x;θ)dx에서 양분을 미분하면
0=∫∂f(x;θ)∂θjdx=∫∂logf(x;θ)∂θjf(x;θ)dx,(j=1,...n)=E(∂logf(x;θ)∂θj)
여기서 한번 더 미분해서 이계미분을 가져가면
0=∫∂2logf(x;θ)∂θj∂θkf(x;θ)dx+∫[∂logf(x;θ)∂θj][∂logf(x;θ)∂θk]f(x;θ)dx
위 식중 첫번째항을 좌변으로 이항하면
−∫∂2logf(x;θ)∂θj∂θkf(x;θ)dx=∫[∂logf(x;θ)∂θj][∂logf(x;θ)∂θk]f(x;θ)dx
단변량에서와 마찬가지로,
I(θ)=−E[∂2logf(x;θ)∂θj∂θk]=E[∂logf(x;θ)∂θj∂logf(x;θ)∂θk]단(j=1...n,k=1...n)]
한편, 공분산 cov(x,y)=E(XY)−E(X)E(Y)에서 E(X)E(Y)는 위에서 정의한 바에 따라 0과 같고
E(XY)=E[∂logf(x;θ)∂θj∂logf(x;θ)∂θk]=−E[∂2logf(x;θ)∂θj∂θk]=I(θ)
이므로, 이는 피셔정보행렬과 우리가 지금 구한 기댓값의 꼴을 연결지어주는 가교 역할을 한다.
cov(∂f(X;θ)∂θ1∂f(X;θ)∂θi)=−E[∂2logf(x;θ)∂θj∂θk]
란 사실을 이용하여
[var(∂f(X;θ)∂θ1)cov(∂f(X;θ)∂θ1,∂f(X;θ)∂θ2)⋮cov(∂f(X;θ)∂θ1∂f(X;θ)∂θi)⋮var(∂f(X;θ)∂θ2)⋱⋮⋮⋱⋱⋮cov(∂f(X;θ)∂θi,∂f(X;θ)∂θ1)cov(∂f(X;θ)∂θi,∂f(X;θ)∂θ2)…var(∂f(X;θ)∂θi)] = [−E[∂2logf(x;θ)∂θ21]−E[∂2logf(x;θ)∂θ1∂θ2]⋮−E[∂2logf(x;θ)∂θ1∂θk]⋮−E[∂2logf(x;θ)∂θ22]⋱⋮⋮⋱⋱⋮−E[∂2logf(x;θ)∂θk∂θ1]−E[∂2logf(x;θ)∂θk∂θ2]…−E[∂2logf(x;θ)∂θ2k]]
이다. 이것이 바로 피셔정보행렬이다.
(1) 단변량에서와 마찬가지로, 다변량에서도 라오-크래머 하한과 같은 모수에 추정량에 대한 분산 하한을 정의할 수 있다.
-. 모수의 열 θ=[θ1,…,θn]에 대하여, 각각의 모수에 대하여 피셔정보행렬의 대각성분을 가져와 다음을 구한다.
통계량 Yj=uj(X1,…Xn)를 정의하고, 이 통계량인 모수 θj의 불편추정량이라고 하자.
Yj의 분산이 다음의 부등식 중 하한값을 가지면, Yj를 효율적이라고 표현한다.
Var(Yj)≥1n[I−1(θ)]jj
3) 다변량 최대우도추정량의 근사 효율성
(1) 단변랑때와 마찬가지로, 다변량 최대우도추정량은 근사적으로 효율적임을 보일 수 있다.
X1,…Xn을 pdf f(x;θ)를 따르는 변수에서 추출한 i.i.d라고 하자.
① MLE 추정량 ∂l(θ)∂θ=0은 ^θnP→θ 로 정의되는 해 ^θn를 가진다.
② ①의 조건을 만족하는 모수의 집합 θ=[θ1,…,θn]에 대하여
√n(^θn−θ)D→Np[0,I−1(θ)]
는 참이다.
이 때 Np는 P차원의 다변량 정규분포이고, I−1(θ)는 피셔정보행렬의 역행렬이다.
-. 위 정리에 따르면, n의 크기가 커질수록 MLE 추정량 ^θn는 근사적으로 Np[0,I−1(θ)]로 수렴한다.
-. 이 때, 그 분산인 I−1(θ)는 모수가 가질수 있는 이론적인 분산의 한계이므로, 이로서 다변량 MLE 추정량이 근사적으로 효율적임을 증명할 수 있다.
(2) 한편, 근사 효율성을 증명하기 위해 도출했던 위 정리에서 다음의 따름정리도 파생시킬 수 있다.G를 1≤k≤p에서 다음의 변환이라고 정의하자
g(θ)=[g1(θ)…gk(θ)]
또한, B를 다음과 같이 정의하자
B=[g1(θ)θ1…g1(θ)θp…⋱…gk(θ)θ1…gk(θ)θp]
즉, 변환 G에[ 대한 편미분행렬이다.
이 때, 다음 또한 참이다.
①MLE 추정량 : ˆθ을 MLE 추정량이라고 할 때, ˆγ=g(ˆθ) 면 ˆγ은 마찬가지로 γ=g(θ)의 MLE 추정량이다.
② ①의 조건을 만족하는 ˆθ의 함수꼴 ˆγ의 집합에 대하여 √n(ˆγ−γ)D→Np[0,BI−1(θ)BT] 이다.
-. MLE 추정량의 함수꼴은 마찬가지로 (동일한 함수의) 모수의 함수꼴의 MLE 추정량이 된다. MLE의 성질이 추정량에서 그 함수로도 확장될 수 있음을 보인다.
(단, MLE 추정량의 함수꼴이 모수의 MLE 추정량은 아님에 유의해야한다.)
-. 마찬가지로, MLE 추정량의 함수꼴은 근사적으로 효율적이다.
-. 또, 마지막 사실에서 MLE 추정량의 함수의 피셔정보행렬은 다음과 같이 도출할 수 있다.
I(γ)=[BI−1(θ)BT]−1 - 사례로 보는 적용방법
1) 정규 모형하에서의 다변량 최대우도추정
X1,...Xn이 N(μ,σ2)에서 추출한 i.i.d라고 하자.
모수 집합은 다음과 같이 정의할 수 있다.
θ=[μσ2],이때공간ω=[(−∞,∞)(0,∞)]
로그 우도 함수는 다음과 같이 정의할 수 있다.
l(θ)=−n2log2π−nlogσ−12σ2∑(xi−μ)2…①
스코어 함수를 이용하여 최대우도추정량을 벡터 형식으로 정의하면
[μmleσ2mle]=log∂[μ,σ2]×[f(X1)…f(Xn)]=0 이므로
[μmleσ2mle]=[1sigma2∑(xi−μ)1sigma2−3sigma$∑(xi−μ)2]=0
을 만족하는 영공간의 해를 구하면
[μmleσ2mle]=[∑(Xi)n√∑(Xi−μ)2n]
이다.1)의 전개를 식 ① 전까지 가져온다.
로그우도 l(θ)=−n2log2π−nlogσ−12σ2∑(xi−μ)2…① 를 이용하여 피셔정보를 구하면
[−E[∂2logf(x;θ)∂μ2]−E[∂2logf(x;θ)∂μ1∂σ22]−E[∂2logf(x;θ)∂μ1∂σ22]−E[∂2logf(x;θ)∂(σ2)2]]
에서 각각의 요소값을 구한다.
① ∂2logf(x;θ)∂μ2=−12σ2
② ∂2logf(x;θ)∂(σ2)2=−12σ2−3σ4(Xi−μ)2
③∂2logf(x;θ)∂μ1∂σ22=∂[1σ2(Xi−μ)]∂σ2=2σ3(Xi−μ)
위에서 구한 이계 미분들의 기댓값을 구하면
① −E(−12σ2)=12σ2
② −E(−12σ2−3σ4(Xi−μ)2)=−(1σ2−3σ4σ2)=2σ2
③ −E(2σ3(Xi−μ))=2σ3⋅0=0
따라서, 피셔정보행렬은 아래와 같이 나타낼 수 있다.
[12σ2002σ2]2) 에서 피셔정보행렬을 가져온다.
[12σ2002σ2]
이 때, 변환 g(θ)=σ2을 정의하자.
편미분행렬(벡터) B는 다음과 같이 정의할 수 있다.
B=[g1(θ)μg1(θ)σ]=[0,2σ]
이 때, 이 MLE 추정량의 함수꼴의 피셔정보행렬은 다음과 같이 구할 수 있다.
I(γ)=[BI−1(θ)BT]−1=[0,2σ]⋅[12σ2002σ2]−1⋅[0,2σ]T]−1=12σ4
따라서, I(γ)=σ2의 최저 하한은 (2σ2/n) 이다.
'수리통계' 카테고리의 다른 글
32. EM 알고리즘(with GMM) (2) | 2023.07.20 |
---|---|
31-1 다중 모수의 최대우도검정 (0) | 2023.07.19 |
31. 최대우도검정 (0) | 2023.07.17 |
30. 라오-크래머 한계와 효율성 (0) | 2023.07.14 |
29-1 다변량 중심극한정리 (0) | 2023.07.13 |