문과생 네버랜드의 데이터 창고

19-1 다변량 함수에서의 최대우도추정 본문

수리통계

19-1 다변량 함수에서의 최대우도추정

K JI 2023. 7. 18. 19:25
  1. 단변량에서 다변량 MLE로 확장
    1) 단변량에서 최대우도추정량을 구하는 방법을 살펴보았다.
    2) 이제, 이 방법론을 다변량에 대해서 구하는 방법으로 확장한다.

  2. 다변량 모수의 최대우도추정

    1) [X1,Xn]을 공통 pdf f(X;θ)를 갖는 i.i.d라고 하자.

    2) 그 우도함수와 로그우도함수는 다음과 같이 나타낼 수 있다.
    (1) 우도함수 
    L(θ)=ni=1f(xi;θ)
    (2) 로그우도함수
    l(θ)=ni=1logf(xi;θ)

    3) 이 때, 우리가 알고있는 모수의 집합 [θ1,,θn] 에 대하여 다음의 연산을 정의한다
    [000]=log[θ1θ2θn]×[X1X2Xn]=[log(X1)(θ1)++log(Xn)(θ1)log(X1)(θ2)++log(Xn)(θ2)log(X1)(θn)++log(Xn)(θn)]

    즉, log[θ1θ2θn]×[X1X2Xn]=[log(X1)(θ1)++log(Xn)(θ1)log(X1)(θ2)++log(Xn)(θ2)log(X1)(θn)++log(Xn)(θn)]의 영공간을 구하면 그것이 MLE 추정량의 해가 된다.
    (1) 이 벡터는 모수 [θ1,,θn]의 최대우도추정량을 담고있는 MLE 벡터이다.

  3. 다변량 모수의 피셔정보와 효율성
    1) 다변량 모수의 피셔정보

    (1) 다변량 피셔 정보 행렬은 다변량 모수 벡터를 입력받는 다변량 스코어 함수를 이용하는 정보 행렬이다.
    다변량 스코어 함수는 다음의 벡터로 나타낼 수 있다.

    θ=[θ1,,θn]라고 할 때
     logf(x;θ)=[f(X;θ)θ1f(X;θ)θn]

    이 때, logf(x;θ)를 확률변수들의 다변량 확률벡터로 간주하고,  분산 - 공분산 행렬을 구하면
    다음과 같이 나타낼 수 있다.

    cov(logf(x;θ))=[var(f(X;θ)θ1)cov(f(X;θ)θ1,f(X;θ)θ2)cov(f(X;θ)θ1f(X;θ)θi)var(f(X;θ)θ2)cov(f(X;θ)θi,f(X;θ)θ1)cov(f(X;θ)θi,f(X;θ)θ2)var(f(X;θ)θi)]
    이것 바로 스코어 함수의 분산, 즉 피셔 정보 행렬 I(θ)이 된다.
    단변량 때와 마찬가지로, 이계 미분꼴의 기댓값( 혹은 스코어함수의 제곱의 기댓값) 형태로 이를 나타낼 수 있다.

    1=f(x;θ)dx에서 양분을 미분하면
    0=f(x;θ)θjdx=logf(x;θ)θjf(x;θ)dx,(j=1,...n)=E(logf(x;θ)θj) 

    여기서 한번 더 미분해서 이계미분을 가져가면
    0=2logf(x;θ)θjθkf(x;θ)dx+[logf(x;θ)θj][logf(x;θ)θk]f(x;θ)dx
    위 식중 첫번째항을 좌변으로 이항하면
    2logf(x;θ)θjθkf(x;θ)dx=[logf(x;θ)θj][logf(x;θ)θk]f(x;θ)dx
    단변량에서와 마찬가지로, 
    I(θ)=E[2logf(x;θ)θjθk]=E[logf(x;θ)θjlogf(x;θ)θk](j=1...n,k=1...n)]

    한편, 공분산 cov(x,y)=E(XY)E(X)E(Y)에서 E(X)E(Y)는 위에서 정의한 바에 따라 0과 같고
    E(XY)=E[logf(x;θ)θjlogf(x;θ)θk]=E[2logf(x;θ)θjθk]=I(θ)
    이므로, 이는 피셔정보행렬과 우리가 지금 구한 기댓값의 꼴을 연결지어주는 가교 역할을 한다.

    cov(f(X;θ)θ1f(X;θ)θi)=E[2logf(x;θ)θjθk]
    란 사실을 이용하여 

    [var(f(X;θ)θ1)cov(f(X;θ)θ1,f(X;θ)θ2)cov(f(X;θ)θ1f(X;θ)θi)var(f(X;θ)θ2)cov(f(X;θ)θi,f(X;θ)θ1)cov(f(X;θ)θi,f(X;θ)θ2)var(f(X;θ)θi)] = [E[2logf(x;θ)θ21]E[2logf(x;θ)θ1θ2]E[2logf(x;θ)θ1θk]E[2logf(x;θ)θ22]E[2logf(x;θ)θkθ1]E[2logf(x;θ)θkθ2]E[2logf(x;θ)θ2k]]

    이다. 이것이 바로 피셔정보행렬이다.
    2) 다변량의 불편추정량의 효율성
    (1) 단변량에서와 마찬가지로, 다변량에서도 라오-크래머 하한과 같은 모수에 추정량에 대한 분산 하한을 정의할 수 있다.

    -. 모수의 열 θ=[θ1,,θn]에 대하여, 각각의 모수에 대하여 피셔정보행렬의 대각성분을 가져와 다음을 구한다.

    통계량 Yj=uj(X1,Xn)를 정의하고, 이 통계량인 모수 θj의 불편추정량이라고 하자.

    Yj의 분산이 다음의 부등식 중 하한값을 가지면, Yj를 효율적이라고 표현한다.

    Var(Yj)1n[I1(θ)]jj

    3) 다변량 최대우도추정량의 근사 효율성

    (1) 단변랑때와 마찬가지로, 다변량 최대우도추정량은 근사적으로 효율적임을 보일 수 있다.
    X1,Xn을 pdf f(x;θ)를 따르는 변수에서 추출한 i.i.d라고 하자.

    ① MLE 추정량 l(θ)θ=0^θnPθ 로 정의되는 해 ^θn를 가진다.
    ② ①의 조건을 만족하는 모수의 집합 θ=[θ1,,θn]에 대하여 
    n(^θnθ)DNp[0,I1(θ)]
    는 참이다.
    이 때 Np는 P차원의 다변량 정규분포이고, I1(θ)는 피셔정보행렬의 역행렬이다.
    -. 일단은 위 정리들을 증명 없이 받아들이기로 하자

    -. 위 정리에 따르면, n의 크기가 커질수록 MLE 추정량 ^θn근사적으로 Np[0,I1(θ)]로 수렴한다.

    -. 이 때, 그 분산인 I1(θ) 모수가 가질수 있는 이론적인 분산의 한계이므로, 이로서 다변량 MLE 추정량이 근사적으로 효율적임을 증명할 수 있다. 

    (2) 한편, 근사 효율성을 증명하기 위해 도출했던 위 정리에서 다음의 따름정리도 파생시킬 수 있다.
    G를 1kp에서 다음의 변환이라고 정의하자
    g(θ)=[g1(θ)gk(θ)]
    또한, B를 다음과 같이 정의하자
    B=[g1(θ)θ1g1(θ)θpgk(θ)θ1gk(θ)θp] 
    즉, 변환 G에[ 대한 편미분행렬이다.

    이 때, 다음 또한 참이다.
    ①MLE 추정량 : ˆθ을 MLE 추정량이라고 할 때, ˆγ=g(ˆθ)ˆγ은 마찬가지로 γ=g(θ)의 MLE 추정량이다.  
    ② ①의 조건을 만족하는 ˆθ의 함수꼴 ˆγ의 집합에 대하여 n(ˆγγ)DNp[0,BI1(θ)BT] 이다.
    (2) 위 따름정리를 해석하면 아래와 같다.

    -. MLE 추정량의 함수꼴은 마찬가지로 (동일한 함수의) 모수의 함수꼴MLE 추정량이 된다. MLE의 성질이 추정량에서 그 함수로도 확장될 수 있음을 보인다.
    (단, MLE 추정량의 함수꼴이 모수의 MLE 추정량은 아님에 유의해야한다.)

    -. 마찬가지로, MLE 추정량의 함수꼴근사적으로 효율적이다.

    -. 또, 마지막 사실에서 MLE 추정량의 함수의 피셔정보행렬은 다음과 같이 도출할 수 있다.
    I(γ)=[BI1(θ)BT]1

  4. 사례로 보는 적용방법
    1) 정규 모형하에서의 다변량 최대우도추정
    X1,...XnN(μ,σ2)에서 추출한 i.i.d라고 하자.

    모수 집합은 다음과 같이 정의할 수 있다.
    θ=[μσ2],ω=[(,)(0,)]

    로그 우도 함수는 다음과 같이 정의할 수 있다.
    l(θ)=n2log2πnlogσ12σ2(xiμ)2
    스코어 함수를 이용하여 최대우도추정량을 벡터 형식으로 정의하면
    [μmleσ2mle]=log[μ,σ2]×[f(X1)f(Xn)]=0 이므로
    [μmleσ2mle]=[1sigma2(xiμ)1sigma23sigma$(xiμ)2]=0
    을 만족하는 영공간의 해를 구하면
    [μmleσ2mle]=[(Xi)n(Xiμ)2n]
    이다.
    2) 다변량 정규모형하에서의 피셔정보행렬 
    1)의 전개를 식 ① 전까지 가져온다.

    로그우도 l(θ)=n2log2πnlogσ12σ2(xiμ)2 를 이용하여 피셔정보를 구하면
    [E[2logf(x;θ)μ2]E[2logf(x;θ)μ1σ22]E[2logf(x;θ)μ1σ22]E[2logf(x;θ)(σ2)2]]
    에서 각각의 요소값을 구한다.

    2logf(x;θ)μ2=12σ2
    2logf(x;θ)(σ2)2=12σ23σ4(Xiμ)2
    2logf(x;θ)μ1σ22=[1σ2(Xiμ)]σ2=2σ3(Xiμ)

    위에서 구한 이계 미분들의 기댓값을 구하면
    E(12σ2)=12σ2
    E(12σ23σ4(Xiμ)2)=(1σ23σ4σ2)=2σ2
    E(2σ3(Xiμ))=2σ30=0

    따라서, 피셔정보행렬은 아래와 같이 나타낼 수 있다.
    [12σ2002σ2]
    3) 다변량 정규모형에서의 불편추정량의 최저 하한
    2) 에서 피셔정보행렬을 가져온다. 
    [12σ2002σ2]
    이 때, 변환 g(θ)=σ2을 정의하자.
    편미분행렬(벡터) B는 다음과 같이 정의할 수 있다.

    B=[g1(θ)μg1(θ)σ]=[0,2σ]

    이 때, 이 MLE 추정량의 함수꼴의 피셔정보행렬은 다음과 같이 구할 수 있다.
    I(γ)=[BI1(θ)BT]1=[0,2σ][12σ2002σ2]1[0,2σ]T]1=12σ4

    따라서, I(γ)=σ2의 최저 하한은 (2σ2/n) 이다. 

'수리통계' 카테고리의 다른 글

32. EM 알고리즘(with GMM)  (2) 2023.07.20
31-1 다중 모수의 최대우도검정  (0) 2023.07.19
31. 최대우도검정  (0) 2023.07.17
30. 라오-크래머 한계와 효율성  (0) 2023.07.14
29-1 다변량 중심극한정리  (0) 2023.07.13