문과생 네버랜드의 데이터 창고

30. 라오-크래머 한계와 효율성 본문

수리통계

30. 라오-크래머 한계와 효율성

K JI 2023. 7. 14. 20:45
  1. 라오-크래머 하한 부등식
    1) 불편추정량의 질을 어떻게 측정할 것인가?
    (1) 불편추정량을 다음과 같이 정의하였다.
    이때, 통계량과 모수를 연결짓는 징검다리로서 불편추정량이란 개념이 등장한다.
    (1) 불편추정량의 개념은 아래와 같다.
    -. 모수 θ를 갖는 pdf(f;θ)를 가지는 확률변수 X를 정의하자.
    -. 이 때, X에서 독립적으로 추출한(i.i.d) 확률표본 [X1,X2,...,Xn]를 정의하자.
    -. 이 확률표본을 이용한 통계량 T=T([X1,X2,...,Xn])를 정의하자.
    -. 이 때, 이 통계량의 기댓값 E(T)=θ, 즉 그 기댓값이 모수와 같을경우 T를 θ 불편추정량 이라고 표현한다.   
    (2) 이러한 정의 하에 발생할 수 있는 문제는 다음과 같다.
    -. 불편추정량이 여러개인 경우 : 정의상, 우리가 추정하려는 모수 θ를 기댓값으로 갖는 모든 통계량이 불편추정량이 될 수 있다. 따라서, 불편추정량은 여러개 발견될 수 있다.

    (3) 이러한 문제를 해결하기 위해, 한가지 조건을 더 붙여 유일한 불편추정량을 구할 수 있다.
    -. 모수 θ에 대하여 편차(bias)가 0인 불편추정량 중, 그 분산이 최소인 불편추정량을 가장 으뜸인 불편추정량으로 선정할 수 있다.
    -. 위와 같이, 가장 분산이 작은 불편 추정량을 최소분산불편추정량(Minimum Variance unbiased Estimator, MVUE) 라고 지칭한다.

    2) 피셔 정보
    (1) 피셔 정보는 라오-크래머 부등식을 구성하는 핵심 측도이다.

    (2) 도출된 형식을 이용한 피셔정보의 해석
    -. 아래 수식의 유도를 통해 조금 더 엄밀하게 나타나겠지만, 피셔 정보는 '스코어 함수'의 분산으로 설명할 수 있다.
    ① 먼저, logf(x;θ)θ, 즉 우도 함수에 대한 파라미터의 1계 미분을 '스코어 함수'라고 부른다. 이는 이 함수가 우도함수에서 θ미소하게 변할 때 얼마나 큰 영향을 미치는지(=스코어) 확인할 수 있는 측도기 때문이다.
    ② 그리고, 우도 함수는 관찰값(데이터)들이 주어졌을 때 어느 파라미터 θ를 가진 분포에서 추출됐을 확률이 높은지를 측정하는 측도이다
    ③ ①과 ②의 사실을 결합하면 다음과 같은 사실을 도출 가능하다
    스코어 함수 = 0의 극값은 우도함수가 최대화되는 지점을 의미한다. 다시 말해 MLE 추정치를 의미한다.

    -. 피셔정보는, 이 스코어 함수의 분산을 구하는 것이다. 즉, MLE 추정량에 대한 정보가 얼마나 변동 가능한지를 표현하는 측도이다.

    (3) 우선, 다음과 같은 정칙 조건을 만족한다고 가정해야한다.
    ① pdf는 모수 θ가 구분되면 서로 명확히 구분된다. 즉, θ0θ1 이라면 f(x;θ0)f(x;θ1) 이다.
    ② 확률변수의 집합 [Xi]는 그 pdf들의 받침(support)가 모수 θ에 종속되지 않는다. 즉, pdf는 모든 θ에 대하여 공통 받침을 갖는다.
    pdff(x;θi)는 모두 두 번 미분이 가능하다
    ④ pdf의 적분 f(x;θ)dxθ의 함수로 두번 미분이 가능하다.

    두번 미분이 가능하다는 조건은, 피셔정보를 구할 때 이계 미분을 활용하기 때문이다.
    (3) 피셔 정보의 유도
    확률변수 X의 pdf f(x;θ)를 정의하자.

    따라서 pdf의 성질에 따라
    1=f(x;θ)dx
    는 성립한다.

    이제, 이 식의 양변을 θ에 대하여 미분한다. 그러면
    0=(f(x;θ)/θ)dx=f(x;θ)/θf(x;θ)f(x;θ)dx 

    한편, 로그함수는 원함수의 순서가 그대로 보존되므로 다음과 같이 나타낼 수도 있다.
    0=logf(x;θ)/θf(x;θ)dx
    한편, 위 식은 가만히 살펴보면 다음과 같은 기댓값을 나타내는 식이란걸 알 수 있다.
    0=E[logf(x;θ)θ]

    즉, logf(x;θ)θ 라는 확률변수에 대한 기댓값이고, 이는 곧 0이다. 

    위 식을 한번 더 미분(이계 미분)하면 다음과 같이 나타낼 수 있다. 
    0=1θ[logf(x;θ)/θf(x;θ)]dx=2logf(x;θ)θ2f(x;θ)dx+logf(x;θ)θf(x;θ)θdx=2logf(x;θ)θ2f(x;θ)dx+logf(x;θ)θlogf(x;θ)θf(x;θ)dx

    위 적분식은 두개의 항으로 구성되어 있고, 각각 다음의 기댓값의 선형결합으로 볼 수 있다.
    E[2logf(x;θ)θ2]+E[(logf(x;θ)θ)2]=0

    이 때, 한쪽을 이항하면 등식관계로 만들 수 있다. 두번째 항을 좌변으로 이항하자
    I(θ)=E[2logf(x;θ)θ2]=E[(logf(x;θ)θ)2]

    이는 logf(x;θ)θ라는 확률변수의 분산을 구하는것과 동일하다.

    양쪽을 모두 동등하게 피셔 정보라 부른다.


    (5) 피셔정보의 선형결합
    -. 피셔정보는 선형결합을 허용한다. 그것도 만약 n개의 확률변수의 선형결합이라면 단순히 nI(θ)로 나타낼 수 있다.
    크기 n인 확률표본 [X1,Xn]의 집합의 결합우도함수를 L(θ)라고 정의하자.

    이 때, 이 결합우도함수를 이용한 피셔정보는 다음과 같이 나타낼 수 있다.

    logL(θ;X)θ=θ[f(X1;θ)]+θ[f(X2;θ)]++θ[f(Xn;θ)]=ni=1θ[f(Xi;θ)]

    이 때, 정의한 이 확률변수의 제곱의 기댓값이 바로 피셔정보이다. 즉
    I(θ)=E[(ni=1θ[f(Xi;θ)])2]

    위 선형결합을 쭉 펼치면

    ni=1E[(θ[f(Xi;θ)])2]=E[(θ[f(X1;θ)])2]+E[(θ[f(X2;θ)])2]++E[(θ[f(Xn;θ)])2]

     한편, 위 확률표본들은 동일한 확률변수 X에서 추출된 표본들이므로,
    그 기댓값을 구하는것은 X에 대한 기댓값을 구하는것과 동치이다. 따라서 

    ni=1E[(θ[f(Xi;θ)])2]ni=1E[(θ[f(X;θ)])2]=nI(θ)

    이 결과로 피셔정보의 선형결합은 그 정보량을 n배 증가시키는것을 증명하였다.

    3) 라오-크레머 하한 부등식

    (1) 라오-크레머 하한은 모수 θ에 대하여 그 불편추정량이 가질 수 있는 가장 작은 분산 추정량을 제시한다.
    -. 다시 말해, 우리가 구한 불편추정량이 이 가장 작은 분산 추정량( = 라오-크래머 하한)을 가지면 그것이 그 파라미터를 추정하는 불편추정량이 가질 수 있는 최소값이며, 따라서 모든 불편추정량 중 으뜸인 MVUE으로 간주할 수 있다.

    (2) 라오 - 크래머 하한 부등식은 피셔 정보를 활용한다. 다음과 같이 유도할 수 있다.

    확률변수 X에서 추출한 확률표본 집합 [X1,Xn]을 i.i.d라고 가정하자.

    다음의 통계량을 가정하자
    Y=u(X1,Xn)
    이 때, 이 통계량의 기댓값을 다음과 같이 정의하자
    E(Y)=E[u(X1,Xn)]=k(θ)

    이 기댓값을 적분식으로 표현하면 아래와 같다.

    u(x1,xn)f(x1;θ)f(xn;θ)dx1dxn

    이 식을 θ에 대하여 미분하면, 미분의 연산법 중 곱셈연산과 
    피셔정보를 유도할 때 f(X:θ)로 나눠주고 곱해 형태를 만들었던 전례에 따라
    k(θ)=θ[u(x1,xn)f(x1;θ)f(xn;θ)]dx1dxn=u(x1,xn)ni=1[1f(xi;θ)f(x;θ)θ]ni=1f(xi;θ)dx1dxn=u(x1,xn)ni=1[logf(x;θ)θ]ni=1f(xi;θ)dx1dxn

    한편, 다음의 다변량 확률변수를 정의하자
    Z=logf(x;θ)θ

     피셔정보를 유도하면서 다음의 사실을 알게되었다.
    E(Z)=0 이고 Var(Z)=nI(θ)

    또한, Y와 Z를 이용하면 ①을 E(YZ)로 취급할 수 있다. 따라서
    k(θ)=E(YZ)=E(Y)E(Z)+ρσYnI(θ)
    이 때, \rho는 Y와 Z의 상관계수를 의미하고 뒤의 항은 공분산과 상관계수의 관계를 따왔다.

    E(Z)=0이라는 사실을 이용하면 
    k(θ)=ρσYnI(θ) 
    우변에 상관계수 ρ만 남기고 식을 정리하면
    k(θ)2σ2YnI(θ)=ρ2
    한편, ρ2은 상관계수의 정의에 따라 1 이하인 수이다. 따라서 부등식 형식으로 이를 고치면
    k(θ)2σ2YnI(θ)1
    분모의 σ2Y, 즉 Y의 분산을 우변으로 이항하면
    k(θ)2nI(θ)σ2Y
    이고, 이것이 바로 라오-크레머 하한 부등식이다.

    정식 라오-크레머 하한 부등식에서 한걸음 더 나아가보자.

    Y=u(X1,,Xn) 에서, Y를 θ에 대한 불편추정량이라고 한다면

    E(Y)=k(θ)=θ이다.

    θ에 대하여 θ로 1계 미분해주면 그 값은 1과 같다.
    따라서 라오-크레머 부등식은 다음과 같이 간단화될 수 있다.

    Var(Y)1nI(θ) 
  2. 효율성
    1) 효율성과 효율추정량
    (1) 이제, 라오-크레머 부등식을 구했으니 불편추정량이 얼마나 으뜸 추정량인지 구할 수 있다.

    (2) 그 정도를 구하는데 다음의 두가지 개념이 등장한다.
    -. 효율 추정량
    불편추정량 후보 Y를 확률표본 [X1,,Xn]을 이용해 만든 통계량이라고 하자.
    이 때, Y의 분산이 라오-크레머 부등식의 하한인 경우에 이 통계량을 효율추정량이라고 한다. 
    -. 효율성
    모수에 대하여 구한 라오-크레머 하한과 추정량의 실제 분산의 비율을 효율성이라고 한다.
    효율성 함수를 e라고 정의할 때, 아래와 같은 측도로 측정이 가능하다
    2) 근사적 효율성
    (1)효율성과 효율추정량은 좋은 정의지만, 지나치게 엄격하기도 하다.

    -. 어떤 불편추정량들은 샘플의 수가 많아질수록 점차 라오크래머 하한에 점근적으로 가까워지기도 한다.

    -. 이를 반영하여, 점근적으로 라오크레머 하한에 도달하는 경우 이를 근사적으로 효율적이다라고 표현하고, 이 정도를 측정하기 위한 측도가 근사적 효율성이다.

    (2) 근사적 효율성의 유도
    -. n이 커질수록 점근적으로 분산이 라오-크레머 하한에 다가가는 근사적 효율성은 아래와 같이 정의 가능하다.
    [X1,Xn]을 pdf f(x;θ0)를 가지는 확률변수 X에서 추출한 확률표본이라 하자

    이 확률표본을 이용하여 다음의 불편추정량인 통계량을 정의하자

    ˆθ0=ˆθ0(X1,,Xn)
    이 통계량이 다음을 만족한다고 하자
    n(ˆθ0θ0)DN(0,σ2^θ0)
    즉, 통계량 ˆθ0의 분산을 가지는 정규분포로 분포수렴한다.
    이 때, 근사적 효율성 함수를 e라고 할 때, 아래와 같이 정의한다.

    e(^θ0)=1/I(θ0)ˆθ0

    이 비율이 1에 가까울수록, 통계량 ^θ0는 근사적으료 효율적이라고 한다.
    이 때, 마찬가지로 θ0에 대한 불편추정량인 다음의 통계량을 정의하자
    ˆθ1=ˆθ1(X1,,Xn)

    이 때, 두 추정량의 근사 효율성의 비율, 즉 근사적 상대 효율성은 다음과 같이 정의할 수 있다.

    e(^θ0,^θ1)=1/I(θ)/^θ01/I(θ)/^θ1=^θ1^θ0

    만약, ^θ0^θ1 보다 더 양질의 추정량일경우,
    근사적 상대 효율성은 1을 넘을 것이다.
    (3) 최대우도추정량은 보통 근사적으로 효율적이다.

    -. 한편, 최대우도추정량의 경우는 아래의 중심극한정리를 만족한다.
    [X1,,Xn]θ0를 pdf f(X;θ0)라는 pdf를 가지는 확률변수 X에서 추출한 확률표본이라 하자.

    θ0의 최대우도추정량을 ˆθ라고 할 때 다음은 참이다.

    n(ˆθθ0)DN(0,1I(θ0))

    증명은 Hogg et.al(2013)을 참조
    -. 위 정리에 따라, 최대우도추정량은 그 분산 자체가 이미 라오-크러머 하한인 1I(θ0)을 가진다.

    -. 따라서, 어떤 추정량을 가져오던간에 항상 근사적으로 상대 효율적이다. 

  3. 참조문헌
    1) Hogg et.al, “Introduction to mathematical statistics, 7th edition”,Pearson Education.Inc(2013), p.362

'수리통계' 카테고리의 다른 글

19-1 다변량 함수에서의 최대우도추정  (0) 2023.07.18
31. 최대우도검정  (0) 2023.07.17
29-1 다변량 중심극한정리  (0) 2023.07.13
29. 중심극한정리  (2) 2023.07.12
28. 분포수렴  (1) 2023.07.11