문과생 네버랜드의 데이터 창고

20. 신뢰구간 본문

수리통계

20. 신뢰구간

K JI 2023. 6. 28. 19:52
  1. 계속해서, 모수 θ를 추정하는 문제로 들어가보자.
    1) 우리가 추정하는 모수에 대한 추정량 ˆθ가 있다고 가정하자.

    (1) 이 떄, 우리가 추정한 이 추정량 ˆθ가 정말 θ에 대한 완전한(즉, 오차가 없는) 추정량일 확률은 낮다.
    -. 사실, θ를 어떤 확률분포를 따르는 확률변수라고 가정한다면, 오차가 전혀 없을 확률 즉 P(θ=ˆθ)일 확률은 0과 같다.(정확한 지점에서의 확률은 0이다.)

    (2) 아예 정확한 추정량을 구하는것은 불가능하지만, 매우매우 근접한 '좋은 품질의 추정량'을 구하는것은 충분히 가능하다.

    -. 이제, 관점을 바꿔서, 우리가 추정한 ˆθθ얼마나 근접했는지 확률적 관점에서 접근해 볼 수 있다.

    2) 신뢰구간을 엄밀하게 정의하면 아래와 같다.
    [X1,...,Xn]pdf(x;θ)를 갖는 확률변수 X에서 추출한 확률표본이라 하자.

    이 확률표본을 통해 다음과 같은 두개의 통계량을 정의하자.

    -. L=L(x1,...,xn)
    -.U=U(x1,...,xn)

    이 때,α를 0 < α < 1인 값이라고 할 때 
    (1α)=Pθ[θ(L,U)]를 정의하자. 

    이 때, 구간 (L, U)는 참모수 θ에 대한 ((1α) * 100) % 신뢰구간이라고 표현한다.
    이 때, ((1α) * 100)는 신뢰도, 혹은 신뢰계수, 신뢰수준이라고 표현한다. 
    (1) 위 정의를 하나하나 뜯어보면 아래와 같다.

    -. L과 U는 각각 구간의 하한과 상한을 의미한다. 이는 확률표본(원 확률변수에 대한것이 아닌!)에 대한 함수로서 도출 가능하다.

    -. (L,U)인 구간을 신뢰구간이라고 표현하고, 이 구간 안에 참모수 θ가 포함될 확률(즉, Pθ[θ(L,U)])은 (1α)로 표현 가능하다.

    -. 이 때, (1α)100를 신뢰도(신뢰계수, 신뢰수준)이라고 하고 이 신뢰수준을 갖는 (L,U)를 신뢰구간이라고 한다.

    (2) 이는 성공 확률이 (1α)베르누이 실험으로 생각해볼 수 있다.

    -. X로부터 여러번의 표본 추출을 통해 M개의 독립적인 신뢰구간을 구했다고 가정하자

    -. 이 때, 우리가 확률표본으로부터 추출한 이 신뢰구간은 참모수 θ를 포함했을수도, 포함하지 않았을수도 있다.



    확률변수 X로부터 [X1,X2,...,Xn] 확률표본 추출을 100번 반복했다고 가정했을때(즉, 선분이 100개이다)

    각각의 추출마다 [X1,X2,...,Xn]를 이용하여 신뢰구간 LU를(이용한 파란색 선분을) 구할 수 있다.

    평균값 Y = θ일때 이를 참모수라고 한다면,
    100개중 빨간색으로 표현한 선분 5개는 신뢰구간 선분 내에 이 참모수 θ를 포함하지 않는다.

    이 경우,  신뢰구간 (L,U)에 대하여 신뢰도(신뢰계수)는 (100 - 5)% = 95%라고 표현한다. 
    -. 이런 관점 하에서, M번째의 실험이 모수 θ를 포함했을 성공 확률(1α)로 해석할 수 있다.

  2. 다양한 신뢰구간 구하기
    1) 평균에 대한 신뢰구간 구하기

    (1) 확률변수 X가 N(μ,σ2)을 따르고, 이 확률변수로부터 확률표본 [X1,X2,...,Xn]를 뽑았다고 가정하자.

    (2) 이 때, ¯xS2은 각각 μσ2에 대한 최대우도추정량이다.

    (3) 스튜던트의 정리에 따라 T=¯XμS/n는 자유도 (n-1)의 T분포를 따른다. 이와 같이
    구간을 추정 가능케하는 θ에 관한 대리 확률변수'피벗(Pivot) 확률변수' 라고 한다.

    (4) 이를 이용하여 신뢰구간을 구하면 아래와 같다.
    tα/2,n1을 자유도가 (n-1)인 t분포에서 상위 (α/2) 지점이라고 하자. 다시말해
    α2=P(T>tα/2,n1) 이다.

    하한 L과 상한 U를 각각 다음과 같의 정의하자.

    -. L : tα/2,n1
    -. U : tα/2,n1
    이 떄, L과 U를 이용하여 (1α) 수준의 신뢰구간을 구하면

    (1α)=P(tα/2,n1<T<tα/2,n1)
    =P(tα/2,n1<¯XμS/n<tα/2,n1)
    =P(tα/2,n1Sn<¯Xμ<tα/2,n1Sn)

    가운데에 μ만 남기고 부호를 반대로 바꿔 정리하면

    =P(¯Xtα/2,n1Sn<μ<¯X+tα/2,n1Sn)
    이것아 바로 신뢰수준 (1α)100%의 신뢰구간이 된다.
    (5) 물론, 이는 X가 정규분포라는 가정이 없어도 일반적으로 성립이 가능하다.(중심극한정리 참조)

    중심극한정리는 대수의 법칙 및 분포수렴에 대한 학습이 끝나야 증명할 수 있다.

    지금은 일단 정의만 짚고 넘어가면 중심극한정리는 아래와 같다.

    [X1,X2,...,Xn]를 평균 μ이고 분산σ2인 임의의 확률변수 X에서 추출했다고 하자
    (정규분포 가정을 하지 않는다.)

    그러면 다음의 확률변수를 정의할 떄
    W=¯Xμσ/n
    이 확률변수는 n일때 N(0,1)로 수렴한다.

    그리고 이는 σ를 S로 대체하여도 동일하다.
    2) 평균의 차에 대한 신뢰구간
    (1) 한 분포에 대한 신뢰구간이 아닌 두 분포에 대한 비교이다.

    (2) X와 Y라는 각각의 확률변수를 정의하고, 두 확률변수가 각각 μx,σx, μy,σy를 평균을 갖는다고 하자.
    -. 평균에 대한 차이를 추정 가능케하는 피벗 확률변수는 아래와 같이 도출한다.
    두 평균의 차 Δ=μxμy 라고 하자.

    이 때, 확률표본 [X1,...,Xn], [Y1,...,Y1]을 각각 추출하고,
    μx, μy에 대한 각각의 추정량인 ¯x, ¯y를 정의하면
    ˆΔ=¯x¯yΔ에 대한 불편추정량이 된다.

    한편, ¯x¯y는 각각 N(μ,σ2n)따른다는 정리에 따라
    그 결합분산은 아래와 같이 구할 수 있다.
     
    Var(ˆΔ)=σ2xn+σ2xn 

    바로 앞에서 언급한 중심극한정리를 응용하여 W=¯Xμσ/n꼴로 정리하면
    Z=ˆΔΔS2xn/n1+S2yn/n1
    는 N(0,1)을 따른다.

    Z가 바로 평균차에 대한 신뢰구간을 구할수 있게 하는 피벗 확률변수이다.

    -. 도출한 피벗 확률변수를 통해 신뢰구간을 정의하면
    (1α)=P(zα/2<Z<zα/2)
    =P(zα/2<Z=ˆΔΔS2xn/n1+S2yn/n1<zα/2)
    =P(zα/2S2xn/n1+S2yn/n1<ˆΔΔ<zα/2S2xn/n1+S2yn/n1)
    ˆΔ=¯x¯y로 환원하고, Δ에 대한 식으로 정리하면
    =P( (¯x¯y)zα/2S2xn/n1+S2yn/n1<Δ<(¯x¯y)+zα/2S2xn/n1+S2yn/n1 )

    이것이 바로 (1α)의 신뢰수준을 갖는 평균의 차 Δ에 대한 신뢰구간이다.

    (3) 한편, 피벗 확률변수를 T분포를 이용하여 구할수도 있다.
    T분포T=wv/r 임을 상기하자.

    이제 우리의 목표는 정규분포를 따르는 W카이제곱 분포를 따르는 V를 도출하는것이다.
    두 평균의 차 Δ=μxμy 라고 하자.

    이 때, 확률표본 [X1,...,Xn], [Y1,...,Y1]을 각각 추출하고,
    μx, μy에 대한 각각의 추정량인 ¯x, ¯y를 정의하면
    ˆΔ=¯x¯yΔ에 대한 불편추정량이 된다.

    두 확률변수 X,Y가 동일한 분산 σ2을 공유한다 가정한다.


    바로 앞에서 언급한 중심극한정리를 응용하여 W=¯Xμσ/n꼴로 정리하면
    W=(¯x¯y)(μXμY)σ1/nx+1/ny
    는 N(0,1)을 따른다.
    X에 대한 확률표본 Xn의 표준편차 Sx와 Y에 대한 확률표본 Yn의 표준편차 Sy
    스튜던트의 정리에 따라 각각 다음의 분포를 따른다.

    -. Sx=(nx1)S2xσ2x2(nx1)
    -. Sy=(ny1)S2yσ2x2(ny1) 

    따라서, 카이제곱 분포의 가법성에 따라 두 확률변수의 가중평균은 아래의 분포를 따른다.

    S2p=(nx1)S2x+(ny1)S2ynx+ny+2 일 때
    V=(n2)S2pσ2x2(n2)
    (단, n=nx+ny)
    이제, T=wv/r 꼴로 이를 변환하면

    T=wv/r
    =(¯x¯y)(μXμY)σ1/nx+1/ny(n2)S2p(n2)σ2=(¯X¯Y)(μXμY)Sp1/nx+1/ny

     는 자유도 (n-2)의 t분포를 따른다.

    이것이 바로 t분포를 활용한 피벗 확률변수이다.

    -. 도출한 피벗 확률변수를 이용해 신뢰구간을 도출하면
    (1α)=P(tα/2,n2<T<tα/2,n2)
    =P(tα/2,n2<(¯X¯Y)(μXμY)Sp1/nx+1/ny<tα/2,n2)
    =P(tα/2,n2Sp1/nx+1/ny<(¯X¯Y)(μXμY)<tα/2,n2)Sp1/nx+1/ny
    μXμY에 대한 식으로 정리하면
    P((¯X¯Y)tα/2,n2Sp1/nx+1/ny<μXμY<(¯X¯Y)+tα/2,n2)Sp1/nx+1/ny
    이것이 바로 (1α)의 신뢰수준을 갖는 평균의 차 μXμY 에 대한 신뢰구간이다.

    -. 일반적으로, T분포를 활용한 신뢰구간은 Z분포를 활용한 신뢰구간보다 더 넓다. 따라서 보통 통계학자들은 T분포를 활용한 구간 정의를 선호한다.

    3) 비율의 차에 대한 신뢰구간

    (1) 중심극한정리에 의해 정규분포로 굳이 가정하지 않고서도 W=¯Xμσ/n 꼴의 확률변수는 정규분포로 수렴한다.

    (2) 한편, 두 베르누이 분포 Xb(1,px)Yb(1,py)에서 각각 추출한 확률표본 XnYn을 정의하자.

    -. 베르누이 분포비율에 대한 모수 px, py의 불편추정량은 전체 사례 중 성공인 사례의 비율, 다시 말해 각각의 평균 ¯x=xnn¯y=ynn와 동일하다.

    -. 따라서, 기본적으로 비율의 차는 위에서 계속 논의한 평균의 차에 의한 신뢰구간을 구하는것과 동일한 문제이다.

    -. 따라서, z분포에 따른 피봇 확률변수는 Z=(^px^py)(pxpy)^px(1^px)nx+^py(1^py)ny 이다.

    -. 위 피봇 확률변수를 이용하여 신뢰구간을 구하면 =P( (^px^py)zα/2^px(1^px)nx+^py(1^py)ny<pxpy<(¯x¯y)+zα/2^px(1^px)nx+^py(1^py)ny )

    이다.

'수리통계' 카테고리의 다른 글

22. 분위수와 Q-Q plot  (0) 2023.06.30
21. 순서통계량  (0) 2023.06.29
19. 우도와 최대우도추정량  (0) 2023.06.27
18. 확률표본과 모수, 그리고 통계량  (0) 2023.06.26
17-1 스튜던트의 정리  (0) 2023.06.23