문과생 네버랜드의 데이터 창고

39. 통계학적 2차형식(Quadratic Form) 본문

수리통계

39. 통계학적 2차형식(Quadratic Form)

K JI 2023. 7. 28. 19:41
  1. 2차형식이란?
    1) 수학에서 2차형식이란 항이 모두 2차인 동차 다항식을 의미한다.
    (1) 예를 들면 아래와 같은 경우이다.
    4x2+2xy3y2
    -. 위 다항식의 경우, 변수 xy에 대하여 2차 형식이다.

    2) 구체적으로는, 이차형식은 아래와 같은 형태로 나타낼 수 있는 형태를 의미한다.

    (1) 선형결합 형식으로 나타낼 때

    -. qA(x1,xn)=ni=1nj=1aijxixj



    (2) 행렬 형식으로 나타낼 때

    -. qA(x1,,xn)=xTAx 

    3) 특히, 행렬형식으로 나타낼 때 행렬 A의 고유 분해 결과에 따라 성질이 달라진다.

    -. A=PTΛP에서 행렬 Λ의 대각성분(=고윳값 성분)의 형태에 따라 연산의 성질이 달라진다.
    -. 특히, 고윳값이 모두 0 초과의 양수인 경우 양의 정부호 행렬이라 칭하며 통계학적으로 중요하게 다뤄진다.

  2. 통계학에서의 2차형식
    1) 분산-공분산 행렬
    (1) 분산-공분산 행렬은 대표적인 2차형식으로 해석할 수 있다.
    -. 선형결합 형식으로 나타낼 경우
    ni=1(xi¯x)2=ni=1(xinj=1xjn)2=ni=1(x2i+2¯xxi+¯x2)=ni=1x2i2ni=1nj=1xjnxi+nni=1nj=1x2jn2=n1nni=1x2i+2nni=1nj=1xixj

    모든 항이 2차인 동차 다항식이기 때문에, 정의에 따라 이는 2차형식이 된다.

    -. 행렬형식으로 나타낼 경우
    X=[xiμ] 라는 벡터에 대하여 분산-공분산 행렬은
     Σ=XTIX로 나타낼 수 있다.
    따라서 이는 2차형식이다.

    2) 정규분포의 2차형식 확률변수의 선형결합
    (1) 정규분포의 2차 형식인 확률변수들의 선형결합은 카이제곱분포의 가법성을 따른다.
    [Xi,,Xn]N(μi,σ2)를 각각 따르는 서로 독립인 확률변수라고 하자.
    Qi를 다음의 실2차형태라고 정의하자.
    Qi=XTiIXi,(i=1,,n)
    이 2차형태의 선형결합을 다음과 같이 정의하자
    Q=Q1+Q2++Qk1+Qk
    이 때, 다음은 참이다.

    Qσ2X2(r) 이다.
    Qkσ2rk=r(r1++rk1)에 대하여 
    Qkσ2X2(rk) 이다

    3) F분포의 도출
    (1) 2차 형식의 정의를 가져와서 F분포를 도출하는데 활용할 수 있다.
    어떤 실현값들의 행렬을 다음과 같이 정의하자.

    A=[X11X12X1n]

    이 때, 각 실현값이 따르는 확률변수 Xij는 서로 독립인 확률변수들이다.

    -. 열 차원의 도출
    이 때, 이 데이터 행렬의 열의 평균벡터를 정의하면 다음과 같이 나타낼 수 있다.
    ¯xcn=[¯x.1¯x.2¯x.b]=[x11+x21++xa1ax12+x22++xa2ax1b+x2b++xaba]=[ai=1xi1aai=1xi2aai=1xiba]

    이 때, 크기 n=ab인 확률표본의 분산 S2은 다음과 같이 정리할 수 있다.
    S2=ai=1bj=1(xij¯x)2ab1
    분모를 좌변으로 이항하면
    (ab1)S2=ai=1bj=1(xij¯x)2
    (xij¯x)2=[(xij¯xi)+(¯xi¯x)]2으로 분리하면
    ai=1bj=1[(xij¯xi)+(¯xi¯x)]2=ai=1bj=1[(xij¯xi)2+ai=1bj=1(¯xi¯x)]2+2ai=1bj=1(xij¯xi)(¯xi¯x)
    이 때, 각 항별로 각각 정리하면
    ai=1bj=1(xij¯xi)(¯xi¯x)=ai=1[(¯xi¯x)bj=1(xij¯xi)] 에서, bj=1(xij¯xi)=0 이므로 이 항은 소거된다.
    ai=1bj=1(¯xi¯x)2=bai=1(¯xi¯x)2
    위 정리 결과를 하나로 합치면
    (ab1)S2=ai=1bj=1(xij¯xi)+bai=1(¯xi¯x)2
    이를 2차형식으로 나타내자. 즉
    Q=Q1+Q2
    이제, 여기에 대하여 각각의 항을 σ2으로 나누자. 즉
    Qσ2=Q1σ2+Q2σ2
    이 때, 
    Qσ2(ab1)S2σ2인데,
    이는 스튜턴트의 정리에 따르면 X2(ab1)의 카이제곱 분포를 따른다.
    Q1σ2ai=1[bj=1(xij¯xi)2σ2]X2(b1)의 a개의 선형결합과 같다. 
    따라서, 카이제곱 분포의 가법성에 따라 ai=1X2(b1)X2(a(b1))

    위에서 정의한 <정규분포의 2차형식 확률변수의 선형결합>에 따라 Q2r2=rr1이므로 
    Q2X2(ab1a(b1)=a1) 이다.

    -. 행차원의 도출
    위 전개와 마찬가지로, 행 평균벡터를 다음과 같이 정의한다.
    ¯xcr=[¯x1.¯x2.¯xa.]=[x11+x12++x1bbx21+x22++x2bbxa1+xa2++xabb]=[bi=1x1ibbi=1x2ibbi=1xaib]

    열차원에서의 논의를 그대로 따라가서 다음을 도출했다 하자
    (ba1)S2=ai=1bj=1(xij¯xj)+abj=1(¯xj¯x)2
    이를 2차형식으로 나타내자. 즉
    Q=Q3+Q4

    마찬가지로 Q는 X2(ba1)을 따르고
    Q3X2(b(a1))
    Q4X2(ba1b(a1)=b1) 이다.

    -. 2차형식의 결합

    전체평균에 대하여 카이제곱 분포꼴로 표현하면
    ¯x=X11+X12++Xabab=ai=1bj=1xijab
    한편, (ab1)S2을 구할 때  반복적으로 도출되었던 (Xij¯X)를 각각 행평균과 열평균인 ¯xnr, ¯xcn, 그리고 전체평균 ¯x로 나타내면
    (Xij¯X)=(¯Xnr¯X)+(¯Xcn¯X)+(Xij¯Xnr¯Xcn+¯X)
    따라서
    (ab1)S2=bai=1(¯Xi.¯X)2+abj=1(¯X.j¯X)2+ai=1bj=1(Xij¯Xi.¯X.j+¯X)2

    이를 이차형식으로 표현하면
    Q=Q2+Q4+Q5
    이 때, QX2(ab1), Q2X2(a1)이고, Q4X2(b1) 이므로
    Q5X2(ab1a+1b+1=(a1)(b1))을 따른다.

     한편, Xij는 모두 독립임을 가정하였으므로, 그 2차형식도 마찬가지로 서로 독립이다.
    다음과 같은 비율을 정리하자
    Q4Q3=Q4/σ2(b1)Q3/σ2(a1)F(b1,b(a1))
    Q4Q5=Q4/σ2(b1)Q3/σ2((a1)(b1))F(b1,(a1)(b1))

    은 각각의 자유도를 가지는 F-분포를 따른다.