문과생 네버랜드의 데이터 창고

45. 베이지안 통계와 베이지안 절차 본문

수리통계

45. 베이지안 통계와 베이지안 절차

K JI 2023. 8. 6. 22:44
  1. 베이지안 통계
    1) 개인의 사전믿음을 반영하는 베이지안 통계
    ${(1)}$ 지금까지 우리가 살펴본 통계학 개념들은 기본적으로 빈도주의적 입장을 따랐다.

    -. 빈도주의적이란, 확률을 일종의 상대 빈도(비율로 이해해도 무방하다) 의 극한으로 바라보는 개념이다.

    -. 어떤 모집단에서 표본들을 추출하고, 그 표본들의 실험 결과로서 나타나는 빈도는 실험횟수가 무한대에 가깝게 반복된다면 모집단의 특성을 반영할 것이라고 보는 것이다.

    -. 예를 들어서, 동전을 뒤집는 실험의 결과 10번중 두번이 앞면이 나왔다면, 전체 공간에서 그 동전의 앞면이 나올 확률은 20%라고 추정하는 것이다.

    -. 그러나, 이런 빈도주의적 주장은 어느정도 약점이 존재한다.

    ① 10번 실험결과 두번의 앞면이 나왔다고 해서, 그 동전이 공평한 동전이 아니라고 할 수 있을까? 단지 열번만 던졌기 때문에 앞면이 두번만 나온 결과가 도출됐을수도 있다.

    ② 그렇다면, 몇번을 더 던져야 전체 공간에서 일반화할 수 있는 신뢰성 있는 비율을 도출해낼 수 있을것인가? 100번을 던져야할까? 1000번을 던져야 할까? 

    ③ 만약 동전던지기 같은 실험이 아니라 한번 한번 실험을 할때마다 비싼 비용을 치뤄야하는 사건인 경우, 어쩌면 영원히 그 해답을 알 수 없을수도 있다.

    ${(2)}$ 베이지안 확률 : 사전 믿음을 반영한다는것의 장점

    -. 반면, 베이지안 추론은 연구자 개인이 믿고 있는 사전 확률을 반영할 수 있다.

    -. 예를 들어서, 동전 던지기가 공평하다고 연구자가 믿는 경우 연구자는 해당 실험의 사전 확률을 0.5로 지정할 수 있다.

    -. 그리고, 몇번의 실험을 거쳐서 믿음에 대한 확률 0.5를 데이터를 기반으로 사후 업데이트를 수행한다.

    -. 이런 실험이 많이 반복될수록, 연구자의 사전 믿음은 점차 희석되고 데이터에 기반한 빈도주의적 확률이 점차 지배하게 된다.

    -. 빈도주의적 실험에 비해 베이지안 실험이 갖는 장점은 다음과 같다.
    ① 빈도주의적 실험의 경우, 표본에 대한 충분한 실험 데이터가 모이기 전까진 결론 자체를 내릴수 없다. 우리가 해당 동전이 공평하다는것을 알고 있음에도 이를 반영할 방법이 없기 때문이다.
    ② 반면, 베이지안의 경우 우리가 어떤 사전확률에 강한 확신을 갖고 있다면, 이런 확률을 실험에 반영하는것이 가능하다.

    2) 베이즈 정리
    ${(1)}$ 베이지안 통계의 시작점은 1763년 영국의 목사 Thomas Bayes가 작성한 논문에서 언급된 다음의 식에서 시작한다.
    서로 배반이고(즉, 겹치지 않고) 모두 합쳐 전체 공간을 구성하는 k개의 사건 $[C_{1}, \dots C_{k}]$을 정의하자.
    또, C는 $[C_{1}. \dots, C_{n}]$ 중 하나와 함께 발생하는, 우리가 관심을 갖고있는 사건이라고 하자.

    $$P(C_{j}|C) =\frac{P(C_{j})P(C|C_{j})}{\sum_{i=1}^{k}P(C_{i})P(C|C_{i})}$$
    는 참이다.
    ${(2)}$ 위 식을 하나씩 해석하면 다음과 같다.
    -. 예시를 들어, $C_{1}, \dots C_{n}$을 어떤 공장에서의 각각의 기계라고 하자.
    -. C는 우리가 관심을 가지는 사건이다. 이 예시에서는 불량품 발생을 의미한다고 하자.

    -. $P(C_{1}), \dots P(C_{n})$은 각각의 사건 $C_{1}, \dots, C_{n}$ 이런 확률로 발생할것이라는 연구자의 사전믿음을 의미한다.
    ① 예시에 빗대면 생산품이 각각의 기계에서 생산됐을 확률(즉, $\frac{해당 기계의 생산품}{전체 생산품}$) 이다.
    ② 연구자는 각 기계에서 불량품이 나올 확률이 기계가 생산하는 갯수만큼 비례해서 증가할 것이라는 믿음(Belief)을 가질 수 있다.

    -.$p(C|C_{j})$는 관심사건 C가 각 사건 $C_{1}, \dots C_{n}$ 하에서 발생했을 확률을 의미한다.
    ① 예시에 빗대면 각 기계 $C_{1}, \dots C_{j}$의 불량률이다.
    ② 이 확률은 데이터의 관측등을 통해서 관측이 용이하며, 사전에 알려져 있다고 가정한다.

    -. $P(C_{j})P(C|C_{j})$은 연구자의 사전믿음과 데이터를 관측한 결과 도출한 우도를 의미한다.
    ① 이는 연구자의 사전 믿음을 실제 데이터에 기반하여 업데이트(보정)하는 과정으로 이해할 수 있다.
    ② 즉, 데이터를 통해 관찰한 각 기계 $C_{1}, \dots C_{n}$의 불량률을 토대로 연구자의 사전믿음을 업데이트 한다.

    -. 분모의 $\sum_{i=1}^{k}P(C_{i})P(C|C_{i})$ 모든 $1,\dots,k$에 대하여 이런 업데이트를 총합한 값이다.

    -. 우리가 관심있어하는 좌변의 $P(C_{j}|C)$ 는 C라는 사건이 발생했을 때 $C_{j}$가 발생할 조건부 확률을 의미한다. ① 예시에 빗대면 불량품이 발생했을 때 이 불량품이 $C_{j}$ 기계에서 생산됐을 확률을 의미한다.

    ${(3)}$ 다시 말해, 베이즈 정리는 연구자의 사전 믿음을 데이터를 통해 관측한 우도를 통해 사후 확률로 업데이트 하는 과정을 수식적으로 나타낸 정리이다. 그리고, 이런 철학을 따르는 통계학을 베이지안 통계학이라고 한다.

  2. 베이지안 절차
    1) 베이즈 정리의 일반화

    ${(1)}$ 이제, 이산적인 확률로서 주어졌던 사전, 사후확률을 일반화하여 어떤 분포를 따른다고 가정하자.
    -. 모수 $\theta$는 이산적으로 결정된다. 요컨데, $\theta = \frac{1}{2}$ 혹은 $\frac{2}{3}$ 따위이다. 오직 하나의 값만을 상수처럼 취한다.
    -. 다음과 같은 식으로 일반화 될 수 있다.
    $g(\theta)$를 모수 $\theta = a$가 주어졌을 때 어떤 분포의 pdf(pmf)라고 정의하자.

    $$\frac{g(\theta_{i})g(y|\theta_{i})}{\sum g(\theta_{i})g(y_{i}|\theta_{i})}$$
    를 도출할 수 있다.
    위 식을 해석하면 다음과 같다.

    -. $g(\theta)$는 연구자가 강한 믿음을 갖고 있는 모수 $\theta$를 가지는 어떤 분포의 사전 pdf(pmf)이다.

    -. $g(y_{i}|\theta_{i})$는 사전모수가 주어졌을 때 해당 데이터에서의 확률을 나타내는 우도함수 이다.

    -. 베이즈 정리의 형식을 빌려오면, 이는 연구자의 사전 믿음(즉, 모수는 $\theta$ 이다)에 대하여 실제 데이터로 업데이트를 수행하여 그 사후확률을 구하는 과정으로 볼 수 있다.

    ${(3)}$ 여기에서 한번 더 일반화를 하자.
    -. 모수 $\theta$가 특정 값만을 이산적으로 왔다갔다 한다는 가정은 현실적이지 않다. 이제, 한번 더 일반화를 해야한다.
    -. 이제, $\theta$가 이산적인 어떤값이 아니라 어떤 분포를 따르는 연속적인 값이라고 하자.
    -. 즉, $\theta$는 이제 확률변수의 성질을 갖는다.
    $g(\theta)$를 모수 $\theta$가 주어졌을 때 어떤 분포의 pdf(pmf)라고 정의하자.

    $g_{1} = \int_{-\infty}^{\infty} h(\theta)L(y|\theta)d\theta$ 이라고 할 때

    $$k(\theta|y) = \frac{h(\theta)L(y|\theta)}{g_{1}}$$
    를 도출할 수 있다. 이를 사후확률밀도함수(Posterior PDF)라고 한다.
    위 식을 해석하면 다음과 같다.

    -, $h(\theta)$는 이제 모수이자 확률변수인 $\theta$를 가지는 분포의 사전pdf(pmf)이다. 

    -. $L(y|\theta)$는 모수이자 확률변수 $\theta$가 주어졌을 때, 해당 데이터에서의 우도를 나타내는 우도함수이다. 이를 통해 모수 $\theta$에 대한 사후 업데이트를 수행한다.

    -.  $g_{1}$은 사후 업데이트 식 $\frac{h(\theta_{i})L(y|\theta_{i})}{g_{1}}$을 전체 공간(에서 일반화하는 적분식이다. 

    2) 베이지안 절차

    ${(1)}$ 사전분포와 사후분포

    -. 위에서 모수가 $\theta$인 pdf $h(\theta)$를 가지는 확률변수 $\Theta$가 따르는 분포를 사전분포라고 한다. 

    -. 한편, 사전분포의 pdf와 우도함수, $g_{1}$을 결합하여 나오는 $k(\theta|y)$를 pdf로 가지는 분포를 사후분포라고 한다.

    ${(2)}$ 사후 분포의 비례화

    -. 한편,  사후분포에서 $g_{1}$은 다소 까다롭다. $\theta$에 대한 적분식인데, 대부분의 경우 닫힌형식으로 나타나지 않는 경우가 많다. 이런 문제를 해결하기 위해 비례화된 식을 활용한다.

    -. 예를 들어, 사후 pdf $k(\theta|y) = \frac{h(\theta_{i})L(y|\theta_{i})}{g_{1}}$ 이라고 하자. 이 때, $g_{1}$은 모수 $\theta$에 대한 적분으로서, 엄밀히 말하면 더이상 $\theta$에 의존하지 않는 어떤 상수처럼 취급할 수 있다.

    -. 이렇듯, $g_{1}$을 $\theta$에 의존하지 않는 상수처럼 본다면, 다음과 같은 비례관계로 표현할 수 있다.
    $$k(\theta|y) \propto h(\theta)L(y|\theta)$$

    ${(3)}$ 켤레사전분포

    -. 사후분포 $k(\theta|y)$는 우도함수 $L(\theta|y)$와 사전분포의 pdf $h(\theta)$의 결합이다.

    -. 무한대에 가까운 결합이 나올 수 있지만, 일부 우도함수와 사전분포 pdf의 결합은 동일한 분포의 사후분포를 도출하는 경우가 있다.

    -. 이 때, 우도함수가 분포 L을 따른다고 할 때 분포 L에 대하여 사전분포사후분포동일한 분포족(Family of Distribution)속하도록 만드는 사전분포를 우도함수에 대한 켤레사전분포라고 표현한다.

    -. 켤레사전분포는 아래 표에 정리된 경우들을 대표적인 경우로 뽑을 수 있다.
    데이터 우도분포 사전분포 사후분포
    $Bin(n,\theta)$ $\theta \sim beta(\alpha,\beta)$ $beta(\alpha^{*}, \beta^{*})$
    $poisson(\theta)$ $\theta \sim gamma(\alpha, \beta)$  $gamma(\alpha^{*}, \beta^{*})$
    $N(\theta, \sigma^{2})$
    (모분산은 알려져있다)
    $\theta \sim N(\alpha, \beta)$ $N(\alpha^{*},\beta^{*})$
    $N(\mu, \theta)$
    (모평균은 알려져있다)
    $\theta \sim \frac{1}{gamma(\alpha,\beta)}$ $gamma(\alpha^{*}, \beta^{*})$

    ${(4)}$ 비례식과 켤레사전분포를 활용한 베이지안 모델링 예시

    다음의 베이지한 분포들을 고려한다.

    데이터 분포 $X_{i}|\theta \sim i.i.d Poisson(\theta)$
    사전분포 $\Theta \sim \Gamma(\alpha, \beta)$(단, $\alpha$, $\beta$는 알려져 있다)

    이 때, X의 결합 조건부 pdf는 다음과 같이 나타낼 수 있다.
    $$L(x|\theta) = \frac{\theta^{x_{1}}exp(-\theta)}{x_{1}!} \dots \frac{\theta^{x_{n}}exp(-\theta)}{x_{n}!}$$, $x_{i} = 0,1,\dots, i = 1,2,\dots,n$

    확률변수 $\Theta$의 사전 pdf는
    $$h(\theta) = \frac{\theta^{\alpha-1}exp(-\theta/\beta)}{\Gamma(\alpha)\beta^{\alpha}}$$ $0<\theta<\infty$

    $h(\theta)L(\theta|X)$를 구하면
    $$h(\theta)L(\theta|X) = \begin{bmatrix} \frac{\theta^{x_{1}}exp(-\theta)}{x_{1}!} \dots \frac{\theta^{x_{n}}exp(-\theta)}{x_{n}!} \end{bmatrix} \cdot \begin{bmatrix} \frac{\theta^{\alpha-1}exp(-\theta/\beta)}{\Gamma(\alpha)\beta^{\alpha}} \end{bmatrix}$$

    분모의 무조건부 주변분포 $g_{1}(X)$를 구하면
    $$g_{1}(X) = \int_{-\infty}^{\infty} \begin{bmatrix} \frac{\theta^{x_{1}}exp(-\theta)}{x_{1}!} \dots \frac{\theta^{x_{n}}exp(-\theta)}{x_{n}!} \end{bmatrix} \cdot \begin{bmatrix}\frac{\theta^{\alpha-1}exp(-\theta/\beta)}{\Gamma(\alpha)\beta^{\alpha}} \end{bmatrix} d\theta = \frac{\Gamma(\sum_{i=1}^{n}x_{i} + \alpha)}{x_{1}! + \dots + x_{n} \Gamma(\alpha)\beta^{\alpha}(n+1/\beta)^{\sum x_{i} + \alpha}}$$

    따라서, 사후 분포를 정리하면
    $$k(\theta|y) = \frac{L(X|\theta)h(\theta)}{g_{1}(X)} = \frac{\theta^{\sum x_{i} + \alpha -1}exp(-\theta/[\beta/(n\beta + 1)]}{\Gamma(\sum_{i=1}^{n}x_{i} + \alpha)[\beta/(n\beta+1)]^{\sum x_{i} + \alpha}}$$

    이는 정리하면 $\alpha^{*} = \sum_{i=1}^{n}X_{i} + \alpha$ ,  $\beta^{*} = \beta / (n\beta + 1)$인 $\Gamma(\alpha^{*}, \beta^{*})$를 따른다. 
    위 사후분포를 도출하면서 몇가지 인사이트를 도출할 수 있다.

    ① 사전분포 $\Theta$는 $\Gamma(\alpha, \beta)$를 따른다고 가정하였다.
    그리고, 사후분포도 똑같은 $\Gamma(\alpha^{*}, \beta^{*})$로 도출되었다.

    따라서, 감마 분포는 푸아송 분포에 대한 켤레사전분포라고 표현할 수 있다.

    ② 사후 분포를 $\theta$에 의존하는 항과 의존하지 않는 항으로 분리할 수 있다. 즉
    $$\begin{bmatrix} \frac{1}{\Gamma(\sum_{i=1}^{n}x_{i} + \alpha)[\beta/(n\beta+1)]^{\sum x_{i} + \alpha}} \end{bmatrix} \theta^{\sum x_{i} + \alpha -1}exp(-\theta/[\beta/(n\beta + 1)]$$
    이다. 
    $C(X) = \frac{1}{\Gamma(\sum_{i=1}^{n}x_{i} + \alpha)[\beta/(n\beta+1)]^{\sum x_{i} + \alpha}}$ 로 놓으면 

    $C(X) \cdot \theta^{\sum x_{i} + \alpha -1}exp(-\theta/[\beta/(n\beta + 1)]$ 이다.

    즉, 푸아송 분포의 켤레사전분포가 감마분포라는데에서 사후분포가 $\Gamma(\alpha^{*}, \beta^{*})$로 도출됨을 예측하고
    $g(x)_{1}$하고 명백하게 연관되어있는 상수항 $C(X)$를 제외하고
    $L(\theta|X)h(\theta)$를 이용하여 감마분포의 꼴로 정리하면 우리가 원하는 사후분포를 모델링할 수 있다.

    3) 베이지안 점추정

    ${(1)}$ 사후 분포의 어떤 추정량(점추정량)을 구하는 방법론이 존재한다.

    ${(2)}$ 베이지안 추론의 경우 어떤 손실함수를 정의하고, 그 손실함수를 최소화하는 추정량을 구하는 방식을 활용한다.

    -. 이는 기본적으로 닫힌 형태로 구하기 어렵고, 알고리즘적 방법을 주로 활용하게 되는 베이지안 추론의 성질을 반영한 것이다.

    -. 손실함수를 MSE와 MAE로 정할 때의 베이지안 추정해는 아래와 같은 절차를 통해 구할 수 있다.
    베이지안 추론 과정에서 사후 분포의 점추정량(통계량)을 구하길 원한다.

    이 때, 베이지안 추론 과정에서 어떤 손실함수를 최소화하는 추정량(통계량)을 도출하길 원한다고 하자.

    $f(\Theta, \delta(x))$를 정답 $\Theta$에 대해 함수값 $\delta(x)$의 오차를 측정하는 손실함수라 하자.
    이 경우, 손실함수(Loss Function) $f(\Theta, \delta(x))$가

    -. 평균 제곱 편차(MSE) $(\Theta- \delta(x))^{2}$일 경우 베이지안 추정량은 평균이고,
    -. 평균 절대 편차(MAE) $|\Theta - \delta(X)|^{2}$일 경우 베이지안 추정량은 중위수(Median)을 구하면 된다.
    위 사실은 다음과 같이 증명할수 있다.

    $g_{1}(x) = \int_{-\infty}^{\infty}h(\theta)L(x|\theta)d\theta$를 분모에 들어가는 무조건부 주변분포라 하고
    $k(\theta|X)$는 베이지안 사후분포의 pdf라고 하자.

    다음과 같이, 손실함수의 기댓값을 위험함수(Risk Function)이라고 한다.
    $$E[f(\Theta, \delta(x))] = \int_{-\infty}^{\infty}f(\Theta, \delta(x))k(\theta|X)d\theta$$

    우리의 목적은 이 위험함수를 최소화하는 함수값 $\delta(X)$가 무엇인지를 발견하는 것이다.
    즉, 다음을 만족하는 해 $\delta(X)$를 구하는 것이다.

    $\delta(x) = Argmin(\int_{-\infty}^{\infty}f(\Theta, \delta(x))k(\theta|X)d\theta)$

    이제, $f(\Theta, \delta(x)) = (\Theta - \delta(x))^{2}$ 이라고 하자.

    $E(\Theta - \delta(X)^{2})$이라 할때, 
    $$\frac{\partial E(\Theta - \delta(X)^{2})}{\partial \delta(X)^{2}} = 0$$  에서
    $$-2E(\Theta) + 2\delta(X)^{2} = 0$$
    따라서, $\widehat{\delta(X)^{2}} = E(\Theta)$이다.

    MAE의 경우에도 같은 논리를 따르면 중위수가 도출된다.
    ${(2)}$ 베이지안 점추정의 예제 
    $X_{i}|\theta \sim N(\theta, \sigma^{2}$ 이고, $\Theta ~ N(\theta_{0}, \sigma_{0}^{2})$이라고 하자.
    (단, $\theta_{0}$와 $\sigma_{0}^{2}$은 알려진 값이다.)

    정규분포의 켤레사전분포는 정규분포고, 이는 그 사후 분포도 마찬가지로 정규분포로 도출됨을 의미한다.

    아래와 같은 비례식으로 정의할 수 있다.

    $k(\theta|y) \propto exp \begin{bmatrix} \frac{(\sigma_{0}^{2} + \sigma^{2}/n)\theta^{2} - 2(y\sigma_{0}^{2}+\theta_{0}(\sigma^{2}/n))\theta}{2(\sigma^{2}/n)\sigma_{0}^{2}} \end{bmatrix}$

    위 식을 정규분포의 형태로 다시 한번 정리하면

    $k(\theta|y) \propto exp\begin{bmatrix} \frac{(\theta - \frac{y\sigma_{0}^{2} + \theta_{0}(\sigma^{2}/n)}{\sigma_{0}^{2} + \sigma^{2}/n})^{2}}{2\frac{(\sigma^{2}/n)\sigma_{0}^{2}}{\sigma_{0}^{2}+\sigma^{2}/n}} \end{bmatrix}$

    는 $$N(\frac{y\sigma_{0}^{2} + \theta_{0}(\sigma^{2}/n)}{\sigma_{0}^{2} + \sigma^{2}/n}, 2\frac{(\sigma^{2}/n)\sigma_{0}^{2}}{\sigma_{0}^{2}+\sigma^{2}/n})$$ 인 사후분포를 갖는다.

    손실함수를 MSE $(\Theta - \delta(x))^{2}$로 놓으면 그 베이지안 추정해는 분포의 평균
    $\frac{y\sigma_{0}^{2} + \theta_{0}(\sigma^{2}/n)}{\sigma_{0}^{2} + \sigma^{2}/n}$가 된다.

    한편, 이 베이지안 추정해에서 $n \rightarrow \infty$로 갈때를 보는것도 흥미롭다.

    $\frac{y\sigma_{0}^{2} + \theta_{0}(\sigma^{2}/n)}{\sigma_{0}^{2} + \sigma^{2}/n} = \begin{bmatrix} \frac{\sigma_{0}^{2}}{\sigma_{0}^{2} + (\sigma^{2}/n)} \end{bmatrix}y + \begin{bmatrix} \frac{\sigma^{2}/n}{\sigma_{0}^{2} + (\sigma^{2}/n)} \end{bmatrix}$

    으로 분해할 수 있는데, $n \rightarrow \infty$로 갈수록 우측항은 0으로 수렴하고, 좌측항은 점차적으로 y로 수렴한다.
    즉, 실험이 더욱더 많이 반복될수록 연구자의 사전 믿음은 희석되고, 점차적으로 빈도주의적 경향으로 수렴한다는 것을 알 수 있다.

    4) 베이지안 구간 추정
    ${(1)}$ $\theta$에 대한 구간추정을 원할수도 있다. 이럴 때, 빈도주의적 관점에서 사용하였던 신뢰구간 대신 신용구간이란 개념을 활용한다.
    $\alpha = P[u(x) < \Theta < v(x)] = \int_{u(x)}^{v(X)}k(\theta|x)d\theta$를 만족하는 v(x)와 u(x)를 찾는다.

    이를 신용구간, 혹은 확률구간이라 표현한다.

    5) 베이지안 절차를 활용한 검정
    ${(1)}$ 신용구간을 도출할 수 있다는 것은 이를 활용한 검정도 할 수 있다는 의미이다. 
    $H_{0} : \theta \in w_{0} \ VS \ H_{1} : \theta \int w_{1}$의 가설을 검정한다고 하자.

    -. 각각의 가설에 대한 확률을 도출해야 한다. 즉
    $P(\Theta \in w_{0} | X) = P_{H_{0}}$
    $P(\Theta \in w_{1} | X) = P_{H_{1}}$

    -. 이 때 단순히
    ① $P_{H_{1}} > P_{H_{0}}$ 이면 $H_{1}$을 채택하고
    ② $P_{H_{0}} > P_{H_{1}}$ 이면 $H_{0}$를 채택한다.

 

'수리통계' 카테고리의 다른 글

39-1. 통계학적 2차 형식(다변량)  (0) 2023.08.04
44. 상관관계와 독립성 검정  (0) 2023.08.04
43. 회귀분석  (0) 2023.08.03
42. 이원배치 분산분석  (0) 2023.08.02
41. 다중비교(사후분석, post-hoc)  (0) 2023.08.01