문과생 네버랜드의 데이터 창고

38. 최소최대문제와 분류문제(with 선형판별분석) 본문

수리통계

38. 최소최대문제와 분류문제(with 선형판별분석)

K JI 2023. 7. 27. 20:08
  1. 최소최대 문제를 풀기
    1) 최소최대 문제란, 검정과 관련된 기각역의 최소 및 최대를 결정하는 방법론을 의미한다.
    2) 다음과 같이 도출할 수 있다.

    ${(1)}$ 확률표본 $[X_{1}, \dots, X_{n}]$과 관련된 어떤 함수를 다음과 같이 정의하자
    $$\delta = u(X_{1}, \dots X_{n})$$
    이 함수는 다음과 같은 검정을 수행할때 활용하는 함수이다.
    $$H_{0} : \theta = \theta_{1} \ vs \ H_{1} : \theta = \theta_{2}$$
    이 때, 이 함수와 관련된 손실함수를 정의하자. 즉, 함수 $\delta$에 대하여
    ①정답인 경우 : $\epsilon(\theta, \delta = \theta_{1}) = 0$ 이고 $\epsilon(\theta, \delta = \theta_{2}) = 0$
    ②오답인 경우 : $\epsilon(\theta, \delta = \theta_{1}) > 0$ 이고$\epsilon(\theta, \delta = \theta_{2}) > 0$ 

    ${(2)}$ 한편, 함수 $\delta$를 기각역의 개념과 연결짓자. 그러면 아래와 같이 표현할 수 있다.
    -. $H_{0} : u(X_{1}, \dots X_{n}) \in C^{c}$ 이면 $\theta = \theta_{1}$
    -. $H_{1} : u(X_{1}, \dots X_{n}) \in C$ 이면 $\theta = \theta_{2}$

    ${(3)}$ 한편, 역으로 이를 기각역 C에 따른 검정으로 변환할 수 있다. 이런 관점에서 손실함수를 다시 정의하면
    $\epsilon(\theta, \delta = [\theta_{1} \theta_{2}]) \rightarrow \epsilon(\theta, C = [C, C^{c}])$

    ${(4)}$ 이 때, 손실함수의 기댓값을 위험함수(Risk Function)이라고 정의하자.
    이는 어떤 확률변수의 잠재적 손실을 측정하는 측도이다.
    $$R(\theta, C) = \int_{C}\epsilon(\theta, \theta_{1})L(\theta;n) + \int_{C^{c}}\epsilon(\theta, \theta_{2})L(\theta;n)$$
    만약,
    ① 정답이 $\theta = \theta_{1}$ 이라면, 첫 번째항 $\int_{C}\epsilon(\theta, \theta_{1})L(\theta;n)$ 는 소거
    ② 정답이 $\theta = \theta_{2}$ 이라면, 두 번째항 $\int_{C^{c}}\epsilon(\theta, \theta_{2})L(\theta;n)$ 는 소거
    즉, 옳은 선택을 한 부분의 위험값은 0으로 평가된다.

    ${(5)}$ 이제, 목표는 이 위험함수를 최대화하는 다음의 함수를 정의했을 때
    $$max [R(\theta_{1}, C), R(\theta_{2}, C)]$$
    이를 최소화하는 기각역 C를 찾는것이다.

    ${(6)}$ 직관적으로, 이 함수를 최소화하는 방법은 다음의 세가지 경우의수가 있다.
    -. $\epsilon(\theta, \theta_{1})$의 최소화
    -. $\epsilon(\theta, \theta_{2})$의 최소화
    -. $\int_{C}\epsilon(\theta, \theta_{1})L(\theta;n) = \int_{C^{c}}\epsilon(\theta, \theta_{2})L(\theta;n)$

    이 때, 이를 최소화하는 C는 다음을 만족하는 C를 구하면 된다.
    $$ C = \{u(X_{1}, \dots X_{n}) : \frac{L(\theta_{1} : X_{1} \dots X_{n})}{L(\theta_{2} : X_{1} \dots X_{n})} \leq k \} $$ 
    즉, 임의의 양수 k가 결정되는경우 자동으로 그 기각역 C도 결정된다.
  2. 분류문제를 풀기
    1) 최대최소문제를 응용하여 분류(Classification) 문제를 풀 수 있다.
    ${(1)}$ 일반화된 분류문제 해결은 다음과 같이 나타낼 수 있다.
    어떤 관측값들을 X,Y 둘 중 어느 확률변수에서 추출했는지 알아내는 문제가 주어졌다고 하자.
    이 때, 두 확률변수 X,Y의 결합 pdf $f(x,y ; \theta)$에 대해, 다음의 우도비 검정을 정의할 수 있다.
    $$\frac{f(x,y ;\theta_{1})}{f(x,y;\theta_{2})} \leq k$$
    네이만-피어슨 정리에 따라 이는 최량기각역 C를 갖게 되고,
    C에 속하냐 혹은 속하지 않느냐에 따라 다음의 가설을 검정할 수 있다.
    $$H_{0} : 관측값은 X에서 추출 \ vs \ H_{1} : 관측값은 Y에서 추출$$

    2) 분류문제의 예시
    ${(1)}$ 이변량 정규분포 하 최대최소문제(선형판별분석)
    $[X,Y]$를 모수 $\mu_{1}, \mu_{2}, \sigma_{1}^{2}, \sigma_{2}^{2}, \rho$를 갖는
    이변량 정규분포의 쌍 X,Y의 관측값의 벡터라 하자.

    그 결합 PDF는 다음과 같이 나타낼 수 있다.
    $$f(x,y;\mu_{1}, \mu_{2}, \sigma_{1}^{2}, \sigma_{2}^{2}, \rho) = \frac{1}{(2\pi)^{n/2}\sigma_{1}\sigma_{2}\sqrt{(1-\rho^{2})}}exp[-\frac{1}{2}q(x,y;\mu_{1}, \mu_{2})]$$
    이 때, $q(x,y;\mu_{1}, \mu_{2})$는 다음과 같다. 
    $$q(x,y;\mu_{1}, \mu_{2}) = \frac{1}{1-\rho^{2}}[(\frac{x-\mu_{1}}{\sigma_{1}^{2}})^{2} - 2\rho(\frac{x-\mu_{1}}{\sigma_{1}})(\frac{y-\mu_{2}}{\sigma_{2}}) + (\frac{y - \mu_{2}}{\sigma_{2}^{2}})^{2}]$$
    $$\frac{f(x,y ;\theta_{1})}{f(x,y;\theta_{2})} \leq k$$를 정의하면
    $\frac{f(x,y;\mu_{1}, \mu_{2}, \sigma_{1}^{2}, \sigma_{2}^{2}, \rho)}{f(x,y;\mu"_{1}, \mu"_{2}, \sigma"_{1}^{2}, \sigma"_{2}^{2}, \rho)} \leq k$ 이고, 여기에 로그를 씌우면 간단한 비례식
    $$-frac{1}{2}[q(x,y;\mu_{1}, \mu_{2}) - q(x,y;\mu"_{1}, \mu"_{2})] \leq log(k)$$ 를 얻을 수 있다.
    위 식을 함수 q를 대입하여 정리하면
    $\frac{1}{1-\rho^{2}}\{[\frac{\mu_{1}-\mu"_{1}}{\sigma_{1}^{2}} - \frac{\rho(\mu"_{2}-\mu_{2})}{\sigma_{1}\sigma_{2}}]x + [\frac{\mu_{2}-\mu"_{2}}{\sigma_{2}^{2}} - \frac{\rho(\mu"_{2}-\mu_{2})}{\sigma_{1}\sigma_{2}}]y\} \leq log(k) + \frac{1}{2}[q(x,y;\mu_{1}, \mu_{2}) - q(x,y;\mu"_{1}, \mu"_{2})]$

    또는, 그저 간단하게
    $$ax + by \leq c$$의 문제를 푸는것을 이변량 정규하 분류문제라고 한다.

    만약, 여기에서 각각의 모수 
    $(\mu_{1}, \mu_{2}, \mu"_{1}, \mu"_{2}, \sigma_{1}^{2}, \sigma_{2}^{2}, \rho\sigma_{1}\sigma_{2})$
    를 각각에 대응되는 불편추정량
    -. $\mu_{1} \rightarrow \overline{x}$
    -.$\mu_{2} \rightarrow \overline{y}$
    -. $\mu"_{1} \rightarrow \overline{x"}$
    -. $\mu"_{1} \rightarrow \overline{y"}$
    -. $\sigma_{1}^{2} \rightarrow \frac{(n-1)(s_{x})^{2} + (n"-1)(s"_{x})^{2}}{n + n" - 2}$
    -. $\sigma_{2}^{2} \rightarrow \frac{(n-1)(s_{y})^{2} + (n"-1)(s"_{y})^{2}}{n + n" - 2}$
    -. $\rho\sigma_{1}\sigma_{2} \rightarrow \frac{(n-1)\cdot r \cdot s_{x}s_{y} + (n"-1) \cdot r" \cdot s"_{x}s"_{y}}{n + n" - 2}$

    로 대치하여 집어넣은 함수를 피셔의 선형판별함수(Linear DIscriminant Function)라고 한다.

'수리통계' 카테고리의 다른 글

40. 일원배치 분산분석  (0) 2023.07.30
39. 통계학적 2차형식(Quadratic Form)  (0) 2023.07.28
37. 축차확률비 검정  (0) 2023.07.27
36. 최강력 검정  (0) 2023.07.26
35. 최소충분통계량과 보조통계량  (0) 2023.07.25