일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 프로그래머를 위한 선형대수 #선형대수 #행렬계산
- 미적분
- 미적분 #접선의 방정식 #최적화 #뉴턴법 #뉴턴-랩슨법
- bayesian inference
- Media Mix Modeling
- Optimization
- 미적분 #평균값 정리 #로피탈의 정리 #접선의 방정식
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #고유분해
- Marketing Mix Modeling
- lightweightmmm
- 시계열분석 #Time-Series Analysis #이상탐지 #Anomaly Detection #Spectral Residual #CNN #SR-CNN
- bayesian
- 수리통계
- mmm
- 프로그래머를 위한 선형대수 #선형대수 #고유분해 #고윳값 #고유벡터
- 프로그래머를 위한 선형대수 #선형대수 #LU분해
- 미적분 #사인과 코사인의 도함수
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #야코비 회전법 #QR법 #하우스홀더반사 #행렬회전
- Today
- Total
목록수리통계 (56)
문과생 네버랜드의 데이터 창고
베이지안 통계 1) 개인의 사전믿음을 반영하는 베이지안 통계 ${(1)}$ 지금까지 우리가 살펴본 통계학 개념들은 기본적으로 빈도주의적 입장을 따랐다. -. 빈도주의적이란, 확률을 일종의 상대 빈도(비율로 이해해도 무방하다) 의 극한으로 바라보는 개념이다. -. 어떤 모집단에서 표본들을 추출하고, 그 표본들의 실험 결과로서 나타나는 빈도는 실험횟수가 무한대에 가깝게 반복된다면 모집단의 특성을 반영할 것이라고 보는 것이다. -. 예를 들어서, 동전을 뒤집는 실험의 결과 10번중 두번이 앞면이 나왔다면, 전체 공간에서 그 동전의 앞면이 나올 확률은 20%라고 추정하는 것이다. -. 그러나, 이런 빈도주의적 주장은 어느정도 약점이 존재한다. ① 10번 실험결과 두번의 앞면이 나왔다고 해서, 그 동전이 공평한 ..
단변량 2차형식의 다변량 확장 1) 우리는 앞서 단변량에서의 2차형식(Quadratic Form)을 정의한바 있다. 이제 이를 다변량으로 확장하고자 한다. 2) 우선, 논의를 진행하기에 앞서 다음의 사전 지식이 필요하다. ${(1)}$ 정방행렬의 대각합의 성질 만약 행렬 A가 nxn의 정방행렬이고, tr(A)를 이 행렬의 대각성분의 합으로 정의하자. 그러면 다음의 성질이 성립된다. 어떤 임의의 스칼라 상수 a,b에 대하여 ①선형성 : $tr(aA + bB) = a tr(A) + b tr(B)$ ②교환가능성 : $tr(ABC) = tr(BCA) = tr(CAB)$ 3) 다변량에서의 2차형식의 성질 ${(1)}$ 2차형식인 다변량 분포의 기댓값의 성질 n차원 확률벡터 X에 대하여, 그 평균 벡터를 $\mu$..
상관관계가 낮을 때 두 변수는 독립적인가? 1) 앞서 우리는 상관계수에서 상관계수란 공분산의 표준화 형이며, 공분산은 두 변수 X와 Y가 함께 변해갈때의 기댓값을 의미한다고 설명하였다. ${(1)}$ 상관계수는 -1 ~1 사이의 값을 가지며, 0은 두 확률변수의 상관관계가 없다는 것을 의미한다. ${(2)}$ 문제는 상관계수의 측정은 어디까지나 실현된 표본을 중심으로 측정하는 통계량에 불과하다는 점이다. -. 모집단 차원에서 살펴보면, 두 확률변수가 진짜로 상관관계가 존재할까?(즉, $\rho \neq 0$ 일까?) -. 이런 의문에 해답을 얻기 위해 상관관계도 마찬가지로 어떤 가설에 기반한 독립성 검정을 수행할 수 있다. 2) 독립성 검정의 유도 ${(1)}$ $[X_{i}]$와 $[Y_{i}]$가 평..
회귀분석이란 1) 회귀 분석이란 ${(1)}$ 한 변수의 기댓값과 다른 변수(들)사이의 관계를 정의하는 모형식을 정의하는 절차를 회귀분석이라고 한다. -. 기댓값은 해당 확률변수가 모수 공간에서 가질것으로 기대되는 일반화된 평균값이기 때문에, 기댓값을 구한다는 것은 지금 당장 실현된 표본값을 너머 일반적으로 그럴것이다라는 예측값을 생산할 수 있게 된다. -. 조건부 기댓값을 정의하기 위해 다음의 모형식을 정의하게 되는데, 이를 바로 회귀식이라고 한다 $$E(Y) = f(x_{i}, \theta) + e_{i}$$ 이 때, $e_{i}$는 잔차(Error)를 의미하고, $x_{i}$는 실현된 표본값을 의미한다.(확률변수가 아님에 유의한다) ${(2)}$ 단변량 선형회귀분석 -. 이번 포스트에서 살펴볼 내용..
분산분석이란? ※ 아래 내용은 일원배치 분산분석의 내용을 준용하였다. 1) 분산분석이란 2개 이상의 확률변수간에 평균 차이를 그 분산을 이용하여 검증하는 분석 방법론이다. ${(1)}$ 왜 평균 차이를 검정하는데 (표본)분산을 이용하는지는 일원배치 분산분석 유도를 참고 2) 분산분석을 수행하기 전에 만족해야하는 조건은 아래와 같다. ${(1)}$ 각 확률변수는 정규분포를 따라야한다 : 구체적으로는, 분산분석 모델을 적합하고 나서 그 잔차가 정규분포를 따라야 한다. ${(2)}$ 각 확률변수는 모두 동일한 분산을 가지고 있어야한다 : 마찬가지로, F분포를 유도하는 과정에서 모든 확률변수가 동일한 분산을 갖고있다는 전제조건이 필요하다. ${(3)}$ 각 확률변수는 서로 확률적으로 독립이어야 한다. 이원배치 ..

다중비교의 의미와 필요성 1) 분산분석과의 관계 ${(1)}$ 분산분석을 살펴보면서, 분산분석이 다음의 가설을 검정한다는것을 보였다 다음의 가설을 검정하고자 한다. $$H_{0} : \mu_{1} = \mu_{2} = \dots \mu_{b} \ VS \ H_{1} : 적어도 \ 하나는 \ 같지 \ 않다$$ ${(2)}$ 확률변수 $X_{1}, \dots, X_{n}$ 에 대하여 분산분석 결과 가설 $H_{1}$을 채택했다고 가정하자. -. 이 때, 우리가 알 수 있는 정보는 그저 '적어도 평균 $\mu_{j}$ 중 하나는 같지 않다'는 정보뿐이다. -. 구체적인 인사이트를 얻기 위해서는, 어떤 확률변수 사이에 유의미한 차이가 있는지를 구체적으로 확인해야한다. ${(3)}$ 가장 직관적으로 떠올려볼 수 ..
비중심 카이스퀘어 분포 1) 카이제곱 분포와의 비교 ${(1)}$ 앞서, 카이제곱 분포를 살펴보며 $N(\mu, \sigma^{2})$을 따르는 확률변수들의 2차형식 $$V = \frac{(X - \mu)^{2}}{\sigma^{2}}$$은 $x^{2}(1)$을 따름을 보였다. ${(2)}$ 이는 $\mu$라는 평균을 갖는 확률변수 X를 $N(0,1)$을 따르는 표준정규분포로 변환한 후 그 제곱을 취한 것이라 볼 수 있다. ${(3)}$ 이제, 자연스럽게 들 수 있는 의문은 다음과 같다. -. 그렇다면, 평균을 0으로 스케일하지 않은, 즉 다음과 같은 확률변수는 어떤 분포를 따를 것인가? $$V' = \frac{(X)^{2}}{\sigma^{2}}$$ -. 위 변환확률변수는 굳이 표현하자면 $N(\mu,..
분산분석이란 무엇인가? 1) 분산분석이란 2개 이상의 확률변수간에 평균 차이를 그 분산을 이용하여 검증하는 분석 방법론이다. ${(1)}$ 왜 평균 차이를 검정하는데 (표본)분산을 이용하는지는 아래의 일원배치 분산분석 유도를 보면 이해할 수 있다. -. 가설 검정에 대한 우도비함수를 정의하면서 정리하면 결국에는 분자 분모 모두 표본분산만이 남게 된다. -. 표본 분산의 비율로 정의된 이 통계량은 분자 분모의 표본분산식이 $X^{2}$를 따른다고 할 때, 그 비율로서 정의되는 F분포를 활용한다. 2) 분산분석을 수행하기 전에 만족해야하는 조건은 아래와 같다. ${(1)}$ 각 확률변수는 정규분포를 따라야한다 : 구체적으로는, 분산분석 모델을 적합하고 나서 그 잔차가 정규분포를 따라야 한다. -. 마찬가지로..