일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- lightweightmmm
- 미적분 #평균값 정리 #로피탈의 정리 #접선의 방정식
- mmm
- bayesian
- 수리통계
- bayesian inference
- 프로그래머를 위한 선형대수 #선형대수 #고유분해 #고윳값 #고유벡터
- 프로그래머를 위한 선형대수 #선형대수 #LU분해
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #야코비 회전법 #QR법 #하우스홀더반사 #행렬회전
- Marketing Mix Modeling
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #고유분해
- 미적분 #접선의 방정식 #최적화 #뉴턴법 #뉴턴-랩슨법
- 시계열분석 #Time-Series Analysis #이상탐지 #Anomaly Detection #Spectral Residual #CNN #SR-CNN
- 프로그래머를 위한 선형대수 #선형대수 #행렬계산
- 미적분 #사인과 코사인의 도함수
- Optimization
- 미적분
- Media Mix Modeling
- Today
- Total
목록전체 글 (99)
문과생 네버랜드의 데이터 창고

이 글을 쓰게된 이유는 내가 활동하고 있는 데이터 분석 관련 단톡방에 데이터 분석 관련 커리어에 대한 질문을 절실하게 올리시는 분들이 요즘들어 무척 많아졌기 때문이다. 대개 올라오는 질문은 '제가 xx학과 출신 학사(석사)인데요, XX자격증하고 XX공모전 경험 / 수상했는데 데이터 분석으로 채용될 수 있을까요?' 같은 스펙 관련 질문, 혹은 '파이썬이나 R, 혹은 수학 지식은 얼마나 중요한가요?'같은 스킬셋에 대한 질문들이 주로 올라왔다. 그런 질문들을 보다보니, 처음 데이터 분석 분야로 취업준비를 시작했던 2018년의 내가 떠올랐다. '빅데이터' 라는 수식어를 전면에 달고 투자금이 몰리고 인력이 대거 양성되던 그 태동기는 직무 관련 정보도 적고, 소위 말하는 '합격 스펙'에 대한 합의된 기준도 없었던..

*20240708 수정 : 목적함수 도출 부분에서 설명이 부실했던 부분을 보강하였습니다 Diffusion은 어떤 유의미한 패턴(ex. 뭉쳐있는 가루 입자)에서 점차 랜덤한 가우시안 노이즈(ex. 용해된 가루 입자)로 확산하는 분자들의 움직임 의미하는 물리학 개념이다1) 각각의 분자는 각각 랜덤한 가우시안 노이즈 $N(0,I)$ 를 따라 무작위적인 운동을 수행하고, 결국엔 패턴이 무작위한 임의의 위치로 확산(Diffusion)하게 된다.입자의 확산(Forward Diffusion)은 물리학적인 개념이다. 2) 만약, 패턴이 있는 상태에서 무작위한 상태로 확산한 경로(=함수)를 모델링 할 수 있다면, 역으로 무작위한 상태에서 패턴이 있는 상태로 되돌리는 것도 가능할 것이다.3) 이 때, 패턴이 있는 상태에서..

2024-12-16 채택 - 기각 알고리즘에 대한 내용 추가 Marketing mix Modeling(MMM)이란 각 매체별로 예산 분배를 최적화하고, 그 성과를 예측하는 마케팅 방법론을 의미한다.1) 예산 분배 최적화란 광고를 집행하고자 하는 각 매체별로 얼마만큼의 예산분배를 해야 최대의 KPI를 달성하는지 고민하는 문제이다2) 성과 예측이란 분배 최적화된 결과물을 가지고 얼마만큼의 성과를 거둘 수 있을 것인가 예측하는 분야를 말한다.다음의 절차를 거쳐 Marketing Mix Modeling을 수행하는 lightweightmmm을 제안한다.1) 베이지안 회귀모델 적합${(1)}$ 광고비 지출에 대한 성과가 시차를 두고 누적해서 나타나는 현상을 Carryover라고 하는데, 이를 모델링하는 carry..
베이지안 통계 1) 개인의 사전믿음을 반영하는 베이지안 통계 ${(1)}$ 지금까지 우리가 살펴본 통계학 개념들은 기본적으로 빈도주의적 입장을 따랐다. -. 빈도주의적이란, 확률을 일종의 상대 빈도(비율로 이해해도 무방하다) 의 극한으로 바라보는 개념이다. -. 어떤 모집단에서 표본들을 추출하고, 그 표본들의 실험 결과로서 나타나는 빈도는 실험횟수가 무한대에 가깝게 반복된다면 모집단의 특성을 반영할 것이라고 보는 것이다. -. 예를 들어서, 동전을 뒤집는 실험의 결과 10번중 두번이 앞면이 나왔다면, 전체 공간에서 그 동전의 앞면이 나올 확률은 20%라고 추정하는 것이다. -. 그러나, 이런 빈도주의적 주장은 어느정도 약점이 존재한다. ① 10번 실험결과 두번의 앞면이 나왔다고 해서, 그 동전이 공평한 ..
단변량 2차형식의 다변량 확장 1) 우리는 앞서 단변량에서의 2차형식(Quadratic Form)을 정의한바 있다. 이제 이를 다변량으로 확장하고자 한다. 2) 우선, 논의를 진행하기에 앞서 다음의 사전 지식이 필요하다. ${(1)}$ 정방행렬의 대각합의 성질 만약 행렬 A가 nxn의 정방행렬이고, tr(A)를 이 행렬의 대각성분의 합으로 정의하자. 그러면 다음의 성질이 성립된다. 어떤 임의의 스칼라 상수 a,b에 대하여 ①선형성 : $tr(aA + bB) = a tr(A) + b tr(B)$ ②교환가능성 : $tr(ABC) = tr(BCA) = tr(CAB)$ 3) 다변량에서의 2차형식의 성질 ${(1)}$ 2차형식인 다변량 분포의 기댓값의 성질 n차원 확률벡터 X에 대하여, 그 평균 벡터를 $\mu$..
상관관계가 낮을 때 두 변수는 독립적인가? 1) 앞서 우리는 상관계수에서 상관계수란 공분산의 표준화 형이며, 공분산은 두 변수 X와 Y가 함께 변해갈때의 기댓값을 의미한다고 설명하였다. ${(1)}$ 상관계수는 -1 ~1 사이의 값을 가지며, 0은 두 확률변수의 상관관계가 없다는 것을 의미한다. ${(2)}$ 문제는 상관계수의 측정은 어디까지나 실현된 표본을 중심으로 측정하는 통계량에 불과하다는 점이다. -. 모집단 차원에서 살펴보면, 두 확률변수가 진짜로 상관관계가 존재할까?(즉, $\rho \neq 0$ 일까?) -. 이런 의문에 해답을 얻기 위해 상관관계도 마찬가지로 어떤 가설에 기반한 독립성 검정을 수행할 수 있다. 2) 독립성 검정의 유도 ${(1)}$ $[X_{i}]$와 $[Y_{i}]$가 평..
회귀분석이란 1) 회귀 분석이란 ${(1)}$ 한 변수의 기댓값과 다른 변수(들)사이의 관계를 정의하는 모형식을 정의하는 절차를 회귀분석이라고 한다. -. 기댓값은 해당 확률변수가 모수 공간에서 가질것으로 기대되는 일반화된 평균값이기 때문에, 기댓값을 구한다는 것은 지금 당장 실현된 표본값을 너머 일반적으로 그럴것이다라는 예측값을 생산할 수 있게 된다. -. 조건부 기댓값을 정의하기 위해 다음의 모형식을 정의하게 되는데, 이를 바로 회귀식이라고 한다 $$E(Y) = f(x_{i}, \theta) + e_{i}$$ 이 때, $e_{i}$는 잔차(Error)를 의미하고, $x_{i}$는 실현된 표본값을 의미한다.(확률변수가 아님에 유의한다) ${(2)}$ 단변량 선형회귀분석 -. 이번 포스트에서 살펴볼 내용..
분산분석이란? ※ 아래 내용은 일원배치 분산분석의 내용을 준용하였다. 1) 분산분석이란 2개 이상의 확률변수간에 평균 차이를 그 분산을 이용하여 검증하는 분석 방법론이다. ${(1)}$ 왜 평균 차이를 검정하는데 (표본)분산을 이용하는지는 일원배치 분산분석 유도를 참고 2) 분산분석을 수행하기 전에 만족해야하는 조건은 아래와 같다. ${(1)}$ 각 확률변수는 정규분포를 따라야한다 : 구체적으로는, 분산분석 모델을 적합하고 나서 그 잔차가 정규분포를 따라야 한다. ${(2)}$ 각 확률변수는 모두 동일한 분산을 가지고 있어야한다 : 마찬가지로, F분포를 유도하는 과정에서 모든 확률변수가 동일한 분산을 갖고있다는 전제조건이 필요하다. ${(3)}$ 각 확률변수는 서로 확률적으로 독립이어야 한다. 이원배치 ..

다중비교의 의미와 필요성 1) 분산분석과의 관계 ${(1)}$ 분산분석을 살펴보면서, 분산분석이 다음의 가설을 검정한다는것을 보였다 다음의 가설을 검정하고자 한다. $$H_{0} : \mu_{1} = \mu_{2} = \dots \mu_{b} \ VS \ H_{1} : 적어도 \ 하나는 \ 같지 \ 않다$$ ${(2)}$ 확률변수 $X_{1}, \dots, X_{n}$ 에 대하여 분산분석 결과 가설 $H_{1}$을 채택했다고 가정하자. -. 이 때, 우리가 알 수 있는 정보는 그저 '적어도 평균 $\mu_{j}$ 중 하나는 같지 않다'는 정보뿐이다. -. 구체적인 인사이트를 얻기 위해서는, 어떤 확률변수 사이에 유의미한 차이가 있는지를 구체적으로 확인해야한다. ${(3)}$ 가장 직관적으로 떠올려볼 수 ..
비중심 카이스퀘어 분포 1) 카이제곱 분포와의 비교 ${(1)}$ 앞서, 카이제곱 분포를 살펴보며 $N(\mu, \sigma^{2})$을 따르는 확률변수들의 2차형식 $$V = \frac{(X - \mu)^{2}}{\sigma^{2}}$$은 $x^{2}(1)$을 따름을 보였다. ${(2)}$ 이는 $\mu$라는 평균을 갖는 확률변수 X를 $N(0,1)$을 따르는 표준정규분포로 변환한 후 그 제곱을 취한 것이라 볼 수 있다. ${(3)}$ 이제, 자연스럽게 들 수 있는 의문은 다음과 같다. -. 그렇다면, 평균을 0으로 스케일하지 않은, 즉 다음과 같은 확률변수는 어떤 분포를 따를 것인가? $$V' = \frac{(X)^{2}}{\sigma^{2}}$$ -. 위 변환확률변수는 굳이 표현하자면 $N(\mu,..
분산분석이란 무엇인가? 1) 분산분석이란 2개 이상의 확률변수간에 평균 차이를 그 분산을 이용하여 검증하는 분석 방법론이다. ${(1)}$ 왜 평균 차이를 검정하는데 (표본)분산을 이용하는지는 아래의 일원배치 분산분석 유도를 보면 이해할 수 있다. -. 가설 검정에 대한 우도비함수를 정의하면서 정리하면 결국에는 분자 분모 모두 표본분산만이 남게 된다. -. 표본 분산의 비율로 정의된 이 통계량은 분자 분모의 표본분산식이 $X^{2}$를 따른다고 할 때, 그 비율로서 정의되는 F분포를 활용한다. 2) 분산분석을 수행하기 전에 만족해야하는 조건은 아래와 같다. ${(1)}$ 각 확률변수는 정규분포를 따라야한다 : 구체적으로는, 분산분석 모델을 적합하고 나서 그 잔차가 정규분포를 따라야 한다. -. 마찬가지로..
2차형식이란? 1) 수학에서 2차형식이란 항이 모두 2차인 동차 다항식을 의미한다. ${(1)}$ 예를 들면 아래와 같은 경우이다. $$4x^{2} + 2xy - 3y^{2}$$ -. 위 다항식의 경우, 변수 x와 y에 대하여 2차 형식이다. 2) 구체적으로는, 이차형식은 아래와 같은 형태로 나타낼 수 있는 형태를 의미한다. ${(1)}$ 선형결합 형식으로 나타낼 때 -. $q_{A}(x_{1}, \dots x_{n}) = \sum_{i=1}^{n}\sum_{j=1}^{n}a_{ij}x_{i}x_{j}$ ${(2)}$ 행렬 형식으로 나타낼 때 -. $q_{A}(x_{1}, \dots, x_{n}) = x^{T}Ax$ 3) 특히, 행렬형식으로 나타낼 때 행렬 A의 고유 분해 결과에 따라 성질이 달라진다. ..
최소최대 문제를 풀기 1) 최소최대 문제란, 검정과 관련된 기각역의 최소 및 최대를 결정하는 방법론을 의미한다. 2) 다음과 같이 도출할 수 있다. ${(1)}$ 확률표본 $[X_{1}, \dots, X_{n}]$과 관련된 어떤 함수를 다음과 같이 정의하자 $$\delta = u(X_{1}, \dots X_{n})$$ 이 함수는 다음과 같은 검정을 수행할때 활용하는 함수이다. $$H_{0} : \theta = \theta_{1} \ vs \ H_{1} : \theta = \theta_{2}$$ 이 때, 이 함수와 관련된 손실함수를 정의하자. 즉, 함수 $\delta$에 대하여 ①정답인 경우 : $\epsilon(\theta, \delta = \theta_{1}) = 0$ 이고 $\epsilon(\thet..
축차확률비 검정이란 무엇인가? 1) 앞서 우도비 검정을 이용하여 균일최강력검정을 수행하는 방법론을 살펴보았다. ${(1)}$ 우도함수는 계속해서 다음과 같이 정의하였다. n이 표본의 갯수라고 할 때 $$L(\theta;n) = f(x_{1};\theta) \cdot f(x_{2};\theta) \dots f(x_{n};\theta)$$ ${(2)}$ 위 우도식을 이용한 우도비 검정은 최량 기각역을 가진다는것을 네이만-피어슨 정리를 이용해 보였다. 즉 $$\frac{L(\theta_{H0};n)}{L(\theta_{n};n)} \leq k$$의 형태로 나타나는 우도비검정은 최량기각역을 가지고, 이를 이용해 최강력검정을 수행할 수 있다. 2) 그러나, 현실에서는 다음의 문제가 발생할 수 있다. ${(1)}$..

최강력 검정의 정의 1) 가설검정과 최강력검정(Most Powerful tests) ${(1)}$ 가설 검정과 관련된 몇가지 개념들을 이전에 정리했었다. 가설검정과 기각역, 가설검정의 오류와 검정력에 대한 개념이 그것이다. ${(2)}$ 이제, 이 개념들을 발전시켜서 '가장 효율성이 높은 가설 검정 방법'을 도출하는 방법론을 배운다. 아래 개념들을 복습하자. 가설 검정 ${(1)}$ 연구자가 주장한 가설이 실제로도 유의미한지 참 / 거짓을 판별하는 방법론을 가설검정이라고 한다. ${(2)}$ 가설 검정엔 귀무가설과 대립가설이라는 두 개념이 등장한다. -.대립가설: 연구가설이라고도 표현한다.연구자가 관심을 갖고 있는(즉 연구자가 주창한) 가설을 의미한다. -.귀무가설: 영가설이라도고 표현한다. 대립가설에 ..
최소충분통계량 1) 최소충분통계량이란? ${(1)}$ 하나의 분포에 대하여 충분통계량은 여러개가 존재할 수 있다. -. 그러면, 전체 표본의 성질을 매우 잘 보존하면서도 요약의 수준이 높은 가장 최소의 충분통계량은 무엇인가? -. 여기에 대하여, 다음의 사고실험을 계획해 볼 수 있다. 어떤 분포에 대하여 충분통계량 $S(X)$가 존재한다고 하자. 그리고, 전지전능한 통계의 신이 이 분포의 모든 충분통계량 집합 $T'(X) = \{t(x;\theta) | \theta \in \Omega\}$를 제시했다고 하자. 만약, $S(X)$가 최소한의 충분통계량이라면, 우리는 다음의 꼴로 모든 $T'(X)$에 대하여 나타낼 수 있다. $$S(X) = u(T'(X))$$ 물론, 그 역은 성립하지 않는다. -. 만약, ..
단변량에서 다변량으로 확장 1) 결합충분통계량 ${(1)}$ 충분통계량을 다중 모수의 선형결합으로 표현한다. $X_{1}, \dots, X_{n}$이 $\theta \in \mathbb{R}^{p}$ 라고 할 때 $f(x;\theta)$를 pdf 갖는 분포에서 추출한 확률표본이다. 통계량 $Y_{i}$들로 이루어진 다음의 확률벡터를 정의하자 $$\overset{\rightarrow}{Y} = \begin{bmatrix} u_{1}(X_{1}, \dots, X_{n})\\ \dots\\ u_{m}(X_{1}, \dots, X_{n}) \end{bmatrix}$$ 즉, m개의 통계량으로 이루어진 $Y \in \mathbb{R}^{m}$확률벡터이다. 이 때, 확률벡터 Y에 대한 다변량 PDF를 $f_{y} =..
완비성과 완비충분통계량 1) 충분통계량은 왜 배우는 것인가? ${(1)}$ 충분통계량은 가장 좋은 불편추정량인 최소분산불편추정량(MVUE)과 밀접한 관계를 갖고 있다. -. 우리의 목표는 이제 충분통계량과 MVUE 사이를 잇는 가교를 발견하는 것이다. -. 이 가교는 ① 완비성 ② 최소 분산 추정량의 두개의 교각으로 이루어져 있다. -. 그리고, 두 교각을 세우면 마침내 다음과 같은 결론을 내릴 수 있다. 이는 밑에서 증명할 레만-쉐페 정리가 증명한다. 완비성을 갖춘 충분통계량의 함수꼴로 표현된 불편추정량은 그 어떤 다른 불편추정량보다 분산이 작은 유일한 최소분산불편추정량(MVUE)이다. 2) 완비성과 유일성 ${(1)}$ 완비성 연속형 혹은 이산형 확률변수 Z가 모수 $\theta$와 확률변수 z를 다..
충분통계량이란? 1) 충분통계량에 대한 정의와 설명 ${(1)}$ pdf $f(x;\theta)$를 갖는 분포에서 추출한 확률표본인 $[X_{1}, \dots, X_{n}]$ 에서어떤 통계량 $Y_{1} = u(x_{1}, \dots, x_{n})$를 정의하자. 이 통계량은 모수 $\theta$를 추정하고자 한다. ${(2)}$ 이 때, '충분하다'라는 의미는 다음과 같다. -. $X_{1}, \dots, X_{n}|Y_{1}$ 이라는 조건부 다변량 분포를 정의했을 때, 그 pdf는 다음과 같이 나타낼 수 있다. $$\frac{f(x_{1}, x_{2}, \dots, x_{n};\theta)}{f(u(x_{1}, \dots, x_{n});\theta)}$$ -. 만약, 이 조건부 pdf를 정리한 결과가 ..

기댓값 최대화 알고리즘이란? 1) 지금까지 관측된 확률표본 $[X_{1}, \dots, X_{n}]$을 이용하여 최대우도추정량을 구한뒤, 이를 이용하여 추정이나 검정을 수행하는 방법론을 살펴보았다. 2) 문제는, 현실의 대다수의 문제는 현실에서 실제로 관측되지 않은 많은 확률변수에 의존한다는 것이다. ${(1)}$ 기계 장치가 여전히 가동중인 상태에서 최대우도추정을 수행해야하는 상황 ${(2)}$ 수집한 몇몇 데이터가 누락되어 있는 상황에서 최대우도추정을 수행해야 하는 상황 3) 이런 경우, 관측되지 않은 확률변수도 식에 포함하여 완전한 우도함수를 구해 최대우도추정량을 구해야한다. ${(1)}$ 그러나 이런 경우 다음의 문제가 발생하게 된다. -. 관측된 확률변수들과 잠재된 확률변수간에 (보통)깊은 연관..