일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 시계열분석 #Time-Series Analysis #이상탐지 #Anomaly Detection #Spectral Residual #CNN #SR-CNN
- 미적분
- 수리통계
- 미적분 #평균값 정리 #로피탈의 정리 #접선의 방정식
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #야코비 회전법 #QR법 #하우스홀더반사 #행렬회전
- 미적분 #사인과 코사인의 도함수
- 프로그래머를 위한 선형대수 #선형대수 #LU분해
- bayesian inference
- 프로그래머를 위한 선형대수 #선형대수 #행렬계산
- Media Mix Modeling
- Marketing Mix Modeling
- 미적분 #접선의 방정식 #최적화 #뉴턴법 #뉴턴-랩슨법
- Optimization
- 프로그래머를 위한 선형대수 #선형대수 #고유분해 #고윳값 #고유벡터
- lightweightmmm
- mmm
- 프로그래머를 위한 선형대수 #선형대수 #고유값 #고유벡터 #고유분해
- bayesian
- Today
- Total
목록분류 전체보기 (99)
문과생 네버랜드의 데이터 창고

이 글을 쓰게된 이유는 내가 활동하고 있는 데이터 분석 관련 단톡방에 데이터 분석 관련 커리어에 대한 질문을 절실하게 올리시는 분들이 요즘들어 무척 많아졌기 때문이다. 대개 올라오는 질문은 '제가 xx학과 출신 학사(석사)인데요, XX자격증하고 XX공모전 경험 / 수상했는데 데이터 분석으로 채용될 수 있을까요?' 같은 스펙 관련 질문, 혹은 '파이썬이나 R, 혹은 수학 지식은 얼마나 중요한가요?'같은 스킬셋에 대한 질문들이 주로 올라왔다. 그런 질문들을 보다보니, 처음 데이터 분석 분야로 취업준비를 시작했던 2018년의 내가 떠올랐다. '빅데이터' 라는 수식어를 전면에 달고 투자금이 몰리고 인력이 대거 양성되던 그 태동기는 직무 관련 정보도 적고, 소위 말하는 '합격 스펙'에 대한 합의된 기준도 없었던..

*20240708 수정 : 목적함수 도출 부분에서 설명이 부실했던 부분을 보강하였습니다 Diffusion은 어떤 유의미한 패턴(ex. 뭉쳐있는 가루 입자)에서 점차 랜덤한 가우시안 노이즈(ex. 용해된 가루 입자)로 확산하는 분자들의 움직임 의미하는 물리학 개념이다1) 각각의 분자는 각각 랜덤한 가우시안 노이즈 $N(0,I)$ 를 따라 무작위적인 운동을 수행하고, 결국엔 패턴이 무작위한 임의의 위치로 확산(Diffusion)하게 된다.입자의 확산(Forward Diffusion)은 물리학적인 개념이다. 2) 만약, 패턴이 있는 상태에서 무작위한 상태로 확산한 경로(=함수)를 모델링 할 수 있다면, 역으로 무작위한 상태에서 패턴이 있는 상태로 되돌리는 것도 가능할 것이다.3) 이 때, 패턴이 있는 상태에서..

2024-12-16 채택 - 기각 알고리즘에 대한 내용 추가 Marketing mix Modeling(MMM)이란 각 매체별로 예산 분배를 최적화하고, 그 성과를 예측하는 마케팅 방법론을 의미한다.1) 예산 분배 최적화란 광고를 집행하고자 하는 각 매체별로 얼마만큼의 예산분배를 해야 최대의 KPI를 달성하는지 고민하는 문제이다2) 성과 예측이란 분배 최적화된 결과물을 가지고 얼마만큼의 성과를 거둘 수 있을 것인가 예측하는 분야를 말한다.다음의 절차를 거쳐 Marketing Mix Modeling을 수행하는 lightweightmmm을 제안한다.1) 베이지안 회귀모델 적합${(1)}$ 광고비 지출에 대한 성과가 시차를 두고 누적해서 나타나는 현상을 Carryover라고 하는데, 이를 모델링하는 carry..
베이지안 통계 1) 개인의 사전믿음을 반영하는 베이지안 통계 ${(1)}$ 지금까지 우리가 살펴본 통계학 개념들은 기본적으로 빈도주의적 입장을 따랐다. -. 빈도주의적이란, 확률을 일종의 상대 빈도(비율로 이해해도 무방하다) 의 극한으로 바라보는 개념이다. -. 어떤 모집단에서 표본들을 추출하고, 그 표본들의 실험 결과로서 나타나는 빈도는 실험횟수가 무한대에 가깝게 반복된다면 모집단의 특성을 반영할 것이라고 보는 것이다. -. 예를 들어서, 동전을 뒤집는 실험의 결과 10번중 두번이 앞면이 나왔다면, 전체 공간에서 그 동전의 앞면이 나올 확률은 20%라고 추정하는 것이다. -. 그러나, 이런 빈도주의적 주장은 어느정도 약점이 존재한다. ① 10번 실험결과 두번의 앞면이 나왔다고 해서, 그 동전이 공평한 ..
단변량 2차형식의 다변량 확장 1) 우리는 앞서 단변량에서의 2차형식(Quadratic Form)을 정의한바 있다. 이제 이를 다변량으로 확장하고자 한다. 2) 우선, 논의를 진행하기에 앞서 다음의 사전 지식이 필요하다. ${(1)}$ 정방행렬의 대각합의 성질 만약 행렬 A가 nxn의 정방행렬이고, tr(A)를 이 행렬의 대각성분의 합으로 정의하자. 그러면 다음의 성질이 성립된다. 어떤 임의의 스칼라 상수 a,b에 대하여 ①선형성 : $tr(aA + bB) = a tr(A) + b tr(B)$ ②교환가능성 : $tr(ABC) = tr(BCA) = tr(CAB)$ 3) 다변량에서의 2차형식의 성질 ${(1)}$ 2차형식인 다변량 분포의 기댓값의 성질 n차원 확률벡터 X에 대하여, 그 평균 벡터를 $\mu$..
상관관계가 낮을 때 두 변수는 독립적인가? 1) 앞서 우리는 상관계수에서 상관계수란 공분산의 표준화 형이며, 공분산은 두 변수 X와 Y가 함께 변해갈때의 기댓값을 의미한다고 설명하였다. ${(1)}$ 상관계수는 -1 ~1 사이의 값을 가지며, 0은 두 확률변수의 상관관계가 없다는 것을 의미한다. ${(2)}$ 문제는 상관계수의 측정은 어디까지나 실현된 표본을 중심으로 측정하는 통계량에 불과하다는 점이다. -. 모집단 차원에서 살펴보면, 두 확률변수가 진짜로 상관관계가 존재할까?(즉, $\rho \neq 0$ 일까?) -. 이런 의문에 해답을 얻기 위해 상관관계도 마찬가지로 어떤 가설에 기반한 독립성 검정을 수행할 수 있다. 2) 독립성 검정의 유도 ${(1)}$ $[X_{i}]$와 $[Y_{i}]$가 평..
회귀분석이란 1) 회귀 분석이란 ${(1)}$ 한 변수의 기댓값과 다른 변수(들)사이의 관계를 정의하는 모형식을 정의하는 절차를 회귀분석이라고 한다. -. 기댓값은 해당 확률변수가 모수 공간에서 가질것으로 기대되는 일반화된 평균값이기 때문에, 기댓값을 구한다는 것은 지금 당장 실현된 표본값을 너머 일반적으로 그럴것이다라는 예측값을 생산할 수 있게 된다. -. 조건부 기댓값을 정의하기 위해 다음의 모형식을 정의하게 되는데, 이를 바로 회귀식이라고 한다 $$E(Y) = f(x_{i}, \theta) + e_{i}$$ 이 때, $e_{i}$는 잔차(Error)를 의미하고, $x_{i}$는 실현된 표본값을 의미한다.(확률변수가 아님에 유의한다) ${(2)}$ 단변량 선형회귀분석 -. 이번 포스트에서 살펴볼 내용..
분산분석이란? ※ 아래 내용은 일원배치 분산분석의 내용을 준용하였다. 1) 분산분석이란 2개 이상의 확률변수간에 평균 차이를 그 분산을 이용하여 검증하는 분석 방법론이다. ${(1)}$ 왜 평균 차이를 검정하는데 (표본)분산을 이용하는지는 일원배치 분산분석 유도를 참고 2) 분산분석을 수행하기 전에 만족해야하는 조건은 아래와 같다. ${(1)}$ 각 확률변수는 정규분포를 따라야한다 : 구체적으로는, 분산분석 모델을 적합하고 나서 그 잔차가 정규분포를 따라야 한다. ${(2)}$ 각 확률변수는 모두 동일한 분산을 가지고 있어야한다 : 마찬가지로, F분포를 유도하는 과정에서 모든 확률변수가 동일한 분산을 갖고있다는 전제조건이 필요하다. ${(3)}$ 각 확률변수는 서로 확률적으로 독립이어야 한다. 이원배치 ..