본문 바로가기

수학

(55)
수리통계학 (35) - t-분포와 F-분포 지난 글에서는 다변량 정규분포의 성질에 대해 써보았습니다. 이번 글에서는 t-분포와 F-분포에 대해 써보겠습니다. 우선 이들 분포를 정의하기 전에 카이제곱분포(chi-square distribution)가 무엇인지부터 설명해보겠습니다. 카이제곱분포는 앞선 글에서 정의한 감마분포의 특별한 사례로 생각할 수 있습니다. 구체적으로 양의 정수 $ r $ 에 대해 확률변수 $ X $ 가 $ X \sim \Gamma(r/2,2) $ 를 만족하면 이 확률변수 $ X $ 는 자유도 $ r $ 의 카이제곱분포를 따른다고 하고, 이를 $ X \sim \chi^2(r) $ 과 같이 표현합니다. 그리고 카이제곱분포가 감마분포의 특별한 경우인 것을 감안하면 이의 확률밀도함수는 아래와 같이 쓸 수 있습니다. $ f(x)=\beg..
수리통계학 (34) - 다변량 정규분포의 성질 지난 글에서는 정규분포를 응용한 확률분포들에 대해 써보았습니다. 이번 글에서는 다변량 정규분포의 성질에 대해 써보겠습니다. 우선 $ \mathbf{X} $ 가 다변량 정규분포를 따르고 $ \mathbf{\mu} $ 와 $ \mathbf{\Sigma} $ 의 평균 및 공분산 행렬을 가진다고 해보겠습니다. 그리고 $ \mathbf{X} $ 를 아래와 같이 변환한 새로운 확률벡터 $ \mathbf{Y} $ 를 생각해보겠습니다. $ \mathbf{Y}=\mathbf{AX}+\mathbf{b} $ 이때, $ \mathbf{A} $ 와 $ \mathbf{b} $ 는 임의의 상수행렬 혹은 상수벡터입니다. 그러면 $ \mathbf{Y} $ 는 다변량 정규분포를 따르고 $ \mathbf{Y} \sim N(\mathbf{..
수리통계학 (33) - 정규분포의 응용 지난 글에서는 정규분포의 정의에 대해 써보았습니다. 이번 글에서는 정규분포를 응용한 확률분포에 대해 써보겠습니다. 정규분포를 응용한 확률분포의 사례로서 오염정규분포(contaminated normal distribution)를 들 수 있습니다. 오염정규분포를 설명하기 위해서 다음과 같은 실험을 생각하겠습니다. 여러 번 시행되는 실험이 있고, 이 실험은 매번 독립적으로 시행됩니다. 그리고 매 실험의 결과로 어떤 확률변수의 실현값을 얻습니다. 이 확률변수는 정규분포를 따르지만, 분산이 시시각각 변합니다. 실제로 데이터를 수집하다보면 전체 자료의 추세에서 크게 벗어나는 이상점(outlier)을 얻기 마련입니다. 다시 말해, 실험을 여러 번 반복하면 때때로 분산이 매우 큰 확률분포를 따르는 것 같은 확률변수의 ..
수리통계학 (32) - 정규분포의 정의 지난 글에서는 다항분포의 특성과 디리클레 분포에 대한 내용을 써보았습니다. 이번 글에서는 정규분포에 대해 써보겠습니다. 우선 변수가 한 개만 있는 정규분포를 정의하고 그다음에 여러 변수가 함께 변하는 다변량 정규분포를 다뤄보겠습니다. 정규분포는 아래와 같은 형태의 확률밀도함수를 갖는 확률분포입니다. $ f_X(x)=\frac{1}{ \sqrt{2 \pi}\sigma}exp(-\frac{1}{2}(\frac{x-\mu}{\sigma})^2) $ for all $ x \in \mathbb{R} $ 이제 위의 확률밀도함수를 이용해서 정규분포에 대응되는 적률생성함수를 구해보겠습니다. 일단 적률생성함수의 정의에 따라 $ M(t)=E[e^{tX}]=\int_{-\infty}^{\infty} \frac{1}{ \sq..
수리통계학 (31) - 다항분포의 특성 지난 글에서는 다항분포의 정의에 대해 써보았습니다. 이번 글에서는 다항분포의 특성과 함께 디리클레 분포에 대한 내용을 써보겠습니다. 앞선 글에서 다항분포의 확률질량함수를 아래와 같이 정의했습니다. $ p(m_1,m_2,...,m_k)=\begin{cases}\frac{N!}{m_1! m_2! ... m_k!}\prod_{k=1}^{n}p_k^{m_k} & \text{ if } \sum_{i=1}^{k} m_i = N \\ 0 & \text{ otherwise }\end{cases} $ 한편, 다항분포의 평균과 공분산 행렬을 계산하려면 적률생성함수를 활용하는 것이 편리합니다. 다변량 분포의 적률생성함수는 $ E[e^{\mathbf{t'x}}]=E[e^{\sum_{i=1}^{n}t_i X_i}] $ 의 식으..