본문 바로가기

수학/수리통계학

수리통계학 (33) - 정규분포의 응용

지난 글에서는 정규분포의 정의에 대해 써보았습니다.

이번 글에서는 정규분포를 응용한 확률분포에 대해 써보겠습니다.

 

정규분포를 응용한 확률분포의 사례로서 오염정규분포(contaminated normal distribution)를 들 수 있습니다.

오염정규분포를 설명하기 위해서 다음과 같은 실험을 생각하겠습니다.

여러 번 시행되는 실험이 있고, 이 실험은 매번 독립적으로 시행됩니다.

그리고 매 실험의 결과로 어떤 확률변수의 실현값을 얻습니다. 

이 확률변수는 정규분포를 따르지만, 분산이 시시각각 변합니다.

실제로 데이터를 수집하다보면 전체 자료의 추세에서 크게 벗어나는 이상점(outlier)을 얻기 마련입니다.

다시 말해, 실험을 여러 번 반복하면 때때로 분산이 매우 큰 확률분포를 따르는 것 같은

확률변수의 값을 얻을 수도 있습니다.

 

위와 같은 현상을 묘사하기 위해서 오염정규분포를 활용해 볼 수 있습니다.

우선 아래와 같은 지시함수를 생각해보겠습니다.

$ I_{1-\epsilon}=\begin{cases}1 & \text{ with probability } 1-\epsilon \\ 0 & \text{ with probability }\epsilon \end{cases} $

그리고 확률변수 $ X $ 를 아래와 같이 정의하겠습니다.

$ X = I_{1-\epsilon}Z+(1-I_{1-\epsilon}) \sigma_c Z $

따라서 $ X $ 는 확률 $ 1-\epsilon $ 으로 표준정규분포를 따르는 한편

확률 $ \epsilon $ 으로 분산이 $ \sigma_c ^2 $ 배만큼 증가한 정규분포를 따르게 됩니다.

다시 말해, $ X $ 는 상대적으로 낮은 확률($ \epsilon $)로 높은 분산의 확률분포를 따르는 것 같은 행태를 보입니다.

이 확률변수의 누적분포함수를 구해보면 아래와 같습니다.

$ F_X (x)= P(X \leq x)=P(Z \leq x|I_{1-\epsilon}=1)(1-\epsilon)+P(\sigma_c Z \leq x|I_{1-\epsilon}=0)\epsilon $

이전 글에서 정규확률변수를 다루면서 이의 누적분포함수를 $ P(Z \leq x)=\mathbf{\Phi}(x) $ 와 같이 표기했습니다.

한편, $ P(\sigma_c Z \leq x) $ 의 확률은 $ P(Z \leq x/\sigma_c)=\mathbf{\Phi}(x/\sigma_c) $ 로 다시 쓸 수 있습니다.

위의 사실들을 종합하면 $ X $ 의 누적분포함수는 $ F_X (x)=(1-\epsilon)\mathbf{\Phi}(x)+\epsilon\mathbf{\Phi}(x/\sigma_c) $ 와 같이 계산됩니다.

이 누적분포함수를 미분하면 $ (1-\epsilon)\phi(x)+\epsilon/\sigma_c \phi(x/\sigma_c) $ 의 식을 얻고 이는 $ X $ 의 확률밀도함수가 됩니다.

한편, $ X $ 의 평균과 분산은 아래와 같은 식으로 계산할 수 있습니다.

$ E[X] = E[I_{1-\epsilon}Z+(1-I_{1-\epsilon}) \sigma_c Z]=(1-\epsilon)E[Z]+\epsilon \sigma_cE[Z]=0 $
$ E[X^2]=E[Z^2 I_{1-\epsilon}^2 + (\sigma_c Z)^2 (1-I_{1-\epsilon})^2+2Z^2 \sigma_c I_{1-\epsilon}(1-I_{1-\epsilon})]=E[Z^2](1-\epsilon+\sigma_c^2 \epsilon)=1+\epsilon(\sigma_c^2-1) $
$ Var(X)=E[X^2]-(E[X])^2=1+\epsilon(\sigma_c^2-1) $

 

이제 다변량 정규분포(multivariate normal distribution)를 정의해보겠습니다.

다변량 정규분포는 여러 개의 확률변수가 함께 정규분포를 따르는 것을 묘사할 수 있습니다.

일반적인 다변량 정규분포를 정의하기에 앞서 아래와 같은 다변량 분포를 생각해보겠습니다.

$ Z_1,Z_2,...,Z_n $ 은 서로 독립이고, 각각 평균이 0이면서 분산이 1인 정규분포를 따릅니다.

다시 말해서, 모든 $ i=1,2,...,n $ 에 대해 $ Z_i $ 는 표준정규분포를 따릅니다.

한편, 위 확률변수들을 원소로 갖는 확률벡터 $ \mathbf{Z}=(Z_1,Z_2,...,Z_n)' $ 의 평균과 공분산 행렬은 아래와 같습니다.

$ E[\mathbf{Z}]=(0,0,...,0)'=\mathbf{0} $
$ Var(\mathbf{Z})=\mathbf{I}_n $
(이하의 글에서는 $ \mathbf{X} $ 의 공분산 행렬을 $ Cov(\mathbf{X}) $ 가 아닌 $ Var(\mathbf{X}) $ 로 표기하겠습니다.)

위의 결과를 $ \mathbf{Z} \sim N(\mathbf{0},\mathbf{I}_n) $ 또는 $ \mathbf{Z} \sim N_n(\mathbf{0},\mathbf{I}_n) $ 과 같이 표현하기도 합니다.

그리고 $ Z_1,Z_2,...,Z_n $ 의 결합확률밀도함수 및 적률생성함수는 아래와 같이 계산됩니다.

$ f(z_1,z_2,...,z_n)=\frac{1}{(\sqrt{2 \pi})^n}exp(-\sum_{k=1}^n \frac{z_k^2}{2}) $
$ M(\mathbf{t})=E[exp(\mathbf{t'Z})]=E[exp(\sum_{k=1}^n t_k z_k)]=\prod_{k=1}^n exp(t_k^2 /2)=exp(\mathbf{t't}/2) $

 

한편, 위의 다변량 분포는 다변량 정규분포의 특별한 경우로 간주할 수 있습니다.

일반적인 다변량 정규분포는 임의의 평균과 공분산 행렬을 가질 수 있습니다.

예를 들어 어떤 다변량 정규분포가 $ \mathbf{\Sigma} $ 의 공분산 행렬을 가진다고 해보겠습니다.

이 공분산 행렬은 positive semidefinite하므로 nonnegative한 대각원소를 갖는 어떤 대각행렬 $ \mathbf{D} $ 와 congruent합니다.

따라서 이 공분산 행렬은 $ \mathbf{\Sigma}=\mathbf{\Gamma'D\Gamma} $ 와 같이 분해할 수 있습니다.

위의 대각행렬 $ \mathbf{D} $ 는 여러 행렬이 될 수 있지만

이하에서는 행렬 $ \mathbf{D} $ 가 $ \mathbf{\Sigma} $ 의 고윳값들로 구성되어 있는 특별한 경우를 고려하겠습니다.

위와 같은 특별한 경우에는 행렬 $ \mathbf{\Gamma} $ 는 $ \mathbf{\Sigma} $ 의 고유벡터로 구성된 orthogonal(i.e. $ \mathbf{\Gamma'\Gamma}=\mathbf{I}_n $ ) 행렬이 됩니다.

한편, $ \mathbf{D} $ 의 대각원소들은 모두 nonnegative하고, 따라서 제곱근을 가집니다.

그러므로 $ \mathbf{D^{1/2}}\mathbf{D^{1/2}}=\mathbf{D} $ 를 만족하는 대각행렬 $ \mathbf{D^{1/2}} $ 이 존재합니다.

이때 $ \mathbf{\Sigma^{1/2}} $ 을 $ \mathbf{\Gamma' D^{1/2} \Gamma} $ 로 정의하면 $ \mathbf{ \Sigma^{1/2} \Sigma^{1/2} } = (\mathbf{ \Sigma^{1/2}})\mathbf{'\Sigma^{1/2} }=\mathbf{ \Sigma} $ 식이 성립함을 알 수 있습니다.

이제 위 글에서 언급한 $ \mathbf{Z} $ 를 활용해서 $ \mathbf{\mu} $ 의 평균과 $ \mathbf{\Sigma} $ 의 공분산 행렬을 갖는 다변량 정규분포를 정의해보겠습니다.

확률벡터 $ \mathbf{X} $ 는 다음과 같은 $ \mathbf{Z} $ 의 변환으로 주어집니다.

$ \mathbf{X}=\mathbf{\Sigma ^ {1/2}Z}+\mathbf{\mu} $

일단 확률벡터 $ \mathbf{X} $ 는 아래와 같은 평균, 공분산 행렬을 갖습니다.

$ E[\mathbf{X}]=E[\mathbf{\Sigma ^ {1/2}Z}+\mathbf{\mu}]=\mathbf{\mu} $
$ Var(\mathbf{X})=Var(\mathbf{\Sigma ^ {1/2}Z})=\mathbf{\Sigma^{1/2}}Var(\mathbf{Z})\mathbf{\Sigma^{1/2}}=\mathbf{\Sigma} $

한편, $ \mathbf{X} $ 의 적률생성함수를 계산해보면 아래와 같습니다.

$ M_{\mathbf{X}}(\mathbf{t})=E[exp(\mathbf{t'X})]=E[exp(\mathbf{t'}(\mathbf{\Sigma ^ {1/2}Z}+\mathbf{\mu}))] $ 

바로 위 식의 우변을 정리하면 다음과 같은 식을 얻습니다.

$ E[exp(\mathbf{t'}(\mathbf{\Sigma ^ {1/2}Z}+\mathbf{\mu}))]=E[exp(\mathbf{t'\mu})]E[exp((\mathbf{\Sigma^{1/2}t})\mathbf{'Z})]=E[exp(\mathbf{t'\mu})]E[exp((\mathbf{\Sigma^{1/2}t})'(\mathbf{\Sigma^{1/2}t})/2)]=E[exp(\mathbf{t'\mu})]E[exp(\mathbf{t'\Sigma t}/2)] $

위와 같은 적률생성함수에 대응되는 $ \mathbf{X} $ 의 다변량 분포를

다변량 정규분포라고 부르고, $ \mathbf{X} \sim N(\mathbf{\mu},\mathbf{\Sigma}) $ 와 같이 표현하기도 합니다.

 

한편, 공분산 행렬 $ \mathbf{\Sigma} $ 는 대개의 경우 positive definite할 것으로 생각할 수 있습니다.

사실 공분산 행렬의 고윳값이 0을 포함하는 것은 확률변수들이 완벽한 선형관계를 가지고 있다는 것과 동치입니다.

이를 확률변수들 간 다중공선성(multicollinearity)이 있다고 표현하기도 합니다.

확률변수 사이에 완벽한 선형관계가 있다는 것은

이들 변수 중 일부가 임의성이 전혀 없다는 것을 의미하고, 따라서 이들을 배제할 수 있다는 의미가 됩니다.

요컨대, 모든 공분산 행렬은 적절한 조작을 통해 positive definite하게 만들 수 있습니다.

만약 공분산 행렬 $ \mathbf{\Sigma} $ 가 positive definite하다면 $ \mathbf{\Sigma}^{1/2} $ 역시도 positive definite 합니다.

그리고 이의 역행렬 $ \mathbf{\Sigma}^{-1/2} $ 을 생각할 수 있게 됩니다.

그렇다면, $ \mathbf{X}=\mathbf{\Sigma ^ {1/2}Z}+\mathbf{\mu} $ 의 역변환을 아래와 같이 써볼 수 있습니다.

$ \mathbf{Z}=\mathbf{\Sigma ^ {-1/2}}(\mathbf{X}-\mathbf{\mu}) $

이 역변환에 대응되는 자코비안 행렬식은 $ det(\partial \mathbf{z}/\partial \mathbf{x})=det(\Sigma ^ {-1/2})=det(\Sigma)^{-1/2} $ 으로 계산됩니다.

따라서 $ \mathbf{X} $ 의 결합확률밀도함수는 아래와 같이 쓸 수 있습니다.

$ f_{\mathbf{X}}(\mathbf{x})=\frac{1}{(\sqrt{2 \pi})^n(det(\Sigma))^{1/2}}exp(-(\mathbf{x}-\mathbf{\mu})'\mathbf{\Sigma^{-1}}(\mathbf{x}-\mathbf{\mu})/2) $ for all $ \mathbf{x} \in \mathbb{R}^n $

 

이번 글에서는 오염정규분포와 다변량 정규분포에 대해 써보았습니다.

다음 글에서는 다변량 정규분포의 성질에 대해 써보겠습니다.