본문 바로가기

수학/수리통계학

수리통계학 (34) - 다변량 정규분포의 성질

지난 글에서는 정규분포를 응용한 확률분포들에 대해 써보았습니다.

이번 글에서는 다변량 정규분포의 성질에 대해 써보겠습니다.

 

우선 $ \mathbf{X} $ 가 다변량 정규분포를 따르고 $ \mathbf{\mu} $ 와 $ \mathbf{\Sigma} $ 의 평균 및 공분산 행렬을 가진다고 해보겠습니다.

그리고 $ \mathbf{X} $ 를 아래와 같이 변환한 새로운 확률벡터 $ \mathbf{Y} $ 를 생각해보겠습니다.

$ \mathbf{Y}=\mathbf{AX}+\mathbf{b} $

이때, $ \mathbf{A} $ 와 $ \mathbf{b} $ 는 임의의 상수행렬 혹은 상수벡터입니다.

그러면 $ \mathbf{Y} $ 는 다변량 정규분포를 따르고 $ \mathbf{Y} \sim N(\mathbf{A\mu+b},\mathbf{A \Sigma A'}) $ 을 만족합니다.

위의 사실은 다변량 정규분포의 적률생성함수를 활용해서 보일 수 있습니다.

앞선 글에서 $ \mathbf{\mu} $ 의 평균과 $ \mathbf{\Sigma} $ 의 공분산 행렬을 지니는 다변량 정규분포에 대응되는

적률생성함수를 $ exp(\mathbf{t'\mu})exp(\mathbf{t'\Sigma t}/2) $ 와 같이 표현했습니다.

한편 $ \mathbf{Y} $ 의 적률생성함수는 아래와 같이 나타낼 수 있습니다.

$ M_{\mathbf{Y}}(\mathbf{t})=E[exp(\mathbf{t'Y})]=E[exp(\mathbf{t'}\mathbf{AX}+\mathbf{t'b})]=E[exp(\mathbf{t'b}+(\mathbf{A't})\mathbf{'X})] $

위 식의 우변을 정리해서 다시 써보면 아래와 같은 식이 성립함을 알 수 있습니다.

$ M_{\mathbf{Y}}(\mathbf{t})=exp(\mathbf{t'b})E[exp((\mathbf{A't})\mathbf{'\mu}+\mathbf{t'}(\mathbf{A \Sigma A'})\mathbf{t}/2)]=exp(\mathbf{t'}(\mathbf{b+A\mu}))exp(\mathbf{t'} ( \mathbf{ A \Sigma A' } ) \mathbf{t} /2)) $

바로 위 식은 평균이 $ \mathbf{b+A\mu} $ 이고 공분산 행렬이 $ \mathbf{ A \Sigma A'} $ 인

다변량 정규분포의 적률생성함수입니다. 따라서 $ \mathbf{Y} $ 가 상기한 분포를 따르는 것을 알 수 있습니다.

다시 말해, 다변량 정규분포를 따르는 확률벡터가 주어지면

이 벡터를 선형변환하여 얻은 벡터는 다시금 다변량 정규분포를 따르게 됩니다.

 

이제 다변량 정규분포의 주변확률분포를 정의해보겠습니다.

확률벡터 $ \mathbf{X}=(X_1,X_2,...,X_n)' $ 이 위에서와 같이 $ \mathbf{X} \sim N(\mathbf{\mu},\mathbf{\Sigma}) $ 를 만족한다고 해보겠습니다.

한편, 행렬 $ \mathbf{A} $ 를 아래와 같이 정의해보겠습니다.

$ \mathbf{A}=(\mathbf{I_m} \vdots \mathbf{O_{mp}}) $
(위 식에서 $ m $ 은 $ n $ 보다 작은 어떤 숫자이고 $ p=n-m $ 입니다.)

다시 말해, $ \mathbf{A} $ 는 어떤 $ m \times m $ 단위행렬과 $ m \times p $ 영행렬을 옆으로 나란히 합친 행렬입니다.

위에서 주어진 확률벡터 $ \mathbf{X} $ 와 행렬 $ \mathbf{A} $ 를 곱하면 $ \mathbf{AX}=(X_1,X_2,...,X_m)' $ 의 식을 얻습니다.

이렇게 얻은 새로운 확률벡터 $ \mathbf{AX} $ 는 $ \mathbf{X} $ 의 부분벡터(subvector)가 됩니다.

따라서 $ \mathbf{AX} $ 의 확률분포는 $ \mathbf{X} $ 의 주변확률분포로 간주할 수 있습니다.

한편 원래의 확률벡터 $ \mathbf{X} $ 의 평균과 공분산 행렬도 아래와 같이 분할해서 표현할 수 있습니다.

$ \large{\mathbf{\mu}=(E[X_1],E[X_2],...,E[X_n])'=\begin{pmatrix} \mathbf{\mu_m} \\ \mathbf{\mu_p} \end{pmatrix}} $
$ \large{\mathbf{\Sigma}=\begin{pmatrix} \mathbf{\Sigma_{mm}} \quad \mathbf{\Sigma_{mp}} \\ \mathbf{\Sigma_{pm}} \quad\mathbf{\Sigma_{pp}} \end{pmatrix}} $

이때, $ \mathbf{AX}=(X_1,X_2,...,X_m)' $ 은 다변량 정규분포를 따르고 $ \mathbf{AX} \sim N_m(\mathbf{\mu_m},\mathbf{\Sigma_{mm}}) $ 이 성립합니다.

왜냐하면 $ \mathbf{AX} $ 는 다변량 정규분포를 따르는 $ \mathbf{X} $ 를 선형변환한 결과이기 때문입니다.

달리 말해서, 임의의 다변량 정규분포에서 몇 개의 확률변수를 추려내서

이들의 주변확률분포를 구하면 다시금 다변량 정규분포를 얻게 됩니다.

 

이하에서는 확률벡터 $ \mathbf{X}=(X_1,X_2,...,X_n)' $ 을 아래와 같이 분할해서 표현하겠습니다.

$ \large{ \mathbf{X} = \begin{pmatrix} \mathbf{X_m} \\ \mathbf{X_p} \end{pmatrix} } $ ( $ \mathbf{X_m}=(X_1,X_2,...,X_m)' $ , $ \mathbf{X_p}=(X_{m+1},X_{m+2},...,X_n)' $ )

이때, $ \mathbf{X_m} $ 과 $ \mathbf{X_p} $ 가 서로 독립인가 하는 것은 $ \mathbf{X} $ 의 공분산 행렬을 보면 알 수 있습니다.

구체적으로, $ \mathbf{X_m} $ 과 $ \mathbf{X_p} $ 가 서로 독립일 필요충분조건은 $ \mathbf{\Sigma_{mp}} $ (혹은 $ \mathbf{\Sigma_{pm}} $ ) 가 영행렬인 것입니다.

위의 사실을 보이기 위해서 $ \mathbf{X} $ 의 결합적률생성함수를 다시 써보겠습니다.

$ M_{\mathbf{X}}(\mathbf{t})=E[exp(\mathbf{t'X})]=exp(\mathbf{t'\mu}+\mathbf{t'\Sigma t}/2)  $

그런데 $ \mathbf{X} $ 를 한꺼번에 고려하는 대신 $ \mathbf{X_m} $ 과 $ \mathbf{X_p} $ 를 별도로 취급한 결합적률생성함수를 구해보면 아래와 같습니다. 

$ M_{\mathbf{X_m},\mathbf{X_p}} (\mathbf{t_m},\mathbf{t_p})=E[exp(\mathbf{t_m'X_m}+\mathbf{t_p'X_p})]=exp(\mathbf{t_m'\mu_m}+\mathbf{t_p'\mu_p}+[\mathbf{t_m'\Sigma_{mm} t_m}+\mathbf{t_m'\Sigma_{mp} t_p}+\mathbf{t_p'\Sigma_{pm} t_m}+\mathbf{t_p'\Sigma_{pp} t_p}]/2) $

한편, $ \mathbf{X_m} $ 과 $ \mathbf{X_p} $ 의 주변적률생성함수를 곱한 결과는 아래와 같습니다.

$ M_{\mathbf{X_m}}(\mathbf{t_m})M_{\mathbf{X_p}}(\mathbf{t_p})=exp(\mathbf{t_m'\mu_m}+\mathbf{t_m'\Sigma_{mm} t_m}/2)exp(\mathbf{t_p'\mu_p}+\mathbf{t_p'\Sigma_{pp} t_p}/2) $

그런데 $ \mathbf{X_m} $ 과 $ \mathbf{X_p} $ 가 독립일 필요충분조건은 이들의 주변적률생성함수를 곱한 결과가

전체 결합적률생성함수와 같아져야 한다는 것입니다.

따라서 아래와 같은 식을 얻게 됩니다.

$ exp(\mathbf{t_m'\mu_m}+\mathbf{t_p'\mu_p}+[\mathbf{t_m'\Sigma_{mm} t_m}+\mathbf{t_m'\Sigma_{mp} t_p}+\mathbf{t_p'\Sigma_{pm} t_m}+\mathbf{t_p'\Sigma_{pp} t_p}]/2) =exp(\mathbf{t_m'\mu_m}+\mathbf{t_m'\Sigma_{mm} t_m}/2)exp(\mathbf{t_p'\mu_p}+\mathbf{t_p'\Sigma_{pp} t_p}/2) $ 

위 식이 모든 $ \mathbf{t_m},\mathbf{t_p} $ 에 대해 성립할 필요충분조건은 $ \mathbf{\Sigma_{pm}}=\mathbf{O_{pm}} $ (또는 $ \mathbf{\Sigma_{pm}'}=\mathbf{\Sigma_{mp}}=\mathbf{O_{mp}} $ ) 임을 알 수 있습니다.

 

이제 다변량 정규분포의 성질 한 가지를 더 언급하고 글을 마치겠습니다.

$ \mathbf{X} \sim N_n(\mathbf{\mu},\mathbf{\Sigma}) $ 가 성립하고 $ \mathbf{\Sigma} $ 는 positive definite이라고 가정하겠습니다.

그리고 다시 한번 $ \mathbf{X} $ 가 $ \begin{pmatrix} \mathbf{X_m} \\ \mathbf{X_p} \end{pmatrix} $ 와 같이 분할될 수 있다고 하겠습니다.

이때 $ \mathbf{X_m}|\mathbf{X_p} $ 의 조건부 확률분포는 아래와 같이 주어집니다.

$ \mathbf{X_m}|\mathbf{X_p} \sim N_m(\mathbf{\mu_m}+\mathbf{\Sigma_{mp}\Sigma_{pp}^{-1}}(\mathbf{X_p}-\mathbf{\mu_p}),\mathbf{\Sigma_{mm}}-\mathbf{\Sigma_{mp}\Sigma_{pp}^{-1}\Sigma_{pm}}) $

위의 사실을 보이기 위해, 확률벡터 $ \mathbf{W}:=\mathbf{X_m}-\mathbf{\Sigma_{mp}\Sigma_{pp}^{-1}X_p} $ 를 새로이 정의하겠습니다.

한편, $ \mathbf{W} $ 와 $ \mathbf{X_p} $ 는 아래와 같은 선형변환의 결과로 이해할 수도 있습니다.

$ \large{\begin{pmatrix} \mathbf{W} \\ \mathbf{X_p} \end{pmatrix}=\begin{pmatrix} \mathbf{I_m} & -\mathbf{\Sigma_{mp}\Sigma_{pp}^{-1}} \\ \mathbf{O_{pm}} & \mathbf{I_p}\end{pmatrix}\begin{pmatrix} \mathbf{X_m} \\ \mathbf{X_p} \end{pmatrix}} $

따라서 $ (\mathbf{W} , \mathbf{X_p})' $ 의 평균과 공분산 행렬은 아래와 같이 주어집니다.

$ \large{E[(\mathbf{W} , \mathbf{X_p})'] = (\mathbf{\mu_m}-\mathbf{\Sigma_{mp}\Sigma_{pp}^{-1}\mu_p},\mathbf{\mu_p})'} $

$ \large{Var((\mathbf{W} , \mathbf{X_p})')=\begin{pmatrix} \mathbf{I_m} & -\mathbf{\Sigma_{mp}\Sigma_{pp}^{-1}} \\ \mathbf{O_{pm}} & \mathbf{I_p}\end{pmatrix}    \begin{pmatrix} \mathbf{\Sigma_{mm}} & \mathbf{\Sigma_{mp}} \\ \mathbf{\Sigma_{pm}} & \mathbf{\Sigma_{pp}}\end{pmatrix}    \begin{pmatrix} \mathbf{I_m} & \mathbf{O_{mp}}  \\ -\mathbf{\Sigma_{pp}^{-1}\Sigma_{pm}} & \mathbf{I_p}\end{pmatrix}=\begin{pmatrix} \mathbf{\Sigma_{mm}}-\mathbf{\Sigma_{mp}\Sigma_{pp}^{-1}\Sigma_{pm}} & \mathbf{O_{mp}}  \\ \mathbf{O_{pm}} & \mathbf{\Sigma_{pp}}\end{pmatrix} } $

바로 위의 공분산 행렬을 통해서 $ \mathbf{W} $ 와 $ \mathbf{X_p} $ 가 서로 독립임을 알 수 있습니다.

한편 $ \mathbf{W} $ 는 $ \mathbf{X_m},\mathbf{X_p} $ 를 선형결합한 결과이므로 다변량 정규분포를 따르게 됩니다.

위의 사실들을 종합하면 $ \mathbf{W}|\mathbf{X_p} $ 의 조건부 확률분포는 아래와 같이 주어집니다.

$ \mathbf{W}|\mathbf{X_p} \sim N_m(\mathbf{\mu_m}-\mathbf{\Sigma_{mp}\Sigma_{pp}^{-1}\mu_p},\mathbf{\Sigma_{mm}}-\mathbf{\Sigma_{mp}\Sigma_{pp}^{-1}\Sigma_{pm}}) $

따라서 $ \mathbf{X_m}(=\mathbf{W}+\mathbf{\Sigma_{mp}\Sigma_{pp}^{-1} X_p}) $ 은 아래와 같은 조건부 확률분포를 갖게 됩니다.

$ \mathbf{X_m}|\mathbf{X_p} \sim N_m(\mathbf{\mu_m}+\mathbf{\Sigma_{mp}\Sigma_{pp}^{-1}}(\mathbf{X_p}-\mathbf{\mu_p}),\mathbf{\Sigma_{mm}}-\mathbf{\Sigma_{mp}\Sigma_{pp}^{-1}\Sigma_{pm}}) $

 

이번 글에서는 다변량 정규분포의 성질에 대해 써보았습니다.

다음 글에서는 t-분포와 F-분포에 대해 써보겠습니다.