본문 바로가기

수학/수리통계학

수리통계학 (21) - 확장된 다변량 분포

지난 글에서는 확률변수의 독립과 동치가 되는 조건들에 대해 써보았습니다.

이번 글에서는 3개 이상의 확률변수를 갖는 확장된 다변량 분포에 대해 써보려고 합니다.

 

사실 확장된 다변량 분포에서는 이변량 분포에서 성립하는 많은 성질들을 그대로 쓸 수 있습니다.

왜냐하면 이변량 분포의 성질들을 증명할 때 쓰였던 논리들이 확장된 다변량 분포에도 똑같이 적용되기 때문입니다.

우선 확장된 다변량 분포에서의 누적분포함수를 정의하는 것으로 시작하겠습니다.

확률벡터 $ \mathbf{X}=(X_1,X_2,...,X_n)' $ 의 누적분포함수는 아래와 같이 정의됩니다.

$ F_{\mathbf{X}}(x_1,x_2,...,x_n):=P(X_1 \leq x_1 , X_2 \leq x_2 ,..., X_n \leq x_n) $

한편, $ \mathbf{X} $ 가 이산확률벡터라고 하고, 이의 확률질량함수를 $ p_{\mathbf{X}}(x_1,x_2,...x_n) $ 라고 하면 아래 식이 성립합니다.

$ F_{\mathbf{X}}(x_1,x_2,...,x_n)=\sum_{w_1 \leq x_1}^{}\sum_{w_2 \leq x_2}^{}...\sum_{w_n \leq x_n}^{}p_{\mathbf{X}}(w_1,w_2,...,w_n) $

$ \mathbf{X} $ 가 연속확률벡터라고 해도 합 기호 대신 적분 기호를 쓰면 같은 식이 성립하게 됩니다.

$ F_{\mathbf{X}}(x_1,x_2,...,x_n)=\int_{-\infty}^{x_1}\int_{-\infty}^{x_2}...\int_{-\infty}^{x_n}f_{\mathbf{X}}(w_1,w_2,...,w_n)dw_n ... dw_1 $

바로 위 식의 $ f_{\mathbf{X}}(\cdot) $ 는 $ \mathbf{X} $ 의 확률밀도함수로서 아래와 같이 정의됩니다.

$ f_{\mathbf{X}}(x_1,x_2,...,x_n):=\frac{\partial ^n F_{\mathbf{X}}(x_1,x_2,...,x_n)}{\partial x_1 \partial x_2 ... \partial x_n} $

이하에서는 $ \mathbf{X} $ 가 연속확률벡터라고 가정하겠습니다.

하지만 앞으로 나열할 정의나 성질들은 적분 기호를 합 기호로 바꾸면 이산확률벡터에 대해서도 적용할 수 있습니다.

그리고 편의상 확률벡터를 $ \mathbf{x}=(x_1,x_2,...,x_n)' $ 와 같이 표기하겠습니다.

 

어떤 임의의 함수 $ u(\mathbf{x}) $ 의 평균값은 $ \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}...\int_{-\infty}^{\infty}|u(\mathbf{x})|f_{\mathbf{X}}(\mathbf{x})dx_n ... dx_1<\infty $ 가 성립하면, 아래와 같이 정의됩니다.

$ E[u(\mathbf{x})]=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}...\int_{-\infty}^{\infty}|u(\mathbf{x})|f_{\mathbf{X}}(\mathbf{x})dx_n ... dx_1 $

 

한편, 다변량 분포에서도 주변확률분포함수를 정의해 볼 수 있습니다.

가령 확률변수 $ x_1 $ 에 대한 주변확률분포를 얻고 싶다면

결합확률밀도함수 $ f_{\mathbf{X}}(\mathbf{x}) $ 를 나머지 확률변수들 $ x_2,x_3,...,x_n $ 이 가질 수 있는 모든 값에 대해 적분하면 됩니다.

따라서 $ x_1 $ 에 대한 주변확률밀도함수 $ f_1(x_1) $ 은 아래와 같이 표현됩니다.

$ f_1(x_1)=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}...\int_{-\infty}^{\infty}f_{\mathbf{X}}(\mathbf{x})dx_n ... dx_2 $

3개 이상의 확률변수가 함께 변화하는 다변량 분포에서는 여러 개의 확률변수에 대한 주변확률분포를 생각해 볼 수 있습니다.

이 주변확률분포 역시도 관심의 대상이 되는 확률변수들을 제외한

나머지 확률변수들에 대해 결합확률밀도함수를 적분해서 구하게 됩니다.

예컨대 $ x_1,x_2 $ 에 대한 주변확률밀도함수는 $ f_{12}(x_1,x_2)=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}...\int_{-\infty}^{\infty}f_{\mathbf{X}}(\mathbf{x})dx_n ... dx_3 $ 와 같이 구할 수 있습니다.

조건부 확률분포도 이변량 분포에서와 비슷하게 계산할 수 있습니다.

실제로 $ x_1 $ 이 주어졌을 때 나머지 확률변수들에 대한 조건부 확률밀도함수는 아래와 같이 나타낼 수 있습니다.

$ f_{2,...,n|1}(x_2,...,x_n|x_1)=\frac{f_{\mathbf{X}}(\mathbf{x})}{f_1(x_1)} $

 

이번 글에서는 이변량 분포에서 다루었던 개념과 성질들을 일반적인 다변량 분포의 경우로 확장해보았습니다.

다음 글에서는 다변량 분포의 다른 성질들에 대해 써보겠습니다.