지난 글에서는 확률변수의 독립과 동치가 되는 조건들에 대해 써보았습니다.
이번 글에서는 3개 이상의 확률변수를 갖는 확장된 다변량 분포에 대해 써보려고 합니다.
사실 확장된 다변량 분포에서는 이변량 분포에서 성립하는 많은 성질들을 그대로 쓸 수 있습니다.
왜냐하면 이변량 분포의 성질들을 증명할 때 쓰였던 논리들이 확장된 다변량 분포에도 똑같이 적용되기 때문입니다.
우선 확장된 다변량 분포에서의 누적분포함수를 정의하는 것으로 시작하겠습니다.
확률벡터 $ \mathbf{X}=(X_1,X_2,...,X_n)' $ 의 누적분포함수는 아래와 같이 정의됩니다.
$ F_{\mathbf{X}}(x_1,x_2,...,x_n):=P(X_1 \leq x_1 , X_2 \leq x_2 ,..., X_n \leq x_n) $
한편, $ \mathbf{X} $ 가 이산확률벡터라고 하고, 이의 확률질량함수를 $ p_{\mathbf{X}}(x_1,x_2,...x_n) $ 라고 하면 아래 식이 성립합니다.
$ F_{\mathbf{X}}(x_1,x_2,...,x_n)=\sum_{w_1 \leq x_1}^{}\sum_{w_2 \leq x_2}^{}...\sum_{w_n \leq x_n}^{}p_{\mathbf{X}}(w_1,w_2,...,w_n) $
$ \mathbf{X} $ 가 연속확률벡터라고 해도 합 기호 대신 적분 기호를 쓰면 같은 식이 성립하게 됩니다.
$ F_{\mathbf{X}}(x_1,x_2,...,x_n)=\int_{-\infty}^{x_1}\int_{-\infty}^{x_2}...\int_{-\infty}^{x_n}f_{\mathbf{X}}(w_1,w_2,...,w_n)dw_n ... dw_1 $
바로 위 식의 $ f_{\mathbf{X}}(\cdot) $ 는 $ \mathbf{X} $ 의 확률밀도함수로서 아래와 같이 정의됩니다.
$ f_{\mathbf{X}}(x_1,x_2,...,x_n):=\frac{\partial ^n F_{\mathbf{X}}(x_1,x_2,...,x_n)}{\partial x_1 \partial x_2 ... \partial x_n} $
이하에서는 $ \mathbf{X} $ 가 연속확률벡터라고 가정하겠습니다.
하지만 앞으로 나열할 정의나 성질들은 적분 기호를 합 기호로 바꾸면 이산확률벡터에 대해서도 적용할 수 있습니다.
그리고 편의상 확률벡터를 $ \mathbf{x}=(x_1,x_2,...,x_n)' $ 와 같이 표기하겠습니다.
어떤 임의의 함수 $ u(\mathbf{x}) $ 의 평균값은 $ \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}...\int_{-\infty}^{\infty}|u(\mathbf{x})|f_{\mathbf{X}}(\mathbf{x})dx_n ... dx_1<\infty $ 가 성립하면, 아래와 같이 정의됩니다.
$ E[u(\mathbf{x})]=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}...\int_{-\infty}^{\infty}|u(\mathbf{x})|f_{\mathbf{X}}(\mathbf{x})dx_n ... dx_1 $
한편, 다변량 분포에서도 주변확률분포함수를 정의해 볼 수 있습니다.
가령 확률변수 $ x_1 $ 에 대한 주변확률분포를 얻고 싶다면
결합확률밀도함수 $ f_{\mathbf{X}}(\mathbf{x}) $ 를 나머지 확률변수들 $ x_2,x_3,...,x_n $ 이 가질 수 있는 모든 값에 대해 적분하면 됩니다.
따라서 $ x_1 $ 에 대한 주변확률밀도함수 $ f_1(x_1) $ 은 아래와 같이 표현됩니다.
$ f_1(x_1)=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}...\int_{-\infty}^{\infty}f_{\mathbf{X}}(\mathbf{x})dx_n ... dx_2 $
3개 이상의 확률변수가 함께 변화하는 다변량 분포에서는 여러 개의 확률변수에 대한 주변확률분포를 생각해 볼 수 있습니다.
이 주변확률분포 역시도 관심의 대상이 되는 확률변수들을 제외한
나머지 확률변수들에 대해 결합확률밀도함수를 적분해서 구하게 됩니다.
예컨대 $ x_1,x_2 $ 에 대한 주변확률밀도함수는 $ f_{12}(x_1,x_2)=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}...\int_{-\infty}^{\infty}f_{\mathbf{X}}(\mathbf{x})dx_n ... dx_3 $ 와 같이 구할 수 있습니다.
조건부 확률분포도 이변량 분포에서와 비슷하게 계산할 수 있습니다.
실제로 $ x_1 $ 이 주어졌을 때 나머지 확률변수들에 대한 조건부 확률밀도함수는 아래와 같이 나타낼 수 있습니다.
$ f_{2,...,n|1}(x_2,...,x_n|x_1)=\frac{f_{\mathbf{X}}(\mathbf{x})}{f_1(x_1)} $
이번 글에서는 이변량 분포에서 다루었던 개념과 성질들을 일반적인 다변량 분포의 경우로 확장해보았습니다.
다음 글에서는 다변량 분포의 다른 성질들에 대해 써보겠습니다.
'수학 > 수리통계학' 카테고리의 다른 글
수리통계학 (23) - 공분산 행렬 (0) | 2021.12.15 |
---|---|
수리통계학 (22) - 다변량 분포의 성질 (0) | 2021.12.14 |
수리통계학 (20) - 독립확률변수의 성질 (0) | 2021.12.10 |
수리통계학 (19) - 독립확률변수 (0) | 2021.12.09 |
수리통계학 (18) - 조건부 통계량의 활용사례 (0) | 2021.12.08 |