지난 글에서는 이변량 분포에 관한 기본적인 개념들을 소개했습니다.
이번 글에서도 이변량 분포에서 자주 등장하는 개념들에 대해 써보려고 합니다.
지난 글에서 이변량 분포의 누적분포함수를 다음과 같이 정의했습니다.
$ F_{X_1,X_2}(x_1,x_2)=P(X_1 \leq x_1 , X_2 \leq x_2) $
이 누적분포함수를 이용하면 두 확률변수 $ X_1, X_2 $ 가 어떤 구간에 놓일 확률을 계산할 수 있습니다.
가령 $ P(a_1 < X_1 \leq b_1 , a_2 < X_2 \leq b_2) $ 를 계산한다고 해보겠습니다.
일단 집합 $ Z_1 = \left \{ (x_1,x_2) \in \mathbb{R}^2 | -\infty < x_1 \leq b_1 , -\infty < x_2 \leq b_2 \right \} $ 을 생각해보겠습니다.
이 집합은 누적분포함수의 정의에 따라 $ P((X_1,X_2) \in Z_1)=p_{X_1,X_2}(Z_1)=F_{X_1,X_2}(b_1,b_2) $ 를 만족합니다.
그리고 $ Z_1 $ 은 서로소인 아래 두 집합을 합집합한 결과입니다.
$ Z_2 = \left \{ (x_1,x_2) \in \mathbb{R}^2 | -\infty < x_1 \leq a_1 , -\infty < x_2 \leq b_2 \right \} $
$ Z_3 = \left \{ (x_1,x_2) \in \mathbb{R}^2 | a_1 < x_1 \leq b_1 , -\infty < x_2 \leq b_2 \right \} $
$ Z_1 = Z_2 \sqcup Z_3 $
따라서 $ p_{X_1,X_2}(Z_1)=F_{X_1,X_2}(b_1,b_2)=p_{X_1,X_2}(Z_2)+p_{X_1,X_2}(Z_3) $ 가 성립합니다.
위 식에서 $ p_{X_1,X_2}(Z_2) $ 역시도 누적분포함수식으로 다시 쓸 수 있으므로
$ p_{X_1,X_2}(Z_3) = F_{X_1,X_2}(b_1,b_2) - F_{X_1,X_2}(a_1,b_2) $ 가 성립함을 알 수 있습니다.
한편 $ Z_4 = \left \{ (x_1,x_2) \in \mathbb{R}^2 | a_1 < x_1 \leq b_1 , -\infty < x_2 \leq a_2 \right \} $ 와 같은 집합을 정의한다면
비슷한 계산과정을 거쳐서 $ p_{X_1,X_2}(Z_4)=F_{X_1,X_2}(b_1,a_2) - F_{X_1,X_2}(a_1,a_2) $ 의 식을 얻을 수 있습니다.
그런데 $ Z_4 \sqcup \left \{ (x_1,x_2) \in \mathbb{R}^2 | a_1 < X_1 \leq b_1 , a_2 < X_2 \leq b_2 \right \} = Z_3 $ 가 성립하기 때문에
아래의 결과식을 얻을 수 있습니다.
$ P(a_1 < X_1 \leq b_1 , a_2 < X_2 \leq b_2)=p_{X_1,X_2}(Z_3)-p_{X_1,X_2}(Z_4)=F_{X_1,X_2}(b_1,b_2) - F_{X_1,X_2}(a_1,b_2)-F_{X_1,X_2}(b_1,a_2)+F_{X_1,X_2}(a_1,a_2) $
다음으로는 이변량 분포에서 자주 등장하는 주변확률분포에 대해서 써보겠습니다.
앞서 언급했듯이, 이변량 분포에서는 두 확률변수가 동시에 변화할 수 있습니다.
그런데 경우에 따라서는 두 확률변수 가운데 한 개 변수만을 고려할 때의 분포가 필요할 수도 있습니다.
다시 말해, $ X_1, X_2 $ 가 모두 변화하는 가운데 $ P(X_1 = x_1) $ 의 확률을 생각해야 할 때도 있습니다.
우선 $ (X_1, X_2) $ 가 이산확률벡터임을 가정하겠습니다.
$ P(X_1 = x_1) $ 의 확률은 전확률정리를 통해 아래와 같이 표현할 수 있습니다.
$ P(X_1 = x_1)=\sum_{w_2}^{}P(X_1 = x_1,X_2=w_2)=\sum_{w_2}^{}p_{X_1,X_2}(x_1,w_2) $
위 식의 마지막 부분에서 등장한 $ \sum_{w_2}^{}p_{X_1,X_2}(x_1,w_2) $ 는
$ X_1 $ 의 주변확률질량함수(marginal probability mass function)라고 하고, $ p_{X_1}(x_1) $ 과 같이 표현합니다.
연속확률벡터의 경우에도 합 기호 대신 적분 기호를 써서 아래와 같은 식을 얻을 수 있습니다.
$ P(X_1 \leq x_1)=\int_{-\infty}^{\infty}P(X_1 \leq x_1 , X_2=w_2)dw_2 =\int_{-\infty}^{\infty}\int_{-\infty}^{x_1}f_{X_1,X_2}(w_1,w_2)dw_1 dw_2 $
이렇게 $ X_1 $ 만을 고려한 누적분포함수를 주변누적분포함수(marginal cumulative distribution function)라고 합니다.
그리고 이를 미분하면 아래와 같이 주변확률밀도함수(marginal probability density function)를 얻을 수 있습니다.
$ f_{X_1}(x_1)=\frac{d}{dx_1}[\int_{-\infty}^{\infty}\int_{-\infty}^{x_1}f_{X_1,X_2}(w_1,w_2)dw_1 dw_2]=\int_{-\infty}^{\infty}f_{X_1,X_2}(x_1,w_2)dw_2 $
이번 글에서는 이변량 분포에서 자주 쓰이는 주변확률분포에 대해서 써보았습니다.
다음 글에서는 이변량 분포에서 평균을 어떻게 정의하는지에 대해 써보겠습니다.
'수학 > 수리통계학' 카테고리의 다른 글
수리통계학 (15) - 연속확률벡터의 변환 (0) | 2021.12.06 |
---|---|
수리통계학 (14) - 이변량 분포의 다른 특성들 (0) | 2021.12.06 |
수리통계학 (12) - 이변량 분포 (0) | 2021.12.05 |
수리통계학 (11) - 통계학의 다른 부등식들 (0) | 2021.12.03 |
수리통계학 (10) - 자주 쓰이는 여러 부등식들 (0) | 2021.12.02 |