수리통계학 (12) - 이변량 분포

이번 글에서는 여러 확률변수를 갖는 확률분포인 다변량 분포(multivariate distribution)에 대해서 써보겠습니다.

다변량 분포에서는 여러 개의 확률변수가 각자 임의의 값을 가질 수 있게 됩니다.

그런데 이 글에서는 두 개의 확률변수만이 존재하는 이변량 분포(bivariate distribution)로 논의를 한정하려고 합니다.

이렇게 하는 이유는 이변량 분포의 개념이나 성질들을

세 개 이상의 확률변수를 갖는 다변량 분포에도 폭넓게 활용할 수 있기 때문입니다.

우선 어떤 실험을 통해 얻을 수 있는 사건들을 모은 집합인 표본공간 $S$ 를 생각하겠습니다.

그리고 각 $S$ 의 원소를 임의의 실수값에 대응시키는 두 확률변수 $X_1, X_2$ 를 생각해 볼 수 있습니다.

이 두 확률변수를 모은 순서쌍 $(X_1, X_2)$ 를 확률벡터(random vector)라고 합니다.

여기서 확률벡터는 순전히 두 확률변수를 같이 모아둔 것에 불과합니다.

어쨌든 이 확률벡터에 대해서도 지금까지 언급했던 확률변수의 개념들을 적용할 수 있습니다.

우선 이 확률벡터가 가질 수 있는 값들을 모두 모아놓은 집합은 아래와 같습니다.

$D=\left \{ (x_1,x_2) \in \mathbb{R}^2 , x_i=X_i(s)(s \in S , i=1,2) \right \}$

이 집합 $D$ 가 유한하거나 가산집합이라면, 확률벡터 $(X_1, X_2)$ 는 이산확률벡터(discrete random vector)라고 합니다.

반면, $D$ 가 비가산집합이라면 이 확률벡터는 연속확률벡터(continuous random vector)라고 합니다.

$(X_1, X_2)$ 가 이산확률벡터라고 한다면

$P(X_1 = x_1,X_2 = x_2)=p_X(x_1,x_2)$ 를 항상 만족하는 함수 $p_X(\cdot)$ 를 생각해 볼 수 있습니다.

이 함수를 결합확률질량함수(joint probability mass function)라고 합니다.

만약 여러 확률벡터값을 모아놓은 집합 $B$ 가 있다면 이 집합에 대한 확률도 아래와 같이 계산됩니다.

$P((X_1,X_2) \in B)=\sum_{(x_1 , x_2) \in B}^{}p_{X_1,X_2}(x_1,x_2)$

일변량 분포에서와 마찬가지로, 이변량 분포에서도 누적분포함수를 생각할 수 있습니다.

$(X_1, X_2)$ 가 연속확률벡터라고 한다면 누적분포함수 $F_{X_1,X_2}(x_1,x_2)$ 는 아래와 같이 정의됩니다.

$F_{X_1,X_2}(x_1,x_2)=P(X_1 \leq x_1 , X_2 \leq x_2)$

이변량 분포의 결합확률밀도함수(joint probability density function)는

아래의 식을 모든 $(x_1,x_2)\in D$ 에 대해 만족하는 함수 $f_{X_1,X_2}(x_1,x_2)$ 로 정의됩니다.

$\int_{-\infty}^{x_1}\int_{-\infty}^{x_2}f_{X_1,X_2}(t_1,t_2)dt_2 dt_1 =F_{X_1,X_2}(x_1,x_2)=P(X_1 \leq x_1 , X_2 \leq x_2)$

따라서 미적분학의 기본정리를 통해 $f_{X_1,X_2}(x_1,x_2)=\frac{\partial ^2 F_{X_1,X_2}(x_1,x_2)}{\partial x_1\partial x_2}$ 가 성립함을 알 수 있습니다.

연속확률벡터의 경우에도 여러 확률벡터값을 모은 집합 $A$ 의 확률을 적분을 통해 아래와 같이 계산할 수 있습니다.

$P((X_1,X_2) \in A)=\int_{}^{} \int_{A}^{}f_{X_1,X_2}(x_1,x_2)dx_1 dx_2$

확률벡터는 표본공간의 모든 원소에 대응되는 함수입니다.

따라서 모든 확률벡터에 대응되는 확률을 합하면(혹은 적분하면) 아래와 같이 1을 얻게 됩니다.

$P((X_1,X_2) \in D)=\sum_{(x_1 , x_2)\in D}^{}p_{X_1,X_2}(x_1,x_2)=1$ (이산확률벡터의 경우)

$P((X_1,X_2) \in D)=\int_{}^{} \int_{D}^{}f_{X_1,X_2}(x_1,x_2)dx_1 dx_2=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty}f_{X_1,X_2}(x_1,x_2)dx_1 dx_2=1$ (연속확률벡터의 경우)

이번 글에서는 이변량 분포에서 등장하는 기본적인 개념들에 대해서 써보았습니다.

다음 글에서는 이변량 분포와 관련된 다른 개념들에 대해서 써보겠습니다.

'수학 > 수리통계학' 카테고리의 다른 글

수리통계학 (14) - 이변량 분포의 다른 특성들 (0)	2021.12.06
수리통계학 (13) - 이변량 분포의 특성 (0)	2021.12.05
수리통계학 (11) - 통계학의 다른 부등식들 (0)	2021.12.03
수리통계학 (10) - 자주 쓰이는 여러 부등식들 (0)	2021.12.02
수리통계학 (9) - 적률생성함수의 의미 (0)	2021.12.01

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

grigori

수리통계학 (12) - 이변량 분포

'수학 > 수리통계학' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

수리통계학 (12) - 이변량 분포

'수학 > 수리통계학' 카테고리의 다른 글

'수학/수리통계학' Related Articles

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역