Processing math: 100%
본문 바로가기

수학/수리통계학

수리통계학 (12) - 이변량 분포

이번 글에서는 여러 확률변수를 갖는 확률분포인 다변량 분포(multivariate distribution)에 대해서 써보겠습니다.

다변량 분포에서는 여러 개의 확률변수가 각자 임의의 값을 가질 수 있게 됩니다.

그런데 이 글에서는 두 개의 확률변수만이 존재하는 이변량 분포(bivariate distribution)로 논의를 한정하려고 합니다.

이렇게 하는 이유는 이변량 분포의 개념이나 성질들을

세 개 이상의 확률변수를 갖는 다변량 분포에도 폭넓게 활용할 수 있기 때문입니다.

 

우선 어떤 실험을 통해 얻을 수 있는 사건들을 모은 집합인 표본공간 S 를 생각하겠습니다.

그리고 각 S 의 원소를 임의의 실수값에 대응시키는 두 확률변수 X1,X2 를 생각해 볼 수 있습니다.

이 두 확률변수를 모은 순서쌍 (X1,X2) 를 확률벡터(random vector)라고 합니다.

여기서 확률벡터는 순전히 두 확률변수를 같이 모아둔 것에 불과합니다.

어쨌든 이 확률벡터에 대해서도 지금까지 언급했던 확률변수의 개념들을 적용할 수 있습니다.

 

우선 이 확률벡터가 가질 수 있는 값들을 모두 모아놓은 집합은 아래와 같습니다.

D={(x1,x2)R2,xi=Xi(s)(sS,i=1,2)}

이 집합 D 가 유한하거나 가산집합이라면, 확률벡터 (X1,X2) 는 이산확률벡터(discrete random vector)라고 합니다.

반면, D 가 비가산집합이라면 이 확률벡터는 연속확률벡터(continuous random vector)라고 합니다.

 

(X1,X2) 가 이산확률벡터라고 한다면

P(X1=x1,X2=x2)=pX(x1,x2) 를 항상 만족하는 함수 pX() 를 생각해 볼 수 있습니다.

이 함수를 결합확률질량함수(joint probability mass function)라고 합니다.

만약 여러 확률벡터값을 모아놓은 집합 B 가 있다면 이 집합에 대한 확률도 아래와 같이 계산됩니다.

P((X1,X2)B)=(x1,x2)BpX1,X2(x1,x2)

 

일변량 분포에서와 마찬가지로, 이변량 분포에서도 누적분포함수를 생각할 수 있습니다.

(X1,X2) 가 연속확률벡터라고 한다면 누적분포함수 FX1,X2(x1,x2) 는 아래와 같이 정의됩니다.

FX1,X2(x1,x2)=P(X1x1,X2x2)

이변량 분포의 결합확률밀도함수(joint probability density function)는

아래의 식을 모든 (x1,x2)D 에 대해 만족하는 함수 fX1,X2(x1,x2) 로 정의됩니다.

x1x2fX1,X2(t1,t2)dt2dt1=FX1,X2(x1,x2)=P(X1x1,X2x2)

따라서 미적분학의 기본정리를 통해 fX1,X2(x1,x2)=2FX1,X2(x1,x2)x1x2 가 성립함을 알 수 있습니다.

연속확률벡터의 경우에도 여러 확률벡터값을 모은 집합 A 의 확률을 적분을 통해 아래와 같이 계산할 수 있습니다.

P((X1,X2)A)=AfX1,X2(x1,x2)dx1dx2

 

확률벡터는 표본공간의 모든 원소에 대응되는 함수입니다.

따라서 모든 확률벡터에 대응되는 확률을 합하면(혹은 적분하면) 아래와 같이 1을 얻게 됩니다.

P((X1,X2)D)=(x1,x2)DpX1,X2(x1,x2)=1 (이산확률벡터의 경우)

P((X1,X2)D)=DfX1,X2(x1,x2)dx1dx2=fX1,X2(x1,x2)dx1dx2=1 (연속확률벡터의 경우)

 

이번 글에서는 이변량 분포에서 등장하는 기본적인 개념들에 대해서 써보았습니다.

다음 글에서는 이변량 분포와 관련된 다른 개념들에 대해서 써보겠습니다.