이번 글에서는 여러 확률변수를 갖는 확률분포인 다변량 분포(multivariate distribution)에 대해서 써보겠습니다.
다변량 분포에서는 여러 개의 확률변수가 각자 임의의 값을 가질 수 있게 됩니다.
그런데 이 글에서는 두 개의 확률변수만이 존재하는 이변량 분포(bivariate distribution)로 논의를 한정하려고 합니다.
이렇게 하는 이유는 이변량 분포의 개념이나 성질들을
세 개 이상의 확률변수를 갖는 다변량 분포에도 폭넓게 활용할 수 있기 때문입니다.
우선 어떤 실험을 통해 얻을 수 있는 사건들을 모은 집합인 표본공간 S 를 생각하겠습니다.
그리고 각 S 의 원소를 임의의 실수값에 대응시키는 두 확률변수 X1,X2 를 생각해 볼 수 있습니다.
이 두 확률변수를 모은 순서쌍 (X1,X2) 를 확률벡터(random vector)라고 합니다.
여기서 확률벡터는 순전히 두 확률변수를 같이 모아둔 것에 불과합니다.
어쨌든 이 확률벡터에 대해서도 지금까지 언급했던 확률변수의 개념들을 적용할 수 있습니다.
우선 이 확률벡터가 가질 수 있는 값들을 모두 모아놓은 집합은 아래와 같습니다.
D={(x1,x2)∈R2,xi=Xi(s)(s∈S,i=1,2)}
이 집합 D 가 유한하거나 가산집합이라면, 확률벡터 (X1,X2) 는 이산확률벡터(discrete random vector)라고 합니다.
반면, D 가 비가산집합이라면 이 확률벡터는 연속확률벡터(continuous random vector)라고 합니다.
(X1,X2) 가 이산확률벡터라고 한다면
P(X1=x1,X2=x2)=pX(x1,x2) 를 항상 만족하는 함수 pX(⋅) 를 생각해 볼 수 있습니다.
이 함수를 결합확률질량함수(joint probability mass function)라고 합니다.
만약 여러 확률벡터값을 모아놓은 집합 B 가 있다면 이 집합에 대한 확률도 아래와 같이 계산됩니다.
P((X1,X2)∈B)=∑(x1,x2)∈BpX1,X2(x1,x2)
일변량 분포에서와 마찬가지로, 이변량 분포에서도 누적분포함수를 생각할 수 있습니다.
(X1,X2) 가 연속확률벡터라고 한다면 누적분포함수 FX1,X2(x1,x2) 는 아래와 같이 정의됩니다.
FX1,X2(x1,x2)=P(X1≤x1,X2≤x2)
이변량 분포의 결합확률밀도함수(joint probability density function)는
아래의 식을 모든 (x1,x2)∈D 에 대해 만족하는 함수 fX1,X2(x1,x2) 로 정의됩니다.
∫x1−∞∫x2−∞fX1,X2(t1,t2)dt2dt1=FX1,X2(x1,x2)=P(X1≤x1,X2≤x2)
따라서 미적분학의 기본정리를 통해 fX1,X2(x1,x2)=∂2FX1,X2(x1,x2)∂x1∂x2 가 성립함을 알 수 있습니다.
연속확률벡터의 경우에도 여러 확률벡터값을 모은 집합 A 의 확률을 적분을 통해 아래와 같이 계산할 수 있습니다.
P((X1,X2)∈A)=∫∫AfX1,X2(x1,x2)dx1dx2
확률벡터는 표본공간의 모든 원소에 대응되는 함수입니다.
따라서 모든 확률벡터에 대응되는 확률을 합하면(혹은 적분하면) 아래와 같이 1을 얻게 됩니다.
P((X1,X2)∈D)=∑(x1,x2)∈DpX1,X2(x1,x2)=1 (이산확률벡터의 경우)
P((X1,X2)∈D)=∫∫DfX1,X2(x1,x2)dx1dx2=∫∞−∞∫∞−∞fX1,X2(x1,x2)dx1dx2=1 (연속확률벡터의 경우)
이번 글에서는 이변량 분포에서 등장하는 기본적인 개념들에 대해서 써보았습니다.
다음 글에서는 이변량 분포와 관련된 다른 개념들에 대해서 써보겠습니다.
'수학 > 수리통계학' 카테고리의 다른 글
수리통계학 (14) - 이변량 분포의 다른 특성들 (0) | 2021.12.06 |
---|---|
수리통계학 (13) - 이변량 분포의 특성 (0) | 2021.12.05 |
수리통계학 (11) - 통계학의 다른 부등식들 (0) | 2021.12.03 |
수리통계학 (10) - 자주 쓰이는 여러 부등식들 (0) | 2021.12.02 |
수리통계학 (9) - 적률생성함수의 의미 (0) | 2021.12.01 |