본문 바로가기

수학/수리통계학

수리통계학 (19) - 독립확률변수

지난 글에서는 조건부 통계량을 활용하는 사례에 대해 써보았습니다.

이번 글에서는 확률변수의 독립에 대해 써보려고 합니다.

 

예전에 쓴 글에서 독립사건을 다루면서

pairwise independence, mutually independence의 개념을 소개한 바 있습니다.

이번 글에서는 확률변수의 독립을 정의해보겠습니다.

 

일단 연속확률변수 $ X_1, X_2 $ 를 생각해보겠습니다.

이때, 두 확률변수가 가질 수 있는 모든 값의 쌍 $ (x_1,x_2) $ 에 대해서

$ f(x_1,x_2)=f_1(x_1)f_2(x_2) $ 가 성립하면 이 두 확률변수 $ X_1,X_2 $ 는 독립이라고 표현합니다.

만약 이들이 독립이 아니라면, 이들은 종속관계를 가진다고 합니다.

위 정의는 $ X_1,X_2 $ 가 이산확률변수인 경우에도 확률밀도함수 대신 확률질량함수를 써서 아래와 같이 쓸 수 있습니다.

$ p(x_1,x_2)=p_1(x_1)p_2(x_2) \Leftrightarrow $ $ X_1,X_2 $ 가 독립관계에 있음

 

한편, 3개 이상의 확률변수에 대해서도 독립여부를 아래와 같이 판단할 수 있습니다.

$ f(x_1,x_2,...,x_n)=\prod_{k=1}^{n}f_k(x_k) \Leftrightarrow $ $ X_1,X_2,...,X_n $ 들이 독립관계에 있음

이때 $ x_1,x_2,...,x_n $ 에서 $ j (\leq n) $ 개의 확률변수 $ x_{i_1},x_{i_2},...,x_{i_j} $ 를 임의로 뽑았다고 해보겠습니다.

그러면 $ f(x_1,x_2,...,x_n)=\prod_{k=1}^{n}f_k(x_k) $ 가 성립하는 것만으로

$ f(x_{i_1},x_{i_2},...,x_{i_j})=\prod_{k=1}^{j}f_{i_k}(x_{i_k}) $ 식이 반드시 성립하는 것을 알 수 있습니다.

 

이하에서는 임의의 확률변수 $ X_1,X_2 $ 가 독립일 필요충분조건에 대해 나열해보겠습니다.

편의상 $ X_1,X_2 $ 가 연속확률변수임을 가정하겠지만, 이산확률변수에 대해서도 똑같이 성립하는 조건들입니다.

 

1. $ f(x_1,x_2)=g(x_1)h(x_2) $ for all $ x_1,x_2 \in \mathbb{R} $ for some $ g(x_1),h(x_2) $

 

일단 $ f(x_1,x_2)=g(x_1)h(x_2) $ 식의 양변을 모든 $ (x_1,x_2) $ 에 대해 적분하면 아래 식을 얻습니다.

$ 1=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}f(x_1,x_2)dx_2 dx_1 =\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}g(x_1)h(x_2)dx_2 dx_1=[\int_{-\infty}^{\infty}g(x_1)dx_1] [\int_{-\infty}^{\infty}h(x_2)dx_2] $

한편 같은 식을 모든 실수 $ x_1 $ (혹은 $ x_2 $ ) 에 대해 적분하면 주변확률밀도함수에 관한 아래 식을 얻게 됩니다.

$ f_2 (x_2)=\int_{-\infty}^{\infty}f(x_1,x_2)dx_1 =\int_{-\infty}^{\infty}g(x_1)h(x_2)dx_1=h(x_2)[\int_{-\infty}^{\infty}g(x_1)dx_1] $
$ f_1 (x_1)=\int_{-\infty}^{\infty}f(x_1,x_2)dx_2 =\int_{-\infty}^{\infty}g(x_1)h(x_2)dx_2=g(x_1)[\int_{-\infty}^{\infty}h(x_2)dx_2] $

위의 두 식을 서로 곱하면 $ f_1 (x_1)f_2(x_2)=g(x_1)h(x_2)[\int_{-\infty}^{\infty}g(x_1)dx_1][\int_{-\infty}^{\infty}h(x_2)dx_2] $ 식을 얻습니다.

바로 위에서 $ [\int_{-\infty}^{\infty}g(x_1)dx_1][\int_{-\infty}^{\infty}h(x_2)dx_2] = 1 $ 임을 보였기 때문에 아래 식이 성립하는 것을 알 수 있습니다.

$ f_1 (x_1)f_2(x_2)=g(x_1)h(x_2) \cdot 1=f(x_1,x_2) $

따라서 독립의 정의에 따라 $ X_1,X_2 $ 가 독립임을 알 수 있습니다.

위 관계식을 통해, 결합확률밀도함수에서 두 확률변수가 가지는 값에 대한 함수를 따로 떼어낼 수 있다면

이들이 독립관계에 있다는 것을 알 수 있습니다.

 

2. $ F(x_1,x_2)=F_1(x_1)F_2(x_2) $ for all $ x_1,x_2 \in \mathbb{R} $

 

우선 $ F(x_1,x_2)=F_1(x_1)F_2(x_2) $ 식이 성립한다고 해보겠습니다.

그러면 누적분포함수의 정의에 따라 $ \frac{\partial ^2}{\partial x_1 \partial x_2}F(x_1,x_2)=f(x_1,x_2) $ 가 성립합니다.

한편 원래 식의 우변을 미분하면 아래 식을 얻게 됩니다.

$ \frac{\partial ^2}{\partial x_1 \partial x_2}[F_1(x_1)F_2(x_2)]=\frac{\partial}{\partial x_1}(F_1(x_1))\frac{\partial}{\partial x_2}(F_2(x_2))=f_1(x_1)f_2(x_2) $

따라서 $ f(x_1,x_2)=f_1(x_1)f_2(x_2) $ 가 성립합니다.

반대로 $ f(x_1,x_2)=f_1(x_1)f_2(x_2) $ 가 성립한다고 했을 때

원래 식이 성립하는 것은 적분을 통해 보일 수 있습니다.

 

이번 글에서는 확률변수의 독립을 정의하고 독립변수들이 만족하는 몇 가지 성질에 대해 써보았습니다.

다음 글에서는 독립변수들에 관한 다른 성질들에 대해 써보겠습니다.