본문 바로가기

수학/수리통계학

수리통계학 (18) - 조건부 통계량의 활용사례

지난 글에서는 조건부 통계량에 관한 여러 식들을 소개했습니다.

이번 글에서는 조건부 통계량이 어떻게 활용될 수 있는지에 대해 써보려고 합니다.

 

이번 글에서부터는 각종 확률분포함수를 표기할 때 아래 첨자를 간략화해서 표현하려고 합니다.

사실 혼동의 여지만 없다면 아래첨자는 생략되기도 합니다.($ f_{X_1,X_2}(x_1,x_2) = f(x_1,x_2) $ )

혹은 아래첨자에 변수 대신 숫자를 써서 간략하게 표현할 수도 있습니다.($ f_{X_1,X_2}(x_1,x_2) = f_{12}(x_1,x_2) $ )

조건부 확률분포나 주변확률분포함수도 아래와 같이 단순화할 수 있습니다.

$ f_{X_2|X_1}(x_2|x_1)=f_{2|1}(x_2|x_1), f_{X_1}(x_1)=f_1 (x_1) $

 

이제 조건부 통계량이 적용되는 사례를 한 가지 써보려고 합니다.

우선 확률변수 $ X,Y $ 를 생각하고 이들이 유한한 양의 분산을 갖는 것으로 생각하겠습니다.

그리고 이들 분산을 각각 $ \sigma_X ^2 , \sigma_Y ^2 $ 라고 하겠습니다.
(다시 한번, $ \sigma_X $ 와 $ \sigma_Y $ 는 이들 분산값의 양의 제곱근입니다.)

앞선 글에서 언급했듯이, 이들이 유한한 분산을 갖기 때문에 이들의 평균과 공분산도 유한하게 됩니다.

이들 평균값을 각각 $ \mu_X , \mu_Y $ 로 쓰는 한편 $ X,Y $ 의 상관계수는 $ \rho $ 라고 해보겠습니다.

그리고 여기에 $ E[Y|X] $ 가 $ X $ 에 대해 선형이라는 가정이 주어지면 아래 식들이 성립하게 됩니다.

 

$ E[Y|X]=\mu_Y+\rho \frac{\sigma_Y}{\sigma_X}(X-\mu_X) $

$ E[Var(Y|X)]=\sigma_Y ^2 (1-\rho^2) $

 

이 식은 $ X,Y $ 가 연속확률변수인지 이산확률변수인지에 무관하게 성립합니다.

편의상 이들이 연속확률변수라고 가정하겠습니다만

이산확률변수의 경우도 적분 기호를 합 기호로 바꾸면 같은 방법으로 증명할 수 있습니다.

우선 조건부 평균의 정의에 따라 $ E[Y|X=x]=\int_{-\infty}^{\infty}[yf(x,y)/f_1(x)]dy $ 가 성립합니다.

한편 $ E[Y|X] $ 가 $ X $ 에 대해 선형이라고 가정했으므로

이 조건부 평균을 미지수 $ a,b $ 에 관한 식 $ E[Y|X=x] = a + bx $ 로 써볼 수 있습니다.

따라서 $ \int_{-\infty}^{\infty}yf(x,y)dy = (a + bx)f_1(x) $ 의 식이 성립합니다.

위 식의 양변에 $ x $ 를 곱하고 모든 실수 $ x $ 에 대해 적분해보겠습니다.

그 결과 좌변의 식은 $ \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}xyf(x,y)dydx=E[XY]=Cov(X,Y)+\mu_X \mu_Y = \sigma_X \sigma_Y \rho+\mu_X \mu_Y $ 를 만족하게 됩니다.

그리고 우변의 식은 $ \int_{-\infty}^{\infty} [ax+bx^2]f_1(x) dx=a \mu_X + b(\sigma_X ^2 + \mu_X ^2) $ 과 같이 됩니다.

좌변과 우변이 같다고 두면 $ \sigma_X \sigma_Y \rho+\mu_X \mu_Y = a \mu_X + b(\sigma_X ^2 + \mu_X ^2) $ 의 식을 얻게 됩니다.

한편으로는 앞선 글에서 언급한 반복 기댓값의 법칙에 따라 $ \mu_Y=E[Y]=E[E[Y|X]]=E[a+bX]=a+b \mu_X $ 가 성립합니다.

 

결과적으로 두 개의 미지수 $ a,b $ 에 관한 두 개의 식을 얻게 됩니다.

이들을 연립하면 $ a= \mu_Y - \rho \frac{\sigma_Y}{\sigma_X} \mu_X $ , $ b=\rho \frac{\sigma_Y}{\sigma_X} $ 의 결과를 얻게 됩니다.

따라서 $ E[Y|X]=a+bX=\mu_Y - \rho \frac{\sigma_Y}{\sigma_X} \mu_X+\rho \frac{\sigma_Y}{\sigma_X} X=\mu_Y+\rho \frac{\sigma_Y}{\sigma_X} (X-\mu_X) $ 가 성립함을 알 수 있습니다.

 

한편 조건부 분산의 평균에 관한 두 번째 식은 $ E[Var(Y|X)]=\sigma_Y ^2 (1-\rho^2) $ 으로 주어졌습니다.

우선 이전 글에서 언급한 전체 분산의 법칙을 다시 써보겠습니다.

$ E[Var(Y|X)]=Var(Y)-Var(E[Y|X])=\sigma_Y ^2 - Var(a+bX) $

$ a+bX $ 의 분산은 $ E[(a+bX-(a+b\mu_X))^2] $ 과 같이 정의되므로 아래 식이 성립하게 됩니다.

$ Var(a+bX) = b^2 Var(X)=\rho^2 \frac{\sigma_Y ^2}{\sigma_X ^2}\sigma_X ^2=\rho^2 \sigma_Y ^2 $

따라서 위 결과들을 종합하면 $ E[Var(Y|X)]=\sigma_Y ^2 - Var(a+bX)=\sigma_Y ^2(1-\rho ^2) $ 의 식을 얻게 됩니다.

 

사실 위 관계식은 회귀분석(regression analysis)과 관련이 있습니다.

회귀분석은 어떤 확률변수들이 모종의 선형관계를 갖고 있다는 전제하에

구체적인 선형함수식의 형태를 찾아내는 과정입니다.

실제로 위 식은 $ Y $ 를 $ X $ 에 대해 회귀분석해서 얻게 되는

회귀계수(regression coefficient)와 함께 잔차분산(residual variance)의 평균값을 제시하고 있습니다.

 

이번 글에서는 조건부 통계량을 활용하는 사례로서 간단한 선형회귀모형에 대해 써보았습니다.

다음 글에서는 확률분포의 독립에 대해 써보겠습니다.