Processing math: 100%
본문 바로가기

수학/수리통계학

수리통계학 (18) - 조건부 통계량의 활용사례

지난 글에서는 조건부 통계량에 관한 여러 식들을 소개했습니다.

이번 글에서는 조건부 통계량이 어떻게 활용될 수 있는지에 대해 써보려고 합니다.

 

이번 글에서부터는 각종 확률분포함수를 표기할 때 아래 첨자를 간략화해서 표현하려고 합니다.

사실 혼동의 여지만 없다면 아래첨자는 생략되기도 합니다.(fX1,X2(x1,x2)=f(x1,x2) )

혹은 아래첨자에 변수 대신 숫자를 써서 간략하게 표현할 수도 있습니다.(fX1,X2(x1,x2)=f12(x1,x2) )

조건부 확률분포나 주변확률분포함수도 아래와 같이 단순화할 수 있습니다.

fX2|X1(x2|x1)=f2|1(x2|x1),fX1(x1)=f1(x1)

 

이제 조건부 통계량이 적용되는 사례를 한 가지 써보려고 합니다.

우선 확률변수 X,Y 를 생각하고 이들이 유한한 양의 분산을 갖는 것으로 생각하겠습니다.

그리고 이들 분산을 각각 σ2X,σ2Y 라고 하겠습니다.
(다시 한번, σXσY 는 이들 분산값의 양의 제곱근입니다.)

앞선 글에서 언급했듯이, 이들이 유한한 분산을 갖기 때문에 이들의 평균과 공분산도 유한하게 됩니다.

이들 평균값을 각각 μX,μY 로 쓰는 한편 X,Y 의 상관계수는 ρ 라고 해보겠습니다.

그리고 여기에 E[Y|X]X 에 대해 선형이라는 가정이 주어지면 아래 식들이 성립하게 됩니다.

 

E[Y|X]=μY+ρσYσX(XμX)

E[Var(Y|X)]=σ2Y(1ρ2)

 

이 식은 X,Y 가 연속확률변수인지 이산확률변수인지에 무관하게 성립합니다.

편의상 이들이 연속확률변수라고 가정하겠습니다만

이산확률변수의 경우도 적분 기호를 합 기호로 바꾸면 같은 방법으로 증명할 수 있습니다.

우선 조건부 평균의 정의에 따라 E[Y|X=x]=[yf(x,y)/f1(x)]dy 가 성립합니다.

한편 E[Y|X]X 에 대해 선형이라고 가정했으므로

이 조건부 평균을 미지수 a,b 에 관한 식 E[Y|X=x]=a+bx 로 써볼 수 있습니다.

따라서 yf(x,y)dy=(a+bx)f1(x) 의 식이 성립합니다.

위 식의 양변에 x 를 곱하고 모든 실수 x 에 대해 적분해보겠습니다.

그 결과 좌변의 식은 xyf(x,y)dydx=E[XY]=Cov(X,Y)+μXμY=σXσYρ+μXμY 를 만족하게 됩니다.

그리고 우변의 식은 [ax+bx2]f1(x)dx=aμX+b(σ2X+μ2X) 과 같이 됩니다.

좌변과 우변이 같다고 두면 σXσYρ+μXμY=aμX+b(σ2X+μ2X) 의 식을 얻게 됩니다.

한편으로는 앞선 글에서 언급한 반복 기댓값의 법칙에 따라 μY=E[Y]=E[E[Y|X]]=E[a+bX]=a+bμX 가 성립합니다.

 

결과적으로 두 개의 미지수 a,b 에 관한 두 개의 식을 얻게 됩니다.

이들을 연립하면 a=μYρσYσXμX , b=ρσYσX 의 결과를 얻게 됩니다.

따라서 E[Y|X]=a+bX=μYρσYσXμX+ρσYσXX=μY+ρσYσX(XμX) 가 성립함을 알 수 있습니다.

 

한편 조건부 분산의 평균에 관한 두 번째 식은 E[Var(Y|X)]=σ2Y(1ρ2) 으로 주어졌습니다.

우선 이전 글에서 언급한 전체 분산의 법칙을 다시 써보겠습니다.

E[Var(Y|X)]=Var(Y)Var(E[Y|X])=σ2YVar(a+bX)

a+bX 의 분산은 E[(a+bX(a+bμX))2] 과 같이 정의되므로 아래 식이 성립하게 됩니다.

Var(a+bX)=b2Var(X)=ρ2σ2Yσ2Xσ2X=ρ2σ2Y

따라서 위 결과들을 종합하면 E[Var(Y|X)]=σ2YVar(a+bX)=σ2Y(1ρ2) 의 식을 얻게 됩니다.

 

사실 위 관계식은 회귀분석(regression analysis)과 관련이 있습니다.

회귀분석은 어떤 확률변수들이 모종의 선형관계를 갖고 있다는 전제하에

구체적인 선형함수식의 형태를 찾아내는 과정입니다.

실제로 위 식은 YX 에 대해 회귀분석해서 얻게 되는

회귀계수(regression coefficient)와 함께 잔차분산(residual variance)의 평균값을 제시하고 있습니다.

 

이번 글에서는 조건부 통계량을 활용하는 사례로서 간단한 선형회귀모형에 대해 써보았습니다.

다음 글에서는 확률분포의 독립에 대해 써보겠습니다.