원래 이번 글에서는 자주 쓰이는 확률변수들의 사례를 써보려고 했습니다.
하지만 제가 확률변수에 관한 다른 재미있는 내용을
빠뜨린 것을 깨달았습니다.
그래서 이번 글에서는 그 내용을 먼저 다루어보려고 합니다.
앞선 글에서 다루었듯이, 어떤 실험이나 관찰을 통해서 확률변수 값을 얻을 수 있습니다.
그런데 사람에 따라서는 원래 확률변수 값이 아니라, 이를 변환한 값에 관심을 가질 수 있습니다.
가령 어떤 사람이 몇 년간의 물가 자료를 수집했다고 하겠습니다.
그러면 이 자료를 통해서 물가가 어느 정도 수준에 머물렀는지를 알 수 있습니다.
하지만 물가가 시간의 흐름에 따라 어떻게 변화했는지, 즉 변화율에도 관심을 가질 수 있겠습니다.
이렇게 확률변수는 필요에 따라서 변환을 거치게 되고, 변환을 통해서 새로운 확률변수를 얻게 됩니다.
원래 확률변수는 X 였는데 변환을 통해서 Y=g(X) 라는 확률변수를 얻었다고 해보겠습니다.
X 가 이산확률변수였고 이의 확률질량함수가 pX(⋅) 으로 주어져 있었다면,
새로운 확률변수 Y 의 확률질량함수도 아래와 같이 구해낼 수 있습니다.
pY(y)=P[Y=y]=∑g(x)=ypX(x)
만약 X 가 연속확률변수였다고 하면, Y 의 분포는 누적분포함수를 활용해서 구할 수 있습니다.
편의상 g(X) 가 단조증가이면서 미분가능하다고 가정해보겠습니다. 따라서 g 의 역함수 g−1 가 존재합니다.
우선 연속확률변수의 누적분포함수는 FY(c)=pY((−∞,c])=∫c−∞fY(t)dt 으로 쓸 수 있습니다.
미적분학의 기본정리에 따라서 양변을 c 로 미분하게 되면 누적분포함수에 대응되는 확률밀도함수를 얻게 됩니다.
또한 누적분포함수의 정의에 따라 아래 관계식이 성립함을 보일 수 있습니다.
FY(c)=P[Y≤c]=P[g−1(Y)≤g−1(c)]=P[X≤g−1(c)]=FX(g−1(c))
이 식을 c 에 대해 미분하고 c 대신 y 를 대입하면 아래 식을 얻게됩니다.
fY(y)=fX(g−1(y))|dxdy|
여기서 새로이 변환된 확률변수의 평균값을 구하는 것은 간단합니다.
연속확률변수에서 Y(=g(X)) 의 평균값은 아래와 같이 구해낼 수 있습니다.
E[Y]=E[g(X)]=∫∞−∞g(x)fX(x)dx
(이 경우에도, 적분가능조건인 ∫∞−∞|g(x)|fX(x)dx<∞ 가 충족되어야 합니다.)
다시 말해, Y 의 확률밀도 함수를 구해서 ∫∞−∞yfY(y)dy 를 계산하는 수고를 하지 않아도 됩니다.
X 의 확률밀도함수만 알면 변환된 확률변수의 평균값을 구해낼 수 있습니다.
X,Y 가 이산확률변수인 경우도 ∑x|g(x)|pX(x)<∞ 가 성립하면
E[Y]=E[g(X)]=∑xg(x)pX(x) 으로 변환된 변수의 평균값을 구할 수 있습니다.
이전 글에서 확률분포에서 특별히 관심을 갖는 변수로 평균과 분산을 언급했습니다.
평균과 분산은 확률분포의 중요한 특성을 요약하는 통계량으로 취급됩니다.
그런데 확률분포의 특성을 담고 있는 또 다른 함수가 있습니다.
바로 적률생성함수(moment generating function)가 그것입니다.
어떤 확률변수 X 의 적률생성함수는 이 확률변수의 변환인 etX 을 X 에 대해 평균한 함수입니다.
사실 적률생성함수는 t=0 일 때 어떤 값을 가지는 지가 관건입니다.
따라서 E[etX] 가 t=0 을 포함하는 임의의 열린 구간에서 발산하지 않고 잘 정의된다면,
적률생성함수 M(t) 를 M(t)=E[etX] 로 정의합니다.
이번 글에서는 확률변수의 변환과 적률생성함수에 대해서 써보았습니다.
다음 글에서는 적률생성함수의 성질과 활용에 대해서 써보겠습니다.
'수학 > 수리통계학' 카테고리의 다른 글
수리통계학 (9) - 적률생성함수의 의미 (0) | 2021.12.01 |
---|---|
수리통계학 (8) - 적률생성함수의 성질 (0) | 2021.12.01 |
수리통계학 (6) - 확률변수의 성질 (0) | 2021.11.29 |
수리통계학 (5) - 확률변수 (0) | 2021.11.28 |
수리통계학 (4) - 베이즈 정리 (0) | 2021.11.27 |