본문 바로가기

수학/수리통계학

수리통계학 (35) - t-분포와 F-분포

지난 글에서는 다변량 정규분포의 성질에 대해 써보았습니다.

이번 글에서는 t-분포와 F-분포에 대해 써보겠습니다.

 

우선 이들 분포를 정의하기 전에 카이제곱분포(chi-square distribution)가 무엇인지부터 설명해보겠습니다.

카이제곱분포는 앞선 글에서 정의한 감마분포의 특별한 사례로 생각할 수 있습니다.

구체적으로 양의 정수 $ r $ 에 대해 확률변수 $ X $ 가 $ X \sim \Gamma(r/2,2) $ 를 만족하면

이 확률변수 $ X $ 는 자유도 $ r $ 의 카이제곱분포를 따른다고 하고, 이를 $ X \sim \chi^2(r) $ 과 같이 표현합니다.

그리고 카이제곱분포가 감마분포의 특별한 경우인 것을 감안하면 이의 확률밀도함수는 아래와 같이 쓸 수 있습니다.

$ f(x)=\begin{cases}\frac{1}{\Gamma(r/2)2^{r/2}}x^{r/2-1}e^{-x/2} & 0<x<\infty \\ 0 & \text{ otherwise}\end{cases} $

 

이제 t-분포를 정의해보겠습니다.

t-분포는 Student's theorem이라는 정리를 기반으로 해서 여러 통계적 추론에 폭넓게 쓰이는 확률분포입니다.

일단 독립인 확률변수 $ W,V $ 를 생각하고 이들이 각각 $ W \sim N(0,1) $ , $ V \sim \chi^2(r) $ 을 만족한다고 해보겠습니다.

그리고 새로운 확률변수 $ T $ 를 $ T:=W/\sqrt{V/r} $ 과 같이 정의하겠습니다.

이 확률변수 $ T $ 가 따르는 확률분포를 (자유도 r을 갖는) t-분포라고 정의합니다.

이 분포의 구체적인 확률밀도함수를 얻기 위해서 $ W,V $ 를 아래와 같이 변환해보겠습니다.

$ T=W/\sqrt{V/r} $
$ U=V $

위와 같이 변환된 $ T,U $ 의 결합확률밀도함수를 구한 다음

그로부터 $ T $ 의 주변확률밀도함수를 계산하면 t-분포의 확률밀도함수를 얻게 됩니다.

일단 위 변환의 역변환과 자코비안 행렬식을 계산해보면 아래와 같습니다.

$ W=T \sqrt{U/r} $
$ V=U $

$ det(J)=det\begin{pmatrix}\partial w/\partial t & \partial w/\partial u \\ \partial v/\partial t & \partial v/\partial u \end{pmatrix}=det\begin{pmatrix}\sqrt{u/r} & (t\sqrt{1/ur})/2 \\ 0 & 1 \end{pmatrix}=\sqrt{u/r} $

한편 $ W,V $ 는 서로 독립이므로 이들의 결합확률밀도함수는 아래와 같습니다.

$ f_{WV}(w,v)=(1/\sqrt{2\pi})e^{-w^2/2}(1/(\Gamma(r/2)2^{r/2}))v^{r/2-1}e^{-v/2} $  for all  $ -\infty<w<\infty,0<v<\infty $

따라서 $ T,U $ 의 결합확률밀도함수는 아래와 같이 나타낼 수 있습니다.

$ f_{TU}(t,u)=(1/\sqrt{2\pi})e^{-ut^2/(2r)}(1/(\Gamma(r/2)2^{r/2}))u^{r/2-1}e^{-u/2}\sqrt{u/r} $  for all  $ -\infty<t<\infty,0<u<\infty $

바로 위의 함수를 $ u $ 가 가질 수 있는 모든 값에 대해 아래와 같이 적분하면 $ t $ 에 대한 주변확률밀도함수를 얻게 됩니다.

$ f_{T}(t)=\int_{0}^{\infty} (1/\sqrt{2\pi})(1/(\Gamma(r/2)2^{r/2}))u^{(r-1)/2}e^{-u/2[1+t^2/r]}\sqrt{1/r}du $

위 적분을 $ w=u/2[1+t^2/r] $ 로 치환하여 수행하면 아래 결과식을 얻습니다.

$ f_T (t)=\frac{\Gamma((r+1)/2)}{\sqrt{\pi r}\Gamma(r/2)(1+t^2/r)^{(r+1)/2}} $  for all  $ -\infty < t < \infty $

바로 위의 식이 t-분포의 확률밀도함수가 됩니다.

그런데 이 확률밀도함수는 양의 정수 $ r $ 의 값에 따라 약간 다른 식을 갖게 됩니다.

이 정수 $ r $ 을 t-분포의 자유도라고 합니다.

한편, t-분포의 확률밀도함수는 $ t=0 $ 을 중심으로 대칭을 이루는 것을 볼 수 있습니다.

 

이번에는 F-분포를 정의해보겠습니다.

독립인 두 확률변수 $ U,V $ 가 $ U \sim \chi^2(r_1) , V \sim \chi^2(r_2) $ 를 만족한다고 해보겠습니다.

이때, $ W $ 라는 확률변수를 $ W:=(U/r_1)/(V/r_2) $ 로 정의하겠습니다.

위와 같이 두 카이제곱 확률변수를 각각의 자유도로 나눈 값들의

비율로서 정의된 확률변수 $ W $ 가 따르는 확률분포를 F-분포라고 합니다.

F-분포의 경우도 t-분포에서처럼 확률변수들을 변환해서 분포함수를 찾을 수 있습니다.

구체적으로는, $ w=(u/r_1)/(v/r_2),z=v $ 와 같은 변환을 생각한 다음

다시 한 번 역변환 및 자코비안 행렬식을 구하고, 이로부터 $ w $ 의 주변확률분포를 얻을 수 있습니다.

그 결과 F-분포의 확률밀도함수는 아래와 같이 계산됩니다.

$ f_W(w)=\frac{\Gamma((r_1+r_2)/2)(r_1 / r_2)^{r_1 /2} w^{r_1/2-1}}{\Gamma(r_1/2)\Gamma(r_2/2)(1+r_1 w/r_2)^{(r_1+r_2)/2}} $  for all  $ 0<w<\infty $
(지면 관계상 자세한 계산과정은 생략하겠습니다.)

위의 확률밀도함수는 양의 정수 $ r_1,r_2 $ 의 값이 주어져야 유일하게 결정됩니다.

이들 숫자를 각각 분자, 분모의 자유도라고 부르고 위의 확률변수 $ W $ 는 자유도가 $ (r_1,r_2) $ 인 F-분포를 따른다고 합니다.

F-분포는 분산분석이라고 불리는 통계적 추정을 수행할 때 자주 쓰이게 됩니다.

 

이번 글에서는 t-분포와 F-분포에 대해 써보았습니다.

다음 글에서는 Student's theorem에 대해 써보겠습니다.