지난 글에서는 포아송 분포의 성질에 대해 써보았습니다.
이번 글에서는 자주 쓰이는 연속확률분포인 감마분포와 베타분포에 대해 써보려고 합니다.
우선 이들 확률분포를 다루기 전에 감마함수에 대한 내용을 간략히 언급하겠습니다.
양수인 실수 집합 위에 정의된 함수 $ \Gamma(t) $ 가 아래와 같은 식을 만족한다고 해보겠습니다.
$ \Gamma(t)=\int_{0}^{\infty}x^{t-1}e^{-x}dx $
위 식을 들여다보면 $ \Gamma(1)=\int_{0}^{\infty} e^{-x}dx = 1 $ 이 성립하는 것을 바로 알 수 있습니다.
한편 자연수인 $ t $ 에 대해서 $ \Gamma(t)=(t-1)! $ 이 성립한다고 가정해보겠습니다.
그러면 $ \Gamma(t+1) $ 은 부분적분을 활용해서 아래와 같이 표현할 수 있습니다.
$ \Gamma(t+1)=\int_{0}^{\infty}x^{t}e^{-x}dx=[-x^{t}e^{-x}]_{0}^{\infty}+\int_{0}^{\infty}tx^{t-1}e^{-x}dx=t \Gamma(t)=t(t-1)!=t! $
결론적으로, 수학적 귀납법을 통해 모든 자연수 $ t $ 에 대해 $ \Gamma(t)=(t-1)! $ 이 성립함을 알 수 있습니다.
흥미로운 점은 자연수를 제외한 모든 양의 실수 $ t $ 에서 $ \Gamma(t) $ 가 잘 정의된다는 점입니다.
이제 감마분포(gamma distribution)를 정의해보겠습니다.
감마분포는 다음과 같은 확률밀도함수를 갖는 분포를 의미합니다.
$ f_X(x)=\begin{cases}x^{\alpha-1}e^{-x/\beta}/(\Gamma(\alpha)\beta^\alpha) & \text{ if } x>0 \\ 0 & \text{ otherwise }\end{cases} $
위와 같은 확률밀도함수를 얻게 된 배경은 이전 글에서 다루었던 포아송 과정과 관련 있습니다.
이전 글에서 포아송 과정을 따르는 사건이 발생하는 횟수가 포아송 분포를 따른다는 것을 설명했습니다.
그런데 사람들은 특정 사건이 발생하는 횟수뿐만 아니라
사건이 발생하는 시간 간격에도 관심을 갖는 것이 보통입니다.
가령 버스의 배차간격이라던지, 어떤 기계가 고장 나기까지 걸리는 시간(수명)처럼
사건이 언제마다 발생하는가 하는 것도 중요한 질문이 될 수 있습니다.
감마분포는 다름 아닌 이 시간 간격의 확률분포를 보여줍니다.
구체적으로는, $ \alpha $ 가 자연수라면 $ f_X(x)=x^{\alpha-1}e^{-x/\beta}/(\Gamma(\alpha)\beta^\alpha) $ 은 사건이 일어나고 나서
$ \alpha $ 번의 사건이 더 발생하는데 걸리는 시간이 $ x $ 일 확률과 같아집니다.
예컨대, $ \alpha=1 $ 이라고 한다면 $ f_X(x)=e^{-x/\beta}/\beta $ 는
사건이 발생하고 다음 사건이 발생할 때까지 기다리는 시간에 대한 확률분포가 됩니다.
위와 같이 $ \alpha=1 $ 일 때의 감마분포를 지수분포(exponential distribution)라고도 합니다.
한편, 포아송 과정의 memoryless property 때문에
어떤 확률변수 $ X $ 가 지수분포를 따른다면 $ P(X>s+t|X>s)=P(X>t) $ 의 식이 성립하게 됩니다.
이를 두고 지수분포는 memoryless하다고 표현합니다.
실제로 지수분포는 연속확률분포 가운데 유일하게 memoryless한 분포로 알려져 있습니다.
감마분포의 $ \alpha, \beta $ 는 분포를 결정짓는 임의의 양수인 실수값들입니다.
실제로 어떤 확률변수 $ X $ 가 감마분포를 따르는 것을 $ X \sim \Gamma(\alpha,\beta) $ 와 같이 표현합니다.
이들 $ \alpha,\beta $ 가 특정한 값을 가질 때의 감마분포는 특별히 다른 이름(e.g. 카이제곱분포)으로 부르기도 합니다.
한편 감마분포의 적률생성함수는 $ M(t)=1/(1-\beta t)^\alpha $ 으로 주어집니다.
(유도과정은 지면 관계상 생략하겠습니다.)
따라서 감마분포를 따르는 확률변수 $ X $ 의 1, 2차 적률은 아래와 같이 주어집니다.
$ E[X]=M'(0)=\alpha \beta \frac{1}{(1-\beta t)^{\alpha+1}}|_{t=0}=\alpha \beta $
$ E[X^2]=M''(0)=\alpha(\alpha+1) \beta^2 \frac{1}{(1-\beta t)^{\alpha+2}}|_{t=0}=\alpha(\alpha+1) \beta^2 $
따라서 이의 분산은 $ Var(X)=E[X^2]-(E[X])^2=\alpha(\alpha+1) \beta^2-\alpha^2 \beta^2=\alpha \beta^2 $ 으로 계산됩니다.
이번에는 베타분포(beta distribution)를 정의해보겠습니다.
이를 위해서 우선 감마분포를 따르는 두 확률변수 $ X_1,X_2 $ 를 생각하겠습니다.
구체적으로 $ X_1 \sim \Gamma(\alpha,1) , X_2 \sim \Gamma(\beta,1) $ 이 성립하고
$ X_1,X_2 $ 가 독립이라고 가정하겠습니다.
그러면 이들의 결합확률밀도함수는 $ f_{12}(x_1,x_2)=\frac{1}{\Gamma(\alpha)\Gamma(\beta)}x_1^{\alpha-1}x_2^{\beta-1}e^{-x_1 -x_2} $ 가 됩니다.
이제 다음과 같은 변환을 생각해보겠습니다.
$ Y_1 = X_1+X_2 , Y_2 = X_1/(X_1+X_2) $
이 변환에 대응되는 자코비안 행렬식은 $ |det \begin{pmatrix}y_2 & y_1 \\ 1-y_2 & -y_1\end{pmatrix}|=|-y_1|=y_1 $ 으로 계산됩니다.
따라서 새로이 변환된 확률변수의 결합확률밀도함수를 아래와 같이 나타낼 수 있습니다.
$ g_{12}(y_1,y_2)=\frac{1}{\Gamma(\alpha)\Gamma(\beta)}y_1(y_1 y_2)^{\alpha-1}(y_1(1-y_2))^{\beta-1}e^{-y_1} $
그런데 바로 위식의 우변은 $ \frac{1}{\Gamma(\alpha)\Gamma(\beta)}y_1^{\alpha+\beta-1}e^{-y_1}y_2^{\alpha-1}(1-y_2)^{\beta-1} $ 과 같이 정리해서 쓸 수 있습니다.
앞선 글에서 결합확률밀도함수를 각 확률변수에 관한 함수로 분리해낼 수 있다면
이 두 확률변수가 독립이라는 것을 보였습니다.
따라서 $ Y_1,Y_2 $ 는 독립관계에 있다는 것을 알 수 있습니다.
한편, $ X_1,X_2 $ 가 양의 값만을 가지므로 $ Y_1,Y_2 $ 역시도 양의 값만을 가지는 것을 알 수 있습니다.
실제로 $ Y_2 = X_1/(X_1+X_2) $ 의 식을 보면 $ Y_2 $ 는 $ (0,1) $ 의 구간에서만 변동하는 것을 알 수 있습니다.
여기서 $ Y_2 $ 에 대한 주변확률밀도함수를 계산해보면 아래와 같습니다.
$ g_2(y_2)=\frac{1}{\Gamma(\alpha)\Gamma(\beta)} y_2^{\alpha-1}(1-y_2)^{\beta-1}\int_{0}^{\infty} y_1^{\alpha+\beta-1}e^{-y_1}dy_1 = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}y_2^{\alpha-1}(1-y_2)^{\beta-1} $
바로 위에서 계산한 $ Y_2 $ 의 주변확률밀도함수를 베타분포의 확률밀도함수로 정의합니다.
요컨대, 베타분포는 독립인 두 감마확률변수의 비율과 연관된 확률분포입니다.
베타분포는 통계적 추론을 할 때 자주 쓰이게 됩니다.
이에 대한 내용은 다른 글에서 기회가 된다면 다뤄보겠습니다.
이번 글에서는 감마분포와 베타분포에 대해 써보았습니다.
다음 글에서는 다항분포에 대해 써보겠습니다.
'수학 > 수리통계학' 카테고리의 다른 글
수리통계학 (31) - 다항분포의 특성 (0) | 2021.12.21 |
---|---|
수리통계학 (30) - 다항분포의 정의 (0) | 2021.12.20 |
수리통계학 (28) - 포아송 분포의 성질 (0) | 2021.12.18 |
수리통계학 (27) - 포아송 과정 및 분포 (0) | 2021.12.18 |
수리통계학 (26) - 이항분포의 성질 (0) | 2021.12.17 |