본문 바로가기

수학/수리통계학

수리통계학 (31) - 다항분포의 특성

지난 글에서는 다항분포의 정의에 대해 써보았습니다.

이번 글에서는 다항분포의 특성과 함께 디리클레 분포에 대한 내용을 써보겠습니다.

 

앞선 글에서 다항분포의 확률질량함수를 아래와 같이 정의했습니다.

$ p(m_1,m_2,...,m_k)=\begin{cases}\frac{N!}{m_1! m_2! ... m_k!}\prod_{k=1}^{n}p_k^{m_k} & \text{ if } \sum_{i=1}^{k} m_i = N \\ 0 & \text{ otherwise }\end{cases} $

한편, 다항분포의 평균과 공분산 행렬을 계산하려면 적률생성함수를 활용하는 것이 편리합니다.

다변량 분포의 적률생성함수는 $ E[e^{\mathbf{t'x}}]=E[e^{\sum_{i=1}^{n}t_i X_i}] $ 의 식으로 계산할 수 있습니다.

따라서 다항분포의 적률생성함수는 아래와 같이 나타낼 수 있습니다.

$ E[e^{\sum_{i=1}^{n}t_i M_i}]=\sum_{m_1}^{}\sum_{m_2}^{}...\sum_{m_{k-1}}^{} e^{\sum_{i=1}^{n}t_i m_i}\frac{N!}{m_1! m_2! ... m_k!}\prod_{k=1}^{n}p_k^{m_k} $ $ (m_k=N-m_1-m_2-...-m_{k-1}) $

위 식의 우변을 다항정리(multinomial theorem)를 활용해서 정리하면 아래와 같습니다.

$ \sum_{m_1}^{}\sum_{m_2}^{}...\sum_{m_{k-1}}^{} \frac{N!}{m_1! m_2! ... m_k!}\prod_{k=1}^{n}(p_k e^{t_k})^{m_k}=[\sum_{k=1}^{n}p_k e^{t_k}]^N $

그러므로 다항분포의 적률생성함수는 $ M(\mathbf{t})=[\sum_{k=1}^{n}p_k e^{t_k}]^N $ 으로 주어집니다.

 

위에서 구한 적률생성함수로 다항확률변수의 평균을 구해보면 아래와 같습니다.

$ E[M_i]=\partial M(\mathbf{t})/\partial \ t_i|_{\mathbf{t}=0}=\partial[\sum_{k=1}^{n}p_k e^{t_k}]^N/\partial t_i|_{\mathbf{t}=0}=N[\sum_{k=1}^{n}p_k e^{t_k}]^{N-1}p_i e^{t_i}|_{\mathbf{t}=0}=Np_i $
(위의 식은 모든 $ i=1,2,...,n $ 에 대해 성립합니다.)

 

한편, 공분산 행렬을 구하기 위해 $ i,j $ 에 대한 경우를 나누어서 $ Cov(M_i,M_j) $ 를 계산해보면 아래와 같습니다.

(i) $ i=j $

$ M_i $ 의 2차 적률을 계산한 결과는 아래와 같습니다.

$ E[M_i ^2]=\frac{\partial^2 M(\mathbf{t})}{\partial t_i^2}|_{\mathbf{t}=0}=N(N-1)[\sum_{k=1}^{n}p_k e^{t_k}]^{N-2}(p_i e^{t_i})^2+N[\sum_{k=1}^{n}p_k e^{t_k}]^{N-1}p_i e^{t_i}|_{\mathbf{t}=0} =N(N-1)p_i ^2 + Np_i $

따라서 $ M_i $ 의 분산은 $ Var(M_i)=E[M_i ^2]- (E[M_i])^2=N(N-1)p_i ^2 + Np_i-N^2 p_i ^2 = Np_i (1-p_i) $ 로 계산됩니다.

 

(ii) $ i \neq j $

$ E[M_i M_j]=\frac{\partial^2 M(\mathbf{t})}{\partial t_i\partial t_j}|_{\mathbf{t}=0}=N(N-1)[\sum_{k=1}^{n}p_k e^{t_k}]^{N-2}p_i e^{t_i}p_j e^{t_j}|_{\mathbf{t}=0}=N(N-1)p_i p_j $

따라서 공분산 $ Cov(M_i,M_j) $ 식의 정의에 따라 아래 식이 성립합니다.

$ Cov(M_i,M_j)=E[M_i M_j]-E[M_i]E[M_j]=N(N-1)p_i p_j - (Np_i)(Np_j)=-Np_ip_j $

 

위의 결과들을 종합하면 공분산 행렬은 아래와 같이 정의됩니다.

$ (\sigma^2_{ij})=\begin{cases}Np_i(1-p_i) &  \text{ if } i=j \\-Np_ip_j & \text{otherwise}\end{cases} $

 

이제 디리클레 분포를 정의해보겠습니다.

앞선 글에서 독립인 두 감마확률변수를 합하고 비율을 계산하면

이 비율이 베타분포를 따른다는 것을 언급했습니다.

디리클레 분포는 베타분포와 비슷하게 독립인 감마확률변수 여러 개를 합하여

각각의 감마확률변수가 전체 합에서 차지하는 비율들이 따르는 분포로 정의합니다.

우선 독립인 확률변수 $ X_1,X_2,...,X_{k+1} $ 이 모든 $ i=1,2,...,k+1 $ 에 대해서

$ X_i \sim \Gamma(\alpha_i,1) $ 을 만족한다고 해보겠습니다.

따라서 $ X_1,X_2,...,X_{k+1} $ 의 결합확률밀도함수는 $ f(x_1,x_2,...,x_{k+1})=\prod_{i=1}^{k+1}\frac{x_i^{\alpha_i -1}e^{-x_i}}{\Gamma(\alpha_i)} $ 와 같이 주어집니다.

그리고 아래와 같은 변환을 생각해보겠습니다.

$ Y_i=\begin{cases}\sum_{m=1}^{k+1}X_m &  \text{ if }i=k+1  \\ X_i/(\sum_{m=1}^{k+1}X_m) & \text{ otherwise }\end{cases} $

위 변환에 대응되는 자코비안 행렬식을 구하기 위해서 역변환을 먼저 구해보면 아래와 같습니다.

$ X_i=\begin{cases}Y_{k+1}(1-\sum_{m=1}^{k}Y_m) & \text{ if }i=k+1  \\ Y_iY_{k+1} & \text{ otherwise }\end{cases} $

따라서 자코비안 행렬식은 아래와 같이 계산됩니다.

$ det(J)=det \begin{pmatrix}y_{k+1} & 0 & ... & 0 & y_1 \\0 & y_{k+1} & ... & 0 & y_2 \\: & : &  & : & : \\0 & 0  & ... & y_{k+1}  & y_k \\-y_{k+1} & -y_{k+1} & ... & -y_{k+1} & 1-\sum_{m=1}^k y_m \\\end{pmatrix} = y_{k+1}^k $

위의 자코비안 행렬식을 이용해서 구한 $ Y_1,Y_2,...,Y_{k+1} $ 의 결합확률밀도함수는 아래와 같습니다.

$ f(y_1,y_2,...,y_{k+1})=[\prod_{i=1}^{k}\frac{(y_i y_{k+1})^{\alpha_i -1}e^{-y_i y_{k+1}}}{\Gamma(\alpha_i)}][y_{k+1}(1-\sum_{m=1}^{k}y_m)]^{\alpha_{k+1}-1}y_{k+1}^{k} e^{-y_{k+1}(1-\sum_{m=1}^{k}y_m)}/\Gamma(\alpha_{k+1}) $

바로 위 식을 정리하고 $ y_{k+1} $ 에 대해 양변을 적분하면 아래의 주변확률밀도함수를 얻습니다.

$ f(y_1,y_2,...,y_k)=\frac{\Gamma(\sum_{m=1}^{k+1}\alpha_m)}{\Gamma(\alpha_1)\Gamma(\alpha_2)...\Gamma(\alpha_{k+1})}y_1^{\alpha_1 -1}y_2^{\alpha_2 -1}...y_k^{\alpha_k -1}(1-y_1-...-y_k)^{\alpha_{k+1}-1} $
(한편, $ Y_1,Y_2,...,Y_k $ 들은 정의에 따라서 0과 1 사이의 값만을 가지게 됩니다.)

이렇게 얻은 $ Y_1,Y_2,...,Y_k $ 에 대한 함수 $ f(y_1,y_2,...,y_k) $ 를 디리클레 분포의 확률밀도함수로 정의합니다.

디리클레 분포에서 $ k=1 $ 이라고 가정하면 이는 베타분포와 같아지는 것을 볼 수 있습니다.

따라서 디리클레 분포는 베타분포를 확장한 결과라고 할 수 있습니다.

 

이번 글에서는 다항분포의 특성과 디리클레 분포에 대해 써보았습니다.

다음 글에서는 정규분포에 대해 써보겠습니다.