Loading [MathJax]/jax/output/CommonHTML/jax.js
본문 바로가기

수학/수리통계학

수리통계학 (31) - 다항분포의 특성

지난 글에서는 다항분포의 정의에 대해 써보았습니다.

이번 글에서는 다항분포의 특성과 함께 디리클레 분포에 대한 내용을 써보겠습니다.

 

앞선 글에서 다항분포의 확률질량함수를 아래와 같이 정의했습니다.

p(m1,m2,...,mk)={N!m1!m2!...mk!nk=1pmkk if ki=1mi=N0 otherwise 

한편, 다항분포의 평균과 공분산 행렬을 계산하려면 적률생성함수를 활용하는 것이 편리합니다.

다변량 분포의 적률생성함수는 E[etx]=E[eni=1tiXi] 의 식으로 계산할 수 있습니다.

따라서 다항분포의 적률생성함수는 아래와 같이 나타낼 수 있습니다.

E[eni=1tiMi]=m1m2...mk1eni=1timiN!m1!m2!...mk!nk=1pmkk (mk=Nm1m2...mk1)

위 식의 우변을 다항정리(multinomial theorem)를 활용해서 정리하면 아래와 같습니다.

m1m2...mk1N!m1!m2!...mk!nk=1(pketk)mk=[nk=1pketk]N

그러므로 다항분포의 적률생성함수는 M(t)=[nk=1pketk]N 으로 주어집니다.

 

위에서 구한 적률생성함수로 다항확률변수의 평균을 구해보면 아래와 같습니다.

E[Mi]=M(t)/ ti|t=0=[nk=1pketk]N/ti|t=0=N[nk=1pketk]N1pieti|t=0=Npi
(위의 식은 모든 i=1,2,...,n 에 대해 성립합니다.)

 

한편, 공분산 행렬을 구하기 위해 i,j 에 대한 경우를 나누어서 Cov(Mi,Mj) 를 계산해보면 아래와 같습니다.

(i) i=j

Mi 의 2차 적률을 계산한 결과는 아래와 같습니다.

E[M2i]=2M(t)t2i|t=0=N(N1)[nk=1pketk]N2(pieti)2+N[nk=1pketk]N1pieti|t=0=N(N1)p2i+Npi

따라서 Mi 의 분산은 Var(Mi)=E[M2i](E[Mi])2=N(N1)p2i+NpiN2p2i=Npi(1pi) 로 계산됩니다.

 

(ii) ij

E[MiMj]=2M(t)titj|t=0=N(N1)[nk=1pketk]N2pietipjetj|t=0=N(N1)pipj

따라서 공분산 Cov(Mi,Mj) 식의 정의에 따라 아래 식이 성립합니다.

Cov(Mi,Mj)=E[MiMj]E[Mi]E[Mj]=N(N1)pipj(Npi)(Npj)=Npipj

 

위의 결과들을 종합하면 공분산 행렬은 아래와 같이 정의됩니다.

(σ2ij)={Npi(1pi) if i=jNpipjotherwise

 

이제 디리클레 분포를 정의해보겠습니다.

앞선 글에서 독립인 두 감마확률변수를 합하고 비율을 계산하면

이 비율이 베타분포를 따른다는 것을 언급했습니다.

디리클레 분포는 베타분포와 비슷하게 독립인 감마확률변수 여러 개를 합하여

각각의 감마확률변수가 전체 합에서 차지하는 비율들이 따르는 분포로 정의합니다.

우선 독립인 확률변수 X1,X2,...,Xk+1 이 모든 i=1,2,...,k+1 에 대해서

XiΓ(αi,1) 을 만족한다고 해보겠습니다.

따라서 X1,X2,...,Xk+1 의 결합확률밀도함수는 f(x1,x2,...,xk+1)=k+1i=1xαi1iexiΓ(αi) 와 같이 주어집니다.

그리고 아래와 같은 변환을 생각해보겠습니다.

Yi={k+1m=1Xm if i=k+1Xi/(k+1m=1Xm) otherwise 

위 변환에 대응되는 자코비안 행렬식을 구하기 위해서 역변환을 먼저 구해보면 아래와 같습니다.

Xi={Yk+1(1km=1Ym) if i=k+1YiYk+1 otherwise 

따라서 자코비안 행렬식은 아래와 같이 계산됩니다.

det(J)=det(yk+10...0y10yk+1...0y2::::00...yk+1ykyk+1yk+1...yk+11km=1ym)=ykk+1

위의 자코비안 행렬식을 이용해서 구한 Y1,Y2,...,Yk+1 의 결합확률밀도함수는 아래와 같습니다.

f(y1,y2,...,yk+1)=[ki=1(yiyk+1)αi1eyiyk+1Γ(αi)][yk+1(1km=1ym)]αk+11ykk+1eyk+1(1km=1ym)/Γ(αk+1)

바로 위 식을 정리하고 yk+1 에 대해 양변을 적분하면 아래의 주변확률밀도함수를 얻습니다.

f(y1,y2,...,yk)=Γ(k+1m=1αm)Γ(α1)Γ(α2)...Γ(αk+1)yα111yα212...yαk1k(1y1...yk)αk+11
(한편, Y1,Y2,...,Yk 들은 정의에 따라서 0과 1 사이의 값만을 가지게 됩니다.)

이렇게 얻은 Y1,Y2,...,Yk 에 대한 함수 f(y1,y2,...,yk) 를 디리클레 분포의 확률밀도함수로 정의합니다.

디리클레 분포에서 k=1 이라고 가정하면 이는 베타분포와 같아지는 것을 볼 수 있습니다.

따라서 디리클레 분포는 베타분포를 확장한 결과라고 할 수 있습니다.

 

이번 글에서는 다항분포의 특성과 디리클레 분포에 대해 써보았습니다.

다음 글에서는 정규분포에 대해 써보겠습니다.