Processing math: 100%
본문 바로가기

수학/수리통계학

수리통계학 (30) - 다항분포의 정의

지난 글에서는 자주 쓰이는 연속확률분포에 대해 써보았습니다.

이번 글에서는 다항분포에 대한 내용을 써보려고 합니다.

 

글을 시작하기에 앞서 통계학에서 미지의 변수를 바라보는

두 가지의 상반된 관점을 언급하고 넘어가겠습니다.

통계학의 기본적인 목표 중 하나는 자료를 해석해서 미지의 무언가를 찾아내는 것입니다.

예컨대, 표본을 조사해서 모집단의 통계적 특성인 모수를 찾아내는 것이 목표가 될 수 있습니다.

다시 말해서, 모수가 미지의 고정값이라고 전제하고 이 값을 찾아내려고 노력할 수 있습니다.

한편, 어떤 사람들은 모수의 정해진 값 대신에 모수가 따르는 확률분포를 찾아내려고 합니다.

만약 자료가 지극히 부족한 상황이라면 모수의 정확한 값을 알아내기 힘들 수도 있습니다.

따라서 이의 확률분포라도 알아내겠다고 하는 것이 합리적인 차선책이 될 수도 있습니다.

이렇게 서로 다른 두 가지의 관점 가운데

모수의 정해진 값을 찾아내려는 전자의 관점을 빈도주의적 관점(frequentist paradigm)이라고 합니다.

반면, 모수가 불확실성을 가진 확률변수라고 보는 관점은 베이지안 관점(Bayesian paradigm)이라고 부릅니다.

 

위의 두 관점과 관련된 예를 들어보겠습니다.

어떤 확률분포가 주어져 있는데 이를 구성하는 특정한 모수 d 의 값이 정해져야만 분포가 확정된다고 해보겠습니다.

한편 이 모수값을 결정하기 위해 수집된 자료 x 가 주어져있고

x 는 상기한 확률분포를 따른다는 것이 알려져 있다고 가정하겠습니다.

그러면 미지의 모수 d 가 어떤 값을 가질 확률은 P(d|x) 와 같이 조건부 확률로 계산됩니다.

위의 조건부 확률은 앞선 글에서 언급한 베이즈 정리에 따라 P(d|x)=P(x|d)P(d)P(x) 와 같이 계산될 수 있습니다.

위의 식은 d 의 사후확률이 P(x|d) 에 비례한다는 것을 보여줍니다.

이 조건부 확률 P(x|d) 를 계산해주는 함수를 우도함수(likelihood function)라고 합니다.

우도함수의 의미는 아래와 같이 두 가지 관점에서 해석할 수 있습니다.

첫째, 특정한 모수 값을 전제했을 때 현재 가지고 있는 자료를 얻게 될 확률이라고 할 수 있습니다.(빈도주의적 관점)
둘째, 여러 모수 값들을 고려했을 때 현재 가지고 있는 자료를 잘 설명할 수 있는 정도로 해석할 수 있습니다.(베이지안 관점)

한편, 우도함수는 정확한 모수 값을 찾기 위한 추정량을 계산하는 데 활용할 수 있습니다.

구체적으로, 우도함수의 값 P(x|d) 를 극대화시키는 d

최우추정량(maximum likelihood estimator)이라고 부릅니다.

 

이제 다항분포(multinomial distribution)를 정의해보겠습니다.

앞선 글에서 언급한 베르누이 실험은 성공 혹은 실패로 결과가 정해져 있었지만

현실의 많은 실험은 여러가지 결과를 낳을 수 있는 것이 보통입니다.

따라서 n 가지의 서로 다른 결과를 표현하기 위해서 n 차원의 기본벡터들을 활용해볼 수 있습니다.

다시 말해, 기본벡터 가운데 k 번째 원소만이 1이고 나머지 n1 개의 원소는 모두 0인 벡터를 ek 로 표기하면

e1,e2,...,en 들이 n 가지의 서로 다른 결과에 대응되는 것으로 생각할 수 있습니다.

모든 k=1,2,...,n 에 대해 ek 에 대응되는 결과를 얻을 확률을 pk 라고 하면

임의의 실험결과 x=(x1,x2,...,xn) 을 얻게 될 확률은 pX(x)=nk=1pxkk 로 계산되는 것을 알 수 있습니다.

다항분포는 위와 같은 실험을 N 번 진행했을 때

모든 k 에 대해서 ek 에 대응되는 사건이 일어난 횟수들이 따르는 분포입니다.

실제로 모든 k 에 대해 ek 에 대응되는 사건이 mk 번 일어날 확률은 N!m1!m2!...mk!nk=1pmkk 으로 계산됩니다.

따라서 다항분포의 확률질량함수는 아래와 같이 나타낼 수 있습니다.

p(m1,m2,...,mk)={N!m1!m2!...mk!nk=1pmkk if ki=1mi=N0 otherwise 

 

이번에는 위 글에서 제시한 최우추정법을 활용해서

다항분포의 확률질량함수를 구성하는 모수 p1,p2,...,pn 을 추정해보겠습니다.

이 경우의 우도함수는 P(m1,m2,...,mk|p1,p2,...,pn)=N!m1!m2!...mk!nk=1pmkk 으로 나타납니다.

그런데 원래 우도함수를 극대화하는 대신, 이의 상수항을 생략하고

자연로그를 취한 함수 nk=1mklogpk 를 극대화하는 문제를 풀어도 같은 해를 얻습니다.

한편, 실험의 결과로서 반드시 한 결과는 얻을 수 있어야 하므로 nk=1pk=1 의 식이 성립합니다.

따라서 제약조건 하의 극대화 문제를 풀기 위한 라그랑지안은 아래와 같습니다.

Λ=nk=1mklogpkλ(nk=1pk1)

위 식에서의 1계 조건은 모든 k=1,2,...,n 에 대해서 mk/pk=λ 가 성립한다는 것입니다.

따라서 가비의 리를 활용하면 (nk=1mk)/(nk=1pk)=N/1=λ 의 식을 얻게 됩니다.

결론적으로 모든 k 에 대해서 mk/pk=N 이 성립하고

pk 의 최우추정량은 다름 아닌 mk/N 이 됩니다.

mk/N 은 전체 실험 횟수 가운데 특정한 결과를 얻은 횟수의 비율로서 상대빈도로 해석할 수 있습니다.

한편, 앞선 글에서 이항분포의 상대빈도 X/nn 이 무한대로 커지면 

실험의 성공확률 p 로 확률수렴함을 언급했습니다.

비슷하게 다항분포에서의 상대빈도인 mk/N 역시도

실험 횟수 N 이 커짐에 따라 해당 결과를 얻을 확률 pk 로 확률수렴하는 것을 볼 수 있습니다.

 

이번 글에서는 다항분포를 정의하고 최우추정법으로 이의 모수를 추정해보았습니다.

다음 글에서는 다항분포의 특성과 함께 디리클레 분포에 대한 내용을 써보겠습니다.