본문 바로가기

수학/수리통계학

수리통계학 (30) - 다항분포의 정의

지난 글에서는 자주 쓰이는 연속확률분포에 대해 써보았습니다.

이번 글에서는 다항분포에 대한 내용을 써보려고 합니다.

 

글을 시작하기에 앞서 통계학에서 미지의 변수를 바라보는

두 가지의 상반된 관점을 언급하고 넘어가겠습니다.

통계학의 기본적인 목표 중 하나는 자료를 해석해서 미지의 무언가를 찾아내는 것입니다.

예컨대, 표본을 조사해서 모집단의 통계적 특성인 모수를 찾아내는 것이 목표가 될 수 있습니다.

다시 말해서, 모수가 미지의 고정값이라고 전제하고 이 값을 찾아내려고 노력할 수 있습니다.

한편, 어떤 사람들은 모수의 정해진 값 대신에 모수가 따르는 확률분포를 찾아내려고 합니다.

만약 자료가 지극히 부족한 상황이라면 모수의 정확한 값을 알아내기 힘들 수도 있습니다.

따라서 이의 확률분포라도 알아내겠다고 하는 것이 합리적인 차선책이 될 수도 있습니다.

이렇게 서로 다른 두 가지의 관점 가운데

모수의 정해진 값을 찾아내려는 전자의 관점을 빈도주의적 관점(frequentist paradigm)이라고 합니다.

반면, 모수가 불확실성을 가진 확률변수라고 보는 관점은 베이지안 관점(Bayesian paradigm)이라고 부릅니다.

 

위의 두 관점과 관련된 예를 들어보겠습니다.

어떤 확률분포가 주어져 있는데 이를 구성하는 특정한 모수 $ \mathbf{d} $ 의 값이 정해져야만 분포가 확정된다고 해보겠습니다.

한편 이 모수값을 결정하기 위해 수집된 자료 $ \mathbf{x} $ 가 주어져있고

이 $ \mathbf{x} $ 는 상기한 확률분포를 따른다는 것이 알려져 있다고 가정하겠습니다.

그러면 미지의 모수 $ \mathbf{d} $ 가 어떤 값을 가질 확률은 $ P(\mathbf{d}|\mathbf{x}) $ 와 같이 조건부 확률로 계산됩니다.

위의 조건부 확률은 앞선 글에서 언급한 베이즈 정리에 따라 $ P(\mathbf{d}|\mathbf{x})=\frac{P(\mathbf{x}|\mathbf{d})P(\mathbf{d})}{P(\mathbf{x})} $ 와 같이 계산될 수 있습니다.

위의 식은 $ \mathbf{d} $ 의 사후확률이 $ P(\mathbf{x}|\mathbf{d}) $ 에 비례한다는 것을 보여줍니다.

이 조건부 확률 $ P(\mathbf{x}|\mathbf{d}) $ 를 계산해주는 함수를 우도함수(likelihood function)라고 합니다.

우도함수의 의미는 아래와 같이 두 가지 관점에서 해석할 수 있습니다.

첫째, 특정한 모수 값을 전제했을 때 현재 가지고 있는 자료를 얻게 될 확률이라고 할 수 있습니다.(빈도주의적 관점)
둘째, 여러 모수 값들을 고려했을 때 현재 가지고 있는 자료를 잘 설명할 수 있는 정도로 해석할 수 있습니다.(베이지안 관점)

한편, 우도함수는 정확한 모수 값을 찾기 위한 추정량을 계산하는 데 활용할 수 있습니다.

구체적으로, 우도함수의 값 $ P(\mathbf{x}|\mathbf{d}) $ 를 극대화시키는 $ \mathbf{d^*} $ 는

최우추정량(maximum likelihood estimator)이라고 부릅니다.

 

이제 다항분포(multinomial distribution)를 정의해보겠습니다.

앞선 글에서 언급한 베르누이 실험은 성공 혹은 실패로 결과가 정해져 있었지만

현실의 많은 실험은 여러가지 결과를 낳을 수 있는 것이 보통입니다.

따라서 $ n $ 가지의 서로 다른 결과를 표현하기 위해서 $ n $ 차원의 기본벡터들을 활용해볼 수 있습니다.

다시 말해, 기본벡터 가운데 $ k $ 번째 원소만이 1이고 나머지 $ n-1 $ 개의 원소는 모두 0인 벡터를 $ \mathbf{e_k} $ 로 표기하면

$ \mathbf{e_1,e_2,...,e_n} $ 들이 $ n $ 가지의 서로 다른 결과에 대응되는 것으로 생각할 수 있습니다.

모든 $ k=1,2,...,n $ 에 대해 $ \mathbf{e_k} $ 에 대응되는 결과를 얻을 확률을 $ p_k $ 라고 하면

임의의 실험결과 $ \mathbf{x}=(x_1,x_2,...,x_n) $ 을 얻게 될 확률은 $ p_{\mathbf{X}}(x)=\prod_{k=1}^{n}p_k^{x_k} $ 로 계산되는 것을 알 수 있습니다.

다항분포는 위와 같은 실험을 $ N $ 번 진행했을 때

모든 $ k $ 에 대해서 $ \mathbf{e_k} $ 에 대응되는 사건이 일어난 횟수들이 따르는 분포입니다.

실제로 모든 $ k $ 에 대해 $ \mathbf{e_k} $ 에 대응되는 사건이 $ m_k $ 번 일어날 확률은 $ \frac{N!}{m_1! m_2! ... m_k!}\prod_{k=1}^{n}p_k^{m_k} $ 으로 계산됩니다.

따라서 다항분포의 확률질량함수는 아래와 같이 나타낼 수 있습니다.

$ p(m_1,m_2,...,m_k)=\begin{cases}\frac{N!}{m_1! m_2! ... m_k!}\prod_{k=1}^{n}p_k^{m_k} & \text{ if } \sum_{i=1}^{k} m_i = N \\ 0 & \text{ otherwise }\end{cases} $

 

이번에는 위 글에서 제시한 최우추정법을 활용해서

다항분포의 확률질량함수를 구성하는 모수 $ p_1,p_2,...,p_n $ 을 추정해보겠습니다.

이 경우의 우도함수는 $ P(m_1,m_2,...,m_k|p_1,p_2,...,p_n)=\frac{N!}{m_1! m_2! ... m_k!}\prod_{k=1}^{n}p_k^{m_k} $ 으로 나타납니다.

그런데 원래 우도함수를 극대화하는 대신, 이의 상수항을 생략하고

자연로그를 취한 함수 $ \sum_{k=1}^{n}m_k log p_k $ 를 극대화하는 문제를 풀어도 같은 해를 얻습니다.

한편, 실험의 결과로서 반드시 한 결과는 얻을 수 있어야 하므로 $ \sum_{k=1}^{n}p_k =1 $ 의 식이 성립합니다.

따라서 제약조건 하의 극대화 문제를 풀기 위한 라그랑지안은 아래와 같습니다.

$ \Lambda = \sum_{k=1}^{n}m_k log p_k - \lambda(\sum_{k=1}^{n}p_k -1) $

위 식에서의 1계 조건은 모든 $ k=1,2,...,n $ 에 대해서 $ m_k/p_k=\lambda $ 가 성립한다는 것입니다.

따라서 가비의 리를 활용하면 $ (\sum_{k=1}^{n}m_k)/(\sum_{k=1}^{n}p_k)=N/1=\lambda $ 의 식을 얻게 됩니다.

결론적으로 모든 $ k $ 에 대해서 $ m_k/p_k=N $ 이 성립하고

$ p_k $ 의 최우추정량은 다름 아닌 $ m_k/N $ 이 됩니다.

$ m_k/N $ 은 전체 실험 횟수 가운데 특정한 결과를 얻은 횟수의 비율로서 상대빈도로 해석할 수 있습니다.

한편, 앞선 글에서 이항분포의 상대빈도 $ X/n $ 은 $ n $ 이 무한대로 커지면 

실험의 성공확률 $ p $ 로 확률수렴함을 언급했습니다.

비슷하게 다항분포에서의 상대빈도인 $ m_k/N $ 역시도

실험 횟수 $ N $ 이 커짐에 따라 해당 결과를 얻을 확률 $ p_k $ 로 확률수렴하는 것을 볼 수 있습니다.

 

이번 글에서는 다항분포를 정의하고 최우추정법으로 이의 모수를 추정해보았습니다.

다음 글에서는 다항분포의 특성과 함께 디리클레 분포에 대한 내용을 써보겠습니다.