지난 글에서는 자주 쓰이는 연속확률분포에 대해 써보았습니다.
이번 글에서는 다항분포에 대한 내용을 써보려고 합니다.
글을 시작하기에 앞서 통계학에서 미지의 변수를 바라보는
두 가지의 상반된 관점을 언급하고 넘어가겠습니다.
통계학의 기본적인 목표 중 하나는 자료를 해석해서 미지의 무언가를 찾아내는 것입니다.
예컨대, 표본을 조사해서 모집단의 통계적 특성인 모수를 찾아내는 것이 목표가 될 수 있습니다.
다시 말해서, 모수가 미지의 고정값이라고 전제하고 이 값을 찾아내려고 노력할 수 있습니다.
한편, 어떤 사람들은 모수의 정해진 값 대신에 모수가 따르는 확률분포를 찾아내려고 합니다.
만약 자료가 지극히 부족한 상황이라면 모수의 정확한 값을 알아내기 힘들 수도 있습니다.
따라서 이의 확률분포라도 알아내겠다고 하는 것이 합리적인 차선책이 될 수도 있습니다.
이렇게 서로 다른 두 가지의 관점 가운데
모수의 정해진 값을 찾아내려는 전자의 관점을 빈도주의적 관점(frequentist paradigm)이라고 합니다.
반면, 모수가 불확실성을 가진 확률변수라고 보는 관점은 베이지안 관점(Bayesian paradigm)이라고 부릅니다.
위의 두 관점과 관련된 예를 들어보겠습니다.
어떤 확률분포가 주어져 있는데 이를 구성하는 특정한 모수 d 의 값이 정해져야만 분포가 확정된다고 해보겠습니다.
한편 이 모수값을 결정하기 위해 수집된 자료 x 가 주어져있고
이 x 는 상기한 확률분포를 따른다는 것이 알려져 있다고 가정하겠습니다.
그러면 미지의 모수 d 가 어떤 값을 가질 확률은 P(d|x) 와 같이 조건부 확률로 계산됩니다.
위의 조건부 확률은 앞선 글에서 언급한 베이즈 정리에 따라 P(d|x)=P(x|d)P(d)P(x) 와 같이 계산될 수 있습니다.
위의 식은 d 의 사후확률이 P(x|d) 에 비례한다는 것을 보여줍니다.
이 조건부 확률 P(x|d) 를 계산해주는 함수를 우도함수(likelihood function)라고 합니다.
우도함수의 의미는 아래와 같이 두 가지 관점에서 해석할 수 있습니다.
첫째, 특정한 모수 값을 전제했을 때 현재 가지고 있는 자료를 얻게 될 확률이라고 할 수 있습니다.(빈도주의적 관점)
둘째, 여러 모수 값들을 고려했을 때 현재 가지고 있는 자료를 잘 설명할 수 있는 정도로 해석할 수 있습니다.(베이지안 관점)
한편, 우도함수는 정확한 모수 값을 찾기 위한 추정량을 계산하는 데 활용할 수 있습니다.
구체적으로, 우도함수의 값 P(x|d) 를 극대화시키는 d∗ 는
최우추정량(maximum likelihood estimator)이라고 부릅니다.
이제 다항분포(multinomial distribution)를 정의해보겠습니다.
앞선 글에서 언급한 베르누이 실험은 성공 혹은 실패로 결과가 정해져 있었지만
현실의 많은 실험은 여러가지 결과를 낳을 수 있는 것이 보통입니다.
따라서 n 가지의 서로 다른 결과를 표현하기 위해서 n 차원의 기본벡터들을 활용해볼 수 있습니다.
다시 말해, 기본벡터 가운데 k 번째 원소만이 1이고 나머지 n−1 개의 원소는 모두 0인 벡터를 ek 로 표기하면
e1,e2,...,en 들이 n 가지의 서로 다른 결과에 대응되는 것으로 생각할 수 있습니다.
모든 k=1,2,...,n 에 대해 ek 에 대응되는 결과를 얻을 확률을 pk 라고 하면
임의의 실험결과 x=(x1,x2,...,xn) 을 얻게 될 확률은 pX(x)=∏nk=1pxkk 로 계산되는 것을 알 수 있습니다.
다항분포는 위와 같은 실험을 N 번 진행했을 때
모든 k 에 대해서 ek 에 대응되는 사건이 일어난 횟수들이 따르는 분포입니다.
실제로 모든 k 에 대해 ek 에 대응되는 사건이 mk 번 일어날 확률은 N!m1!m2!...mk!∏nk=1pmkk 으로 계산됩니다.
따라서 다항분포의 확률질량함수는 아래와 같이 나타낼 수 있습니다.
p(m1,m2,...,mk)={N!m1!m2!...mk!∏nk=1pmkk if ∑ki=1mi=N0 otherwise
이번에는 위 글에서 제시한 최우추정법을 활용해서
다항분포의 확률질량함수를 구성하는 모수 p1,p2,...,pn 을 추정해보겠습니다.
이 경우의 우도함수는 P(m1,m2,...,mk|p1,p2,...,pn)=N!m1!m2!...mk!∏nk=1pmkk 으로 나타납니다.
그런데 원래 우도함수를 극대화하는 대신, 이의 상수항을 생략하고
자연로그를 취한 함수 ∑nk=1mklogpk 를 극대화하는 문제를 풀어도 같은 해를 얻습니다.
한편, 실험의 결과로서 반드시 한 결과는 얻을 수 있어야 하므로 ∑nk=1pk=1 의 식이 성립합니다.
따라서 제약조건 하의 극대화 문제를 풀기 위한 라그랑지안은 아래와 같습니다.
Λ=∑nk=1mklogpk−λ(∑nk=1pk−1)
위 식에서의 1계 조건은 모든 k=1,2,...,n 에 대해서 mk/pk=λ 가 성립한다는 것입니다.
따라서 가비의 리를 활용하면 (∑nk=1mk)/(∑nk=1pk)=N/1=λ 의 식을 얻게 됩니다.
결론적으로 모든 k 에 대해서 mk/pk=N 이 성립하고
pk 의 최우추정량은 다름 아닌 mk/N 이 됩니다.
mk/N 은 전체 실험 횟수 가운데 특정한 결과를 얻은 횟수의 비율로서 상대빈도로 해석할 수 있습니다.
한편, 앞선 글에서 이항분포의 상대빈도 X/n 은 n 이 무한대로 커지면
실험의 성공확률 p 로 확률수렴함을 언급했습니다.
비슷하게 다항분포에서의 상대빈도인 mk/N 역시도
실험 횟수 N 이 커짐에 따라 해당 결과를 얻을 확률 pk 로 확률수렴하는 것을 볼 수 있습니다.
이번 글에서는 다항분포를 정의하고 최우추정법으로 이의 모수를 추정해보았습니다.
다음 글에서는 다항분포의 특성과 함께 디리클레 분포에 대한 내용을 써보겠습니다.
'수학 > 수리통계학' 카테고리의 다른 글
수리통계학 (32) - 정규분포의 정의 (0) | 2021.12.21 |
---|---|
수리통계학 (31) - 다항분포의 특성 (0) | 2021.12.21 |
수리통계학 (29) - 자주 쓰이는 연속확률분포 (0) | 2021.12.19 |
수리통계학 (28) - 포아송 분포의 성질 (0) | 2021.12.18 |
수리통계학 (27) - 포아송 과정 및 분포 (0) | 2021.12.18 |