본문 바로가기

수학/수리통계학

수리통계학 (54) - 우도비검정(完)

지난 글에서는 최강력검정에 대해 써보았습니다.

이번 글에서는 우도비검정에 대해 써보겠습니다.

 

사실 우도비검정은 가설검정에 통상적으로 많이 쓰이는 세 가지 방법 중 하나입니다.

그 세 가지 방법은 아래와 같은 것들입니다.

1. 우도비검정(likelihood ratio test)
2. 라그랑지 승수검정(Lagrange multiplier test)
3. 왈드검정(Wald test)

이 세 검정방법은 각기 다른 통계변수를 활용해서 가설을 검정합니다.

그러나 임의표본의 크기가 무한대로 커지면, 이 세 검정은 같은 검정결과를 가져다줍니다.

다시 말해, 이 세 가지 검정은 점근적으로 동등하다고 할 수 있습니다.

그러나 지면관계상 위의 검정들을 모두 소개하는 것은 쉽지 않을 듯하여

개념적으로 가장 간단한 우도비검정을 소개하고 글을 마치겠습니다.

 

앞선 글에서 최적기각역 CC 를 설정하는 방법의 하나로서 네이만-피어슨 정리를 언급한 바 있습니다.

이의 설명을 위해서 단순가설 두 개가 대립하는 가설검정의 사례를 먼저 살펴보겠습니다.

H0:θ=θ1H0:θ=θ1 vs. H1:θ=θ2H1:θ=θ2

그리고 iid한 확률변수들로 구성된 확률벡터 X=(X1,X2,...,Xn) 를 생각하고

이 확률벡터의 실현된 값은 x 로 표기하겠습니다.

한편, 이들의 우도함수는 L(θ;x) 로 주어져있다고 가정하겠습니다.

그리고 상기한 모수(혹은 다른 통계변수) θ 가 가질 수 있는 모든 값을 모아놓은 집합을 Θ 라고 하겠습니다.

이제 아래와 같은 통계변수를 새로이 정의해보겠습니다.

ΛLR(x):=L(θ1,x)/L(θ2,x)

네이만-피어슨 정리는 ΛLR(x)kxCα=Pθ1(xC) 를 만족하는

기각역 C 는 최적기각역이 됨을 시사하고 있습니다.

그리고 위와 같이 구한 최적기각역을 활용한 가설검정은 최강력검정이 됩니다.

따라서 단순가설 두 개가 대립하는 상황에서의 우도비검정은 아래와 같이 수행할 수 있습니다.

H0 기각  if ΛLR(x)k
H0 유지  otherwise 

상기한 가설검정은 네이만-피어슨 정리에 따라 최강력검정이 됨을 알 수 있습니다.

 

그런데 위와 같은 가설검정은 우도비함수 ΛLR(x) 가 특정한 성질을 충족한다면 보다 간편하게 수행할 수 있습니다.

예를 들어, ΛLR(x) 가 어떤 통계변수 y:=u(x) 의 단조함수라고 해보겠습니다.

그렇다면 이 통계변수 y 는 우도비함수의 대리변수로 활용할 수 있게 됩니다.

구체적인 설명을 위해서, 일반성을 잃지 않고 ΛLR(x)y=u(x) 의 강단조감소함수로 주어진다고 해보겠습니다.

그리고 이 함수는 g(y)=ΛLR(x)(g()<0) 와 같이 표현하겠습니다.

이제 상기한 우도비검정에서 등장하는 부등식은 아래와 같이 다시 쓸 수 있습니다.

ΛLR(x)=L(θ1,x)/L(θ2,x)=g(y)k

그런데 위 식의 제일 오른쪽에 놓인 부등호 관계는 아래와 같은 관계식을 충족합니다.

g(y)kyg1(k)

결론적으로, 상기한 성질을 만족하는 우도함수의 경우에는 아래와 같은 검정이 최강력검정이 됩니다.

H0 기각  if y(x)g1(k)
H0 유지  otherwise 

위와 같이 우도비함수가 어떤 통계변수 u(x) 의 단조함수로 주어지는 것을 가리켜

단조우도비 성질(mlr, monotone likelihood ratio)을 충족한다고 표현합니다.

 

그렇다면 복합가설 두 개가 서로 대립하는 상황에서는 우도비검정을 어떻게 수행하는가 하는 질문도 할 수 있습니다.

설명을 위해서, 아래와 같은 두 가설이 대립하는 상황을 상정해보겠습니다.

H0:θw1 vs. H1:θw2

안타깝게도, 복합가설 두 개가 대립하는 일반적인 상황에서는 상기한 검정절차를 그대로 활용할 수는 없습니다.

하지만 표본크기가 충분히 크다는 전제하에서 위의 가설검정을 수행할 수 있는 방법이 있습니다.

우선 다음과 같은 우도비함수를 새로이 정의하겠습니다.

ΛLR(x):=2ln[supθw1L(θ,x)/supθw2L(θ,x)]

위의 우도함수는 l(θi):=ln[supθwiL(θ,x)](i=1,2)  함수를 활용하면 아래와 같이 간략히 쓸 수도 있습니다.

ΛLR(x)=2[l(θ1)l(θ2)]

위와 같이 정의된 우도비함수는 어떤 확률분포를 따를 것인지 쉽게 짐작할 수 없을 것만 같습니다.

그러나 임의표본이 무한히 커진다면, 상기한 우도비함수는 (귀무가설 하에서) 아래와 같은 확률분포로 분포수렴합니다.

2[l(θ1)l(θ2)]|θw1dχ2(dim(Θ)dim(w1))(윌크스 정리)

윌크스 정리는 상기한 우도비함수가 어떤 카이제곱분포로 분포수렴함을 알려줍니다.

그리고 이 카이제곱분포의 자유도는 θ 가 가질 수 있는 모든 값을 포함하는 집합 Θ 의 차원에서

귀무가설 하의 θ 값들을 포함하는 집합 w1 의 차원을 서로 뺀 값이 됩니다.

윌크스 정리는 θ 의 확률분포를 직접 계산하지 않고서도 우도함수만을 활용해서 가설검정을 수행할 수 있도록 해줍니다.

물론 위의 확률분포는 점근적 분포이기 때문에 위의 검정은 대표본의 경우에만 타당하다고 할 수 있겠습니다.

따라서 표본크기가 큰 경우에는 우도비검정을 활용하는 것을 적극 검토해볼 수 있습니다.

 

이번 글에서는 우도비검정에 대해 써보았습니다.

이번 글을 끝으로 제가 생각했던 수리통계학의 중요한 주제들은 모두 다루지 않았나 생각합니다.

따라서 이번 글이 수리통계학 카테고리의 마지막 글이 되어버렸습니다.

다음 글에서는 제가 글을 쓰게 된 동기와 참고문헌, 아쉬운 점 등에 대해 써보려고 합니다.