본문 바로가기

수학/수리통계학

수리통계학 (50) - 완비충분통계량

지난 글에서는 충분통계량의 성질에 대해 써보았습니다.

이번 글에서는 완비충분통계량에 대해 써보겠습니다.

 

우선 이번 논의에서 활용되는 개념인 완비성에 대해 간략히 설명하고 넘어가겠습니다.

어떤 연속확률변수 XX 와 이의 확률밀도함수 fX(x;θ)fX(x;θ) 가 주어졌다고 해보겠습니다.

그리고 위의 함수에 포함된 모수 θθΘΘ 라는 집합을 구성하는 원소 중 하나라고 가정하겠습니다.

그렇다면 모수의 값에 따라 서로 다른 확률밀도함수를 얻을 수 있습니다.

이들 함수를 모두 모아놓은 집합 {fX(x;θ)|θΘ}{fX(x;θ)|θΘ}XX 의 분포족(family of distribution)이라고 부릅니다.

그런데 어떤 분포족은 모수 θθ 에 관련해서 특별한 성질을 갖고 있습니다.

예컨대, E[u(X)]<E[u(X)]< 를 만족하는 모든 종류의 함수 u(X)u(X) 에 대해 아래의 관계식이 항상 성립한다고 해보겠습니다.

E[u(X)]=0E[u(X)]=0 for all θΘθΘ P(u(X)=0)=1P(u(X)=0)=1

위와 같은 관계식을 만족하는 XX 의 분포족은 θθ 에 대한 완비성을 충족한다고 합니다.

그리고 어떤 확률변수의 분포족이 완비성을 충족하면, 이 확률변수는 완비통계량(complete statistic)이라고 부릅니다.

한편, 어떤 통계변수가 완비성과 충분성을 모두 구비하고 있으면 이를 완비충분통계량이라고 합니다.

완비충분통계량은 MVUE를 구하기 위한 결정적인 단서가 됩니다.

이하에서는 그 이유를 설명해보겠습니다.

 

우선 iid한 확률변수 X1,X2,...,XnX1,X2,...,Xn 이 공통의 확률밀도함수 f(x;θ)f(x;θ) 를 가진다고 해보겠습니다.

그리고 확률변수 YYθθ 에 대한 완비충분통계량임을 가정하겠습니다.

한편, θθ 에 대한 임의의 불편추정량 ZZ 가 충분통계량의 함수로 주어지지 않았다고 한다면

이를 라오-블랙웰 정리에 따라 더 효율적인 불편추정량 η(Y)=E[Z|Y]η(Y)=E[Z|Y] 로 개선할 수 있습니다.

이제 YY 의 함수로 주어지는 서로 다른 불편추정량 η(Y),ζ(Y)η(Y),ζ(Y) 가 존재한다고 해보겠습니다.

이들은 θθ 의 불편추정량이므로 임의의 모수 θΘθΘ 에 대해 아래 식이 성립합니다.

E[η(Y)ζ(Y)]=E[η(Y)]E[ζ(Y)]=θθ=0E[η(Y)ζ(Y)]=E[η(Y)]E[ζ(Y)]=θθ=0

또한 YY 가 완비통계량임을 활용하면 아래와 같은 식을 얻을 수 있습니다.

E[η(Y)ζ(Y)]=0E[η(Y)ζ(Y)]=0 for all θΘθΘ P(η(Y)ζ(Y)=0)=1P(η(Y)ζ(Y)=0)=1

따라서 η(Y)η(Y)ζ(Y)ζ(Y) 는 거의 확실히 서로 같다고 할 수 있습니다.

다시 말해, YY 의 함수로 주어지는 θθ 의 불편추정량은 유일합니다.

결론적으로, YY 의 함수가 아닌 불편추정량은 라오-블랙웰 정리를 통해 항상 개선할 수 있는 한편

YY 의 함수인 불편추정량은 유일하므로 상기한 η(Y)η(Y)θθ 에 대한 MVUE가 됩니다.(레만-셰페 정리)

 

한편, 레만-셰페 정리를 통해 구한 MVUE는 항상 유일함을 알 수 있습니다.

그렇다면 MVUE가 존재할 때마다 항상 유일할 것인가 하는 질문도 할 수 있습니다.

일단 위 질문에 대한 답은 항상 그렇다입니다. MVUE가 존재하다면 항상 유일합니다.

우선 어떤 모수의 완비충분통계량이 존재한다면 상기한 레만-셰페 정리가 MVUE의 유일성을 담보해줍니다.

그런데 완비충분통계량이 존재하지 않는 경우에도 MVUE는 항상 유일합니다.

 

MVUE의 유일성은 다음과 같이 보일 수 있습니다.

우선 η,ζη,ζθθ 의 서로 다른 MVUE라고 해보겠습니다.

이때, 추정량 κκκ:=η+λ(ζη)κ:=η+λ(ζη) 와 같이 정의하겠습니다.

κκθθ 의 불편추정량이 됩니다.

왜냐하면 E[κ]=E[η+λ(ζη)]=θ+λ(θθ)=θE[κ]=E[η+λ(ζη)]=θ+λ(θθ)=θ 식이 성립하기 때문입니다.

이제 κκ 의 분산을 계산해보겠습니다.

Var(κ)=Var(η+λ(ζη))=Var(η)+λ2Var(ζη)+2λCov(η,ζη)Var(κ)=Var(η+λ(ζη))=Var(η)+λ2Var(ζη)+2λCov(η,ζη)

만약 Cov(η,ζη)=0Cov(η,ζη)=0 이 성립한다면 Var(κ)=Var(η)+λ2Var(ζη)Var(κ)=Var(η)+λ2Var(ζη) 식이 성립하고

위 식의 ηη 는 MVUE이므로 Var(ζη)=0Var(ζη)=0 이 성립합니다.

한편, Cov(η,ζη)Cov(η,ζη) 가 0이 아니라고 해보겠습니다.

이 경우에는 λ=Cov(η,ζη)/Var(ζη)λ=Cov(η,ζη)/Var(ζη) 를 가정하면 아래 식을 얻을 수 있습니다.

Var(κ)=Var(η)[Cov(η,ζη)]2/Var(ζη)Var(κ)=Var(η)[Cov(η,ζη)]2/Var(ζη)

따라서 Var(κ)<Var(η)Var(κ)<Var(η) 가 성립하고 이는 모순이 됩니다.

위의 사실들을 종합하면 Var(ζη)=E[(ζη)2]=0Var(ζη)=E[(ζη)2]=0 의 식을 얻게 됩니다.

만약 P(ζη=0)=1P(ζη=0)=1 이 성립하지 않는다면 르베그 적분의 단조성 때문에 E[(ζη)2]>0E[(ζη)2]>0 의 부등식이 성립해야 합니다.

이는 모순이 됩니다. 따라서 MVUE는 거의 확실하게 유일함을 알 수 있습니다.

 

이제 MVUE를 구하는 과정을 요약해보고 글을 마치겠습니다.

Step 1. 주어진 모수의 완비충분통계량을 찾습니다.

Step 2. 모수에 의존하지 않는 불편추정량을 찾습니다.

Step 3. 상기한 불편추정량을 라오-블랙웰 정리에 따라 완비충분통계량의 함수로 나타냅니다.

위와 같은 과정을 거치면 MVUE를 찾을 수 있습니다.

 

한편, 위의 과정에서 불편추정량을 찾는 한 가지 방법은 다름 아닌 최우추정량을 구하는 것입니다.

사실 최우추정량 ˆθ^θ 이 유일할 경우, 이는 반드시 θθ 의 충분통계량의 함수로 주어집니다.

그 이유는 다음과 같습니다. 만약 θθ 의 충분통계량을 YY 라고 한다면

우도함수 L(θ)L(θ) 는 네이만 인수분해 정리에 따라 L(θ)=fY(y;θ)H(x1,x2,...,xn)L(θ)=fY(y;θ)H(x1,x2,...,xn) 의 식으로 표현됩니다.

그렇다면 최우추정을 위한 추정방정식은 ˆθ=argmaxθL(θ)=argmaxθfY(y;θ)^θ=argmaxθL(θ)=argmaxθfY(y;θ) 와 같이 다시 쓸 수 있습니다.

따라서 최우추정량이 유일하다면, 이는 충분통계량 YY 의 함수로 주어지는 것을 볼 수 있습니다.

또한 최우추정량은 점근적으로 불편성을 충족하므로, 적절한 보정을 통해 불편추정량으로 만들 수 있는 것이 보통입니다.

 

이번 글에서는 완비충분통계량에 대해 써보았습니다.

다음 글에서는 지수족 확률분포의 완비통계량에 대해 써보겠습니다.