지난 글에서는 충분통계량의 성질에 대해 써보았습니다.
이번 글에서는 완비충분통계량에 대해 써보겠습니다.
우선 이번 논의에서 활용되는 개념인 완비성에 대해 간략히 설명하고 넘어가겠습니다.
어떤 연속확률변수 XX 와 이의 확률밀도함수 fX(x;θ)fX(x;θ) 가 주어졌다고 해보겠습니다.
그리고 위의 함수에 포함된 모수 θθ 는 ΘΘ 라는 집합을 구성하는 원소 중 하나라고 가정하겠습니다.
그렇다면 모수의 값에 따라 서로 다른 확률밀도함수를 얻을 수 있습니다.
이들 함수를 모두 모아놓은 집합 {fX(x;θ)|θ∈Θ}{fX(x;θ)|θ∈Θ} 를 XX 의 분포족(family of distribution)이라고 부릅니다.
그런데 어떤 분포족은 모수 θθ 에 관련해서 특별한 성질을 갖고 있습니다.
예컨대, E[u(X)]<∞E[u(X)]<∞ 를 만족하는 모든 종류의 함수 u(X)u(X) 에 대해 아래의 관계식이 항상 성립한다고 해보겠습니다.
E[u(X)]=0E[u(X)]=0 for all θ∈Θθ∈Θ ⇒⇒ P(u(X)=0)=1P(u(X)=0)=1
위와 같은 관계식을 만족하는 XX 의 분포족은 θθ 에 대한 완비성을 충족한다고 합니다.
그리고 어떤 확률변수의 분포족이 완비성을 충족하면, 이 확률변수는 완비통계량(complete statistic)이라고 부릅니다.
한편, 어떤 통계변수가 완비성과 충분성을 모두 구비하고 있으면 이를 완비충분통계량이라고 합니다.
완비충분통계량은 MVUE를 구하기 위한 결정적인 단서가 됩니다.
이하에서는 그 이유를 설명해보겠습니다.
우선 iid한 확률변수 X1,X2,...,XnX1,X2,...,Xn 이 공통의 확률밀도함수 f(x;θ)f(x;θ) 를 가진다고 해보겠습니다.
그리고 확률변수 YY 가 θθ 에 대한 완비충분통계량임을 가정하겠습니다.
한편, θθ 에 대한 임의의 불편추정량 ZZ 가 충분통계량의 함수로 주어지지 않았다고 한다면
이를 라오-블랙웰 정리에 따라 더 효율적인 불편추정량 η(Y)=E[Z|Y]η(Y)=E[Z|Y] 로 개선할 수 있습니다.
이제 YY 의 함수로 주어지는 서로 다른 불편추정량 η(Y),ζ(Y)η(Y),ζ(Y) 가 존재한다고 해보겠습니다.
이들은 θθ 의 불편추정량이므로 임의의 모수 θ∈Θθ∈Θ 에 대해 아래 식이 성립합니다.
E[η(Y)−ζ(Y)]=E[η(Y)]−E[ζ(Y)]=θ−θ=0E[η(Y)−ζ(Y)]=E[η(Y)]−E[ζ(Y)]=θ−θ=0
또한 YY 가 완비통계량임을 활용하면 아래와 같은 식을 얻을 수 있습니다.
E[η(Y)−ζ(Y)]=0E[η(Y)−ζ(Y)]=0 for all θ∈Θθ∈Θ ⇒⇒ P(η(Y)−ζ(Y)=0)=1P(η(Y)−ζ(Y)=0)=1
따라서 η(Y)η(Y) 와 ζ(Y)ζ(Y) 는 거의 확실히 서로 같다고 할 수 있습니다.
다시 말해, YY 의 함수로 주어지는 θθ 의 불편추정량은 유일합니다.
결론적으로, YY 의 함수가 아닌 불편추정량은 라오-블랙웰 정리를 통해 항상 개선할 수 있는 한편
YY 의 함수인 불편추정량은 유일하므로 상기한 η(Y)η(Y) 는 θθ 에 대한 MVUE가 됩니다.(레만-셰페 정리)
한편, 레만-셰페 정리를 통해 구한 MVUE는 항상 유일함을 알 수 있습니다.
그렇다면 MVUE가 존재할 때마다 항상 유일할 것인가 하는 질문도 할 수 있습니다.
일단 위 질문에 대한 답은 항상 그렇다입니다. MVUE가 존재하다면 항상 유일합니다.
우선 어떤 모수의 완비충분통계량이 존재한다면 상기한 레만-셰페 정리가 MVUE의 유일성을 담보해줍니다.
그런데 완비충분통계량이 존재하지 않는 경우에도 MVUE는 항상 유일합니다.
MVUE의 유일성은 다음과 같이 보일 수 있습니다.
우선 η,ζη,ζ 가 θθ 의 서로 다른 MVUE라고 해보겠습니다.
이때, 추정량 κκ 를 κ:=η+λ(ζ−η)κ:=η+λ(ζ−η) 와 같이 정의하겠습니다.
κκ 는 θθ 의 불편추정량이 됩니다.
왜냐하면 E[κ]=E[η+λ(ζ−η)]=θ+λ(θ−θ)=θE[κ]=E[η+λ(ζ−η)]=θ+λ(θ−θ)=θ 식이 성립하기 때문입니다.
이제 κκ 의 분산을 계산해보겠습니다.
Var(κ)=Var(η+λ(ζ−η))=Var(η)+λ2Var(ζ−η)+2λCov(η,ζ−η)Var(κ)=Var(η+λ(ζ−η))=Var(η)+λ2Var(ζ−η)+2λCov(η,ζ−η)
만약 Cov(η,ζ−η)=0Cov(η,ζ−η)=0 이 성립한다면 Var(κ)=Var(η)+λ2Var(ζ−η)Var(κ)=Var(η)+λ2Var(ζ−η) 식이 성립하고
위 식의 ηη 는 MVUE이므로 Var(ζ−η)=0Var(ζ−η)=0 이 성립합니다.
한편, Cov(η,ζ−η)Cov(η,ζ−η) 가 0이 아니라고 해보겠습니다.
이 경우에는 λ=−Cov(η,ζ−η)/Var(ζ−η)λ=−Cov(η,ζ−η)/Var(ζ−η) 를 가정하면 아래 식을 얻을 수 있습니다.
Var(κ)=Var(η)−[Cov(η,ζ−η)]2/Var(ζ−η)Var(κ)=Var(η)−[Cov(η,ζ−η)]2/Var(ζ−η)
따라서 Var(κ)<Var(η)Var(κ)<Var(η) 가 성립하고 이는 모순이 됩니다.
위의 사실들을 종합하면 Var(ζ−η)=E[(ζ−η)2]=0Var(ζ−η)=E[(ζ−η)2]=0 의 식을 얻게 됩니다.
만약 P(ζ−η=0)=1P(ζ−η=0)=1 이 성립하지 않는다면 르베그 적분의 단조성 때문에 E[(ζ−η)2]>0E[(ζ−η)2]>0 의 부등식이 성립해야 합니다.
이는 모순이 됩니다. 따라서 MVUE는 거의 확실하게 유일함을 알 수 있습니다.
이제 MVUE를 구하는 과정을 요약해보고 글을 마치겠습니다.
Step 1. 주어진 모수의 완비충분통계량을 찾습니다.
Step 2. 모수에 의존하지 않는 불편추정량을 찾습니다.
Step 3. 상기한 불편추정량을 라오-블랙웰 정리에 따라 완비충분통계량의 함수로 나타냅니다.
위와 같은 과정을 거치면 MVUE를 찾을 수 있습니다.
한편, 위의 과정에서 불편추정량을 찾는 한 가지 방법은 다름 아닌 최우추정량을 구하는 것입니다.
사실 최우추정량 ˆθ^θ 이 유일할 경우, 이는 반드시 θθ 의 충분통계량의 함수로 주어집니다.
그 이유는 다음과 같습니다. 만약 θθ 의 충분통계량을 YY 라고 한다면
우도함수 L(θ)L(θ) 는 네이만 인수분해 정리에 따라 L(θ)=fY(y;θ)H(x1,x2,...,xn)L(θ)=fY(y;θ)H(x1,x2,...,xn) 의 식으로 표현됩니다.
그렇다면 최우추정을 위한 추정방정식은 ˆθ=argmaxθL(θ)=argmaxθfY(y;θ)^θ=argmaxθL(θ)=argmaxθfY(y;θ) 와 같이 다시 쓸 수 있습니다.
따라서 최우추정량이 유일하다면, 이는 충분통계량 YY 의 함수로 주어지는 것을 볼 수 있습니다.
또한 최우추정량은 점근적으로 불편성을 충족하므로, 적절한 보정을 통해 불편추정량으로 만들 수 있는 것이 보통입니다.
이번 글에서는 완비충분통계량에 대해 써보았습니다.
다음 글에서는 지수족 확률분포의 완비통계량에 대해 써보겠습니다.
'수학 > 수리통계학' 카테고리의 다른 글
수리통계학 (52) - 최소충분통계량 (0) | 2022.01.16 |
---|---|
수리통계학 (51) - 지수족 확률분포 (0) | 2022.01.15 |
수리통계학 (49) - 충분통계량의 성질 (0) | 2022.01.13 |
수리통계학 (48) - 최소분산불편추정량 (0) | 2022.01.11 |
수리통계학 (47) - 가우스-마르코프 정리 (0) | 2022.01.11 |