본문 바로가기

수학/수리통계학

수리통계학 (49) - 충분통계량의 성질

지난 글에서는 최소분산불편추정량(MVUE)과 충분통계량에 대해 써보았습니다.

이번 글에서는 충분통계량의 성질에 대해 써보겠습니다.

 

우선 iid한 확률변수들로 구성된 확률벡터 $ \mathbf{X}=(X_1,X_2,...,X_n )' $ 를 생각하고

이들 변수가 확률밀도함수(혹은 확률질량함수) $ f(x;\theta) $ 를 가진다고 하겠습니다.

이하의 논의는 $ X_1,X_2,...,X_n $ 이 연속확률변수인지 혹은 이산확률변수인지에 무관하게 성립하는 내용이지만

편의를 위해서 이들이 연속확률변수인 경우를 상정하려고 합니다.

 

지난 글에서, 어떤 통계변수 $ Y:=T(\mathbf{X}) $ 가 $ \theta $ 의 충분통계량이 될 조건은

아래와 같은 식을 만족하는 함수 $ H(\cdot) $ 가 존재하는 것임을 언급했습니다.

$ f_{\mathbf{X}|Y}(\mathbf{x})=[\prod_{i=1}^n f(x_i;\theta)]/f_{Y}(T(x_1,x_2,...,x_n);\theta)=H(x_1,x_2,...,x_n) $

하지만 위의 정의만으로는 어떤 통계변수가 충분통계량인지 판단하기가 쉽지 않을 수도 있습니다.

이럴 때는 충분통계량의 정의에 나타난 조건과 동치인 다른 조건을 활용해 볼 수 있습니다.

실제로 다음과 같은 식을 만족하는 함수 $ k_1(\cdot) $ , $ k_2(\cdot) $ 가 존재한다는 것은 $ Y=T(\mathbf{X}) $ 의 충분성과 동치조건이 됩니다.

$ \prod_{i=1}^n f(x_i;\theta)=k_1(T(x_1,x_2,...,x_n);\theta)k_2(x_1,x_2,...,x_n) $ (네이만 인수분해 정리)

우선 $ Y $ 가 $ \theta $ 의 충분통계량이라면 아래와 같은 조건 하에서 위 식이 성립함을 알 수 있습니다.

For all $ (X_1,X_2,...,X_n)' \in \mathbb{R}^n $
$ k_1(T(x_1,x_2,...,x_n);\theta)=f_{Y}(y;\theta)=f_{Y}(T(x_1,x_2,...,x_n);\theta) $
$ k_2(x_1,x_2,...,x_n)=H(x_1,x_2,...,x_n) $

따라서 위의 조건이 $ Y $ 의 충분성과 동치조건임을 보이려면, 위 조건이 성립할 때 $ Y $ 가 충분통계량임을 보이기만 하면 됩니다.

이를 위해서 확률벡터 $ (X_1,X_2,...,X_n)' $ 을 다른 확률벡터 $ (Y,Z_1,...,Z_{n-1})' $ 로 변환하는 과정을 생각하겠습니다.

위 변환은 일대일 변환이고, 미분가능한 함수 $ u_1,u_2,...,u_n $ 에 의해서 아래와 같이 수행된다고 가정하겠습니다.

$ u_1(X_1)=Y $
$ u_i(X_i)=Z_{i-1} $ for all $ 2 \leq i \leq n $

위의 변환은 일대일 함수에 의해 수행됩니다.

따라서 미분가능한 함수 $ w_1,w_2,...,w_n $ 에 의해 수행되는 다음과 같은 역변환도 생각할 수 있습니다.

$ X_1=w_1(Y) $
$ X_i=w_i(Z_{i-1}) $ for all $ 2 \leq i \leq n $

상기한 변환식을 활용하면 $ Y,Z_1,...,Z_{n-1} $ 의 결합확률밀도함수를 아래와 같이 표현할 수 있습니다.

$ g(y,z_1,...,z_{n-1};\theta)=\prod_{i=1}^n f(x_i;\theta)=k_1(y;\theta)k_2(x_1,x_2,...,x_n)=k_1(y;\theta)k_2(w_1,w_2,...,w_n)|J| $

이제 $ Y $ 의 충분성을 보이기 위해 이의 주변확률밀도함수를 계산해보겠습니다.

$ f_Y(y)=\int_{-\infty}^{\infty}...\int_{-\infty}^{\infty}g(y,z_1,...,z_{n-1})dz_1 ... dz_{n-1}=\int_{-\infty}^{\infty}...\int_{-\infty}^{\infty}k_1(y;\theta)k_2(w_1,w_2,...,w_n)|J|dz_1 ... dz_{n-1} $

위 적분식의 우변은 아래와 같은 식을 만족합니다.

$ \int_{-\infty}^{\infty}...\int_{-\infty}^{\infty}k_1(y;\theta)k_2(w_1,w_2,...,w_n)|J|dz_1 ... dz_{n-1}=k_1(y;\theta)\int_{-\infty}^{\infty}...\int_{-\infty}^{\infty}k_2(w_1,w_2,...,w_n)|J|dz_1 ... dz_{n-1} $

그런데 바로 위 식의 우변에 등장하는 자코비안 행렬식은 함수 $ w_1,w_2,...,w_n $ 에만 의존하므로 $ \theta $ 와 무관합니다.

따라서 $ \int_{-\infty}^{\infty}...\int_{-\infty}^{\infty}k_2(w_1,w_2,...,w_n)|J|dz_1 ... dz_{n-1} $ 은 $ y $ 만의 함수로 나타낼 수 있습니다. 이를 $ m(y) $ 으로 쓰겠습니다.

위의 사실들을 종합하면 $ Y $ 의 주변확률밀도함수는 아래와 같이 표현할 수 있습니다.

$ f_Y(y)=k_1(y;\theta)m(y) $

따라서 $ X_1,X_2,...,X_n $ 의 결합확률밀도함수는 아래와 같이 쓸 수 있습니다.

$ f(x_1,x_2,...,x_n;\theta)=\prod_{i=1}^n f(x_i;\theta)=k_1(y;\theta)k_2(x_1,x_2,...,x_n)=[f_Y(y)/m(y)]k_2(x_1,x_2,...,x_n) $

그러므로 $ \prod_{i=1}^n f(x_i;\theta)/f_Y(y)=k_2(x_1,x_2,...,x_n)/m(y)=k_2(x_1,x_2,...,x_n)/m(T(x_1,x_2,...,x_n)) $ 의 식이 성립하고

$ Y $ 가 $ \theta $ 의 충분통계량임을 알 수 있습니다.

네이만 인수분해 정리는 주어진 결합확률밀도함수에 포함된 모수 $ \theta $ 에 관련된 항을

통계변수 $ Y $ 의 함수에 모두 포함시킬 수 있다면, $ Y $ 가 $ \theta $ 의 충분통계량이 됨을 보여줍니다.

한편, $ \theta $ 의 충분통계량이 존재한다면 이는 유일하지 않다는 것을 알 수 있습니다.

예를 들어, $ \theta $ 의 충분통계량 $ Y $ 를 일대일 함수 $ h(\cdot) $ 에 대입하여 얻은 변수 $ Z:=h(Y) $ 를 생각하겠습니다.

이 변수 $ Z $ 는 여전히 상기한 인수분해 조건을 만족합니다.

따라서 이 역시도 $ \theta $ 의 충분통계량이 됨을 알 수 있습니다.

 

한편, 앞선 글에서 충분통계량과 MVUE의 관련성을 언급했습니다.

만약 모수 $ \theta $ 의 충분통계량 $ Y $ 가 존재한다면 이는 $ \theta $ 의 MVUE를 찾는 단서가 됩니다.

구체적으로는, $ \theta $ 의 MVUE는 이의 충분통계량 $ Y $ 의 함수로 주어집니다.

물론 $ \theta $ 의 MVUE가 존재하지 않을 수도 있지 않나 하는 의문을 품을 수도 있습니다.

실제로 MVUE가 존재하지 않는 사례도 있습니다.

예컨대, $ \theta $ 의 불편추정량이 존재하지 않는다면 당연하게도 MVUE 역시 존재하지 않게 됩니다.

혹은 $ \theta $ 의 불편추정량이 존재하는 경우라도 모든 모수값에서 분산이 극소화되는 추정량이 존재하지 않을 수도 있습니다.

그러나 이 글과 다음 글에서 논의되는 대부분의 사례에서는 MVUE를 구할 수 있기 때문에

별다른 언급이 없다면 MVUE가 항상 존재하는 것으로 가정하겠습니다.

 

이제 MVUE가 충분통계량의 함수로 주어진다는 것을 설명하고 글을 마치겠습니다.

우선 $ \theta $ 의 충분통계량 $ Y $ 가 존재한다고 해보겠습니다.

그리고 통계변수 $ Z $ 가 $ \theta $ 의 불편추정량임을 가정하겠습니다.

위와 같은 가정 하에서, 새로운 통계변수 $ \eta $ 를 $ \eta:=E[Z|Y] $ 와 같이 정의해보겠습니다.

$ \eta $ 의 값은 $ \eta=\int_{-\infty}^{\infty}zf_{Z|Y}(z|y)dz $ 의 식으로 계산됩니다.

그런데 $ Y $ 가 $ \theta $ 의 충분통계량이므로, $ \eta $ 는 $ \theta $ 와는 무관한 $ y $ 의 함수로 계산됩니다.

따라서 $ \eta $ 는 $ \theta $ 를 추정하기 위해 활용할 수 있습니다.

그리고 앞선 글에서 언급한 반복 기댓값의 법칙에 따라 $ E[\eta]=E[E[Z|Y]]=E[Z]=\theta $ 가 성립하므로

$ \eta $ 는 $ \theta $ 의 불편추정량이 됩니다.

게다가 조건부 분산에 관한 부등식을 활용하면 $ Var(\eta)=Var(E[Z|Y])\leq Var(Z) $ 의 부등식을 얻게 됩니다.

따라서 $ \eta $ 는 $ Z $ 보다 더 효율적인 추정량이 됩니다.

요컨대, $ \theta $ 의 불편추정량 $ Z $ 의 $ Y $ 조건부 평균을 계산하여 얻은 통계변수는

더 효율적인 불편추정량이 됨을 알 수 있습니다.(라오-블랙웰 정리)

달리 말하면, 충분통계량의 함수가 아닌 불편추정량은 더 작은 분산을 갖는 불편추정량으로 바꿀 수 있고

따라서 MVUE는 반드시 충분통계량의 함수로 주어져야 한다는 것을 알 수 있습니다.

 

이번 글에서는 충분통계량의 성질에 대해 써보았습니다.

다음 글에서는 충분통계량과 관련된 다른 개념들에 대해 써보겠습니다.