지난 글에서는 최소분산불편추정량(MVUE)과 충분통계량에 대해 써보았습니다.
이번 글에서는 충분통계량의 성질에 대해 써보겠습니다.
우선 iid한 확률변수들로 구성된 확률벡터 $ \mathbf{X}=(X_1,X_2,...,X_n )' $ 를 생각하고
이들 변수가 확률밀도함수(혹은 확률질량함수) $ f(x;\theta) $ 를 가진다고 하겠습니다.
이하의 논의는 $ X_1,X_2,...,X_n $ 이 연속확률변수인지 혹은 이산확률변수인지에 무관하게 성립하는 내용이지만
편의를 위해서 이들이 연속확률변수인 경우를 상정하려고 합니다.
지난 글에서, 어떤 통계변수 $ Y:=T(\mathbf{X}) $ 가 $ \theta $ 의 충분통계량이 될 조건은
아래와 같은 식을 만족하는 함수 $ H(\cdot) $ 가 존재하는 것임을 언급했습니다.
$ f_{\mathbf{X}|Y}(\mathbf{x})=[\prod_{i=1}^n f(x_i;\theta)]/f_{Y}(T(x_1,x_2,...,x_n);\theta)=H(x_1,x_2,...,x_n) $
하지만 위의 정의만으로는 어떤 통계변수가 충분통계량인지 판단하기가 쉽지 않을 수도 있습니다.
이럴 때는 충분통계량의 정의에 나타난 조건과 동치인 다른 조건을 활용해 볼 수 있습니다.
실제로 다음과 같은 식을 만족하는 함수 $ k_1(\cdot) $ , $ k_2(\cdot) $ 가 존재한다는 것은 $ Y=T(\mathbf{X}) $ 의 충분성과 동치조건이 됩니다.
$ \prod_{i=1}^n f(x_i;\theta)=k_1(T(x_1,x_2,...,x_n);\theta)k_2(x_1,x_2,...,x_n) $ (네이만 인수분해 정리)
우선 $ Y $ 가 $ \theta $ 의 충분통계량이라면 아래와 같은 조건 하에서 위 식이 성립함을 알 수 있습니다.
For all $ (X_1,X_2,...,X_n)' \in \mathbb{R}^n $
$ k_1(T(x_1,x_2,...,x_n);\theta)=f_{Y}(y;\theta)=f_{Y}(T(x_1,x_2,...,x_n);\theta) $
$ k_2(x_1,x_2,...,x_n)=H(x_1,x_2,...,x_n) $
따라서 위의 조건이 $ Y $ 의 충분성과 동치조건임을 보이려면, 위 조건이 성립할 때 $ Y $ 가 충분통계량임을 보이기만 하면 됩니다.
이를 위해서 확률벡터 $ (X_1,X_2,...,X_n)' $ 을 다른 확률벡터 $ (Y,Z_1,...,Z_{n-1})' $ 로 변환하는 과정을 생각하겠습니다.
위 변환은 일대일 변환이고, 미분가능한 함수 $ u_1,u_2,...,u_n $ 에 의해서 아래와 같이 수행된다고 가정하겠습니다.
$ u_1(X_1)=Y $
$ u_i(X_i)=Z_{i-1} $ for all $ 2 \leq i \leq n $
위의 변환은 일대일 함수에 의해 수행됩니다.
따라서 미분가능한 함수 $ w_1,w_2,...,w_n $ 에 의해 수행되는 다음과 같은 역변환도 생각할 수 있습니다.
$ X_1=w_1(Y) $
$ X_i=w_i(Z_{i-1}) $ for all $ 2 \leq i \leq n $
상기한 변환식을 활용하면 $ Y,Z_1,...,Z_{n-1} $ 의 결합확률밀도함수를 아래와 같이 표현할 수 있습니다.
$ g(y,z_1,...,z_{n-1};\theta)=\prod_{i=1}^n f(x_i;\theta)=k_1(y;\theta)k_2(x_1,x_2,...,x_n)=k_1(y;\theta)k_2(w_1,w_2,...,w_n)|J| $
이제 $ Y $ 의 충분성을 보이기 위해 이의 주변확률밀도함수를 계산해보겠습니다.
$ f_Y(y)=\int_{-\infty}^{\infty}...\int_{-\infty}^{\infty}g(y,z_1,...,z_{n-1})dz_1 ... dz_{n-1}=\int_{-\infty}^{\infty}...\int_{-\infty}^{\infty}k_1(y;\theta)k_2(w_1,w_2,...,w_n)|J|dz_1 ... dz_{n-1} $
위 적분식의 우변은 아래와 같은 식을 만족합니다.
$ \int_{-\infty}^{\infty}...\int_{-\infty}^{\infty}k_1(y;\theta)k_2(w_1,w_2,...,w_n)|J|dz_1 ... dz_{n-1}=k_1(y;\theta)\int_{-\infty}^{\infty}...\int_{-\infty}^{\infty}k_2(w_1,w_2,...,w_n)|J|dz_1 ... dz_{n-1} $
그런데 바로 위 식의 우변에 등장하는 자코비안 행렬식은 함수 $ w_1,w_2,...,w_n $ 에만 의존하므로 $ \theta $ 와 무관합니다.
따라서 $ \int_{-\infty}^{\infty}...\int_{-\infty}^{\infty}k_2(w_1,w_2,...,w_n)|J|dz_1 ... dz_{n-1} $ 은 $ y $ 만의 함수로 나타낼 수 있습니다. 이를 $ m(y) $ 으로 쓰겠습니다.
위의 사실들을 종합하면 $ Y $ 의 주변확률밀도함수는 아래와 같이 표현할 수 있습니다.
$ f_Y(y)=k_1(y;\theta)m(y) $
따라서 $ X_1,X_2,...,X_n $ 의 결합확률밀도함수는 아래와 같이 쓸 수 있습니다.
$ f(x_1,x_2,...,x_n;\theta)=\prod_{i=1}^n f(x_i;\theta)=k_1(y;\theta)k_2(x_1,x_2,...,x_n)=[f_Y(y)/m(y)]k_2(x_1,x_2,...,x_n) $
그러므로 $ \prod_{i=1}^n f(x_i;\theta)/f_Y(y)=k_2(x_1,x_2,...,x_n)/m(y)=k_2(x_1,x_2,...,x_n)/m(T(x_1,x_2,...,x_n)) $ 의 식이 성립하고
$ Y $ 가 $ \theta $ 의 충분통계량임을 알 수 있습니다.
네이만 인수분해 정리는 주어진 결합확률밀도함수에 포함된 모수 $ \theta $ 에 관련된 항을
통계변수 $ Y $ 의 함수에 모두 포함시킬 수 있다면, $ Y $ 가 $ \theta $ 의 충분통계량이 됨을 보여줍니다.
한편, $ \theta $ 의 충분통계량이 존재한다면 이는 유일하지 않다는 것을 알 수 있습니다.
예를 들어, $ \theta $ 의 충분통계량 $ Y $ 를 일대일 함수 $ h(\cdot) $ 에 대입하여 얻은 변수 $ Z:=h(Y) $ 를 생각하겠습니다.
이 변수 $ Z $ 는 여전히 상기한 인수분해 조건을 만족합니다.
따라서 이 역시도 $ \theta $ 의 충분통계량이 됨을 알 수 있습니다.
한편, 앞선 글에서 충분통계량과 MVUE의 관련성을 언급했습니다.
만약 모수 $ \theta $ 의 충분통계량 $ Y $ 가 존재한다면 이는 $ \theta $ 의 MVUE를 찾는 단서가 됩니다.
구체적으로는, $ \theta $ 의 MVUE는 이의 충분통계량 $ Y $ 의 함수로 주어집니다.
물론 $ \theta $ 의 MVUE가 존재하지 않을 수도 있지 않나 하는 의문을 품을 수도 있습니다.
실제로 MVUE가 존재하지 않는 사례도 있습니다.
예컨대, $ \theta $ 의 불편추정량이 존재하지 않는다면 당연하게도 MVUE 역시 존재하지 않게 됩니다.
혹은 $ \theta $ 의 불편추정량이 존재하는 경우라도 모든 모수값에서 분산이 극소화되는 추정량이 존재하지 않을 수도 있습니다.
그러나 이 글과 다음 글에서 논의되는 대부분의 사례에서는 MVUE를 구할 수 있기 때문에
별다른 언급이 없다면 MVUE가 항상 존재하는 것으로 가정하겠습니다.
이제 MVUE가 충분통계량의 함수로 주어진다는 것을 설명하고 글을 마치겠습니다.
우선 $ \theta $ 의 충분통계량 $ Y $ 가 존재한다고 해보겠습니다.
그리고 통계변수 $ Z $ 가 $ \theta $ 의 불편추정량임을 가정하겠습니다.
위와 같은 가정 하에서, 새로운 통계변수 $ \eta $ 를 $ \eta:=E[Z|Y] $ 와 같이 정의해보겠습니다.
$ \eta $ 의 값은 $ \eta=\int_{-\infty}^{\infty}zf_{Z|Y}(z|y)dz $ 의 식으로 계산됩니다.
그런데 $ Y $ 가 $ \theta $ 의 충분통계량이므로, $ \eta $ 는 $ \theta $ 와는 무관한 $ y $ 의 함수로 계산됩니다.
따라서 $ \eta $ 는 $ \theta $ 를 추정하기 위해 활용할 수 있습니다.
그리고 앞선 글에서 언급한 반복 기댓값의 법칙에 따라 $ E[\eta]=E[E[Z|Y]]=E[Z]=\theta $ 가 성립하므로
$ \eta $ 는 $ \theta $ 의 불편추정량이 됩니다.
게다가 조건부 분산에 관한 부등식을 활용하면 $ Var(\eta)=Var(E[Z|Y])\leq Var(Z) $ 의 부등식을 얻게 됩니다.
따라서 $ \eta $ 는 $ Z $ 보다 더 효율적인 추정량이 됩니다.
요컨대, $ \theta $ 의 불편추정량 $ Z $ 의 $ Y $ 조건부 평균을 계산하여 얻은 통계변수는
더 효율적인 불편추정량이 됨을 알 수 있습니다.(라오-블랙웰 정리)
달리 말하면, 충분통계량의 함수가 아닌 불편추정량은 더 작은 분산을 갖는 불편추정량으로 바꿀 수 있고
따라서 MVUE는 반드시 충분통계량의 함수로 주어져야 한다는 것을 알 수 있습니다.
이번 글에서는 충분통계량의 성질에 대해 써보았습니다.
다음 글에서는 충분통계량과 관련된 다른 개념들에 대해 써보겠습니다.
'수학 > 수리통계학' 카테고리의 다른 글
수리통계학 (51) - 지수족 확률분포 (0) | 2022.01.15 |
---|---|
수리통계학 (50) - 완비충분통계량 (0) | 2022.01.13 |
수리통계학 (48) - 최소분산불편추정량 (0) | 2022.01.11 |
수리통계학 (47) - 가우스-마르코프 정리 (0) | 2022.01.11 |
수리통계학 (46) - 최소제곱추정 (0) | 2022.01.09 |