지난 글에서는 지수족 확률분포에 대해 써보았습니다.
이번 글에서는 최소충분통계량에 대해 써보겠습니다.
우선 최소충분통계량의 개념부터 설명해보겠습니다.
이를 위해서 iid한 확률변수들로 구성된 확률벡터 $ \mathbf{X}=(X_1,X_2,...,X_n)' $ 을 생각하고
이 확률벡터가 가질 수 있는 값들을 모아놓은 집합 $ S_X $ 를 상정하겠습니다.
한편, 상기한 확률변수들은 벡터인 모수 $ \mathbf{\theta}(\in \Theta) $ 를 포함하는 확률밀도함수(혹은 확률질량함수) $ f(x;\mathbf{\theta}) $ 를 갖는다고 하겠습니다.
그리고 이하의 논의에서는 모수 $ \mathbf{\theta} $ 를 추정하기 위해
이의 충분통계량과 불편추정량을 구하는 상황을 전제하겠습니다.
최소충분통계량(minimum sufficient statistic)은 다음과 같이 정의됩니다.
우선 $ \mathbf{\theta} $ 에 대한 충분통계량 $ \mathbf{Y}(\mathbf{X}) $ 가 임의의 충분통계량 $ \mathbf{Y'}(\mathbf{X}) $ 에 대해 아래와 같은 관계식을 만족한다고 해보겠습니다.
$ \mathbf{Y'}(\mathbf{x_1})=\mathbf{Y'}(\mathbf{x_2})\Rightarrow\mathbf{Y}(\mathbf{x_1})=\mathbf{Y}(\mathbf{x_2}) $ for all $ \mathbf{x_1},\mathbf{x_2} \in S_X $
(이 조건은 $ \mathbf{Y} $ 를 임의의 충분통계량 $ \mathbf{Y'} $ 의 함수로 나타낼 수 있다는 것과 동치가 됩니다.)
위와 같은 조건을 만족하는 충분통계량 $ \mathbf{Y}(\mathbf{X}) $ 는 $ \mathbf{\theta} $ 의 최소충분통계량이라고 합니다.
한편, 위의 조건과 동치관계인 아래의 조건을 생각해볼 수도 있습니다.
$ f(\mathbf{x_1};\mathbf{\theta})/f(\mathbf{x_2};\mathbf{\theta})=H(\mathbf{x_1},\mathbf{x_2}) \Leftrightarrow \mathbf{Y}(\mathbf{x_1})=\mathbf{Y}(\mathbf{x_2}) $
따라서 위 조건을 만족하는 통계량 $ \mathbf{Y} $ 를 최소충분통계량이라고 정의해도 아무 문제가 없습니다.
이하에서는 상기한 조건들이 왜 동치조건이 되는지 보이도록 하겠습니다.
일단 $ \mathbf{Y} $ 는 $ \mathbf{X} $ 의 함수로 볼 수 있으므로 이의 역상(preimage)을 아래와 같이 정의할 수 있습니다.
$ A_{\mathbf{z}}=\left\{ \mathbf{x}\in S_X \,|\, \mathbf{Y}(\mathbf{x})=\mathbf{z} \right\} $
상기한 집합의 정의에 따른다면 임의의 $ \mathbf{x_1} \in S_X $ 에 대해 정의된 $ A_{\mathbf{Y}(\mathbf{x_1})} $ 은 다음과 같은 성질을 만족합니다.
$ \mathbf{x_1}\in A_{\mathbf{Y}(\mathbf{x_1})} $ ( $ A_{\mathbf{Y}(\mathbf{x_1})}\neq \varnothing $ )
따라서 임의의 $ \mathbf{x_1} \in S_X $ 에 대해 $ A_{\mathbf{Y}(\mathbf{x_1})} $ 의 원소 중 아무것이나 한 개를 골라서 이를 $ \mathbf{x_2}(\mathbf{Y}(\mathbf{x_1})) $ 라고 할 수 있습니다.
한편, 위의 조건식에 따르면 $ f(\mathbf{x_1};\mathbf{\theta})/f(\mathbf{x_2};\mathbf{\theta})=H(\mathbf{x_1},\mathbf{x_2}) $ 와 같은 식이 성립합니다.
위 식은 $ \mathbf{x_2} $ 가 $ \mathbf{Y}(\mathbf{x_1}) $ 의 함수임을 이용하면 아래와 같은 함수꼴이 됩니다.
$ f(\mathbf{x_1};\mathbf{\theta})=H(\mathbf{x_1},\mathbf{x_2}(\mathbf{Y}(\mathbf{x_1})))f(\mathbf{x_2}(\mathbf{Y}(\mathbf{x_1}));\mathbf{\theta})=k_1(\mathbf{x_2}(\mathbf{Y}(\mathbf{x_1}));\mathbf{\theta})k_2(\mathbf{x_1}) $
따라서 네이만 인수분해 정리에 따라 $ \mathbf{Y} $ 가 $ \mathbf{\theta} $ 의 충분통계량이 됨을 알 수 있습니다.
한편, 다른 충분통계량 $ \mathbf{Y'}(\mathbf{X}) $ 가 존재한다면 $ f(\mathbf{x_1};\mathbf{\theta}) $ 는 아래와 같은 함수꼴로 나타낼 수 있습니다.
$ f(\mathbf{x_1};\mathbf{\theta})=m_1(\mathbf{Y'}(\mathbf{x_1});\mathbf{\theta})m_2(\mathbf{x_1}) $
만약 $ \mathbf{Y'}(\mathbf{x_1})=\mathbf{Y'}(\mathbf{x_2}) $ 가 성립한다면 위 식은 아래와 같이 다시 쓸 수 있습니다.
$ f(\mathbf{x_1};\mathbf{\theta})=m_1(\mathbf{Y'}(\mathbf{x_2});\mathbf{\theta})m_2(\mathbf{x_2})[m_2(\mathbf{x_1})/m_2(\mathbf{x_2})]=f(\mathbf{x_2};\mathbf{\theta})[m_2(\mathbf{x_1})/m_2(\mathbf{x_2})]=f(\mathbf{x_2};\mathbf{\theta})H(\mathbf{x_1},\mathbf{x_2}) $
따라서 상기한 조건에 따라 $ \mathbf{Y}(\mathbf{x_1})=\mathbf{Y}(\mathbf{x_2}) $ 의 식이 성립하고
$ \mathbf{Y} $ 는 최소충분통계량이 됨을 알 수 있습니다.
최소충분통계량은 충분통계량 가운데 가장 효율적인 통계량입니다.
달리 말하면, 최소충분통계량은 다른 충분통계량을 활용했을 때보다
더 작은 분산을 갖는 $ \mathbf{\theta} $ 의 불편추정량을 계산할 수 있게 해 줍니다.
구체적인 설명을 위해서 $ \mathbf{\theta} $ 의 최소충분통계량 $ \mathbf{Y} $ 와
최소충분통계량이 아닌 충분통계량 $ \mathbf{Z} $ 를 비교해보겠습니다.
만약 $ \mathbf{\delta} $ 가 충분통계량의 함수가 아니면서 $ \mathbf{\theta} $ 의 불편추정량이라면
$ E[\mathbf{\delta}|\mathbf{Z}] $ 는 라오-블랙웰 정리에 따라 $ \mathbf{\delta} $ 보다 더 효율적인 불편추정량이 됩니다.
그런데 $ E[\mathbf{\delta}|\mathbf{Z}] $ 추정량은 $ E[E[\mathbf{\delta}|\mathbf{Z}]\,|\,\mathbf{Y}] $ 의 추정량으로 다시금 더 개선할 수 있습니다.
상기한 개선이 가능한 이유는 최소충분통계량 $ \mathbf{Y} $ 를 임의의 충분통계량의 함수로 표현할 수 있기 때문입니다.
따라서 $ E[E[\mathbf{\delta}|\mathbf{Z}]\,|\,\mathbf{Y}] $ 의 추정량은 $ \mathbf{\theta} $ 를 포함하지 않는 불편추정량이면서
확실하게 더 작은 분산을 갖는 추정량이 됩니다. 왜냐하면 $ \mathbf{Y} $ 는 서로 다른 $ \mathbf{Z} $ 에 대해서도 같아질 수 있기 때문입니다.
위와 같은 논의를 통해 최소충분통계량은 최소가 아닌 충분통계량보다 우월하다는 점을 알 수 있습니다.
따라서 $ \mathbf{\theta} $ 의 MVUE가 존재한다면, 이는 반드시 최소충분통계량의 함수로 주어져야 합니다.
한편, 위의 논의로부터 최소충분통계량의 흥미로운 성질들을 이끌어낼 수도 있습니다.
이하에서는 이 성질들에 대해 써보겠습니다.
첫째, 최소충분통계량이 존재한다면 이는 유일하지 않습니다.
최소충분통계량 $ \mathbf{Y} $ 와 일대일 관계에 있는 임의의 충분통계량 $ \mathbf{Y''}:=h(\mathbf{Y}) $ 을 생각하겠습니다.
$ \mathbf{Y} $ 는 임의의 충분통계량에 대한 함수로 나타낼 수 있습니다.
이 함수를 $ h(\cdot) $ 에 대입하면 $ \mathbf{Y''} $ 역시도 임의의 충분통계량에 대한 함수로 표현할 수 있게 됩니다.
따라서 $ \mathbf{Y''} $ 역시도 최소충분통계량이 됩니다.
둘째, 만약 유일하게 존재하는 최우추정량이 충분통계량이 된다면 이는 최소충분통계량이 됩니다.
앞선 글에서 유일한 최우추정량은 임의의 충분통계량에 대한 함수로 표현할 수 있음을 언급했습니다.
따라서 이 경우의 최우추정량은 최소충분통계량이 됩니다.
물론 최우추정량이 두 개 이상 존재하는 경우에는 최소충분통계량이 되지 않을 수도 있습니다.
셋째, 완비충분통계량 및 최소충분통계량이 모두 존재한다는 전제하에서
완비충분통계량은 반드시 최소충분통계량이 됩니다. 그러나 그 역은 성립하지 않습니다.(바하두르 정리)
이를 일반적인 경우에 대해 증명하는 것은 쉽지 않습니다.
하지만 $ \mathbf{\theta} $ 의 불편추정량이 존재한다면 위의 성질이 성립하는 것을 쉽게 보일 수 있습니다.
레만-셰페 정리에 따르면 임의의 불편추정량은 완비충분통계량을 활용하여 MVUE로 개선할 수 있습니다.
그런데 완비충분통계량이 최소충분성을 만족하지 못한다는 것은, 이를 활용한 불편추정량을 여전히 개선할 수 있다는 말이 됩니다.
이는 레만-셰페 정리에 모순이 되고, 따라서 완비충분통계량은 최소충분성을 만족합니다.
한편, 위 관계의 역은 성립하지 않습니다.
최소충분통계량은 일대일 관계에 있는 통계변수들을 모두 포괄하는 개념입니다.
완비성 조건은 나름대로 까다로운 조건이기 때문에, 이들이 모두 완비통계량이 되기를 기대할 수는 없습니다.
이제 최소충분통계량과 보조통계량의 관계를 설명하는 바수 정리를 언급하고 글을 마치겠습니다.
보조통계량(ancillary statistic)은 충분통계량과 정반대에 놓인 개념이라고 할 수 있습니다.
어떤 통계변수 $ \mathbf{Z}(\mathbf{X}) $ 가 아래와 같은 식을 만족한다고 해보겠습니다.
$ f_{\mathbf{Z}}(\mathbf{z};\mathbf{\theta_1})=f_{\mathbf{Z}}(\mathbf{z};\mathbf{\theta_2}) $ for all $ \mathbf{\theta_1},\mathbf{\theta_2} \in \Theta $
달리 말하면, $ \mathbf{Z} $ 의 확률분포는 $ \mathbf{\theta} $ 에 전혀 의존하지 않고
따라서 $ \mathbf{Z} $ 는 $ \mathbf{\theta} $ 에 대한 정보를 전혀 포함하고 있지 않습니다.
이러한 통계량을 ($ \mathbf{\theta} $ 에 대한) 보조통계량이라고 합니다.
한편, $ \mathbf{\theta} $ 의 완비충분통계량 $ \mathbf{Y} $ 와 보조통계량 $ \mathbf{Z} $ 는 서로 독립이 됩니다.(바수 정리)
이하에서는 이를 증명해보겠습니다.
우선 $ \mathbf{Z} $ 의 확률밀도함수는 전확률정리를 활용해서 아래와 같이 나타낼 수 있습니다.
$ f_{\mathbf{Z}}(\mathbf{z};\mathbf{\theta})=\int_{-\infty}^{\infty}...\int_{-\infty}^{\infty} f_{\mathbf{Z|Y}}(\mathbf{z}|\mathbf{y};\mathbf{\theta})f_{\mathbf{Y}}(\mathbf{y};\mathbf{\theta})dy_1...dy_m $
한편, $ \mathbf{Z} $ 는 보조통계량이고 $ \mathbf{Y} $ 가 충분통계량이라는 사실을 활용하면
$ f_{\mathbf{Z}}(\mathbf{z};\mathbf{\theta}) $ 와 $ f_{\mathbf{Z|Y}}(\mathbf{z}|\mathbf{y};\mathbf{\theta}) $ 함수는 $ \mathbf{\theta} $ 에 의존하지 않는다는 것을 알 수 있습니다.
따라서 위 식은 다음과 같이 정리할 수 있습니다.
$ 0=\int_{-\infty}^{\infty}...\int_{-\infty}^{\infty} (f_{\mathbf{Z|Y}}(\mathbf{z}|\mathbf{y})-f_{\mathbf{Z}}(\mathbf{z}))f_{\mathbf{Y}}(\mathbf{y};\mathbf{\theta})dy_1...dy_m=E_{\mathbf{\theta}}[f_{\mathbf{Z|Y}}(\mathbf{Z}|\mathbf{Y})-f_{\mathbf{Z}}(\mathbf{Z})] $
상기한 식은 임의의 모수 $ \mathbf{\theta} $ 에 대해 성립합니다.
따라서 $ \mathbf{Y} $ 의 완비성을 활용하면 임의의 모수에 대해 $ P(f_{\mathbf{Z|Y}}(\mathbf{Z}|\mathbf{Y})-f_{\mathbf{Z}}(\mathbf{Z})=0)=1 $ 의 식이 성립함을 알 수 있습니다.
위의 식으로부터 $ \mathbf{Z} $ 의 $ \mathbf{Y} $ 조건부 확률분포는 $ \mathbf{Z} $ 의 주변확률분포와 거의 확실히 같아지는 것을 알 수 있습니다.
그러므로 $ \mathbf{Y} $ 와 $ \mathbf{Z} $ 가 독립임을 알 수 있습니다.
바수 정리는 $ \mathbf{\theta} $ 의 완비충분통계량을 찾기 위한 수고를 덜어줍니다.
왜냐하면 $ \mathbf{\theta} $ 의 보조통계량과 종속관계에 있는 변수들은
결코 완비충분성을 충족할 수 없고, 따라서 이의 여부를 따로 확인할 필요가 없기 때문입니다.
이번 글에서는 최소충분통계량과 이의 성질에 대해 써보았습니다.
다음 글에서는 구간추정과 가설검정에 관한 개념들을 써보려고 합니다.
'수학 > 수리통계학' 카테고리의 다른 글
수리통계학 (54) - 우도비검정(完) (0) | 2022.01.18 |
---|---|
수리통계학 (53) - 최강력검정 (0) | 2022.01.17 |
수리통계학 (51) - 지수족 확률분포 (0) | 2022.01.15 |
수리통계학 (50) - 완비충분통계량 (0) | 2022.01.13 |
수리통계학 (49) - 충분통계량의 성질 (0) | 2022.01.13 |