본문 바로가기

수학/수리통계학

수리통계학 (48) - 최소분산불편추정량

지난 글에서는 가우스-마르코프 정리에 대해 써보았습니다.

이번 글에서는 최소분산불편추정량의 개념에 대해 써보겠습니다.

 

우선 본론으로 들어가기에 앞서 최소제곱추정량의 성질을 간략히 요약해보겠습니다.

지난 글에서 다루었던 최소제곱추정량 $ \mathbf{b} $ 는 아래와 같은 극소화 문제를 풀어서 계산했습니다.

$ \mathbf{b}=\underset{\mathbf{\widetilde{\beta}}}{\text{argmin}}\, SSR(\mathbf{\widetilde{\beta}})=\underset{\mathbf{\widetilde{\beta}}}{\text{argmin}}\,(\mathbf{y}-\mathbf{X\mathbf{\widetilde{\beta}}})'(\mathbf{y}-\mathbf{X\mathbf{\widetilde{\beta}}}) $

그리고 $ \mathbf{b} $ 는 회귀분석의 기본 가정들이 모두 성립한다는 전제 하에서

$ \mathbf{\beta} $ 의 모든 불편추정량 가운데 최소분산을 가졌습니다. 따라서 아래와 같은 식이 성립합니다.

$ Var(\mathbf{b}|\mathbf{X})=\underset{E[\mathbf{\widetilde{\beta}}]=\mathbf{\beta}}{\text{min}}\, Var(\mathbf{\widetilde{\beta}}|\mathbf{X}) $

한편, 어떤 추정량의 분산이 크다는 것은 때때로 모수의 참값과 심각하게 괴리된 추정량을 얻을 수도 있다는 의미입니다.

따라서 분산은 어떤 추정량이 얼마나 바람직한지 결정하는 하나의 척도가 될 수 있습니다.

위와 같이 추정량을 평가하는 기준이 되는 함수를 손실함수(loss function)라고 부르기도 합니다.

 

손실함수와 관련된 개념을 자세히 설명하기 위해서 다음과 같은 예를 들어보겠습니다.

확률변수 $ X_1,X_2,...,X_n $ 이 공통의 확률밀도함수 $ f(x;\theta) $ 를 가진다고 해보겠습니다.

그리고 모수의 참값 $ \theta $ 를 추정하기 위해서 아래와 같은 두 단계 절차를 거친다고 하겠습니다.

 

Step 1. $ X_1,X_2,...,X_n $ 의 함수로 주어지는 통계량 $ Y=u(X_1,X_2,...,X_n) $ 을 계산합니다.
Step 2. $ Y $ 가 결정되면, 어떤 결정규칙 $ \delta(\cdot) $ 에 따라 추정량 $ \hat{\theta}=\delta(Y) $ 를 계산해냅니다.

 

그리고 위와 같이 계산된 추정량 $ \delta(y) $ 가 바람직하지 않을수록 큰 값을 갖는 함수 $ L(\theta,\delta(y)) $ 를 정의하겠습니다.

위와 같은 함수를 손실함수라고 부릅니다. 손실함수의 예시로는 아래와 같은 함수를 들 수 있습니다.

$ L(\theta,\delta(y))=|\theta-\delta(y)| $ (절댓값 오차 손실함수)
$ L(\theta,\delta(y))=(\theta-\delta(y))^2 $ (오차제곱합 손실함수)

다시 말해, 실제 모수값과 추정량이 얼마나 차이가 나는지를 기준으로 추정량의 바람직한 정도를 평가할 수 있습니다.

한편, 손실함수는 추정량 $ \delta(y) $ 에 의존하므로 임의변수라고 할 수 있습니다.

따라서 정확한 평가를 위해서 손실함수의 평균을 취한 아래 함수를 활용하는 것이 보통입니다.

$ R(\theta,\delta(y))=E_{\theta}[L(\theta,\delta(y))]=\int_{-\infty}^{\infty} L(\theta,\delta(y))f_Y (y;\theta) dy $

위의 함수 $ R(\theta,\delta(y)) $ 는 위험함수(risk function)라고 부르기도 합니다.

그런데 위험함수는 실제의 모수값 $ \theta $ 에 의존하기 때문에

모든 모수에 대해서 위험함수가 극소화되는 추정량 $ \delta(y) $ 를 구하기란 쉽지 않습니다.

모수값에 따라서 위험함수가 커지기도 하고, 작아지기도 하기 때문에 추정량의 우열을 가리기가 쉽지 않은 것입니다.

하지만 추정량에 모종의 제약(e.g. 불편성)을 둔다면 (모든 모수에 대해서) 위험함수를 극소화하는 해가 존재할 수도 있습니다.

 

설명을 위해 간단한 예를 들어보겠습니다.

$ L(\theta,\delta(y))=(\theta-\delta(y))^2 $ 의 오차제곱합 손실함수를 상정하고 이의 평균값 $ E[(\theta-\delta(y))^2] $ 을 극소화하는 추정량을

최소평균제곱오차 추정량(MMSE, minimum mean squared error estimator)이라고 부릅니다.

만약 $ \delta(y)=\hat{\theta} $ 이 $ \theta $ 의 불편추정량이라면 $ E[(\theta-\delta(y))^2]=E[(\hat{\theta}-E[\hat{\theta}])^2]=Var(\hat{\theta}) $ 의 식이 성립합니다.

따라서 $ \hat{\theta} $ 이 라오-크라메르 하한을 달성하는 추정량이라면

임의의 모수 $ \theta $ 에 대해 상기한 위험함수를 극소화한다는 것을 보장할 수 있습니다.

그런데 라오-크라메르 하한은 불편추정량이 가질 수 있는 분산의 이론적 하한을 제시해줄 뿐입니다.

실제로 그러한 분산을 갖는 추정량이 존재하는지에 대해서는 시사하는 바가 없습니다.

따라서, 꼭 라오-크라메르 하한을 달성하지 못하더라도 불편추정량 가운데 최소분산을 가지는 추정량을 생각할 수 있습니다.

이러한 추정량을 최소분산불편추정량(MVUE, minimum variance unbiased estimator)이라고 합니다.

앞선 글에서 언급한 최량불편추정량(BUE)은 MVUE와 기본적으로 같은 개념이라고 할 수 있습니다.

 

어쨌든 MVUE는 불편성과 최소분산이라는 바람직한 성질을 두루 갖춘 추정량입니다.

따라서 어떤 추정량이 MVUE가 될 충분조건이 무엇인가 하는 질문을 할 수 있습니다.

위 질문에 대한 답은 완비충분통계량이라는 개념과 관련이 있습니다.

보다 자세한 설명을 위해서 이번 글에서 충분통계량의 개념을 설명하고

이와 관련된 개념은 다음 글에서 차근차근 다뤄보려고 합니다.

 

우선 iid한 확률변수 $ X_1,X_2,...,X_n $ 으로 구성된 임의표본 $ \mathbf{X} $ 가 주어졌다고 해보겠습니다.

그리고 이들 확률변수는 공통의 확률밀도함수(혹은 확률질량함수) $ f(x;\theta) $ 를 가진다고 하겠습니다.

이때, $ \mathbf{X} $ 의 함수로 주어지는 어떤 통계량 $ T(\mathbf{X}) $ 가 임의의 함수 $ H(\cdot) $ 에 대해 아래의 식을 만족한다고 하겠습니다.

$ f_{\mathbf{X}|T(\mathbf{X})}(\mathbf{x})=[\prod_{i=1}^n f(x_i;\theta)]/f_{T(\mathbf{X})}(T(x_1,x_2,...,x_n);\theta)=H(x_1,x_2,...,x_n) $

위의 식에서처럼 $ T(\mathbf{X}) $ 조건부 하의 결합확률밀도함수에서 $ \theta $ 가 등장하지 않는다면

이는 $ T(\mathbf{X}) $ 가 $ \theta $ 의 정보를 충분히 반영하기 때문으로 이해할 수 있습니다.

따라서 위의 식을 만족하는 $ T(\mathbf{X}) $ 를 $ \theta $ 의 충분통계량(sufficient statistic)이라고 합니다.

 

이번 글에서는 최소분산불편추정량과 충분통계량에 대해 써보았습니다.

다음 글에서는 충분통계량의 성질에 대해 써보겠습니다.