지난 글에서는 최소제곱추정에 대해 써보았습니다.
이번 글에서는 가우스-마르코프 정리에 대해 써보겠습니다.
가우스-마르코프 정리는 $ \mathbf{y}=\mathbf{X\beta}+\mathbf{\epsilon} $ 의 회귀모형이 주어졌을 때
기울기 벡터 $ \mathbf{\beta} $ 의 최소제곱추정량이 모든 선형불편추정량 가운데 최소분산을 갖는다는 것입니다.
따라서 $ \mathbf{\beta} $ 의 최소제곱추정량을 $ \mathbf{b} $ 로 표기하면, 임의의 선형불편추정량 $ \mathbf{\hat{\beta}} $ 에 대해 아래의 부등식이 성립합니다.
$ Var(\mathbf{b}|\mathbf{X})\leq Var(\mathbf{\hat{\beta}}|\mathbf{X}) $
이제 위의 부등식이 성립함을 보이겠습니다.
우선, 최소제곱추정량 $ \mathbf{b} $ 의 분산을 계산한 다음
이를 다른 선형불편추정량의 분산과 비교하면 위 부등식이 성립함을 보일 수 있습니다.
지난 글에서 최소제곱추정량 $ \mathbf{b} $ 는 $ \mathbf{b}=(\mathbf{X'X})^{-1}\mathbf{X'y} $ 의 식으로 계산됨을 보였습니다.
한편, $ \mathbf{y}=\mathbf{X\beta}+\mathbf{\epsilon} $ 의 식을 활용하면 위 식을 다음과 같이 정리할 수 있습니다.
$ \mathbf{b}=(\mathbf{X'X})^{-1}\mathbf{X'}(\mathbf{X\beta}+\mathbf{\epsilon})=\mathbf{\beta}+(\mathbf{X'X})^{-1}\mathbf{X'\epsilon} $
따라서 $ \mathbf{b} $ 의 $ \mathbf{X} $ 에 대한 조건부 분산은 아래와 같습니다.
$ Var(\mathbf{b}|\mathbf{X})=Var((\mathbf{X'X})^{-1}\mathbf{X'\epsilon})=(\mathbf{X'X})^{-1}\mathbf{X'}[Var(\mathbf{\epsilon}|\mathbf{X})]\mathbf{X}(\mathbf{X'X})^{-1}=\sigma^2(\mathbf{X'X})^{-1} $
(위 식의 마지막 등식에서 회귀분석의 기본 가정 중 하나인 $ Var(\mathbf{\epsilon}|\mathbf{X})=\sigma^2 \mathbf{I_n} $ 을 활용했습니다.)
한편, 임의의 선형불편추정량 $ \mathbf{\hat{\beta}} $ 은 아래의 식을 만족해야 합니다.
$ \mathbf{\hat{\beta}}=\mathbf{Cy} $ ($ \mathbf{y} $ 에 대한 선형추정량)
$ E[\mathbf{\hat{\beta}}|\mathbf{X}]=\mathbf{\beta} $ (불편추정량)
위 식에 등장하는 행렬 $ \mathbf{C} $ 는 $ \mathbf{X} $ 의 함수로 주어지는 어떤 행렬입니다.
위의 사실들을 종합하면, 다음과 같은 식을 쓸 수 있습니다.
$ \mathbf{b}-\mathbf{\hat{\beta}}=((\mathbf{X'X})^{-1}\mathbf{X'}-\mathbf{C})\mathbf{y} $
한편, $ \mathbf{y}=\mathbf{X\beta}+\mathbf{\epsilon} $ 의 식을 활용하면 위 식을 다음과 같이 정리할 수 있습니다.
$ \mathbf{b}-\mathbf{\hat{\beta}}=((\mathbf{X'X})^{-1}\mathbf{X'}-\mathbf{C})(\mathbf{X\beta}+\mathbf{\epsilon})=\mathbf{\beta}+(\mathbf{X'X})^{-1}\mathbf{X'\epsilon}-\mathbf{CX\beta}-\mathbf{C\epsilon} $
위 식의 양변에 $ \mathbf{X} $ 에 대한 조건부 평균을 취해보면 아래와 같은 식을 얻습니다.
$ E[\mathbf{b}-\mathbf{\hat{\beta}}|\mathbf{X}]=\mathbf{\beta}-\mathbf{\beta}=\mathbf{0} $
$ E[\mathbf{\beta}+(\mathbf{X'X})^{-1}\mathbf{X'\epsilon}-\mathbf{CX\beta}-\mathbf{C\epsilon}|\mathbf{X}]=\mathbf{\beta}-\mathbf{CX\beta}+((\mathbf{X'X})^{-1}\mathbf{X'}-\mathbf{C})E[\mathbf{\epsilon}|\mathbf{X}]=\mathbf{\beta}-\mathbf{CX\beta} $
따라서 $ \mathbf{\beta}-\mathbf{CX\beta}=\mathbf{0} $ 의 식이 성립합니다.
위의 식은 임의의 $ \mathbf{\beta} $ 에 대해 항상 성립하므로 행렬 $ \mathbf{C} $ 는 $ \mathbf{CX}=\mathbf{I_n} $ 의 식을 항상 충족합니다.
위의 사실들을 종합하면 다음과 같은 식을 쓸 수 있습니다.
$ \mathbf{b}-\mathbf{\hat{\beta}}=(\mathbf{X'X})^{-1}\mathbf{X'\epsilon}-\mathbf{C\epsilon}=((\mathbf{X'X})^{-1}\mathbf{X'}-\mathbf{C})\mathbf{\epsilon} $
위 식을 $ \mathbf{\hat{\beta}} $ 에 대해 정리하면 아래와 같은 식을 얻습니다.
$ \mathbf{\hat{\beta}}=\mathbf{b}-((\mathbf{X'X})^{-1}\mathbf{X'}-\mathbf{C})\mathbf{\epsilon}=((\mathbf{X'X} )^{-1}\mathbf{X'})(\mathbf{y}-\mathbf{\epsilon})+\mathbf{C\epsilon}=\mathbf{\beta}+\mathbf{C\epsilon} $
바로 위 식의 양변에 대해 $ \mathbf{X} $ 조건부 분산을 계산한 결과는 아래와 같습니다.
$ Var(\mathbf{\hat{\beta}}|\mathbf{X})=\mathbf{C}Var(\mathbf{\epsilon}|\mathbf{X})\mathbf{C'}=\sigma^2 \mathbf{CC'} $
따라서 $ Var(\mathbf{\hat{\beta}}|\mathbf{X})-Var(\mathbf{b}|\mathbf{X})=\sigma^2(\mathbf{CC'}-(\mathbf{X'X})^{-1}) $ 의 식이 성립함을 알 수 있습니다.
윗글에서 유도한 $ \mathbf{CX}=\mathbf{I_n} $ 의 관계식을 활용하면 $ \mathbf{CC'}-(\mathbf{X'X})^{-1} $ 의 식은 아래와 같이 다시 쓸 수 있습니다.
$ \mathbf{CC'}-(\mathbf{X'X})^{-1}=\mathbf{CC'}-(\mathbf{X'X})^{-1}\mathbf{X'C'}-\mathbf{CX}(\mathbf{X'X})^{-1}+(\mathbf{X'X})^{-1}=[\mathbf{C}-(\mathbf{X'X})^{-1}X'][\mathbf{C}-(\mathbf{X'X})^{-1}X']' $
따라서 $ \mathbf{CC'}-(\mathbf{X'X})^{-1} $ 은 positive semidefinite한 행렬임을 알 수 있습니다.
그러므로 $ Var(\mathbf{\hat{\beta}}|\mathbf{X})-Var(\mathbf{b}|\mathbf{X}) $ 의 행렬도 positive semidefinite하게 되고
가우스-마르코프 정리가 제시하는 $ Var(\mathbf{\hat{\beta}}|\mathbf{X}) \geq Var(\mathbf{b}|\mathbf{X}) $ 의 부등식이 성립함을 알 수 있습니다.
상기한 가우스-마르코프 정리는 잔차벡터가 정규분포를 따르지 않아도 성립합니다.
그런데 잔차벡터가 다변량 정규분포를 따른다고 가정한다면( $ \mathbf{\epsilon}|\mathbf{X} \sim N_n(0,\sigma^2 \mathbf{I_n}) $ )
최소제곱추정량은 모든 불편추정량 가운데 최소의 분산을 갖는다는 것이 알려져 있습니다.
구체적으로는, 잔차벡터의 정규성 가정 하의 최소제곱추정량은 라오-크라메르 하한에 상응하는 분산을 갖게 됩니다.
그런데 앞선 글에서는 피셔정보와 라오-크라메르 하한을 iid한 확률변수들의 결합분포에 대해서만 정의했습니다.
따라서 (iid하지 않은) 다변량 분포에서의 피셔정보와 라오-크라메르 하한을 다시 정의해보겠습니다.
어떤 다변량 분포의 결합확률밀도함수가 $ f_{\mathbf{X}}(\mathbf{x};\mathbf{\theta}) $ 로 주어져 있고
위 함수의 모수 $ \mathbf{\theta} $ 는 벡터라고 가정해보겠습니다.
그리고 모수의 참값을 $ \mathbf{\theta_0} $ 로 표기하고, 이의 추정량은 $ \mathbf{\hat{\theta}} $ 으로 표기하겠습니다.
한편, 앞선 글에서 일변량 분포에 대한 정칙성 조건을 언급한 바 있습니다.
이 정칙성 조건은 다변량 분포에 대해서도 비슷하게 서술될 수 있습니다.
이하의 논의에서는 확률밀도함수의 미분가능성을 포함하는 다변량 분포에서의 정칙성 조건이 성립함을 전제로 하겠습니다.
우선 다변량 분포의 점수함수 $ \mathbf{s}(\mathbf{\theta}) $ 는 아래와 같은 gradient식으로 정의됩니다.
$ \mathbf{s}(\mathbf{\hat{\theta}}):=\partial \log L(\mathbf{\hat{\theta}})/\partial \mathbf{\hat{\theta}} $
한편, 다변량 분포에서의 피셔정보에 상응하는 피셔 정보행렬은 다음과 같이 정의됩니다.
$ \mathbf{I}(\mathbf{\theta_0}):=E[\mathbf{s}(\mathbf{\theta_0})\mathbf{s}(\mathbf{\theta_0})']=-E[\partial^2 \log L(\mathbf{\hat{\theta}})/\partial \mathbf{\hat{\theta}}\partial \mathbf{\hat{\theta}}']_{\mathbf{\hat{\theta}}=\mathbf{\theta_0}} $
이때, 상기한 피셔 정보행렬이 역행렬을 가진다면 아래의 부등식이 성립하는 것이 알려져 있습니다.
$ Var(\mathbf{\hat{\theta}})\geq \mathbf{I}(\theta_0)^{-1} $
따라서 피셔 정보행렬의 역행렬이 다변량 분포에서의 라오-크라메르 하한이 된다고 할 수 있겠습니다.
한편, 잔차벡터가 정규분포를 따르더라도 이의 분산 $ \sigma^2 $ 을 알지 못하는 이상, 이를 추정해야만 합니다.
예컨대, 벡터 $ \mathbf{e} $ 를 $ \mathbf{e}:=\mathbf{y}-\mathbf{Xb} $ 와 같이 정의할 경우
$ \mathbf{e'e}/(n-K)(=(\mathbf{y}-\mathbf{Xb})'(\mathbf{y}-\mathbf{Xb})/(n-K)) $ 는 $ \sigma^2 $ 의 불편추정량이 됩니다.
어쨌든 회귀분석에서의 추정량 벡터는 $ \mathbf{\hat{\theta}}=(\mathbf{\hat{\beta'}},\hat{\sigma^2})' $ 과 같이 표현할 수 있습니다.
이제 로그우도함수와 피셔 정보행렬을 구해보겠습니다.
잔차벡터가 다변량 정규분포를 따른다는 전제 하의 로그우도함수는 아래와 같이 계산됩니다.
$ \log L(\mathbf{\hat{\theta}})=-(n/2)\log (2\pi/n)-(n/2)\log (\hat{\sigma^2})-(1/(2\hat{\sigma^2}))(\mathbf{y}-\mathbf{X\hat{\beta}})'(\mathbf{y}-\mathbf{X\hat{\beta}}) $
피셔 정보행렬은 모수의 참값에서 정의되는 로그우도함수의 2계 도함수로 구성됩니다.
따라서 모수의 참값에서 위 함수를 2계 미분한 값을 구해보면 아래와 같습니다.
$ (\partial^2 \log L(\mathbf{\hat{\theta}})/\partial \mathbf{\hat{\beta}} \partial \mathbf{\hat{\beta}}')_{\mathbf{\hat{\theta}}=\mathbf{\theta_0}}=-\mathbf{X'X}/\sigma^2 $
$ (\partial^2 \log L(\mathbf{\hat{\theta}})/\partial \mathbf{\hat{\beta}} \partial \hat{\sigma^2})_{\mathbf{\hat{\theta}}=\mathbf{\theta_0}}=n/(2\sigma^4)-(1/\sigma^6)(\mathbf{y}-\mathbf{X\beta})'(\mathbf{y}-\mathbf{X\beta}) $
$ (\partial^2 \log L(\mathbf{\hat{\theta}})/\partial \hat{\sigma^2}\partial\hat{\sigma^2})_{\mathbf{\hat{\theta}}=\mathbf{\theta_0}}=-(1/\sigma^4)\mathbf{X'}(\mathbf{y}-\mathbf{X\beta}) $
이제 회귀분석의 기본 가정들을 참고하면서 위 식들의 평균을 계산하면 아래와 같은 식을 얻습니다.
$ -E[(\partial^2 \log L(\mathbf{\hat{\theta}})/\partial \mathbf{\hat{\beta}} \partial \mathbf{\hat{\beta}}')_{\mathbf{\hat{\theta}}=\mathbf{\theta_0}}|\mathbf{X}]=\mathbf{X'X}/\sigma^2 $
$ -E[(\partial^2 \log L(\mathbf{\hat{\theta}})/\partial \mathbf{\hat{\beta}} \partial \hat{\sigma^2})_{\mathbf{\hat{\theta}}=\mathbf{\theta_0}}|\mathbf{X}]=-n/(2\sigma^4)+(1/\sigma^6)E[\mathbf{\epsilon'\epsilon}|\mathbf{X}]=-n/(2\sigma^4)+(1/\sigma^6)n\sigma^2 = n/(2\sigma^4) $
$ -E[(\partial^2 \log L(\mathbf{\hat{\theta}})/\partial \hat{\sigma^2}\partial \hat{\sigma^2})_{\mathbf{\hat{\theta}}=\mathbf{\theta_0}}|\mathbf{X}]=(1/\sigma^4)\mathbf{X'}E[\mathbf{\epsilon}|\mathbf{X}]=\mathbf{0} $
따라서 피셔 정보행렬은 다음과 같이 나타낼 수 있습니다.
$ \mathbf{I}(\mathbf{\theta_0})=\begin{pmatrix}\mathbf{X'X}/\sigma^2 & \mathbf{0} \\ \mathbf{0'} & n/(2\sigma^4) \end{pmatrix} $
그러므로 피셔 정보행렬의 역행렬이 존재하게 되고, 이는 아래와 같습니다.
$ \mathbf{I}(\theta_0)^{-1}=\begin{pmatrix}\sigma^2 (\mathbf{X'X})^{-1} & \mathbf{0} \\ \mathbf{0'} & (2\sigma^4)/n \end{pmatrix} $
그런데 윗글에서 계산했던 최소제곱추정량의 조건부 분산 $ Var(\mathbf{b}|\mathbf{X})=\sigma^2 (\mathbf{X'X})^{-1} $ 은
라오-크라메르 하한이 제시하는 값과 같은 것을 확인할 수 있습니다.
결론적으로, 최소제곱추정량은 잔차벡터의 정규성 가정 하에서 가장 작은 분산을 갖는 불편추정량이 됩니다.
위와 같은 추정량을 최량불편추정량(BUE, best unbiased estimator)이라고 부르기도 합니다.
이는 선형추정량 뿐만 아니라 비선형추정량도 포괄하는 결론이므로
가우스-마르코프 정리보다 더욱 강력한 결과라고 할 수 있습니다.
이번 글에서는 가우스-마르코프 정리와 최소제곱추정량의 효율성에 대해 써보았습니다.
다음 글에서는 최소분산불편추정량에 대해 써보겠습니다.
'수학 > 수리통계학' 카테고리의 다른 글
수리통계학 (49) - 충분통계량의 성질 (0) | 2022.01.13 |
---|---|
수리통계학 (48) - 최소분산불편추정량 (0) | 2022.01.11 |
수리통계학 (46) - 최소제곱추정 (0) | 2022.01.09 |
수리통계학 (45) - 회귀분석의 기본 가정들 (0) | 2022.01.08 |
수리통계학 (44) - 구간추정과 가설검정 (0) | 2022.01.07 |