본문 바로가기

수학/수리통계학

수리통계학 (43) - 최우추정량의 성질

지난 글에서는 피셔정보와 라오-크라메르 하한에 대해 써보았습니다.

이번 글에서는 최우추정량의 성질에 대해 써보겠습니다.

 

그런데 위 성질을 다루기에 앞서 확률변수의 수렴에 관한 개념과 성질들을 몇 가지 소개하겠습니다.

임의의 양수 $ \epsilon $ 과 확률변수의 수열 $ \left\{ X_n \right\}_{n=1}^\infty $ 에 대해서

아래와 같은 조건을 만족하는 양수 $ B_{\epsilon},N_{\epsilon} $ 이 항상 존재한다고 해보겠습니다.

$ n \geq N_{\epsilon} \Rightarrow P(|X_n| \leq B_{\epsilon})\geq 1-\epsilon $

위 조건이 충족된다면, $ \left\{ X_n \right\}_{n=1}^\infty $ 은 확률유계(bounded in probability)라고 표현합니다.

 

이제 $ \left\{ X_n \right\}_{n=1}^\infty $ 이 확률유계이고, $ \left\{ Y_n \right\}_{n=1}^\infty $ 은 0으로 확률수렴한다고 해보겠습니다.

그러면 $ X_nY_n \overset{p}{\rightarrow} 0 $ 이 성립합니다. 그 이유는 아래와 같습니다.

우선 $ \lim_{n \rightarrow \infty} P(|X_nY_n|\geq\epsilon) $ 의 극한값은 아래와 같이 계산할 수 있습니다.

$ \lim_{n \rightarrow \infty} P(|X_nY_n|\geq\epsilon)=\lim_{n \rightarrow \infty} P(|X_nY_n|\geq\epsilon,|X_n|\leq B_\epsilon)+P(|X_nY_n|\geq\epsilon,|X_n| > B_\epsilon) $

그런데 위 식의 우변은 아래와 같은 부등식을 충족합니다.

$ \lim_{n \rightarrow \infty} P(|X_nY_n|\geq\epsilon,|X_n|\leq B_\epsilon)+P(|X_nY_n|\geq\epsilon,|X_n| > B_\epsilon)\leq \lim_{n \rightarrow \infty} P(|Y_n|\geq \epsilon/ B_\epsilon)+\epsilon=\epsilon $

따라서 $ P(|X_nY_n|\geq\epsilon)=0 $ 의 식이 성립하는 것을 알 수 있습니다.

 

이하의 논의에서 유용하게 활용될 성질을 한 가지만 더 언급하겠습니다.

확률변수의 수열 $ \left\{X_n,A_n,B_n\right\}_{n=1}^\infty $ 과 확률변수 $ X $ , 상수 $ a,b $ 가 주어졌다고 해보겠습니다.

그리고 $ X_n \overset{d}{\rightarrow} X , A_n \overset{p}{\rightarrow} a , B_n \overset{p}{\rightarrow} b $ 를 가정한다면, $ A_n+B_nX_n\overset{d}{\rightarrow} a+bX $ 의 수렴식이 성립합니다.(슬러츠키 정리)

위의 슬러츠키 정리를 증명하려면 측도론의 배경지식이 필요합니다.

따라서 지면관계상 위 정리는 증명 없이 사용하도록 하겠습니다.

 

한편, 이번 글에서 다룰 성질이 성립하기 위해서는 추가적인 정칙성 조건 한 가지를 더 요구합니다.

 

(R5) 모수의 참값 $ \theta_0 $ 의 근방 $ (\theta_0-c,\theta_0+c) $ 에서 아래와 같은 두 가지 성질이 성립합니다.

첫째, 확률밀도함수 $ f(x;\theta) $ 는 $ \theta $ 에 대해 세 번 미분가능합니다.

둘째, $ E_{\theta_0}[M(X)]<\infty $ 를 만족하는 임의의 함수 $ M(x) $ 에 대해 다음과 같은 부등식이 성립합니다.

$ |\partial^3 / \partial \theta ^3 \log f(x;\theta)| \leq M(x) $

 

이하의 논의에서는 iid한 확률변수 $ X_1,X_2,...,X_n $ 이 정칙성 조건 R0~R5를 만족하는

공통의 확률밀도함수 $ f(x;\theta) $ 를 가진다고 해보겠습니다.

그리고 $ f(x;\theta) $ 에 대응되는 피셔정보 $ I(\theta_0) $ 는 유한한 값을 가진다고 가정하겠습니다.

위에 나열한 가정들이 모두 충족된다면, $ \theta $ 의 최우추정량 $ \hat{\theta}_n $ 에 대해 아래와 같은 성질이 성립합니다.

$ \sqrt{n}(\hat{\theta}_n-\theta_0)\overset{d}{\rightarrow}N(0,1/I(\theta_0)) $

위의 성질을 설명하기에 앞서, 로그우도함수를 다음과 같이 정의하겠습니다.

$ l(\theta):=\log L(\theta;\mathbf{X})=\sum_{i=1}^n \log f(x_i;\theta) $

위와 같이 정의된 로그우도함수는 정칙성 조건 R0~R5 하에서 세 번 미분가능합니다.

따라서 아래와 같이 테일러 정리를 적용할 수 있습니다.

$ l'(\hat{\theta}_n)=l'(\theta_0)+(\hat{\theta}_n-\theta_0)l''(\theta_0)+(1/2)(\hat{\theta}_n-\theta_0)^2 l'''(\theta_n^*) $ ( $ min(\theta_0,\hat{\theta}_n) \leq \theta_n^* \leq max(\theta_0,\hat{\theta}_n) $ )

그런데 최우추정량은 추정방정식 $ \partial L(\theta;\mathbf{X})/\partial \theta=0 $ 으로부터 계산되므로 $ l'(\hat{\theta}_n)=0 $ 이 성립합니다.

한편, 위의 테일러 전개식을 $ \sqrt{n}(\hat{\theta}_n-\theta_0) $ 에 대한 식으로 정리해보면 아래와 같습니다.

$ \sqrt{n}(\hat{\theta}_n-\theta_0)=n^{-1/2}l'(\theta_0)/[-n^{-1}l''(\theta_0)-(2n)^{-1}(\hat{\theta}_n-\theta_0)l'''(\theta_n^*)] $

위 식의 우변이 어떤 값으로 수렴하는지 알아보기 위해, 위 분수식을 구성하는 다음 항들을 정리해보겠습니다.

 

a. $ (2n)^{-1}(\hat{\theta}_n-\theta_0)l'''(\theta_n^*) $

 

일단 $ \theta_n^* $ 은 $ \theta_0 $ 와 $ \hat{\theta}_n $ 사이에 놓인 실수입니다.

따라서 임의의 양수 $ c >0 $ 에 대해서 $ |\hat{\theta}_n-\theta_0|<c \Rightarrow |\theta_n^*-\theta_0|<c $ 가 성립합니다.

한편, 최우추정량은 일치성을 만족하므로 임의의 양수 $ \epsilon $ 에 대해 아래 식을 만족하는 $ N_1 $ 이 존재합니다.

$ n \geq N_1 \Rightarrow P(|\hat{\theta}_n-\theta_0|<c) \geq 1-\epsilon/2 $

한편, 정칙성 조건 R5 하에서 아래 부등식이 성립하는 것을 알 수 있습니다.

$ |-n^{-1}l'''(\theta_n^*)|\leq n^{-1}\sum_{i=1}^n |\partial^3 \log f(X_i;\theta)/\partial \theta^3| \leq n^{-1}\sum_{i=1}^n M(X_i) $

한편, 위 부등식에 등장한 $ n^{-1}\sum_{i=1}^n M(X_i) $ 는 약대수의 법칙에 따라 $ E_{\theta_0}[M(X)] $ 로 확률수렴합니다.

따라서 임의의 양수 $ \epsilon $ 에 대해 아래 부등식을 충족시키는 $ N_2 $ 가 존재합니다.

$ n \geq N_2 \Rightarrow P(|n^{-1}\sum_{i=1}^n M(X_i)-E_{\theta_0}[M(X)]|<1)\geq 1- \epsilon/2 $

위의 사실들을 종합하면 $ n \geq max(N_1,N_2) \Rightarrow P(|-n^{-1}l'''(\theta_n^*)|\leq 1+E_{\theta_0}[M(X)])\geq 1-\epsilon /2 $ 의 부등식을 얻게 됩니다.

그러므로 $ n^{-1}l'''(\theta_n^*) $ 는 확률유계임을 알 수 있습니다.

따라서 $ (2n)^{-1}(\hat{\theta}_n-\theta_0)l'''(\theta_n^*) $ 의 식이 0으로 확률수렴함을 알 수 있습니다.

 

b. $ -n^{-1}l''(\theta_0) $

 

위의 식은 $ -n^{-1}l''(\theta_0)=-n^{-1}\sum_{i=1}^n (\partial^2 \log f(x_i;\theta)/\partial \theta^2)_{\theta=\theta_0} $ 와 같이 다시 쓸 수 있습니다.

그렇다면 약대수의 법칙에 따라서 아래와 같은 식이 성립합니다.

$ -n^{-1}\sum_{i=1}^n (\partial^2 \log f(x_i;\theta)/\partial \theta^2)_{\theta=\theta_0} \overset{p}{\rightarrow} E[(-\partial^2 \log f(x_1;\theta)/\partial \theta^2)_{\theta=\theta_0}]=I(\theta_0) $

 

c. $ n^{-1/2}l'(\theta_0) $

 

로그우도함수의 정의에 따라 $ l'(\theta_0)=\sum_{i=1}^n (\partial \log f(x_i;\theta)/\partial \theta)_{\theta=\theta_0}=Z(\theta_0) $ 의 식이 성립합니다.

따라서 중심극한정리를 활용하면 $ n^{-1/2}(l'(\theta_0)-E[Z(\theta_0)])\overset{d}{\rightarrow} N(0,Var(Z(\theta_0))/n) $ 의 식을 얻게 됩니다.

앞선 글에서 유도한 $ E[Z(\theta_0)]=0 $ , $ Var(Z(\theta_0))=nI(\theta_0) $ 의 식을 활용해서 위 식을 정리하면 아래와 같은 식을 얻습니다.

$ n^{-1/2}l'(\theta_0)\overset{d}{\rightarrow}N(0,I(\theta_0)) $

 

위의 a, b, c 식과 슬러츠키 정리를 활용하면 $ \sqrt{n}(\hat{\theta}_n-\theta_0) \overset{d}{\rightarrow}N(0,1/I(\theta_0)) $ 가 성립함을 알 수 있습니다.

다시 말해, 최우추정량은 표본크기가 커질수록 정규확률변수로 분포수렴합니다.

이러한 성질을 두고 최우추정량의 점근적 정규성(asymptotic normality)이라고 부릅니다.

게다가 위의 결과는 최우추정량이 라오-크라메르 하한에 상응하는 분산을 갖는 확률분포로 수렴함을 보이고 있습니다.

달리 말하면, 최우추정량은 점근적으로 효율적(asymptotically efficient)인 추정량이 됩니다.

 

라오-크라메르 하한은 추정량의 점근적 효율성을 평가하는 기준이 되기도 합니다.

예컨대, $ \theta $ 의 추정량 가운데 하나인 $ \iota $ 가 점근적으로 $ \sigma^2_{\iota} $ 의 분산을 갖는 정규분포로 분포수렴한다고 해보겠습니다.

이때, $ \iota $ 의 점근적 분산과 라오-크라메르 하한의 비율을 다음과 같이 계산해볼 수 있습니다.

$ e(\iota)=(1/I(\theta_0))/\sigma^2_{\iota} $

위와 같이 정의된 비율을 이 추정량의 점근적 효율(asymptotic efficiency)이라고 부릅니다.

 

이번 글에서는 최우추정량의 성질에 대해 써보았습니다.

다음 글에서는 가설검정과 구간추정에 대해 써보겠습니다.