지난 글에서는 모분산을 추정하는데 활용되는 추정량들에 대해 써보았습니다.
이번 글에서는 최우추정법에 대해 조금 더 자세히 써보겠습니다.
우선 확률벡터 $ \mathbf{X} $ 를 구성하는 확률변수 $ X_1,X_2,...,X_n $ 은 iid한 확률변수이고
이들 변수는 모두 $ f(x;\theta) $ 의 확률밀도함수를 갖는 확률분포를 따른다고 가정하겠습니다.
한편 위의 함수 $ f(x;\theta) $ 의 모수는 $ \theta $ 하나로만 주어졌습니다.
사실 어떤 확률분포의 모수는 벡터가 될수도 있고, 여러 개가 있을 수도 있습니다.
하지만 앞으로의 논의에서는 편의를 위해서 모수가 스칼라이고 한 개만 있는 경우를 고려하겠습니다.
그리고 모수 $ \theta $ 가 $ \Theta $ 라는 집합 내에서 결정된다고 가정하겠습니다.( $ \theta \in \Theta $ )
앞선 글에서 최우추정법을 언급하면서, 아래와 같은 함수를 극대화하는 추정량을 구했습니다.
$ L(\theta;X_1,X_2,...,X_n)=L(\theta;\mathbf{X})=\prod_{i=1}^n f(x_i;\theta) $
$ \hat{\theta}=\underset{\theta}{argmax}L(\theta;\mathbf{X}) $
(이하에서는 $ \hat{\theta} $ 이 $ \theta $ 의 최우추정량을 나타내는 것으로 하겠습니다.)
그런데 위와 같은 식으로 계산한 추정량이 어째서 모수를 추정하는데 쓰일 수 있는지는 설명하지 않았습니다.
이하에서는 최우추정법이 모수 추정에 활용될 수 있는 이유에 대해 써보려고 합니다.
이를 위해서는 확률밀도함수 $ f(x;\theta) $ 와 모수 $ \theta $ 에 대한 일련의 가정이 필요합니다.
이 가정들은 통계학의 정칙성 조건(regularity conditions)이라고 불리고, 아래와 같은 내용을 담고 있습니다.
(R0) 확률밀도함수 $ f(x;\theta) $ 는 모수 $ \theta $ 와 일대일 관계에 있습니다.( $ \theta_1 \neq \theta_2 \Rightarrow f(x;\theta_1) \neq f(x;\theta_2) $ )
(R1) 확률밀도함수를 양으로 만드는 $ \mathbf{X}=(X_1,X_2,...,X_n)' $ 들의 집합은 $ \theta $ 값에 무관하게 항상 일정합니다.
(R2) 미지의 모수 $ \theta $ 의 참값을 $ \theta_0 $ 라고 한다면, 이 $ \theta_0 $ 는 모수의 집합 $ \Theta $ 의 내부에 놓여있습니다.
(R3) 확률밀도함수 $ f(x;\theta) $ 는 $ \theta $ 에 대해 두 번 미분할 수 있습니다.
(R4) 확률밀도함수를 적분한 $ \int f(x;\theta) dx $ 역시도 적분 기호를 넘나들며 $ \theta $ 에 대해 두 번 미분할 수 있습니다.
이제 우도함수에 대한 성질들을 나열해보겠습니다.
이하에서는 표기 편의를 위해 아래와 같은 표현을 사용했습니다.
$ E[A|\theta=\theta_0]=E_{\theta_0}[A] $
$ P(A|\theta=\theta_0)=P_{\theta_0}(A) $
한편, 이하의 논의에서 확률벡터 $ \mathbf{X} $ 는 $ f_{\mathbf{X}}(\mathbf{x})>0 $ 를 만족시키는 벡터들만을 의미합니다.
1. 정칙성 조건 R0, R1 하에서 $ \lim_{n \rightarrow \infty}P_{\theta_0}(L(\theta_0;\mathbf{X})>L(\theta;\mathbf{X}))=1 $ for all $ \theta \neq \theta_0 $
우선 확률변수 $ Y_i $ 를 $ Y_i:=\log(f(X_i;\theta)/f(X_i;\theta_0)) $ for all $ i=1,2,...,n $ 과 같이 정의하겠습니다.
이때 $ Y_1,Y_2,...,Y_n $ 의 표본평균을 구해보면 아래와 같습니다.
$ \bar{Y}=\sum_{i=1}^n Y_i/n=(1/n)\sum_{i=1}^n \log(f(X_i;\theta)/f(X_i;\theta_0)) $
위의 표본평균은 약대수의 법칙에 따라 $ n $ 이 무한대로 커지면 모평균 $ \mu_Y=E_{\theta_0}[\log(f(X_1;\theta)/f(X_1;\theta_0))] $ 로 확률수렴합니다.
그런데 $ f(x)=-\log x $ 는 강볼록함수이기 때문에 젠센 부등식을 쓸 수 있고
따라서 $ E[-\log x] > -\log E[X] $ (혹은 $ E[\log x] < \log E[X] $ ) 의 부등식이 성립합니다.
위 부등식을 활용하면 $ E_{\theta_0}[\log(f(X_1;\theta)/f(X_1;\theta_0))]<\log E_{\theta_0}[f(X_1;\theta)/f(X_1;\theta_0)] $ 의 식을 얻게 됩니다.
한편 위 부등식의 우변을 정리해보면 아래 식을 얻습니다.
$ \log E_{\theta_0}[f(X_1;\theta)/f(X_1;\theta_0)]=\log (\int [(f(x_1;\theta)/f(x_1;\theta_0))f(x_1;\theta_0)]dx_1 )=\log \int f(x_1;\theta)dx_1 = \log 1 =0 $
따라서 $ E_{\theta_0}[\log(f(X_1;\theta)/f(X_1;\theta_0))]<0 $ 의 식이 성립합니다.
그러므로 $ \bar{Y} $ 는 어떤 음수 $ \mu_Y $ 로 확률수렴하게 되고, 이를 아래와 같이 표현할 수 있습니다.
$ \lim_{n \rightarrow \infty} P_{\theta_0}(|\bar{Y}-\mu_Y | \geq \epsilon) = 0 (\Leftrightarrow \lim_{n \rightarrow \infty} P_{\theta_0}(|\bar{Y}-\mu_Y | < \epsilon) = 1) $
바로 위 식에서 적당히 작은 $ \epsilon $ 을 선택하면, $ \lim_{n \rightarrow \infty} P_{\theta_0}(\bar{Y}<0) = 1 $ 이 성립함을 알 수 있습니다.
한편, $ \bar{Y}<0 $ 의 식은 아래와 같이 다시 쓸 수 있습니다.
$ n\bar{Y}=\sum_{i=1}^n \log(f(X_i;\theta)/f(X_i;\theta_0)) < 0 $
위 식의 좌변을 정리하면 아래와 같은 식을 얻습니다.
$ \sum_{i=1}^n \log(f(X_i;\theta)/f(X_i;\theta_0))=\log(L(\theta;\mathbf{X})/L(\theta_0;\mathbf{X}))<0 \Rightarrow L(\theta;\mathbf{X})<L(\theta_0;\mathbf{X}) $
따라서 $ \lim_{n \rightarrow \infty} P_{\theta_0}(L(\theta_0;\mathbf{X})>L(\theta;\mathbf{X}))=1 $ 의 식이 성립합니다.
위 식은 우도함수 $ L(\theta;\mathbf{X}) $ 가 $ n $ 이 증가하면서 점근적으로 $ \theta_0 $ 에서 극대화된다는 것을 의미합니다.
다시 말해 표본크기가 충분히 크다면 우도함수는 실제 모수값 $ \theta_0 $ 에서 극대가 됩니다.
2. $ \eta=g(\theta) $ $ \Rightarrow $ $ \hat{\eta}=g(\hat{\theta}) $
모수 $ \theta $ 의 함수로 주어지는 변수 $ \eta=g(\theta) $ 의 최우추정량은 $ g(\hat{\theta}) $ 과 같이 계산됩니다.
따라서 $ \theta $ 의 최우추정량만 구하면, $ \theta $ 의 함수로 주어지는 변수들의 최우추정량도 쉽게 구할 수 있습니다.
위의 사실은 아래와 같이 보일 수 있습니다.
$ \hat{\eta}=\underset{\eta}{argmax}L(\eta;\mathbf{X})=\underset{g(\theta)}{argmax}L(\theta;\mathbf{X})=g(\underset{\theta}{argmax}L(\theta;\mathbf{X}))=g(\hat{\theta}) $
흥미로운 점은 함수 $ g $ 에 대해 어떤 가정도 필요하지 않다는 점입니다.
다시 말해서, 어떤 종류의 함수이건 위의 성질을 활용할 수 있습니다.
3. 정칙성 조건 R0 ~ R3 하에서 $ (\partial L(\theta;\mathbf{X})/\partial \theta)|_{\theta=\hat{\theta}}=0 $ , $ \hat{\theta}\overset{p}{\rightarrow}\theta_0 $
우도함수가 미분가능하다면, $ \theta = \hat{\theta} $ 에서의 미분계수는 0이 됩니다.
왜냐하면 최우추정량은 우도함수를 극대화시키는 $ \theta $ 의 값이기 때문입니다.
따라서 $ \partial L(\theta;\mathbf{X})/\partial \theta=0 $ 의 미분방정식을 풀어서 최우추정량을 구할 수도 있습니다.
위의 미분방정식을 추정방정식(estimating equation)이라고 부르기도 합니다.
한편, 앞선 글에서 정규분포를 따르는 확률변수들의 모분산을 최우추정한 결과는 일치추정량임을 보였습니다.
사실 이는 정규분포를 따르는 변수들에만 국한된 결과가 아닙니다.
모든 최우추정량은 (정칙성 조건 하에서) 일치추정량이 됩니다.
위의 사실을 설명하기 위해서 정칙성 조건 R2를 다시 써보겠습니다.
(R2) 미지의 모수 $ \theta $ 의 참값을 $ \theta_0 $ 라고 한다면, 이 $ \theta_0 $ 는 모수의 집합 $ \Theta $ 의 내부에 놓여있습니다.
다시 말해, 모수의 참값 $ \theta_0 $ 는 $ \Theta $ 의 내점(interior point)이고 아래의 식을 만족하는 양수 $ a $ 가 존재합니다.
$ (\theta_0-a,\theta_0+a) \subseteq \Theta $
한편, 집합으로 구성된 수열 $ \left\{ S_n \right\}_{n=1}^\infty $ 을 아래와 같이 정의하겠습니다.
$ S_n = \left\{ \mathbf{X} : l(\theta_0;\mathbf{X})>l(\theta_0-a;\mathbf{X}) \right\} \cap \left\{ \mathbf{X} : l(\theta_0;\mathbf{X})>l(\theta_0+a;\mathbf{X}) \right\} $ for all $ n=1,2,... $
( $ l(\theta;\mathbf{X}) $ 는 $ l(\theta;\mathbf{X}):=\log L(\theta;\mathbf{X}) $ 와 같이 정의된 함수입니다.)
윗글에서 모수의 참값이 점근적으로 우도함수를 극대화한다는 것을 언급했습니다.
따라서 $ \lim_{n \rightarrow \infty} P(S_n)=1 $ 이 성립합니다.
한편 $ l(\theta_0;\mathbf{X})>l(\theta_0-a;\mathbf{X}),l(\theta_0;\mathbf{X})>l(\theta_0+a;\mathbf{X}) $ 가 성립한다면
$ l(\theta;\mathbf{X}) $ 를 극대화시키는 점은 $ (\theta_0-a,\theta_0+a) $ 구간 내부에 존재합니다.
따라서 $ S_n \subseteq \left\{ \mathbf{X} : |\hat{\theta_n}(\mathbf{X})-\theta_0|<a \right\} \cap \left\{ \mathbf{X} : l'(\hat{\theta_n}(\mathbf{X}))=0 \right\} $ 의 식이 성립합니다.
결론적으로 $ P(S_n) \leq P(\left\{ \mathbf{X} : |\hat{\theta_n}(\mathbf{X})-\theta_0|<a \right\} \cap \left\{ \mathbf{X} : l'(\hat{\theta_n}(\mathbf{X}))=0 \right\}) \leq 1 $ 의 부등식이 성립합니다.
위 부등식에서 $ n $ 을 무한대로 보내면, $ \lim_{n \rightarrow \infty} P(|\hat{\theta_n}(\mathbf{X})-\theta_0|<a) =1 $ 이 성립함을 알 수 있습니다.
따라서 최우추정량 $ \hat{\theta} $ 은 모수의 참값으로 확률수렴하는 것을 알 수 있습니다.
그런데 위의 결과는 $ l(\hat{\theta};\mathbf{X}) \overset{p}{\rightarrow} l(\theta_0;\mathbf{X}) \Rightarrow \hat{\theta} \overset{p}{\rightarrow} \theta_0 $ 가 성립함을 전제로 하고 있습니다.
위의 조건이 성립하기 위한 충분조건은 여러 가지가 있습니다.
예컨대, $ \Theta $ 가 컴팩트하면 $ \theta $ 가 발산하면서
이의 우도함수값이 $ l(\hat{\theta};\mathbf{X}) $ 로 점근한다거나 하는 가능성을 충분히 배제할 수 있습니다.
이번 글에서는 최우추정법에 대해 써보았습니다.
다음 글에서는 최우추정법과 관련된 개념들에 대해 써보겠습니다.
'수학 > 수리통계학' 카테고리의 다른 글
수리통계학 (43) - 최우추정량의 성질 (0) | 2022.01.04 |
---|---|
수리통계학 (42) - 피셔정보와 라오-크라메르 하한 (0) | 2022.01.04 |
수리통계학 (40) - 모분산의 추정량 (0) | 2022.01.01 |
수리통계학 (39) - 통계적 추정의 기본 개념들 (0) | 2022.01.01 |
수리통계학 (38) - 중심극한정리 (0) | 2021.12.31 |