지난 글에서는 최우추정법에 대한 내용을 써보았습니다.
이번 글에서는 최우추정법과 관련된 여러 개념들에 대해 써보겠습니다.
우선 지난 글에서 언급했던 정칙성 조건을 다시 써보겠습니다.
(R0) 확률밀도함수 $ f(x;\theta) $ 는 모수 $ \theta $ 와 일대일 관계에 있습니다.( $ \theta_1 \neq \theta_2 \Rightarrow f(x;\theta_1) \neq f(x;\theta_2) $ )
(R1) 확률밀도함수를 양으로 만드는 $ \mathbf{X}=(X_1,X_2,...,X_n)' $ 들의 집합은 $ \theta $ 값에 무관하게 항상 일정합니다.
(R2) 미지의 모수 $ \theta $ 의 참값을 $ \theta_0 $ 라고 한다면, 이 $ \theta_0 $ 는 모수의 집합 $ \Theta $ 의 내부에 놓여있습니다.
(R3) 확률밀도함수 $ f(x;\theta) $ 는 $ \theta $ 에 대해 두 번 미분할 수 있습니다.
(R4) 확률밀도함수를 적분한 $ \int f(x;\theta) dx $ 역시도 적분 기호를 넘나들며 $ \theta $ 에 대해 두 번 미분할 수 있습니다.
이하에서는 확률벡터 $ \mathbf{X} $ 를 구성하는 iid한 확률변수 $ X_1,X_2,...,X_n $ 이 $ f(x;\theta) $ 라는 공통의 확률밀도함수를 갖는 한편
함수 $ f(x;\theta) $ 와 모수 $ \theta \in \Theta $ 는 정칙성 조건 R0 ~ R4를 만족하는 것으로 가정하겠습니다.
이제 최우추정량이 갖는 성질을 알아보기 위해서 아래와 같은 함수를 정의하겠습니다.
$ Z(\theta):=\partial l(\theta;\mathbf{X})/\partial\theta=\partial \log L(\theta;\mathbf{X})/\partial\theta=(\partial/\partial\theta)(\sum_{i=1}^n \log f(x_i;\theta)) $
위와 같이 정의되는 함수 $ Z(\theta) $ 를 점수함수(score function)라고 부릅니다.
점수함수의 직관적 의미는 다음과 같습니다.
만약 모수 $ \theta $ 를 변화시킨다면 이는 확률밀도함수 $ f_{\mathbf{X}}(\mathbf{x}) $ 의 변화로 이어집니다.
이는 우도함수 $ L(\theta;\mathbf{X}) $ 의 변화와 같은 것으로 생각할 수 있습니다.
그리고 모수의 변화에 반응해서 우도함수값이 바뀌는 비율은 $ (\partial L(\theta;\mathbf{X})/\partial\theta)/L(\theta;\mathbf{X}) $ 의 식으로 계산할 수 있습니다.
그런데 위의 비율이 바로 점수함수의 정의식과 같아지는 것을 볼 수 있습니다.
달리 말하면, 점수함수의 값이 클수록 확률밀도함수가 모수에 크게 좌우됩니다.
이제 점수함수의 평균과 분산을 계산해보겠습니다.
$ E[Z(\theta)]=E[\sum_{i=1}^n \partial \log f(x_i;\theta)/\partial \theta]=\sum_{i=1}^n E[\partial \log f(x_i;\theta)/\partial \theta]=nE[\partial \log f(x_1;\theta)/\partial \theta]=... $
$ ...=n \int_{-\infty}^{\infty} [(\partial f(x_1;\theta)/\partial \theta)/f(x_1;\theta)]f(x_1;\theta)dx_1 =n(\partial/\partial\theta) \int_{-\infty}^{\infty} f(x_1;\theta) dx_1=n(\partial 1/\partial\theta)=0 $
한편, 위의 식에서 $ \int_{-\infty}^{\infty}(\partial \log f(x_1;\theta)/\partial \theta)f(x_1;\theta)dx_1=0 $ 임을 보였습니다.
따라서 아래의 식이 성립하는 것을 알 수 있습니다.
$ 0=(\partial/\partial \theta)\int_{-\infty}^{\infty}(\partial \log f(x_1;\theta)/\partial \theta)f(x_1;\theta)dx_1=\int_{-\infty}^{\infty}((\partial^2 \log f(x_1;\theta)/\partial \theta^2) + (\partial \log f(x_1;\theta)/\partial \theta)^2)f(x_1;\theta)dx_1 $
위의 사실들을 종합하면 아래와 같은 결과를 얻습니다.
$ E[Z(\theta)]=nE[\partial \log f(x_1;\theta)/\partial \theta]=0 $
$ Var(Z(\theta))=Var(\sum_{i=1}^n \partial \log f(x_i;\theta)/\partial \theta)=nVar(\partial \log f(x_1;\theta)/\partial \theta)=nE[((\partial f(x_1;\theta)/\partial \theta)/f(x_1;\theta))^2]=nE[-\partial^2 \log f(x_1;\theta)/\partial \theta^2]=-E[Z'(\theta)] $
위의 두 식을 바틀렛 항등식(Bartlett's identity)이라고 부르기도 합니다.
한편, 일변수에 대한 점수함수로 볼 수 있는 $ Var(\partial \log f(x_1;\theta)/\partial \theta)=-E[\partial^2 \log f(x_1;\theta)/\partial \theta^2] $ 는
피셔정보(Fisher information)라고 부르고 $ I(\theta) $ 와 같이 표기합니다.
따라서 $ Var(Z(\theta))=nI(\theta) $ 의 관계식이 성립하고, 점수함수의 분산은 표본크기에 비례하게 됩니다.
이제 라오-크라메르 하한(Rao-Cramér lower bound)에 대해 설명하고 글을 마치겠습니다.
우선 $ \theta $ 의 추정량 $ Y=u(X_1,X_2,...,X_n) $ 이 주어졌다고 해보겠습니다.
그리고 $ Y $ 의 평균 $ E[Y] $ 가 $ k(\theta) $ 의 식으로 표현될 수 있다면 아래와 같은 부등식이 성립합니다.
$ Var(Y) \geq (k'(\theta))^2/(nI(\theta)) $
위의 부등식을 보이기 위해서 $ k(\theta) $ 를 아래와 같이 나타내 보겠습니다.
$ k(\theta)=\int_{-\infty}^{\infty}...\int_{-\infty}^{\infty} u(x_1,x_2,...,x_n)\prod_{i=1}^n f(x_i;\theta) dx_1 ... dx_n $
위 식의 양변을 $ \theta $ 에 대해 미분하면 아래 식을 얻습니다.
$ k'(\theta)=\int_{-\infty}^{\infty}...\int_{-\infty}^{\infty} u(x_1,x_2,...,x_n)[\sum_{i=1}^n (\partial f(x_i;\theta)/\partial \theta)/f(x_i;\theta)][\prod_{i=1}^n f(x_i;\theta)] dx_1 ... dx_n=... $
$ ...=\int_{-\infty}^{\infty}...\int_{-\infty}^{\infty} u(x_1,x_2,...,x_n)Z(\theta)[\prod_{i=1}^n f(x_i;\theta)] dx_1 ... dx_n=E[YZ] $
위의 식을 정리하기 위해 $ Var(Z(\theta))=nI(\theta),E[Z(\theta)]=0 $ 의 관계식을 활용하면 아래와 같은 식을 얻게 됩니다.
$ k'(\theta)=E[YZ]=\rho_{YZ}\sigma_Y \sqrt{nI(\theta)}+E[Y]E[Z]=\rho_{YZ}\sigma_Y \sqrt{nI(\theta)} $
한편 $ Y,Z $ 의 상관계수 $ \rho_{YZ} $ 는 -1과 1 사이에 놓이므로 아래의 부등식이 성립합니다.
$ \rho_{YZ}^2=(k'(\theta))^2/(\sigma_Y^2 nI(\theta)) \leq 1 $
따라서 $ Var(Y)=\sigma_Y^2 \geq (k'(\theta))^2/(nI(\theta)) $ 의 부등식을 얻게 됩니다.
위 부등식의 우변 $ (k'(\theta))^2/(nI(\theta)) $ 는 임의의 추정량이 가질 수 있는 분산의 하한값이라고 볼 수 있습니다.
한편, $ Y $ 가 $ \theta $ 의 불편추정량이라면 $ k(\theta)=E[Y]=\theta $ 의 식이 성립하고 $ k'(\theta)=1 $ 이 됩니다.
이 경우의 라오-크라메르 하한은 $ Var(Y) \geq 1/(nI(\theta)) $ 와 같이 주어집니다.
따라서 불편추정량이 가질 수 있는 최소의 분산은 $ 1/(nI(\theta)) $ 가 되는 것을 알 수 있습니다.
실제로 어떤 불편추정량이 위와 같은 라오-크라메르 하한에 해당하는 분산을 가질 경우
이 추정량은 효율적 추정량(efficient estimator)이라고 부릅니다.
한편, 어떤 추정량 $ \hat{\theta} $ 이 얼마나 효율적인지를 나타내기 위해서
이의 효율 $ \epsilon $ 을 $ \epsilon:=[1/(nI(\theta))]/Var(\hat{\theta}) $ 과 같이 정의할 수 있습니다.
이번 글에서는 피셔정보와 라오-크라메르 하한에 대해 써보았습니다.
다음 글에서는 최우추정량의 다른 성질에 대해 써보겠습니다.
'수학 > 수리통계학' 카테고리의 다른 글
수리통계학 (44) - 구간추정과 가설검정 (0) | 2022.01.07 |
---|---|
수리통계학 (43) - 최우추정량의 성질 (0) | 2022.01.04 |
수리통계학 (41) - 최우추정법 (0) | 2022.01.03 |
수리통계학 (40) - 모분산의 추정량 (0) | 2022.01.01 |
수리통계학 (39) - 통계적 추정의 기본 개념들 (0) | 2022.01.01 |