지난 글에서는 통계적 추정에 관한 기본 개념들에 대해 써보았습니다.
이번 글에서는 모분산을 추정하는데 쓰일 수 있는 변수들에 대해 써보겠습니다.
지난 글에서 임의표본 $ \left\{ X_1,X_2,...,X_n \right\} $ 의 표본분산을 아래와 같이 정의했습니다.
$ S^2 = \sum_{i=1}^n (X_i-\bar{X})^2 /(n-1) $
위의 표본분산은 모분산의 추정량으로서 불편성과 일치성을 모두 만족합니다.
이번 글에서는 표본분산이 일치추정량임을 보이도록 하겠습니다.
한편, 표본분산의 일치성을 증명하려면 확률수렴에 관한 아래의 성질들을 활용하면 편리합니다.
1. $ a,b $ 가 상수이면 $ X_n \overset{p}{\rightarrow} X $ , $ Y_n \overset{p}{\rightarrow} Y $ $ \Rightarrow $ $ aX_n+bY_n \overset{p}{\rightarrow} aX+bY $
위 성질은 집합과 확률에 관한 아래의 두 부등식을 활용해서 증명해보겠습니다.
a. $ A \subseteq B \Rightarrow P(A) \leq P(B) $
b. $ P(A \cup B) \leq P(A)+P(B) $
위의 두 부등식을 종합하면 아래 부등식이 성립하는 것을 알 수 있습니다.
$ P(|aX_n+bY_n-(aX+bY)|\geq\epsilon) \leq P(|aX_n-aX|+|bY_n-bY|\geq\epsilon) \leq P(|aX_n-aX|\geq\epsilon/2)+P(|bY_n-bY|\geq\epsilon/2) $
한편 위 부등식의 우변은 $ n $ 이 발산함에 따라 0으로 수렴합니다.
따라서 $ \lim_{n \rightarrow \infty}P(|aX_n+bY_n-(aX+bY)|\geq\epsilon)=0 $ 의 식이 성립합니다.
2. $ g(x) $ 가 $ c $ 에서 연속이면 $ X_n \overset{p}{\rightarrow} c $ $ \Rightarrow $ $ g(X_n) \overset{p}{\rightarrow} g(c) $ (연속사상정리)
$ g(x) $ 가 $ c $ 에서 연속이면 임의의 양수 $ \epsilon $ 에 대해서 아래 식을 만족하는 $ \delta $ 가 존재합니다.
$ |X_n-c|<\delta \Rightarrow |g(X_n)-g(c)|<\epsilon $
따라서 임의의 양수 $ \epsilon $ 에 대해서 $ P(|g(X_n)-g(c)| \geq \epsilon) \leq P(|X_n-c| \geq \delta) $ 의 식을 만족하는 $ \delta $ 가 존재합니다.
바로 위 부등식의 우변은 $ n $ 이 무한대로 커짐에 따라 0으로 수렴합니다.
그러므로 $ \lim_{n \rightarrow \infty}P(|g(X_n)-g(c)|\geq\epsilon)=0 $ 의 식이 임의의 양수 $ \epsilon $ 에 대해 성립합니다.
이제 표본분산의 일치성을 보이겠습니다.
표본분산의 정의식을 정리해보면 아래 식을 얻습니다.
$ S^2 = \sum_{i=1}^n (X_i-\bar{X})^2 /(n-1)=(\sum_{i=1}^n X_i^2 -n (\bar{X})^2) /(n-1)=[n/(n-1)](\sum_{i=1}^n X_i^2/n -(\bar{X})^2)=[n/(n-1)](\bar{X^2} -(\bar{X})^2) $
바로 위 식의 우변에 포함된 $ \bar{X^2},\bar{X} $ 는 약대수의 법칙에 따라 각각 $ E[X^2],E[X] $ 로 확률수렴합니다.
한편 위에서 언급한 확률수렴의 성질에 따르면 $ \bar{X_i^2} -\bar{X}^2 \overset{p}{\rightarrow} E[X^2]-(E[X])^2=Var(X) $ 가 성립합니다.
그리고 표본분산에 관한 위의 식 우변에 등장하는 $ n/(n-1) $ 은 $ n $ 이 커짐에 따라 1로 수렴하므로
표본분산은 모분산으로 확률수렴함을 알 수 있습니다.
이제 모분산을 최우추정법으로 추정한 사례를 다루어보고 글을 마치겠습니다.
우선 iid한 확률변수 $ X_1,X_2,...,X_n $ 이 평균이 $ \mu $ 이고 분산이 $ \sigma^2 $ 인 정규분포를 따른다고 해보겠습니다.
위와 같은 가정이 주어지면, 이들 확률변수의 결합확률밀도함수는 아래와 같이 나타낼 수 있습니다.
$ \prod_{i=1}^n 1/(\sqrt{2\pi}\sigma)exp(-(x_i-\mu)^2/(2\sigma^2)) $
위의 결합확률밀도함수는 $ \sigma^2 $ 을 추정하기 위한 우도함수로 해석할 수도 있습니다.
따라서 모분산의 최우추정량 $ \hat{\sigma^2}_{MLE} $ 는 아래 식을 만족하는 값으로 결정됩니다.
$ \hat{\sigma^2}_{MLE}=\underset{\sigma^2}{argmax}\prod_{i=1}^n 1/(\sqrt{2\pi}\sigma)exp(-(x_i-\mu)^2/(2\sigma^2)) $
위와 같은 극대화 문제를 풀 때는 원래의 우도함수 대신 로그를 취한 우도함수를 극대화하기도 합니다.
이제 상기한 우도함수에 로그를 취하고 상수들을 제외한 결과를 극대화하는 문제를 풀어보겠습니다.
$ \underset{\sigma}{max}[-nlog\sigma-\sum_{i=1}^n (x_i-\mu)^2/(2\sigma^2)] $
위 극대화 문제의 1계 조건은 다음과 같습니다.
$ \partial / \partial \sigma [-nlog\sigma-\sum_{i=1}^n (x_i-\mu)^2/(2\sigma^2)]=-n/\sigma +2\sum_{i=1}^n (x_i-\mu)^2/(2\sigma^3)=0 $
바로 위의 식을 정리하면 다음 식을 얻습니다.
$ \sigma^2=\sum_{i=1}^n (x_i-\mu)^2/n $
따라서 정규분포를 따르는 확률변수들의 모분산을 최우추정하면
이들 확률변수들의 편차제곱합을 임의표본의 크기 $ n $ 으로 나눈 값을 얻게 됩니다.
흥미로운 점은, (정규분포를 따르는 확률변수의 경우) 모분산의 최우추정량은 불편추정량이 아니라는 점입니다.
왜냐하면 $ E[\hat{\sigma^2}_{MLE}]=E[(n-1)S^2/n]=(n-1)\sigma^2 /n \neq \sigma^2 $ 이 성립하기 때문입니다.
구체적으로, 모분산의 참값과 최우추정량의 평균값은 $ \sigma^2/n $ 만큼 차이가 나는 것을 볼 수 있습니다.
한편, 이 최우추정량은 일치성 조건을 충족합니다.
실제로 $ \hat{\sigma^2}_{MLE} = [(n-1)/n] S^2 $ 의 관계식에서 $ (n-1)/n $ 은 $ n $ 이 커짐에 따라 1로 수렴하고
$ S^2 $ 은 실제 모분산 $ \sigma^2 $ 으로 확률수렴하므로 $ \hat{\sigma^2}_{MLE} \overset{p}{\rightarrow} \sigma^2 $ 이 성립합니다.
이번 글에서는 모분산을 추정하는데 활용할 수 있는 변수들에 대해 써보았습니다.
다음 글에서는 최우추정법에 대해 조금 더 자세히 써보겠습니다.
'수학 > 수리통계학' 카테고리의 다른 글
수리통계학 (42) - 피셔정보와 라오-크라메르 하한 (0) | 2022.01.04 |
---|---|
수리통계학 (41) - 최우추정법 (0) | 2022.01.03 |
수리통계학 (39) - 통계적 추정의 기본 개념들 (0) | 2022.01.01 |
수리통계학 (38) - 중심극한정리 (0) | 2021.12.31 |
수리통계학 (37) - 통계적 추정 (0) | 2021.12.30 |