본문 바로가기

수학/수리통계학

수리통계학 (37) - 통계적 추정

지난 글에서는 Student's theorem에 대해 써보았습니다.

이번 글에서는 통계적 추정에 관해 써보려고 합니다.

 

통계적 추정은 주어진 자료로부터 미지의 무언가를 알아내는 과정입니다.

예컨대, 어떤 변수가 특정한 확률분포를 따른다는 것이 알려졌다고 해보겠습니다.

그리고 이 확률분포는 $ \theta $ 라는 모수에 따라 유일하게 결정됩니다.

그러면 주어진 자료들로부터 이 모수 $ \theta $ 의 값을 알아내려고 시도해 볼 수 있습니다.

혹은 모수의 정확한 값은 알아내지 못하더라도, 이 모수가 어떤 구간에 놓여있을지 생각해 볼 수 있습니다.

제가 지금까지 써온 글들에서는 여러 확률분포의 특성과 성질을 묘사하는 데 주안점을 두었습니다.

하지만, 통계학의 많은 부분은 위에서 언급한 미지의 모수값(혹은 모수의 구간)을 추정하는 데 할애되고 있습니다.

이번 글에서는 이러한 추정 과정에 필요한 기본적인 개념들을 먼저 다뤄보겠습니다.

 

우선 확률변수의 수렴부터 정의해보겠습니다.

어떤 확률변수가 다른 확률변수로 수렴해가는 양상은 아래와 같이 세 가지로 분류해볼 수 있습니다.

1. 거의 확실히 수렴(almost sure convergence)
2. 확률수렴(convergence in probability)
3. 분포수렴(convergence in distribution)

이하에서는 이 세 가지 개념을 차례로 설명해보겠습니다.

 

1. 거의 확실히 수렴(almost sure convergence)

확률변수 $ X_n $ ( $ n=1,2,... $ ) 이 어떤 확률변수 $ X $ 에 대해 $ P(\lim_{n \rightarrow \infty}X_n =X)=1 $ 을 만족할 경우

이를 두고 $ X_n $ 이 $ X $ 로 거의 확실히 수렴한다고 표현하는 한편, $ X_n \overset{a.s.}{\rightarrow}X $ 와 같이 표기하기도 합니다.

 

2. 확률수렴(convergence in probability)

확률변수 $ X_n $ ( $ n=1,2,... $ ) 이 어떤 확률변수 $ X $ 에 대해 아래의 식을 만족한다고 해보겠습니다.

$ \lim_{n \rightarrow \infty}P(|X_n-X|\geq\epsilon)=0 $ for all $ \epsilon>0 $

이때, $ X_n $ 은 $ X $ 로 확률수렴한다고 표현하고, $ X_n \overset{p}{\rightarrow}X $ 와 같이 표기합니다.

 

3. 분포수렴(convergence in distribution)

우선 확률변수 $ X_n $ ( $ n=1,2,... $ ) 과 $ X $ 가 누적분포함수를 갖는다고 해보겠습니다.

만약 모든 실수 $ a \in \mathbb{R} $ 에 대해서 $ \lim_{n \rightarrow \infty}F_{X_n}(a)=F_X(a) $ 가 성립한다면(함수 $ F_{X_n} $ 이 $ F_X $ 로 점별수렴한다면)

$ X_n $ 은 $ X $ 로 분포수렴한다고 표현하고, $ X_n \overset{d}{\rightarrow}X $ 와 같이 표기합니다.

 

흥미로운 점은 이 세 가지 수렴 개념들이 하나가 다른 하나를 함축하는 관계를 갖고 있다는 점입니다.

구체적으로, 어떤 확률변수 $ X_n $ 이 $ X $ 로 거의 확실히 수렴한다면 $ X_n $ 은 $ X $ 로 반드시 확률수렴합니다.

한편 $ X_n $ 이 $ X $ 로 확률수렴한다면, $ X_n $ 은 $ X $ 로 분포수렴합니다.

이하에서는 이들 수렴 개념들 사이의 관계를 조금 더 자세히 설명해보겠습니다.

 

1. $ X_n \overset{a.s.}{\rightarrow}X \Rightarrow X_n \overset{p}{\rightarrow}X $

우선 다음과 같은 집합 $ A $ 를 정의하겠습니다.

$ A=\left\{ w \in \Omega , X_n(w) \nrightarrow X(w) \right\} $

$ X_n $ 이 $ X $ 로 거의 확실히 수렴하기 때문에 $ P(A^c)=P(\left\{ w \in \Omega , X_n(w) \rightarrow X(w) \right\})=1 $ 임을 알 수 있습니다.

따라서 $ P(A)=1-P(A^c)=0 $ 이 성립합니다.

이제 아래와 같은 수열을 생각해보겠습니다.

$ Y_n=\bigcup_{m \geq n} \left\{ w\in \Omega , |X_m(w)-X(w)|\geq\epsilon\right\} $ for all $ n=1,2,... $

$ \left\{ Y_n \right\}_{n=1}^{\infty} $ 은 감소수열이므로 $ \lim_{n \rightarrow \infty}Y_n=\bigcap_{n=1}^\infty Y_n $ 이 성립합니다.

한편 $ \bigcap_{n=1}^\infty Y_n $ 은 정의에 따라 $ A $ 의 부분집합이 됨을 알 수 있습니다.

따라서 $ P(\bigcap_{n=1}^\infty Y_n) \leq P(A)=0 $ 의 부등식을 얻고, 이로부터 $ P(\lim_{n \rightarrow \infty}Y_n)=P(\bigcap_{n=1}^\infty Y_n)=0 $ 임을 알 수 있습니다.

그리고 $ \left\{w \in \Omega, |X_n(w)-X(w)|\geq\epsilon \right\} $ 은 $ Y_n $ 의 부분집합이므로 아래 부등식이 성립합니다.

$ P(\left\{w \in \Omega, |X_n(w)-X(w)|\geq\epsilon \right\}) \leq P(Y_n) $ for all $ n=1,2,... $

위 부등식의 우변은 $ n $ 이 발산함에 따라 0으로 수렴하므로, $ \lim_{n \rightarrow \infty}P(\left\{w \in \Omega, |X_n(w)-X(w)|\geq\epsilon \right\})=0 $ 이 성립합니다.

따라서 $ X_n $ 은 $ X $ 로 확률수렴하는 것을 알 수 있습니다.

 

2. $ X_n \overset{p}{\rightarrow}X \Rightarrow X_n \overset{d}{\rightarrow}X $

확률수렴과 분포수렴의 관계는 아래의 부등식을 활용하면 쉽게 보일 수 있습니다.

$ P(Y \leq y) \leq P(X \leq x) + P(|Y-X| \geq x-y) $ for $ y<x $

위 부등식은 다음과 같은 방법으로 보일 수 있습니다.

우선 $ X > x $ 이고 $ |Y-X| < x-y $ 이면 $ Y>y $ 가 성립합니다.

위 관계식에 드 모르간의 정리를 적용하면 아래와 같은 식을 얻습니다.

$ \left\{ Y \leq y \right\} \subseteq \left\{ X \leq x \right\} \cup \left\{ |Y-X| \geq x-y \right\} $

따라서 상기한 부등식을 얻게 됩니다.

이제 확률수렴과 분포수렴의 관계를 증명해보겠습니다.

우선 위의 부등식으로부터 아래의 두 부등식을 얻을 수 있습니다.

$ P(X_n \leq a) \leq P(X \leq a+\epsilon)+P(|X_n-X|\geq\epsilon) $
$ P(X \leq a-\epsilon) \leq P(X_n \leq a)+P(|X_n-X|\geq\epsilon) $

$ X_n $ 이 $ X $ 로 확률수렴한다면 $ P(|X_n-X|\geq\epsilon) $ 은 $ n $ 이 발산함에 따라 0에 수렴합니다.

따라서 $ P(X \leq a-\epsilon) \leq \lim_{n \rightarrow \infty} P(X_n \leq a) \leq P(X \leq a+\epsilon) $ 의 부등식이 성립함을 알 수 있습니다.

한편 $ a,\epsilon $ 에 어떤 값을 대입해도 위의 부등식은 항상 성립해야만 합니다.

그러므로 $ P(X \leq a)=P(X_n \leq a) $ 의 식이 모든 실수 $ a \in \mathbb{R} $ 에 대해 성립하고 $ X_n $ 이 $ X $ 로 분포수렴하는 것을 보일 수 있습니다.

 

이번 글에서는 확률변수의 수렴에 대해 써보았습니다.

다음 글에서는 중심극한정리에 대해 써보겠습니다.