지난 글에서는 최우추정량의 성질에 대해 써보았습니다.
이번 글에서는 구간추정과 가설검정에 대해 써보겠습니다.
우선 점추정량과 구간추정량을 정의해보겠습니다.
점추정량은 미지의 모수에 가까울 것으로 생각되는 값을 추정한 결과입니다.
점추정량을 구하는 까닭으로는 다음과 같은 것들을 들 수 있습니다.
첫째, 미지의 모수가 중요한 정보를 담고 있어서 이를 알아내야 할 수도 있습니다.
둘째, 미래의 사건을 예측하기 위해서입니다.
다시 말해서, 보다 정확한 예측을 위해 점추정량을 실제 모수의 대리변수로 활용할 수 있습니다.
점추정량의 대표적인 사례로는 최우추정량을 들 수 있습니다.
그 외에도 회귀분석에서의 최소제곱추정량, 적률방법추정량 등이 점추정량에 해당됩니다.
바람직한 점추정량의 성질로는 앞선 글에서 언급한 불편성, 일치성, 효율성 등을 들 수 있습니다.
그러나 점추정량은 다음과 같은 한계를 안고 있습니다.
첫째, 점추정량은 실제 모수와 추정량이 서로 얼마나 떨어져 있는지를 알려줄 수 없습니다.
둘째, 표본의 크기가 작을 경우에는 심각하게 오도된 추정량을 얻을 가능성이 있습니다.
따라서 위와 같은 한계점을 극복하고, 점추정량을 보완할 수 있는 개념으로 구간추정량을 들 수 있습니다.
구간추정량은 한 개의 숫자 대신 구간으로 표현됩니다.
구간추정을 자세히 설명하기 위해서 신뢰구간의 개념을 먼저 설명하겠습니다.
우선 확률변수 $ X_1,X_2,...,X_n $ 이 공통의 확률밀도함수 $ f(x;\theta) $ 를 가지고
이들 확률변수의 함수로 주어지는 $ L,U $ 가 아래 식을 만족한다고 해보겠습니다.
$ 1-\alpha = P_{\theta}(L(X_1,X_2,...,X_n)< \theta < U(X_1,X_2,...,X_n)) $
지금까지의 글에서는 모수 $ \theta $ 를 고정된 값으로 취급했습니다.
이는 신뢰구간의 정의에 등장하는 $ \theta $ 에도 적용되는 이야기입니다.
따라서 위 식의 우변은 $ L(X_1,X_2,...,X_n) $ 이 $ \theta $ 보다 작으면서
동시에 $ U(X_1,X_2,...,X_n) $ 가 $ \theta $ 보다 클 확률을 의미하는 것으로 생각할 수 있습니다.
위의 식을 만족하는 구간 $ (L,U) $ 를 $ \theta $ 의 $ (1-\alpha)100\% $ 신뢰구간이라고 부릅니다.
이하에서는 신뢰구간의 예를 들어보겠습니다.
위에서 가정했던 것처럼 확률변수 $ X_1,X_2,...,X_n $ 은 공통의 확률밀도함수 $ f(x;\theta) $ 를 가진다고 하겠습니다.
그리고 모수 $ \theta $ 는 미지의 고정값이지만, 현재로서는 정확한 값을 알기 어렵다고 해보겠습니다.
대신 모수가 따를 것으로 기대되는 확률분포는 알려져 있어서
아래와 같은 식을 만족하는 $ \theta_\alpha $ 를 0과 1 사이의 실수 $ \alpha $ 에 대해 계산할 수 있다고 하겠습니다.
$ P(\theta \leq \theta_\alpha)=\alpha $ for all $ \alpha \in (0,1) $
위 식의 $ \theta_\alpha $ 를 활용하면 모수의 신뢰구간을 아래와 같이 표현할 수 있습니다.
$ P(\theta \in (\theta_{\alpha/2},\theta_{1-\alpha/2}])=P(\theta_{\alpha/2}< \theta \leq \theta_{1-\alpha/2})=1-\alpha $
한편, 위의 논의에서도 $ \theta $ 는 미지의 고정값으로 간주됩니다.
따라서 위 식의 확률을 주어진 신뢰구간에 진정한 모수가 포함될 확률로 해석하는 것은 맞지 않습니다.
위 식의 확률은 (임의성을 갖는) 신뢰구간이 진정한 모수를 포함하고 있을 확률로 간주해야 합니다.
이제 가설검정을 설명해보겠습니다.
사실 구간추정을 수행하는 또 다른 이유 중 하나는
구간추정이 어떤 가설을 진위를 가리는데 쓰일 수 있다는 점입니다.
한편, 통계학에서 가설을 검정하는 과정은 귀추법(abduction)이라는 논증방식과 관련있습니다.
귀추법은 결과가 주어졌을 때, 이를 가장 잘 설명할 것 같은 가설을 채택(inference to the best explanation)하는 논증방식입니다.
귀추법은 일상생활에서도 널리 쓰입니다.
우리는 어떤 일의 결과를 예측하는 것뿐만 아니라, 결과로부터 원인을 알아내야 하는 문제를 자주 맞닥뜨립니다.
이러한 문제를 해결하는 한 가지 방법은, 해당 결과를 설명하는 가설 중 그럴듯하지 않은 가설들을 배제해나가는 것입니다.
귀추법은 위와 같은 과정을 통해 개연성 및 인과성 면에서 가장 우월한 가설을 선별해나가는 과정입니다.
이제 통계학에서 어떻게 가설을 검정하는지 예를 들어 설명해보겠습니다.
예컨대, 미지의 모수 $ \theta $ 에 대해 기존의 학자들이 견지하던 생각과
새로이 등장한 생각이 서로 대립하는 상황을 상정하겠습니다.
구체적으로, 기존의 가설인 $ H_0 : \theta \in w_0 $ 와 새로운 가설 $ H_1 : \theta \in w_1 $ 이 서로 대립한다고 해보겠습니다.
이때 기존의 가설을 귀무가설(null hypothesis)이라고 하고, 새로운 가설을 대립가설(alternative hypothesis)이라고 부릅니다.
통계학에서는 이들 가설을 검정하기 위해서 아래와 같은 단계를 거칩니다.
step A. 기각역 $ C \in \mathbb{R}^n $ 를 설정합니다.
step B. 실현된 확률변수들의 값이 $ (X_1,X_2,...,X_n)' \in C $ 를 만족하면 귀무가설을 기각하고
이를 만족하지 못하면 기각하지 않습니다.
기각역을 설정하는 한 가지 방식은 아래 식을 만족하는 $ C $ 를 고르는 것입니다.
$ \alpha = \max_{\theta \in w_0} P_{\theta}((X_1,X_2,...,X_n)\in C) $
위와 같은 과정으로 가설을 검정할 수 있는 이유는 다음과 같습니다.
우선 $ \alpha $ 가 충분히 작은 숫자라는 전제하에, $ (X_1,X_2,...,X_n) $ 이 기각역 $ C $ 에 포함된다고 해보겠습니다.
그렇다면 $ (X_1,X_2,...,X_n) $ 이 작은 확률( $ \alpha $ )로만 얻을 수 있는 이상점에 해당할 수도 있고
혹은 귀무가설 $ H_0 $ 가 틀려서 $ \theta \in w_0 $ 가 성립하지 않은 것일 수도 있습니다.
그러나 $ \alpha $ 의 확률이 충분히 낮다는 것을 감안하면 전자보다는 후자가 조금 더 그럴듯한 설명입니다.
따라서 귀무가설 $ H_0 $ 를 기각하게 됩니다.
그러나 정말 $ (X_1,X_2,...,X_n) $ 이 이상점이었다고 한다면, 귀무가설이 맞는데도 기각하는 오류를 범하게 됩니다.
이러한 오류를 제1종 오류(type I error)라고 부릅니다.
위의 가설검정에서 제1종 오류를 범할 최대확률은 바로 $ \alpha $ 가 되는 것을 볼 수 있습니다.
위의 확률 $ \alpha $ 를 유의수준(level of significance)이라고 부르기도 합니다.
반대로 귀무가설이 틀렸음에도 불구하고 기각하지 못하는 오류는 제2종 오류(type II error)라고 부릅니다.
제2종 오류를 저지르지 않게 될 확률을 계산해보면 아래와 같습니다.
$ \gamma_C(\theta)=1-P_{\theta}(\text{type II error})=P_{\theta}((X_1,X_2,...,X_n)\in C) $ for $ \theta \in w_1 $
위의 함수 $ \gamma_C(\theta) $ 는 검정력 함수(power function)라고도 부릅니다.
대개의 경우, 제1종 오류에 따른 비용은 제2종 오류에 따른 비용보다 큰 것이 보통입니다.
따라서 가설검정에서는 유의수준을 먼저 설정한 다음, 검정력 함수를 극대화하는 기각역을 설정하는 것이 보통입니다.
이번 글에서는 구간추정과 가설검정에 대해 써보았습니다.
다음 글에서는 회귀분석에 대해 써보겠습니다.
'수학 > 수리통계학' 카테고리의 다른 글
수리통계학 (46) - 최소제곱추정 (0) | 2022.01.09 |
---|---|
수리통계학 (45) - 회귀분석의 기본 가정들 (0) | 2022.01.08 |
수리통계학 (43) - 최우추정량의 성질 (0) | 2022.01.04 |
수리통계학 (42) - 피셔정보와 라오-크라메르 하한 (0) | 2022.01.04 |
수리통계학 (41) - 최우추정법 (0) | 2022.01.03 |