지난 글에서는 구간추정과 가설검정에 대해 써보았습니다.
이번 글에서는 회귀분석의 기본 가정들에 대해 써보겠습니다.
그런데 회귀분석은 일변량 분포뿐만 아니라 다변량 분포의 경우에도 활용할 수 있습니다.
따라서 회귀분석의 기본 가정들을 다루기에 앞서서
지금까지 다루었던 확률변수의 수렴에 관한 개념들을 다변량 분포로 확장한 내용을 언급하고 넘어가겠습니다.
이를 위해서 벡터 $ \mathbf{v}=(v_1,v_2,...,v_p) \in \mathbb{R}^p $ 의 노름(norm) $ ||\mathbf{v}|| $ 를 아래와 같이 정의하겠습니다.
$ ||\mathbf{v}||=\sqrt{\sum_{i=1}^p v_i^2} $
위와 같이 정의된 노름은 다음과 같은 성질들을 만족합니다.
벡터 $ \mathbf{u},\mathbf{v} \in \mathbb{R}^p $ 에 대해서
(a) $ ||\mathbf{v}|| \geq 0 $
(b) $ ||\mathbf{v}||=0 $ if and only if $ \mathbf{v}=\mathbf{0} $
(c) $ ||a\mathbf{v}||=|a|||\mathbf{v}|| $ for all $ a \in \mathbb{R} $
(d) $ ||\mathbf{u}+\mathbf{v}|| \leq ||\mathbf{u}||+||\mathbf{v}|| $
이제 확률벡터의 수열 $ \left\{ \mathbf{X_i} \right\}_{i=1}^n $ 이 주어졌을 때
이 수열의 확률수렴과 분포수렴이 어떻게 정의되는지 살펴보겠습니다.
벡터의 확률수렴은 노름을 활용해서 아래와 같이 정의합니다.
$ \lim_{n \rightarrow \infty} P(||\mathbf{X_n}-\mathbf{X}|| \geq \epsilon)=0 \Leftrightarrow \mathbf{X_n} \overset{p}{\rightarrow}\mathbf{X} $
한편, 벡터 $ \mathbf{X_{n}} $ 과 $ \mathbf{X} $ 의 $ j $ 번째 구성 원소인 $ X_{nj},X_j $ 에 대해서 아래의 부등식이 성립합니다.
$ |X_{nj}-X_j| \leq ||\mathbf{X_n}-\mathbf{X}|| \leq \sum_{i=1}^n |X_{ni}-X_i| $
따라서 $ \mathbf{X_n} \overset{p}{\rightarrow}\mathbf{X} \Leftrightarrow X_{nj} \overset{p}{\rightarrow} X_j $ for all $ j=1,2,...,n $ 의 동치관계가 성립하는 것을 알 수 있습니다.
벡터의 분포수렴도 일변량 분포의 경우와 비슷하게 정의됩니다.
$ F_n(\mathbf{x}) $ 와 $ F(\mathbf{x}) $ 가 각각 $ \mathbf{X_n},\mathbf{X} $ 의 누적분포함수라고 할 때, 아래의 관계가 성립합니다.
$ \lim_{n \rightarrow \infty}F_n(\mathbf{x})=F(\mathbf{x}) $ for all $ \mathbf{x}\in\mathbb{R}^p $ $ \Leftrightarrow \mathbf{X_n} \overset{d}{\rightarrow}\mathbf{X} $
일변량 분포에서 어떤 확률변수가 분포수렴하는 것은
이 변수의 적률생성함수가 점별수렴하는 것과 동치가 된다는 것을 설명했습니다.
이는 벡터의 경우에도 그대로 성립합니다.
$ \lim_{n \rightarrow \infty}M_{\mathbf{X_n}}(\mathbf{t})=M_{\mathbf{X}}(\mathbf{t}) $ for all $ \mathbf{t}\in\mathbb{R}^p $ $ \Leftrightarrow \mathbf{X_n} \overset{d}{\rightarrow}\mathbf{X} $
위의 성질은 지면관계상 별도의 증명 없이 활용하겠습니다.
위에서 언급했듯이 다변량 분포에서도 일변량 분포에서 성립하던 많은 성질들이 그대로 성립합니다.
그렇다면 통계학에서 널리 쓰이는 약대수의 법칙과 중심극한정리가 그대로 성립할 것인가 하는 질문을 할 수 있습니다.
우선 약대수의 법칙이 벡터에 대해서 성립하는 것은 확실해 보입니다.
왜냐하면 $ \mathbf{X_n} \overset{p}{\rightarrow}\mathbf{X} \Leftrightarrow X_{nj} \overset{p}{\rightarrow} X_j $ for all $ j=1,2,...,n $ 의 관계식으로부터
구성요소가 확률수렴하면 전체 벡터도 확률수렴함을 알 수 있기 때문입니다.
한편, 중심극한정리 역시도 벡터에 대해 성립합니다.
구체적으로, iid한 확률벡터들의 집합 $ \left\{ \mathbf{X_i}\right\}_{i=1}^n $ 가 주어져 있는데
이들 벡터가 $ \mathbf{\mu},\mathbf{\Sigma} $ 의 평균 및 공분산 행렬을 가진다고 해보겠습니다.
그렇다면 $ n $ 이 무한대로 발산함에 따라 아래와 같은 수렴관계가 성립합니다.
$ (1/\sqrt{n})\sum_{i=1}^n(\mathbf{X_i}-\mathbf{\mu}) \overset{d}{\rightarrow}N_p(\mathbf{0},\mathbf{\Sigma}) $
위 사실을 설명하기 위해서 $ (1/\sqrt{n})\sum_{i=1}^n(\mathbf{X_i}-\mathbf{\mu}) $ 의 적률생성함수를 계산해보면 아래와 같습니다.
$ M_n(\mathbf{t})=E[\exp \left\{ \mathbf{t'}(1/\sqrt{n})\sum_{i=1}^n(\mathbf{X_i}-\mathbf{\mu}) \right\} ]=E[\exp \left\{(1/\sqrt{n})\sum_{i=1}^n \mathbf{t'}(\mathbf{X_i}-\mathbf{\mu}) \right\} ] $
한편, $ E[\mathbf{t'}(\mathbf{X_i}-\mathbf{\mu})]=\mathbf{0},Var(\mathbf{t'}(\mathbf{X_i}-\mathbf{\mu}))=\mathbf{t'\Sigma t} $ 가 성립합니다.
따라서 일변량 분포에서의 중심극한정리를 활용하면 $ (1/\sqrt{n})\sum_{i=1}^n \mathbf{t'}(\mathbf{X_i}-\mathbf{\mu}) \overset{d}{\rightarrow} N(\mathbf{0},\mathbf{t'\Sigma t}) $ 의 식을 얻을 수 있습니다.
그러므로 $ \lim_{n \rightarrow \infty}M_n(\mathbf{t}) $ 는 $ N(\mathbf{0},\mathbf{t'\Sigma t}) $ 의 정규분포를 따르는
확률벡터의 적률생성함수 $ M_n^*(\mathbf{t^*}) $ 를 구해서 $ \mathbf{t^*}=\mathbf{1} $ 을 대입한 함수와 같아집니다.
따라서 $ \lim_{n \rightarrow \infty}M_n(\mathbf{t})=\exp(1^2 \mathbf{t'\Sigma t}/2)=\exp(\mathbf{t'\Sigma t}/2) $ 의 식이 성립합니다.
결론적으로 $ (1/\sqrt{n})\sum_{i=1}^n(\mathbf{X_i}-\mathbf{\mu}) $ 가 정규확률벡터로 분포수렴하는 것을 알 수 있습니다.
이제 회귀분석의 개념과 기본 가정들을 언급하고 글을 마치겠습니다.
회귀분석은 미지의 변수들 간 선형관계가 있다는 전제하에 이 관계를 구체적으로 밝혀내는 과정입니다.
어떤 자료들이 아래와 같은 벡터와 행렬에 담겨있다고 해보겠습니다.
$ \mathbf{y} =(y_1,y_2,...,y_n)' $
$ \mathbf{X} =\begin{pmatrix} X_{11} & X_{12} & ... & X_{1K} \\ X_{21} & X_{22} & ... & X_{2K} \\ : & : & ... & : \\ X_{n1} & X_{n2} & ... & X_{nK} \\ \end{pmatrix} $
그리고 $ \mathbf{y},\mathbf{X} $ 간 선형관계가 존재한다고 가정하면 아래와 같은 식을 쓸 수 있습니다.
$ \mathbf{y}=\mathbf{X\beta}+\mathbf{\epsilon} $ (classical linear regression model)
위 식에서 $ \mathbf{\beta} $ 는 $ \mathbf{y},\mathbf{X} $ 간 선형관계를 설명할 수 있는 기울기 벡터입니다.
그리고 $ \mathbf{\epsilon} $ 은 위의 식으로 완전히 설명되지 않는 잔차부분을 담고 있는 벡터입니다.
회귀분석은 위와 같은 식을 구성하는 벡터들을 규명해나가는 과정입니다.
그리고 이를 위해서는 다음과 같은 일련의 가정들이 필요합니다.
이들을 선형회귀분석의 고전적 가정들이라고 부릅니다.
1. 선형성(linearity)
$ \mathbf{y},\mathbf{X} $ 간에는 선형관계가 존재해야 합니다.
2. 강외생성(strict exogeneity)
잔차벡터 $ \mathbf{\epsilon} $ 의 $ \mathbf{X} $ 에 대한 조건부 평균은 $ E[\mathbf{\epsilon}|\mathbf{X}]=\mathbf{0} $ 이 됩니다.
달리 말하면, $ \mathbf{y} $ 의 조건부 평균은 $ E[\mathbf{y}|\mathbf{X}]=\mathbf{X\beta} $ 와 같이 쓸 수 있습니다.
3. 완벽한 다중공선성의 부재(no multicollinearity)
$ P(rank(\mathbf{X})=K)=1 $ 의 식이 성립해야 합니다.
다시 말해서, $ \mathbf{X} $ 를 구성하는 열벡터 간에는 완벽한 선형관계가 성립하지 않아야 합니다.
4. 동분산을 갖고, 자기상관이 없는 잔차항(spherical error variance)
$ Var(\mathbf{\epsilon}|\mathbf{X})=\sigma^2 \mathbf{I_n} $
잔차벡터를 구성하는 잔차항은 일정한 분산을 갖고
서로 다른 잔차항 간의 공분산은 0이 됩니다. 따라서 아래 두 식이 성립합니다.
$ Var(\epsilon_i|\mathbf{X})=\sigma^2 $ for all $ i=1,2,...,n $
$ Cov(\epsilon_i,\epsilon_j|\mathbf{X})=0 $ for all $ i,j=1,2,...,n $ , $ i \neq j $
5. 잔차벡터의 정규성(normality of the error term)
잔차벡터는 $ \mathbf{X} $ 에 대해 조건부로 다변량 정규분포를 따릅니다.
$ \mathbf{\epsilon}|\mathbf{X} \sim N(\mathbf{0},\sigma^2 \mathbf{I_n}) $
이 같은 가정이 당위성을 갖는 이유는 중심극한정리와 관련이 있습니다.
잔차벡터는 $ \mathbf{y} $ 에 영향을 미치는 요소 가운데 $ \mathbf{X} $ 를 제외한 것들을 모두 합해놓은 결과입니다.
그런데 위에서 언급한 중심극한정리는 iid한 확률변수에 대해서만 성립하므로
서로 다른 요소들을 합했다고 해서 정규분포를 따를 것 같지는 않아 보입니다.
그런데 중심극한정리는 iid하지 않은 확률변수들에 대해서도 쓸 수 있습니다.
사실 어떤 조건을 만족하기만 하면, 서로 다른 확률분포를 따르고
독립이 아닌 확률변수들을 가중합한 결과도 정규분포를 따릅니다.
따라서 잔차벡터가 다변량 정규분포를 따른다고 가정해도 큰 무리가 없게 됩니다.
이번 글에서는 회귀분석의 기본 가정들에 대해 써보았습니다.
다음 글에서는 회귀분석을 구체적으로 어떻게 수행하는가에 대해 써보겠습니다.
'수학 > 수리통계학' 카테고리의 다른 글
수리통계학 (47) - 가우스-마르코프 정리 (0) | 2022.01.11 |
---|---|
수리통계학 (46) - 최소제곱추정 (0) | 2022.01.09 |
수리통계학 (44) - 구간추정과 가설검정 (0) | 2022.01.07 |
수리통계학 (43) - 최우추정량의 성질 (0) | 2022.01.04 |
수리통계학 (42) - 피셔정보와 라오-크라메르 하한 (0) | 2022.01.04 |