지난 글에서는 확장된 다변량 분포의 개념과 성질들을 설명했습니다.
이번 글에서는 행렬의 평균이 만족하는 성질과 함께 분산-공분산 행렬에 대해 써볼까 합니다.
지난 글에서 행렬 $ \mathbf{P} $ 의 평균을 아래와 같이 정의했습니다.
$ \large{E[\mathbf{P}]=\begin{pmatrix} E[X_{11}] & E[X_{12}] & ... & E[X_{1n}] \\ E[X_{21}] & E[X_{22}] & ... & : \\ : & & & \\ E[X_{m1}] & E[X_{m2}] & ... & E[X_{mn}] \end{pmatrix}} $
한편, 앞선 글에서 확률변수의 평균을 구하는 평균 연산자가 선형 연산자라는 것을 보였습니다.
그런데 행렬에 대해 정의된 위의 평균 연산자도 linearity를 만족합니다.
이를 설명하기 위해서 확률변수로 구성된 $ m \times n $ 행렬 $ \mathbf{P_1}, \mathbf{P_2} $ 를 생각해 보겠습니다.
위의 행렬 $ \mathbf{P_1}, \mathbf{P_2} $ 의 평균이 잘 정의되기만 한다면
임의의 상수로 구성된 $ k \times m $ 행렬 $ \mathbf{A_1}, \mathbf{A_2} $ 에 대해 아래 식이 성립합니다.
$ E[\mathbf{A_1P_1}+ \mathbf{A_2P_2}]=\mathbf{A_1}E[\mathbf{P_1}]+\mathbf{A_2}E[\mathbf{P_2}] $
위 식은 행렬곱셈의 정의를 활용해서 쉽게 증명할 수 있습니다.
우선 행렬 $ E[\mathbf{A_1P_1}+ \mathbf{A_2P_2}] $ 의 $ i $ 번째 행, $ j $ 번째 열의 원소는 아래와 같이 쓸 수 있습니다.
$ (E[\mathbf{A_1P_1}+ \mathbf{A_2P_2}])_{ij}=E[\sum_{s=1}^{m}A_{1is}P_{1sj}+\sum_{s=1}^{m}A_{2is}P_{2sj}] $
그리고 위 식의 우변은 다음과 같이 다시 쓸 수 있습니다.
$ E[\sum_{s=1}^{m}A_{1is}P_{1sj}+\sum_{s=1}^{m}A_{2is}P_{2sj}] = \sum_{s=1}^{m}A_{1is}E[P_{1sj}]+\sum_{s=1}^{m}A_{2is}E[P_{2sj}] $
따라서 $ E[\mathbf{A_1P_1}+ \mathbf{A_2P_2}] $ 행렬의 $ i $ 번째 행, $ j $ 번째 열 원소는
$ \mathbf{A_1}E[\mathbf{P_1}]+\mathbf{A_2}E[\mathbf{P_2}] $ 행렬의 같은 위치에 놓인 원소와 같아집니다.
그러므로 원래 식이 성립하는 것을 알 수 있습니다.
이번에는 임의의 상수로 구성된 $ k \times m $ 행렬 $ \mathbf{A_1} $ , $ n \times l $ 행렬 $ \mathbf{B_1} $ 을 생각해보겠습니다.
그러면 확률변수로 구성된 $ m \times n $ 행렬 $ \mathbf{P_1} $ 에 대한 아래 식이 성립합니다.
$ E[\mathbf{A_1P_1B_1}]=\mathbf{A_1}E[\mathbf{P_1}]\mathbf{B_1} $
위 식도 양변에 쓰인 행렬의 $ i $ 번째 행, $ j $ 번째 열 원소를 비교해서 증명할 수 있습니다.
실제로 좌변에 놓인 행렬의 원소는 $ E[\sum_{k=1}^{n} \sum_{s=1}^{m} A_{1is}P_{1sk}B_{1kj}] $ 으로 계산되고
우변에 놓인 행렬의 원소는 $ \sum_{k=1}^{n} \sum_{s=1}^{m} A_{1is}E[P_{1sk}]B_{1kj} $ 와 같이 계산됩니다.
따라서 원래 식의 양변이 같아지는 것을 볼 수 있습니다.
한편 행렬의 평균을 정의한 방식 때문에 $ E[\mathbf{P'}]=E[\mathbf{P}]' $ 가 성립하는 것은 쉽게 알 수 있습니다.
왜냐하면 $ E[\mathbf{P'}] $ 의 $ i $ 번째 행, $ j $ 번째 열 원소는 $ E[P_{ji}] $ 로 주어지는 한편
$ E[\mathbf{P}]' $ 의 같은 위치 원소 역시 $ E[P_{ji}] $ 가 되기 때문입니다.
따라서 $ E[\mathbf{P'}]=E[\mathbf{P}]' $ 식이 성립합니다.
이제 공분산 행렬이라고도 불리는 분산-공분산 행렬(Variance-Covariance Matrix)을 정의해보겠습니다.
확률벡터 $ \mathbf{X}=(X_1 , X_2 , ... , X_n)' $ 가 주어졌을 때
모든 $ i=1,2,...,n $ 에 대해서 $ Var(X_i)<\infty $ 가 성립하면, $ \mathbf{X} $ 의 공분산 행렬을 아래와 같이 정의합니다.
$ Cov(\mathbf{X})=E[(\mathbf{X}-E[\mathbf{X}])(\mathbf{X}-E[\mathbf{X}])']=(\sigma_{ij}) $
이번 글에서는 확률변수들로 구성된 행렬의 평균이 만족하는 성질들과 공분산 행렬에 대해 써보았습니다.
다음 글에서는 공분산 행렬이 만족하는 여러 성질에 대해 써보겠습니다.
'수학 > 수리통계학' 카테고리의 다른 글
수리통계학 (25) - 자주 쓰이는 확률분포들 (0) | 2021.12.16 |
---|---|
수리통계학 (24) - 공분산 행렬의 성질 (0) | 2021.12.15 |
수리통계학 (22) - 다변량 분포의 성질 (0) | 2021.12.14 |
수리통계학 (21) - 확장된 다변량 분포 (0) | 2021.12.14 |
수리통계학 (20) - 독립확률변수의 성질 (0) | 2021.12.10 |