본문 바로가기

수학/수리통계학

수리통계학 (23) - 공분산 행렬

지난 글에서는 확장된 다변량 분포의 개념과 성질들을 설명했습니다.

이번 글에서는 행렬의 평균이 만족하는 성질과 함께 분산-공분산 행렬에 대해 써볼까 합니다.

 

지난 글에서 행렬 $ \mathbf{P} $ 의 평균을 아래와 같이 정의했습니다.

$ \large{E[\mathbf{P}]=\begin{pmatrix} E[X_{11}] & E[X_{12}] & ... & E[X_{1n}] \\  E[X_{21}] & E[X_{22}] & ... & : \\  : &  &  & \\  E[X_{m1}] & E[X_{m2}] & ... & E[X_{mn}] \end{pmatrix}} $

한편, 앞선 글에서 확률변수의 평균을 구하는 평균 연산자가 선형 연산자라는 것을 보였습니다.

그런데 행렬에 대해 정의된 위의 평균 연산자도 linearity를 만족합니다.

이를 설명하기 위해서 확률변수로 구성된 $ m \times n $ 행렬 $ \mathbf{P_1}, \mathbf{P_2} $ 를 생각해 보겠습니다.

위의 행렬 $ \mathbf{P_1}, \mathbf{P_2} $ 의 평균이 잘 정의되기만 한다면

임의의 상수로 구성된 $ k \times m $ 행렬 $ \mathbf{A_1}, \mathbf{A_2} $ 에 대해 아래 식이 성립합니다.

$ E[\mathbf{A_1P_1}+ \mathbf{A_2P_2}]=\mathbf{A_1}E[\mathbf{P_1}]+\mathbf{A_2}E[\mathbf{P_2}] $

위 식은 행렬곱셈의 정의를 활용해서 쉽게 증명할 수 있습니다.

 

우선 행렬 $ E[\mathbf{A_1P_1}+ \mathbf{A_2P_2}] $ 의 $ i $ 번째 행, $ j $ 번째 열의 원소는 아래와 같이 쓸 수 있습니다.

$ (E[\mathbf{A_1P_1}+ \mathbf{A_2P_2}])_{ij}=E[\sum_{s=1}^{m}A_{1is}P_{1sj}+\sum_{s=1}^{m}A_{2is}P_{2sj}] $

그리고 위 식의 우변은 다음과 같이 다시 쓸 수 있습니다.

$ E[\sum_{s=1}^{m}A_{1is}P_{1sj}+\sum_{s=1}^{m}A_{2is}P_{2sj}] = \sum_{s=1}^{m}A_{1is}E[P_{1sj}]+\sum_{s=1}^{m}A_{2is}E[P_{2sj}] $

따라서 $ E[\mathbf{A_1P_1}+ \mathbf{A_2P_2}] $ 행렬의 $ i $ 번째 행, $ j $ 번째 열 원소는

$ \mathbf{A_1}E[\mathbf{P_1}]+\mathbf{A_2}E[\mathbf{P_2}] $ 행렬의 같은 위치에 놓인 원소와 같아집니다.

그러므로 원래 식이 성립하는 것을 알 수 있습니다.

 

이번에는 임의의 상수로 구성된 $ k \times m $ 행렬 $ \mathbf{A_1} $ , $ n \times l $ 행렬 $ \mathbf{B_1} $ 을 생각해보겠습니다.

그러면 확률변수로 구성된 $ m \times n $ 행렬 $ \mathbf{P_1} $ 에 대한 아래 식이 성립합니다.

$ E[\mathbf{A_1P_1B_1}]=\mathbf{A_1}E[\mathbf{P_1}]\mathbf{B_1} $

위 식도 양변에 쓰인 행렬의 $ i $ 번째 행, $ j $ 번째 열 원소를 비교해서 증명할 수 있습니다.

실제로 좌변에 놓인 행렬의 원소는 $ E[\sum_{k=1}^{n} \sum_{s=1}^{m} A_{1is}P_{1sk}B_{1kj}] $ 으로 계산되고

우변에 놓인 행렬의 원소는 $ \sum_{k=1}^{n} \sum_{s=1}^{m} A_{1is}E[P_{1sk}]B_{1kj} $ 와 같이 계산됩니다.

따라서 원래 식의 양변이 같아지는 것을 볼 수 있습니다.

 

한편 행렬의 평균을 정의한 방식 때문에 $ E[\mathbf{P'}]=E[\mathbf{P}]' $ 가 성립하는 것은 쉽게 알 수 있습니다.

왜냐하면 $ E[\mathbf{P'}] $ 의 $ i $ 번째 행, $ j $ 번째 열 원소는 $ E[P_{ji}] $ 로 주어지는 한편

$ E[\mathbf{P}]' $ 의 같은 위치 원소 역시 $ E[P_{ji}] $ 가 되기 때문입니다.

따라서 $ E[\mathbf{P'}]=E[\mathbf{P}]' $ 식이 성립합니다.

 

이제 공분산 행렬이라고도 불리는 분산-공분산 행렬(Variance-Covariance Matrix)을 정의해보겠습니다.

확률벡터 $ \mathbf{X}=(X_1 , X_2 , ... , X_n)' $ 가 주어졌을 때

모든 $ i=1,2,...,n $ 에 대해서 $ Var(X_i)<\infty $ 가 성립하면, $ \mathbf{X} $ 의 공분산 행렬을 아래와 같이 정의합니다.

$ Cov(\mathbf{X})=E[(\mathbf{X}-E[\mathbf{X}])(\mathbf{X}-E[\mathbf{X}])']=(\sigma_{ij}) $

 

이번 글에서는 확률변수들로 구성된 행렬의 평균이 만족하는 성질들과 공분산 행렬에 대해 써보았습니다.

다음 글에서는 공분산 행렬이 만족하는 여러 성질에 대해 써보겠습니다.