본문 바로가기

수학/수리통계학

수리통계학 (24) - 공분산 행렬의 성질

지난 글에서는 평균에 관한 성질과 공분산 행렬에 대해 써보았습니다.

이번 글에서는 공분산 행렬의 성질에 대해 써보려고 합니다.

 

우선 글을 시작하기 전에 positive definiteness라는 개념에 대해 간략히 소개하고 넘어가겠습니다.

어떤 $ n \times n $ 행렬 $ \mathbf{A} $ 가 대칭(i.e. $ \mathbf{A}=\mathbf{A'} $ ) 이면서 모든 원소가 실수로만 구성되어 있다고 해보겠습니다.

이때, $ \mathbf{0} $ 이 아니면서 모든 원소가 실수로 구성된 임의의 $ n \times 1 $ 벡터 $ \mathbf{z} $ 에 대해

$ \mathbf{z'Az} > 0 $ 가 항상 성립하면 행렬 $ \mathbf{A} $ 는 positive definite하다고 합니다.

만약 $ \mathbf{z'Az} $ 가 항상 nonnegative하고($ \mathbf{z'Az} \geq 0 $) 다른 조건들이 그대로 성립한다면

행렬 $ \mathbf{A} $ 는 positive semidefinite하다고 합니다.

 

지난 글에서 공분산 행렬을 $ Cov(\mathbf{X})=E[(\mathbf{X}-E[\mathbf{X}])(\mathbf{X}-E[\mathbf{X}])'] $ 으로 정의했습니다.

이하에서는 편의상 행렬의 평균을 $ \mathbf{\mu} := E[\mathbf{X}] $ 와 같이 표기하겠습니다.

어떤 $ n \times 1 $ 확률벡터 $ \mathbf{X} $ 의 공분산 행렬 $ Cov(\mathbf{X}) $ 이 잘 정의된다면

이 행렬은 아래에 나열한 여러 성질들을 만족하게 됩니다.

 

1. 공분산 행렬 $ Cov(\mathbf{X}) $ 는 대칭행렬입니다.
2. $ Cov(\mathbf{X})=E[\mathbf{XX'}]-\mathbf{\mu \mu'} $
3. 상수로 구성된 임의의 $ m \times n $ 행렬 $ \mathbf{A} $ 에 대해서 $ Cov(\mathbf{AX})=\mathbf{A}Cov(\mathbf{X})\mathbf{A'} $
4. $ Cov(\mathbf{X}) $ 는 positive semidefinite합니다.

 

1. 공분산 행렬 $ Cov(\mathbf{X}) $ 는 대칭행렬입니다.

 

공분산 행렬의 정의에 따라 $ Cov(\mathbf{X})=E[(\mathbf{X}-\mathbf{\mu})(\mathbf{X}-\mathbf{\mu})'] $ 의 관계식이 성립합니다.

바로 위 식의 우변을 전치하게 되면 아래 식을 얻을 수 있습니다.

$ E[(\mathbf{X}-\mathbf{\mu})(\mathbf{X}-\mathbf{\mu})']'=E[[(\mathbf{X}-\mathbf{\mu})(\mathbf{X}-\mathbf{\mu})']']=E[(\mathbf{X}-\mathbf{\mu})(\mathbf{X}-\mathbf{\mu})']= Cov(\mathbf{X}) $

따라서 공분산 행렬을 전치한 결과는 원래 행렬과 같아지므로

모든 공분산 행렬은 대칭행렬임을 알 수 있습니다.

 

2. $ Cov(\mathbf{X})=E[\mathbf{XX'}]-\mathbf{\mu \mu'} $

 

공분산 행렬의 정의식을 정리해서 다시 써보면 아래와 같습니다.

$ Cov(\mathbf{X})=E[(\mathbf{X}-\mathbf{\mu})(\mathbf{X}-\mathbf{\mu})']=E[\mathbf{XX'}-\mathbf{ \mu X'}-\mathbf{X \mu'}+\mathbf{\mu \mu'}]=E[\mathbf{XX'}]-\mathbf{\mu} E[\mathbf{X'}]-E[\mathbf{X}] \mathbf{\mu'} + \mathbf{\mu \mu'} $

위 식의 우변을 $ E[\mathbf{X'}]=E[\mathbf{X}]'=\mathbf{\mu}' $ 식을 활용해서 아래와 같이 다시 쓸 수 있습니다.

$ E[\mathbf{XX'}]-\mathbf{\mu} E[\mathbf{X'}]-E[\mathbf{X}] \mathbf{\mu'} + \mathbf{\mu \mu'} =E[\mathbf{XX'}]-2 \mathbf{\mu \mu'}+ \mathbf{\mu \mu'}=E[\mathbf{XX'}]-\mathbf{\mu \mu'} $

따라서 원래 식이 성립합니다.

 

3. 상수로 구성된 임의의 $ m \times n $ 행렬 $ \mathbf{A} $ 에 대해서 $ Cov(\mathbf{AX})=\mathbf{A}Cov(\mathbf{X})\mathbf{A'} $

 

우선 공분산 행렬의 정의에 따라 $ Cov(\mathbf{AX})=E[(\mathbf{AX}-\mathbf{A\mu})(\mathbf{AX}-\mathbf{A\mu})'] $ 가 성립합니다.

바로 위 식의 우변은 평균 연산자의 성질을 활용해서 아래와 같이 나타낼 수 있습니다.

$ E[(\mathbf{AX}-\mathbf{A\mu})(\mathbf{AX}-\mathbf{A\mu})'] = \mathbf{A} E[(\mathbf{X}-\mathbf{\mu})(\mathbf{X}-\mathbf{\mu})'] \mathbf{A'} $

따라서 원래 식이 성립하는 것을 쉽게 보일 수 있습니다.

 

4. $ Cov(\mathbf{X}) $ 는 positive semidefinite합니다.

 

우선 $ \mathbf{0} $ 이 아니면서 모든 원소가 실수로 구성된 임의의 $ n \times 1 $ 벡터 $ \mathbf{z} $ 를 생각하겠습니다.

이 벡터를 전치한 벡터 $ \mathbf{z'} $ 과 $ n \times 1 $ 확률벡터 $ \mathbf{X} $ 를 곱하면

하나의 확률변수( $ \mathbf{z'X} $ )를 얻게 됩니다.

따라서 $ Cov(\mathbf{z'X})=E[(\mathbf{z'X}-E[\mathbf{z'X}])^2] \geq 0 $ 임을 알 수 있습니다.

한편 위에서 $ Cov(\mathbf{z'X}) = \mathbf{z'} Cov(\mathbf{X}) \mathbf{z} $ 가 성립함을 보였기 때문에

$ \mathbf{z'} Cov(\mathbf{X}) \mathbf{z} \geq 0 $ 의 부등식이 언제나 성립하게 되고

따라서 모든 공분산 행렬은 positive semidefinite함을 알 수 있습니다.

 

위에서 유도한 공분산 행렬의 positive semidefiniteness는 상당히 유용한 시사점을 갖고 있습니다.

사실 positive semidefinite한 행렬은 nonnegative한 대각 원소를 갖는 어떤 대각행렬(diagonal matrix)과

congruent하다는 것이 알려져 있습니다.

다시 말해서, nonnegative한 대각 원소를 갖는 어떤 $ k \times k $ 대각행렬 $ \mathbf{D} $ 에 대해서

아래 등식을 만족시키는 특정한 $ n \times k $ 행렬 $ \mathbf{A} $ 가 존재합니다.

$ \mathbf{A'}Cov(\mathbf{X})\mathbf{A}=\mathbf{D} $

위 식의 좌변은 $ Cov(\mathbf{A'X}) $ 와 같아지는 것을 볼 수 있습니다.

달리 말하면, 원래 확률벡터 $ \mathbf{X} $ 를 적절히 변환한 확률벡터 $ \mathbf{A'X} $ 는

벡터를 구성하는 서로 다른 확률변수들의 공분산이 0이 됩니다.

요컨대, 공분산 행렬의 positive semidefinitess는 주어진 확률벡터를 적절히 변환해서

이의 공분산 행렬에 관한 계산을 보다 수월하게 할 수 있다는 것을 보여줍니다.

 

이번 글에서는 공분산 행렬의 성질에 관해 써보았습니다.

다음 글에서는 자주 쓰이는 여러 확률분포에 대해 써보겠습니다.