본문 바로가기

수학/수리통계학

수리통계학 (33) - 정규분포의 응용

지난 글에서는 정규분포의 정의에 대해 써보았습니다.

이번 글에서는 정규분포를 응용한 확률분포에 대해 써보겠습니다.

 

정규분포를 응용한 확률분포의 사례로서 오염정규분포(contaminated normal distribution)를 들 수 있습니다.

오염정규분포를 설명하기 위해서 다음과 같은 실험을 생각하겠습니다.

여러 번 시행되는 실험이 있고, 이 실험은 매번 독립적으로 시행됩니다.

그리고 매 실험의 결과로 어떤 확률변수의 실현값을 얻습니다. 

이 확률변수는 정규분포를 따르지만, 분산이 시시각각 변합니다.

실제로 데이터를 수집하다보면 전체 자료의 추세에서 크게 벗어나는 이상점(outlier)을 얻기 마련입니다.

다시 말해, 실험을 여러 번 반복하면 때때로 분산이 매우 큰 확률분포를 따르는 것 같은

확률변수의 값을 얻을 수도 있습니다.

 

위와 같은 현상을 묘사하기 위해서 오염정규분포를 활용해 볼 수 있습니다.

우선 아래와 같은 지시함수를 생각해보겠습니다.

I1ϵ={1 with probability 1ϵ0 with probability ϵ

그리고 확률변수 X 를 아래와 같이 정의하겠습니다.

X=I1ϵZ+(1I1ϵ)σcZ

따라서 X 는 확률 1ϵ 으로 표준정규분포를 따르는 한편

확률 ϵ 으로 분산이 σ2c 배만큼 증가한 정규분포를 따르게 됩니다.

다시 말해, X 는 상대적으로 낮은 확률(ϵ)로 높은 분산의 확률분포를 따르는 것 같은 행태를 보입니다.

이 확률변수의 누적분포함수를 구해보면 아래와 같습니다.

FX(x)=P(Xx)=P(Zx|I1ϵ=1)(1ϵ)+P(σcZx|I1ϵ=0)ϵ

이전 글에서 정규확률변수를 다루면서 이의 누적분포함수를 P(Zx)=Φ(x) 와 같이 표기했습니다.

한편, P(σcZx) 의 확률은 P(Zx/σc)=Φ(x/σc) 로 다시 쓸 수 있습니다.

위의 사실들을 종합하면 X 의 누적분포함수는 FX(x)=(1ϵ)Φ(x)+ϵΦ(x/σc) 와 같이 계산됩니다.

이 누적분포함수를 미분하면 (1ϵ)ϕ(x)+ϵ/σcϕ(x/σc) 의 식을 얻고 이는 X 의 확률밀도함수가 됩니다.

한편, X 의 평균과 분산은 아래와 같은 식으로 계산할 수 있습니다.

E[X]=E[I1ϵZ+(1I1ϵ)σcZ]=(1ϵ)E[Z]+ϵσcE[Z]=0
E[X2]=E[Z2I21ϵ+(σcZ)2(1I1ϵ)2+2Z2σcI1ϵ(1I1ϵ)]=E[Z2](1ϵ+σ2cϵ)=1+ϵ(σ2c1)
Var(X)=E[X2](E[X])2=1+ϵ(σ2c1)

 

이제 다변량 정규분포(multivariate normal distribution)를 정의해보겠습니다.

다변량 정규분포는 여러 개의 확률변수가 함께 정규분포를 따르는 것을 묘사할 수 있습니다.

일반적인 다변량 정규분포를 정의하기에 앞서 아래와 같은 다변량 분포를 생각해보겠습니다.

Z1,Z2,...,Zn 은 서로 독립이고, 각각 평균이 0이면서 분산이 1인 정규분포를 따릅니다.

다시 말해서, 모든 i=1,2,...,n 에 대해 Zi 는 표준정규분포를 따릅니다.

한편, 위 확률변수들을 원소로 갖는 확률벡터 Z=(Z1,Z2,...,Zn) 의 평균과 공분산 행렬은 아래와 같습니다.

E[Z]=(0,0,...,0)=0
Var(Z)=In
(이하의 글에서는 X 의 공분산 행렬을 Cov(X) 가 아닌 Var(X) 로 표기하겠습니다.)

위의 결과를 ZN(0,In) 또는 ZNn(0,In) 과 같이 표현하기도 합니다.

그리고 Z1,Z2,...,Zn 의 결합확률밀도함수 및 적률생성함수는 아래와 같이 계산됩니다.

f(z1,z2,...,zn)=1(2π)nexp(nk=1z2k2)
M(t)=E[exp(tZ)]=E[exp(nk=1tkzk)]=nk=1exp(t2k/2)=exp(tt/2)

 

한편, 위의 다변량 분포는 다변량 정규분포의 특별한 경우로 간주할 수 있습니다.

일반적인 다변량 정규분포는 임의의 평균과 공분산 행렬을 가질 수 있습니다.

예를 들어 어떤 다변량 정규분포가 Σ 의 공분산 행렬을 가진다고 해보겠습니다.

이 공분산 행렬은 positive semidefinite하므로 nonnegative한 대각원소를 갖는 어떤 대각행렬 D 와 congruent합니다.

따라서 이 공분산 행렬은 Σ=ΓDΓ 와 같이 분해할 수 있습니다.

위의 대각행렬 D 는 여러 행렬이 될 수 있지만

이하에서는 행렬 DΣ 의 고윳값들로 구성되어 있는 특별한 경우를 고려하겠습니다.

위와 같은 특별한 경우에는 행렬 ΓΣ 의 고유벡터로 구성된 orthogonal(i.e. ΓΓ=In ) 행렬이 됩니다.

한편, D 의 대각원소들은 모두 nonnegative하고, 따라서 제곱근을 가집니다.

그러므로 D1/2D1/2=D 를 만족하는 대각행렬 D1/2 이 존재합니다.

이때 Σ1/2ΓD1/2Γ 로 정의하면 Σ1/2Σ1/2=(Σ1/2)Σ1/2=Σ 식이 성립함을 알 수 있습니다.

이제 위 글에서 언급한 Z 를 활용해서 μ 의 평균과 Σ 의 공분산 행렬을 갖는 다변량 정규분포를 정의해보겠습니다.

확률벡터 X 는 다음과 같은 Z 의 변환으로 주어집니다.

X=Σ1/2Z+μ

일단 확률벡터 X 는 아래와 같은 평균, 공분산 행렬을 갖습니다.

E[X]=E[Σ1/2Z+μ]=μ
Var(X)=Var(Σ1/2Z)=Σ1/2Var(Z)Σ1/2=Σ

한편, X 의 적률생성함수를 계산해보면 아래와 같습니다.

MX(t)=E[exp(tX)]=E[exp(t(Σ1/2Z+μ))] 

바로 위 식의 우변을 정리하면 다음과 같은 식을 얻습니다.

E[exp(t(Σ1/2Z+μ))]=E[exp(tμ)]E[exp((Σ1/2t)Z)]=E[exp(tμ)]E[exp((Σ1/2t)(Σ1/2t)/2)]=E[exp(tμ)]E[exp(tΣt/2)]

위와 같은 적률생성함수에 대응되는 X 의 다변량 분포를

다변량 정규분포라고 부르고, XN(μ,Σ) 와 같이 표현하기도 합니다.

 

한편, 공분산 행렬 Σ 는 대개의 경우 positive definite할 것으로 생각할 수 있습니다.

사실 공분산 행렬의 고윳값이 0을 포함하는 것은 확률변수들이 완벽한 선형관계를 가지고 있다는 것과 동치입니다.

이를 확률변수들 간 다중공선성(multicollinearity)이 있다고 표현하기도 합니다.

확률변수 사이에 완벽한 선형관계가 있다는 것은

이들 변수 중 일부가 임의성이 전혀 없다는 것을 의미하고, 따라서 이들을 배제할 수 있다는 의미가 됩니다.

요컨대, 모든 공분산 행렬은 적절한 조작을 통해 positive definite하게 만들 수 있습니다.

만약 공분산 행렬 Σ 가 positive definite하다면 Σ1/2 역시도 positive definite 합니다.

그리고 이의 역행렬 Σ1/2 을 생각할 수 있게 됩니다.

그렇다면, X=Σ1/2Z+μ 의 역변환을 아래와 같이 써볼 수 있습니다.

Z=Σ1/2(Xμ)

이 역변환에 대응되는 자코비안 행렬식은 det(z/x)=det(Σ1/2)=det(Σ)1/2 으로 계산됩니다.

따라서 X 의 결합확률밀도함수는 아래와 같이 쓸 수 있습니다.

fX(x)=1(2π)n(det(Σ))1/2exp((xμ)Σ1(xμ)/2) for all xRn

 

이번 글에서는 오염정규분포와 다변량 정규분포에 대해 써보았습니다.

다음 글에서는 다변량 정규분포의 성질에 대해 써보겠습니다.