지난 글에서는 정규분포의 정의에 대해 써보았습니다.
이번 글에서는 정규분포를 응용한 확률분포에 대해 써보겠습니다.
정규분포를 응용한 확률분포의 사례로서 오염정규분포(contaminated normal distribution)를 들 수 있습니다.
오염정규분포를 설명하기 위해서 다음과 같은 실험을 생각하겠습니다.
여러 번 시행되는 실험이 있고, 이 실험은 매번 독립적으로 시행됩니다.
그리고 매 실험의 결과로 어떤 확률변수의 실현값을 얻습니다.
이 확률변수는 정규분포를 따르지만, 분산이 시시각각 변합니다.
실제로 데이터를 수집하다보면 전체 자료의 추세에서 크게 벗어나는 이상점(outlier)을 얻기 마련입니다.
다시 말해, 실험을 여러 번 반복하면 때때로 분산이 매우 큰 확률분포를 따르는 것 같은
확률변수의 값을 얻을 수도 있습니다.
위와 같은 현상을 묘사하기 위해서 오염정규분포를 활용해 볼 수 있습니다.
우선 아래와 같은 지시함수를 생각해보겠습니다.
I1−ϵ={1 with probability 1−ϵ0 with probability ϵ
그리고 확률변수 X 를 아래와 같이 정의하겠습니다.
X=I1−ϵZ+(1−I1−ϵ)σcZ
따라서 X 는 확률 1−ϵ 으로 표준정규분포를 따르는 한편
확률 ϵ 으로 분산이 σ2c 배만큼 증가한 정규분포를 따르게 됩니다.
다시 말해, X 는 상대적으로 낮은 확률(ϵ)로 높은 분산의 확률분포를 따르는 것 같은 행태를 보입니다.
이 확률변수의 누적분포함수를 구해보면 아래와 같습니다.
FX(x)=P(X≤x)=P(Z≤x|I1−ϵ=1)(1−ϵ)+P(σcZ≤x|I1−ϵ=0)ϵ
이전 글에서 정규확률변수를 다루면서 이의 누적분포함수를 P(Z≤x)=Φ(x) 와 같이 표기했습니다.
한편, P(σcZ≤x) 의 확률은 P(Z≤x/σc)=Φ(x/σc) 로 다시 쓸 수 있습니다.
위의 사실들을 종합하면 X 의 누적분포함수는 FX(x)=(1−ϵ)Φ(x)+ϵΦ(x/σc) 와 같이 계산됩니다.
이 누적분포함수를 미분하면 (1−ϵ)ϕ(x)+ϵ/σcϕ(x/σc) 의 식을 얻고 이는 X 의 확률밀도함수가 됩니다.
한편, X 의 평균과 분산은 아래와 같은 식으로 계산할 수 있습니다.
E[X]=E[I1−ϵZ+(1−I1−ϵ)σcZ]=(1−ϵ)E[Z]+ϵσcE[Z]=0
E[X2]=E[Z2I21−ϵ+(σcZ)2(1−I1−ϵ)2+2Z2σcI1−ϵ(1−I1−ϵ)]=E[Z2](1−ϵ+σ2cϵ)=1+ϵ(σ2c−1)
Var(X)=E[X2]−(E[X])2=1+ϵ(σ2c−1)
이제 다변량 정규분포(multivariate normal distribution)를 정의해보겠습니다.
다변량 정규분포는 여러 개의 확률변수가 함께 정규분포를 따르는 것을 묘사할 수 있습니다.
일반적인 다변량 정규분포를 정의하기에 앞서 아래와 같은 다변량 분포를 생각해보겠습니다.
Z1,Z2,...,Zn 은 서로 독립이고, 각각 평균이 0이면서 분산이 1인 정규분포를 따릅니다.
다시 말해서, 모든 i=1,2,...,n 에 대해 Zi 는 표준정규분포를 따릅니다.
한편, 위 확률변수들을 원소로 갖는 확률벡터 Z=(Z1,Z2,...,Zn)′ 의 평균과 공분산 행렬은 아래와 같습니다.
E[Z]=(0,0,...,0)′=0
Var(Z)=In
(이하의 글에서는 X 의 공분산 행렬을 Cov(X) 가 아닌 Var(X) 로 표기하겠습니다.)
위의 결과를 Z∼N(0,In) 또는 Z∼Nn(0,In) 과 같이 표현하기도 합니다.
그리고 Z1,Z2,...,Zn 의 결합확률밀도함수 및 적률생성함수는 아래와 같이 계산됩니다.
f(z1,z2,...,zn)=1(√2π)nexp(−∑nk=1z2k2)
M(t)=E[exp(t′Z)]=E[exp(∑nk=1tkzk)]=∏nk=1exp(t2k/2)=exp(t′t/2)
한편, 위의 다변량 분포는 다변량 정규분포의 특별한 경우로 간주할 수 있습니다.
일반적인 다변량 정규분포는 임의의 평균과 공분산 행렬을 가질 수 있습니다.
예를 들어 어떤 다변량 정규분포가 Σ 의 공분산 행렬을 가진다고 해보겠습니다.
이 공분산 행렬은 positive semidefinite하므로 nonnegative한 대각원소를 갖는 어떤 대각행렬 D 와 congruent합니다.
따라서 이 공분산 행렬은 Σ=Γ′DΓ 와 같이 분해할 수 있습니다.
위의 대각행렬 D 는 여러 행렬이 될 수 있지만
이하에서는 행렬 D 가 Σ 의 고윳값들로 구성되어 있는 특별한 경우를 고려하겠습니다.
위와 같은 특별한 경우에는 행렬 Γ 는 Σ 의 고유벡터로 구성된 orthogonal(i.e. Γ′Γ=In ) 행렬이 됩니다.
한편, D 의 대각원소들은 모두 nonnegative하고, 따라서 제곱근을 가집니다.
그러므로 D1/2D1/2=D 를 만족하는 대각행렬 D1/2 이 존재합니다.
이때 Σ1/2 을 Γ′D1/2Γ 로 정의하면 Σ1/2Σ1/2=(Σ1/2)′Σ1/2=Σ 식이 성립함을 알 수 있습니다.
이제 위 글에서 언급한 Z 를 활용해서 μ 의 평균과 Σ 의 공분산 행렬을 갖는 다변량 정규분포를 정의해보겠습니다.
확률벡터 X 는 다음과 같은 Z 의 변환으로 주어집니다.
X=Σ1/2Z+μ
일단 확률벡터 X 는 아래와 같은 평균, 공분산 행렬을 갖습니다.
E[X]=E[Σ1/2Z+μ]=μ
Var(X)=Var(Σ1/2Z)=Σ1/2Var(Z)Σ1/2=Σ
한편, X 의 적률생성함수를 계산해보면 아래와 같습니다.
MX(t)=E[exp(t′X)]=E[exp(t′(Σ1/2Z+μ))]
바로 위 식의 우변을 정리하면 다음과 같은 식을 얻습니다.
E[exp(t′(Σ1/2Z+μ))]=E[exp(t′μ)]E[exp((Σ1/2t)′Z)]=E[exp(t′μ)]E[exp((Σ1/2t)′(Σ1/2t)/2)]=E[exp(t′μ)]E[exp(t′Σt/2)]
위와 같은 적률생성함수에 대응되는 X 의 다변량 분포를
다변량 정규분포라고 부르고, X∼N(μ,Σ) 와 같이 표현하기도 합니다.
한편, 공분산 행렬 Σ 는 대개의 경우 positive definite할 것으로 생각할 수 있습니다.
사실 공분산 행렬의 고윳값이 0을 포함하는 것은 확률변수들이 완벽한 선형관계를 가지고 있다는 것과 동치입니다.
이를 확률변수들 간 다중공선성(multicollinearity)이 있다고 표현하기도 합니다.
확률변수 사이에 완벽한 선형관계가 있다는 것은
이들 변수 중 일부가 임의성이 전혀 없다는 것을 의미하고, 따라서 이들을 배제할 수 있다는 의미가 됩니다.
요컨대, 모든 공분산 행렬은 적절한 조작을 통해 positive definite하게 만들 수 있습니다.
만약 공분산 행렬 Σ 가 positive definite하다면 Σ1/2 역시도 positive definite 합니다.
그리고 이의 역행렬 Σ−1/2 을 생각할 수 있게 됩니다.
그렇다면, X=Σ1/2Z+μ 의 역변환을 아래와 같이 써볼 수 있습니다.
Z=Σ−1/2(X−μ)
이 역변환에 대응되는 자코비안 행렬식은 det(∂z/∂x)=det(Σ−1/2)=det(Σ)−1/2 으로 계산됩니다.
따라서 X 의 결합확률밀도함수는 아래와 같이 쓸 수 있습니다.
fX(x)=1(√2π)n(det(Σ))1/2exp(−(x−μ)′Σ−1(x−μ)/2) for all x∈Rn
이번 글에서는 오염정규분포와 다변량 정규분포에 대해 써보았습니다.
다음 글에서는 다변량 정규분포의 성질에 대해 써보겠습니다.
'수학 > 수리통계학' 카테고리의 다른 글
수리통계학 (35) - t-분포와 F-분포 (0) | 2021.12.28 |
---|---|
수리통계학 (34) - 다변량 정규분포의 성질 (0) | 2021.12.27 |
수리통계학 (32) - 정규분포의 정의 (0) | 2021.12.21 |
수리통계학 (31) - 다항분포의 특성 (0) | 2021.12.21 |
수리통계학 (30) - 다항분포의 정의 (0) | 2021.12.20 |