본문 바로가기

수학/수리통계학

수리통계학 (27) - 포아송 과정 및 분포

지난 글에서는 이항분포의 성질에 대해 써보았습니다.

이번 글에서는 포아송 분포에 대해 써보려고 합니다.

 

이 분포를 소개하기 전에 포아송 과정(Poisson process)을 언급하고 넘어가겠습니다.

포아송 과정은 주어진 시간동안 어떤 사건이 몇 번 발생했는지를 묘사하는 방법 중 하나입니다.

이를 설명하기 위해서 $ g(n,t,w) $ 라는 함수를 $ (t,t+w] $ 의 시간구간에서

$ n $ 번의 사건이 발생할 확률로 정의해보겠습니다.

한편, 어떤 시간구간 $ (a,b] $ 에서 발생한 사건의 횟수를 $ N(a,b] $ 로 표기하면

$ g(n,t,w)=P(N(t,t+w]=n) $ 이 성립하는 것을 알 수 있습니다.

포아송 과정은 함수 $ g(\cdot),N(\cdot) $ 이 어떤 상수 $ \lambda $ 에 대해서 아래의 성질들을 충족하는 확률과정입니다.

 

1. $ g(n,t_1,w)=g(n,t_2,w) $ for any $ t_1,t_2 $ (stationarity)

2. $ g(1,t,h)= \lambda h + o(h) $ for any $ h>0 $
($ o(h) $ 는 $ \underset{h \rightarrow 0}{lim}[o(h)/h] =0 $ 을 만족하는 임의의 함수입니다.)

3. $ \sum_{n=2}^{\infty}g(n,t,h)=P(N(t,t+h] \geq 2)=o(h)  $

4. $ P(N(a,b]=n_1)P(N(c,d]=n_2)=P(N(a,b]=n_1,N(c,d]=n_2) $ for any $ a<b<c<d $ (memoryless property)

 

위 가정들을 통해서 알 수 있는 사실들은 다음과 같습니다.

첫째, 1번 조건으로부터 어떤 시간구간에서 사건이 몇 번 발생하는가 하는 것은

구간의 길이에만 의존한다는 것을 알 수 있습니다.

다시 말해 구간이 시작되는 시점은 사건 횟수의 확률분포와 무관합니다.

둘째, 3번 조건으로부터 $ \underset{h \rightarrow 0}{lim}P(N(t,t+h] \geq 2)=\underset{h \rightarrow 0}{lim} o(h)=0 $ 식이 성립하므로

충분히 짧은 길이의 시간 구간에서 두 번 이상의 사건이 발생할 확률은 0이 되는 것을 알 수 있습니다.

셋째, 1, 4번 조건으로부터 $ g(0,t,w+h)=g(0,t,w)g(0,t+w,h)=g(0,t,w)g(0,t,h) $ 의 식이 성립하는 것을 알 수 있습니다.

 

이제 위의 조건들을 만족하는 함수 $ g(\cdot),N(\cdot) $ 을 찾아보겠습니다.

위 식에서 2번 조건과 3번 조건을 결합하면 $ P(N(t,t+h] \geq 1)=\lambda h + 2o(h)=\lambda h + o(h) $ 임을 보일 수 있습니다.

따라서 $ g(0,t,h)=1-P(N(t,t+h] \geq 1)=1- \lambda h - o(h) $ 가 성립합니다.

바로 위 식과 $ g(0,t,w+h)=g(0,t,w)g(0,t,h) $ 의 식을 연립하면 아래 식을 얻게 됩니다.

$ g(0,t,w+h)=g(0,t,w)g(0,t,h)=g(0,t,w)[1- \lambda h - o(h)] $ 

이렇게 얻은 식을 정리하고 양변을 $ h $ 로 나눈 다음, $ h $ 가 0에 가까워지는 극한을 취하면 아래 식을 얻게 됩니다.

$ \underset{h \rightarrow 0}{lim}(g(0,t,w+h)-g(0,t,w))/h=g_{3}(0,t,w)=\underset{h \rightarrow 0}{lim} \, g(0,t,w)[- \lambda  - o(h)/h] =-\lambda g(0,t,w) $

위의 미분방정식 $ g_{3}(0,t,w)=-\lambda g(0,t,w) $ 를 풀면 $ g(0,t,w)=ce^{-\lambda w} $ 를 얻게 됩니다.

한편, $ g $ 의 정의를 생각해보면 $ g(0,t,0)=P(N(t,t] =0)=1 $ 이 성립하는 것을 알 수 있습니다.

따라서 $ g(0,t,0)=c=1 $ 이고 $ g(0,t,w)=e^{-\lambda w} $ 가 성립하게 됩니다.

 

이번에는 $ g(x,t,w) $ 의 식을 찾아보겠습니다.

우선 $ g(x,t,w+h) $ 는 시간구간 $ (t,t+w+h] $ 에서 $ x $ 번의 사건이 일어날 확률입니다.

따라서 $ g(x,t,w+h) $ 를 아래와 같이 다시 쓸 수 있습니다.

$ g(x,t,w+h)=g(x,t,w)P(N(t+w,t+w+h]=0)+g(x-1,t,w)P(N(t+w,t+w+h]=1)+... $
$ ...+P(N(t,t+w] \leq x-2)P(N(t+w,t+w+h] \geq 2) $

바로 위 식을 $ P(N(t+w,t+w+h]=0) = 1-\lambda h - o(h) $ 및 $ P(N(t+w,t+w+h]=1) = \lambda h + o(h) $ 식을 활용해서

아래와 같이 다시 쓸 수 있습니다.

$ g(x,t,w+h)=g(x,t,w)(1-\lambda h - o(h))+g(x-1,t,w)(\lambda h + o(h)) + (...) $

한편 위 식의 우변 마지막 항은 아래의 식을 만족합니다.

$ \underset{h \rightarrow 0}{lim}[P(N(t,t+w] \leq x-2)P(N(t+w,t+w+h] \geq 2)]/h=P(N(t,t+w] \leq x-2)\underset{h \rightarrow 0}{lim}[o(h)/h]=0 $

따라서 우변의 마지막 항은 $ o(h) $ 로 쓸 수 있습니다.

위에서 얻은 식들을 종합하면 아래 식이 성립함을 알 수 있습니다.

$ g(x,t,w+h)=g(x,t,w)(1-\lambda h - o(h))+g(x-1,t,w)(\lambda h + o(h)) + o(h) $

이 식을 정리하고 양변을 $ h $ 로 나눈 다음, $ h $ 가 0으로 가는 극한을 취하면 아래 식을 얻게 됩니다.

$ \underset{h \rightarrow 0}{lim}[g(x,t,w+h)-g(x,t,w)]/h=g_{3}(x,t,w)=g(x,t,w)(-\lambda)+g(x-1,t,w)\lambda $

위 식에 $ x=1 $ 을 대입하면 $ g_{3}(1,t,w)=g(1,t,w)(-\lambda)+g(0,t,w)\lambda=\lambda(-g(1,t,w)+e^{-\lambda w}) $ 식을 얻습니다.

이 미분방정식을 풀면 $ g(1,t,w)=(\lambda w) e ^{-\lambda w} $ 임을 알 수 있습니다.

한편 $ x=2,3,...,n $ 을 차례로 대입해서 미분방정식들을 풀면 $ g(n,t,w)=(\lambda w)^n e^{-\lambda w} / n! $ 의 식을 얻게 됩니다.

사실 바로 위에서 구한 $ g(n,t,w) $ 의 식은 다름 아닌 포아송 분포의 확률질량함수입니다.

다시 말해, 포아송 과정을 따르는 사건이 주어지면

일정 길이의 시간구간에서 발생하는 총 사건 횟수가 포아송 분포를 따릅니다.

그런데 위의 식에서는 $ \lambda w $ 가 중복해서 등장하므로 이를 간단히 $ m := \lambda w $ 으로 바꿔 쓰면

$ p_X(x)=m^x e^{-m} / x! $ ( $ x=0,1,2,... $ ) 와 같은 확률질량함수를 얻게 됩니다.

 

이번 글에서는 포아송 과정 및 분포에 대해서 써보았습니다.

다음 글에서는 포아송 분포의 성질에 대해 써보겠습니다.