지난 글에서는 이항분포의 성질에 대해 써보았습니다.
이번 글에서는 포아송 분포에 대해 써보려고 합니다.
이 분포를 소개하기 전에 포아송 과정(Poisson process)을 언급하고 넘어가겠습니다.
포아송 과정은 주어진 시간동안 어떤 사건이 몇 번 발생했는지를 묘사하는 방법 중 하나입니다.
이를 설명하기 위해서 $ g(n,t,w) $ 라는 함수를 $ (t,t+w] $ 의 시간구간에서
$ n $ 번의 사건이 발생할 확률로 정의해보겠습니다.
한편, 어떤 시간구간 $ (a,b] $ 에서 발생한 사건의 횟수를 $ N(a,b] $ 로 표기하면
$ g(n,t,w)=P(N(t,t+w]=n) $ 이 성립하는 것을 알 수 있습니다.
포아송 과정은 함수 $ g(\cdot),N(\cdot) $ 이 어떤 상수 $ \lambda $ 에 대해서 아래의 성질들을 충족하는 확률과정입니다.
1. $ g(n,t_1,w)=g(n,t_2,w) $ for any $ t_1,t_2 $ (stationarity)
2. $ g(1,t,h)= \lambda h + o(h) $ for any $ h>0 $
($ o(h) $ 는 $ \underset{h \rightarrow 0}{lim}[o(h)/h] =0 $ 을 만족하는 임의의 함수입니다.)
3. $ \sum_{n=2}^{\infty}g(n,t,h)=P(N(t,t+h] \geq 2)=o(h) $
4. $ P(N(a,b]=n_1)P(N(c,d]=n_2)=P(N(a,b]=n_1,N(c,d]=n_2) $ for any $ a<b<c<d $ (memoryless property)
위 가정들을 통해서 알 수 있는 사실들은 다음과 같습니다.
첫째, 1번 조건으로부터 어떤 시간구간에서 사건이 몇 번 발생하는가 하는 것은
구간의 길이에만 의존한다는 것을 알 수 있습니다.
다시 말해 구간이 시작되는 시점은 사건 횟수의 확률분포와 무관합니다.
둘째, 3번 조건으로부터 $ \underset{h \rightarrow 0}{lim}P(N(t,t+h] \geq 2)=\underset{h \rightarrow 0}{lim} o(h)=0 $ 식이 성립하므로
충분히 짧은 길이의 시간 구간에서 두 번 이상의 사건이 발생할 확률은 0이 되는 것을 알 수 있습니다.
셋째, 1, 4번 조건으로부터 $ g(0,t,w+h)=g(0,t,w)g(0,t+w,h)=g(0,t,w)g(0,t,h) $ 의 식이 성립하는 것을 알 수 있습니다.
이제 위의 조건들을 만족하는 함수 $ g(\cdot),N(\cdot) $ 을 찾아보겠습니다.
위 식에서 2번 조건과 3번 조건을 결합하면 $ P(N(t,t+h] \geq 1)=\lambda h + 2o(h)=\lambda h + o(h) $ 임을 보일 수 있습니다.
따라서 $ g(0,t,h)=1-P(N(t,t+h] \geq 1)=1- \lambda h - o(h) $ 가 성립합니다.
바로 위 식과 $ g(0,t,w+h)=g(0,t,w)g(0,t,h) $ 의 식을 연립하면 아래 식을 얻게 됩니다.
$ g(0,t,w+h)=g(0,t,w)g(0,t,h)=g(0,t,w)[1- \lambda h - o(h)] $
이렇게 얻은 식을 정리하고 양변을 $ h $ 로 나눈 다음, $ h $ 가 0에 가까워지는 극한을 취하면 아래 식을 얻게 됩니다.
$ \underset{h \rightarrow 0}{lim}(g(0,t,w+h)-g(0,t,w))/h=g_{3}(0,t,w)=\underset{h \rightarrow 0}{lim} \, g(0,t,w)[- \lambda - o(h)/h] =-\lambda g(0,t,w) $
위의 미분방정식 $ g_{3}(0,t,w)=-\lambda g(0,t,w) $ 를 풀면 $ g(0,t,w)=ce^{-\lambda w} $ 를 얻게 됩니다.
한편, $ g $ 의 정의를 생각해보면 $ g(0,t,0)=P(N(t,t] =0)=1 $ 이 성립하는 것을 알 수 있습니다.
따라서 $ g(0,t,0)=c=1 $ 이고 $ g(0,t,w)=e^{-\lambda w} $ 가 성립하게 됩니다.
이번에는 $ g(x,t,w) $ 의 식을 찾아보겠습니다.
우선 $ g(x,t,w+h) $ 는 시간구간 $ (t,t+w+h] $ 에서 $ x $ 번의 사건이 일어날 확률입니다.
따라서 $ g(x,t,w+h) $ 를 아래와 같이 다시 쓸 수 있습니다.
$ g(x,t,w+h)=g(x,t,w)P(N(t+w,t+w+h]=0)+g(x-1,t,w)P(N(t+w,t+w+h]=1)+... $
$ ...+P(N(t,t+w] \leq x-2)P(N(t+w,t+w+h] \geq 2) $
바로 위 식을 $ P(N(t+w,t+w+h]=0) = 1-\lambda h - o(h) $ 및 $ P(N(t+w,t+w+h]=1) = \lambda h + o(h) $ 식을 활용해서
아래와 같이 다시 쓸 수 있습니다.
$ g(x,t,w+h)=g(x,t,w)(1-\lambda h - o(h))+g(x-1,t,w)(\lambda h + o(h)) + (...) $
한편 위 식의 우변 마지막 항은 아래의 식을 만족합니다.
$ \underset{h \rightarrow 0}{lim}[P(N(t,t+w] \leq x-2)P(N(t+w,t+w+h] \geq 2)]/h=P(N(t,t+w] \leq x-2)\underset{h \rightarrow 0}{lim}[o(h)/h]=0 $
따라서 우변의 마지막 항은 $ o(h) $ 로 쓸 수 있습니다.
위에서 얻은 식들을 종합하면 아래 식이 성립함을 알 수 있습니다.
$ g(x,t,w+h)=g(x,t,w)(1-\lambda h - o(h))+g(x-1,t,w)(\lambda h + o(h)) + o(h) $
이 식을 정리하고 양변을 $ h $ 로 나눈 다음, $ h $ 가 0으로 가는 극한을 취하면 아래 식을 얻게 됩니다.
$ \underset{h \rightarrow 0}{lim}[g(x,t,w+h)-g(x,t,w)]/h=g_{3}(x,t,w)=g(x,t,w)(-\lambda)+g(x-1,t,w)\lambda $
위 식에 $ x=1 $ 을 대입하면 $ g_{3}(1,t,w)=g(1,t,w)(-\lambda)+g(0,t,w)\lambda=\lambda(-g(1,t,w)+e^{-\lambda w}) $ 식을 얻습니다.
이 미분방정식을 풀면 $ g(1,t,w)=(\lambda w) e ^{-\lambda w} $ 임을 알 수 있습니다.
한편 $ x=2,3,...,n $ 을 차례로 대입해서 미분방정식들을 풀면 $ g(n,t,w)=(\lambda w)^n e^{-\lambda w} / n! $ 의 식을 얻게 됩니다.
사실 바로 위에서 구한 $ g(n,t,w) $ 의 식은 다름 아닌 포아송 분포의 확률질량함수입니다.
다시 말해, 포아송 과정을 따르는 사건이 주어지면
일정 길이의 시간구간에서 발생하는 총 사건 횟수가 포아송 분포를 따릅니다.
그런데 위의 식에서는 $ \lambda w $ 가 중복해서 등장하므로 이를 간단히 $ m := \lambda w $ 으로 바꿔 쓰면
$ p_X(x)=m^x e^{-m} / x! $ ( $ x=0,1,2,... $ ) 와 같은 확률질량함수를 얻게 됩니다.
이번 글에서는 포아송 과정 및 분포에 대해서 써보았습니다.
다음 글에서는 포아송 분포의 성질에 대해 써보겠습니다.
'수학 > 수리통계학' 카테고리의 다른 글
수리통계학 (29) - 자주 쓰이는 연속확률분포 (0) | 2021.12.19 |
---|---|
수리통계학 (28) - 포아송 분포의 성질 (0) | 2021.12.18 |
수리통계학 (26) - 이항분포의 성질 (0) | 2021.12.17 |
수리통계학 (25) - 자주 쓰이는 확률분포들 (0) | 2021.12.16 |
수리통계학 (24) - 공분산 행렬의 성질 (0) | 2021.12.15 |