지난 글에서는 공분산 행렬의 성질에 대해 써보았습니다.
이번 글에서는 자주 쓰이는 확률분포들에 대해 써보려고 합니다.
우선 베르누이 분포에 대한 내용으로 글을 시작해보겠습니다.
결과를 미리 알 수 없는 어떤 실험이 진행되고
이 실험의 결과는 성공, 실패 중 단 하나로 결정된다고 해보겠습니다.
이 실험이 성공할 확률은 $ p $ 로 일정합니다.
이런 류의 실험을 베르누이 실험이라고 합니다.
한편 베르누이 실험을 여러 번 독립적으로 시행하는 것은 베르누이 시행이라고 부릅니다.
베르누이 확률변수 $ X $ 는 이 실험이 성공할 경우 1의 값을, 실패할 경우 0의 값을 갖는 확률변수입니다.
이 확률변수의 평균과 분산을 구해보면 아래와 같습니다.
$ E[X]=1 \cdot p + 0 \cdot (1-p)=p $
$ Var(X)=E[(X-E[X])^2]=E[(X-p)^2]=(1-p)^2 p + p^2 (1-p)=p^3-2p^2+p+p^2-p^3=p(1-p) $
이제 위의 베르누이 실험을 $ k $ 번 독립적으로 시행했을 때
$ k-1 $ 번 연달아 실패하고 마지막 $ k $ 번째에 성공할 확률을 생각하겠습니다.
이 확률은 매 실험이 독립적으로 진행되기 때문에 $ [P(X=0)]^{k-1}P(X=1)=(1-p)^{k-1}p $ 와 같이 계산됩니다.
바로 위와 같은 시행에서 첫번째 성공까지 시행된 실험 횟수 값이
따르는 확률분포를 기하분포(geometric distribution)라고 합니다.
(마지막으로 성공한 실험도 횟수에 포함됩니다.)
따라서 기하확률변수 $ Y $ 의 확률질량함수는 $ p_{Y}(y)=(1-p)^{y-1}p $ 와 같이 주어집니다.
이 확률변수의 평균과 분산은 아래와 같이 계산됩니다.
$ E[Y]=\sum_{y=1}^{\infty}y(1-p)^{y-1}p=\sum_{y=1}^{\infty}y(1-p)^{y-1}(1-(1-p))=1+\sum_{y=1}^{\infty}(1-p)^y =\frac{1}{p} $
$ Var(Y)=E[Y^2]-(E[Y])^2=1+\sum_{y=1}^{\infty}(2y+1)(1-p)^y -(\frac{1}{p})^2 =\frac{2(1-p)}{p^2}+\frac{1}{p}-\frac{1}{p^2}=-\frac{1}{p}+\frac{1}{p^2} $
한편, 베르누이 시행에서 각 실험들은 독립적으로 진행된다고 가정했습니다.
독립적으로 진행되는 실험의 대표적인 사례는 복원추출을 전제로 한 뽑기입니다.
예를 들어 상자 속에 있는 $ N $ 개의 공 가운데
$ K( \leq N) $ 개의 진짜 공과 $ N-K $ 개의 가짜 공이 있다고 해보겠습니다.
이때 이들 공 가운데 한 개를 임의로 뽑았을 때 진짜 공을 뽑을 확률은 $ K/N $ 이고
이 뽑기가 복원추출(뽑은 공을 다시 상자에 집어넣음)로 진행된다면, 진짜 공을 뽑을 확률은 $ K/N $ 으로 일정합니다.
그러나 현실의 많은 뽑기는 비복원추출로 진행됩니다.
비복원추출로 진행되는 뽑기에서는 앞에서 어떤 공을 뽑았는지에 따라 뒤에서 진짜 공을 뽑을 확률이 변합니다.
따라서 비복원추출로 진행되는 뽑기는 독립시행이 아니게 됩니다.
이렇게 $ N $ 개 물건 가운데 $ K $ 개의 진짜 물건이 존재하는 가운데
비복원추출로 $ n $ 번 뽑기를 진행해서 나오는
진짜 물건의 개수 $ X $ 가 따르는 분포를 초기하분포(hypergeometric distribution)라고 합니다.
초기하 확률변수의 확률질량함수는 아래와 같이 쓸 수 있습니다.
$ \large{ p_X (x)=\begin{cases}\binom{K}{x}\binom{N-K}{n-x}/\binom{N}{n} & \text{ if } x \in [0,min(n,K)] \\ 0 & \text{ otherwise } \end{cases}} $
초기하 확률변수의 평균과 분산식은 아래와 같이 주어집니다.
지면 관계상 결과만 적고 유도과정은 생략하겠습니다.
$ E[X]=n\frac{K}{N} $
$ Var(X)= n\frac{K}{N} \frac{N-K}{N}\frac{N-n}{N-1} $
이번에는 독립적으로 시행되는 $ n $ 번의 실험으로 구성된 베르누이 시행에서
$ x $ 번의 실험이 성공할 확률을 구해보겠습니다.
우선 $ n $ 개 실험 가운데 $ x $ 개의 성공한 실험을 고르는 경우의 수는 $ \binom{n}{x} $ 가지입니다.
그리고 $ x $ 번의 실험이 성공하고 $ n-x $ 번의 실험이 실패할 확률은 $ p^x (1-p)^{n-x} $ 로 주어집니다.
따라서 구하고자 하는 확률은 $ \binom{n}{x}p^x (1-p)^{n-x} $ 가 됩니다.
이때 $ n $ 번의 베르누이 시행에서
실험이 성공한 총횟수가 따르는 확률분포를 이항분포(binomial distribution)라고 합니다.
이항분포를 따르는 이항확률변수는 아래와 같은 확률질량함수를 갖습니다.
$ p_X (x)=\binom{n}{x}p^x (1-p)^{n-x} $
한편, 위 확률질량함수를 0부터 $ n $ 까지 모든 $ x $ 값에 대해 합하고
이항정리를 활용하면 아래 식을 얻습니다.
$ \sum_{x=0}^{n}p_X (x)=\sum_{x=0}^{n}\binom{n}{x}p^x (1-p)^{n-x} =(p+(1-p))^n=1 $
이번 글에서는 자주 쓰이는 여러 이산확률분포에 대해 써보았습니다.
다음 글에서는 이항분포의 성질에 관한 내용을 써보겠습니다.
'수학 > 수리통계학' 카테고리의 다른 글
수리통계학 (27) - 포아송 과정 및 분포 (0) | 2021.12.18 |
---|---|
수리통계학 (26) - 이항분포의 성질 (0) | 2021.12.17 |
수리통계학 (24) - 공분산 행렬의 성질 (0) | 2021.12.15 |
수리통계학 (23) - 공분산 행렬 (0) | 2021.12.15 |
수리통계학 (22) - 다변량 분포의 성질 (0) | 2021.12.14 |