지난 글에서는 자주 쓰이는 이산확률분포에 대해 써보았습니다.
이번 글에서는 이항분포의 성질에 대해 써보려고 합니다.
글을 시작하기 전에, 여러 확률변수를 선형결합해서 얻은 확률변수의 성질에 대해 써보겠습니다.
확률변수 $ X_1,X_2,...,X_n $ 이 주어졌을 때, 이들을 선형결합하면 아래와 같이 새로운 확률변수를 얻을 수 있습니다.
$ Y = \sum_{i=1}^{n}c_i X_i $
이하에서는 위의 확률변수 $ Y $ 의 평균과 분산을 계산해보겠습니다.
일단 평균 연산자는 linearity를 만족하기 때문에 모든 $ i=1,2,...,n $ 에 대해 $ X_i $ 의 평균이 잘 정의된다면
$ E[Y]=\sum_{i=1}^{n}c_i E[X_i] $ 의 식이 성립하게 됩니다.
한편 $ Y $ 의 분산은 $ Var(Y)=E[(\sum_{i=1}^{n}c_i X_i-\sum_{i=1}^{n}c_i E[X_i])^2] $ 의 식으로 정의됩니다.
위 식의 우변은 아래와 같이 다시 쓸 수 있습니다.
$ E[(\sum_{i=1}^{n}c_i X_i-\sum_{i=1}^{n}c_i E[X_i])^2]=E[\sum_{i=1}^{n}c_i^2 (X_i-E[X_i])^2+\sum_{i \neq j}^{}c_i c_j (X_i-E[X_i])(X_j-E[X_j])] $
따라서 $ Y $ 의 분산은 아래 식과 같이 계산됩니다.
$ Var(Y)=\sum_{i=1}^{n}c_i^2 E[(X_i-E[X_i])^2]+ 2\sum_{i < j}^{}c_i c_j E[(X_i-E[X_i])(X_j-E[X_j])]=\sum_{i=1}^{n} c_i^2 Var(X_i)+2\sum_{i < j}^{}c_i c_j Cov(X_i,X_j) $
한편 서로 다른 임의의 $ X_i,X_j $ 가 독립이라면 $ Cov(X_i,X_j)=0 $ 이 성립하고
따라서 $ Y $ 의 분산을 $ Var(Y)=\sum_{i=1}^{n} c_i^2 Var(X_i) $ 와 같이 쓸 수 있습니다.
지난 글에서는 $ p $ 의 확률로 성공하는 실험을 $ n $ 번 반복하는 베르누이 시행에서
실험이 성공한 총횟수가 이항분포를 따르는 것을 설명했습니다.
(확률변수 $ X $ 가 이러한 이항분포를 따르는 것을 $ X \sim b(n,p) $ 와 같이 표현하기도 합니다.)
한편, 이항확률변수의 평균과 분산은 적률생성함수를 이용하면 보다 편리하게 계산해낼 수 있습니다.
이항분포를 따르는 확률변수 $ X $ 의 적률생성함수는 아래와 같이 정의됩니다.
$ M(t)=E[e^{tX}]=\sum_{x=0}^{n}e^{tx}\binom{n}{x}p^x (1-p)^{n-x} $
바로 위 식의 우변을 이항정리를 활용해서 다시 쓰면 아래와 같습니다.
$ \sum_{x=0}^{n}e^{tx}\binom{n}{x}p^x (1-p)^{n-x}=\sum_{x=0}^{n}\binom{n}{x}(pe^t)^x (1-p)^{n-x}=(1-p+pe^t )^n $
바로 위의 적률생성함수로부터 이항확률변수의 1, 2차 적률을 구해보면 아래와 같습니다.
$ E[X]=M'(0)=\frac{\partial }{\partial t}(1-p+pe^t )^n|_{t=0}=n(1-p+pe^t )^{n-1}pe^t|_{t=0}=np $
$ E[X^2]=M''(0)=\frac{\partial^2 }{\partial t^2}(1-p+pe^t )^n|_{t=0}=np[(1-p+pe^t )^{n-1}+(n-1)(1-p+pe^t )^{n-2}pe^t]e^t|_{t=0}=np[1+(n-1)p]=np(1-p)+(np)^2 $
따라서 이항확률변수의 분산은 $ Var(X)=E[X^2]-(E[X])^2=np(1-p) $ 와 같이 계산됩니다.
여기서 이항확률변수 $ X $ 를 실험 횟수 $ n $ 으로 나눈 $ X/n $ 은 성공의 상대빈도로 생각할 수 있습니다.
실제로 이 상대빈도의 평균값은 $ E[X/n]=E[X]/n=p $ 로서 성공확률과 같습니다.
한편 이 상대빈도의 분산은 $ Var(X/n)=np(1-p)/n^2=p(1-p)/n $ 이 됩니다.
그렇다면 이 상대빈도가 성공확률과 실제로 얼마만큼 괴리될 수 있는가를 알아보겠습니다.
우선 체비셰프 부등식에 따르면 아래 식이 성립합니다.
$ P(|X/n-p| \geq k \sigma) \leq 1/k^2 $ (단, $ \sigma = \sqrt{p(1-p)/n} $ 입니다.)
만약 $ \epsilon = k \sigma $ 로 두면 위 부등식은 아래와 같이 다시 쓸 수 있습니다.
$ P(|X/n-p| \geq \epsilon) \leq \sigma ^2 / \epsilon ^2 =p(1-p)/(n \epsilon ^2 ) $
바로 위 부등식의 우변은 $ n $ 이 무한대로 발산함에 따라 0으로 수렴합니다.
달리 말하면 $ \underset{n \rightarrow \infty}{lim}P(|X/n-p| \geq \epsilon)=0 $ 이 성립한다는 이야기입니다.
위의 극한식은 $ X/n $ 이 $ p $ 로 확률수렴(convergence in probability)한다는 것의 정의식입니다.
따라서 상대빈도는 실험 횟수가 충분히 커지면 성공확률로 수렴하게 됩니다.
한편, 이항확률변수의 합에 관한 중요한 성질이 하나 남아있습니다.
서로 독립인 확률변수 $ X_1,X_2,...,X_m $ 들이 모든 $ i=1,2,...,m $ 에 대해 $ X_i \sim b(n_i,p) $ 를 만족한다고 해보겠습니다.
이때, 이 확률변수들을 모두 합한 결과는 $ \sum_{i=1}^{m}X_i \sim b(\sum_{i=1}^{m}n_i,p) $ 를 만족합니다.
다시 말해, 같은 성공확률을 공유하고 독립인 이항확률변수 여러 개를 합한 결과는 여전히 이항분포를 따르게 됩니다.
이는 적률생성함수의 성질을 이용해서 증명할 수 있습니다.
우선 $ Y:=\sum_{i=1}^{m}X_i $ 로 두면, 확률변수 $ Y $ 의 적률생성함수는
모든 $ X_i(i=1,2,...,m) $ 들의 적률생성함수를 곱한 것과 같습니다. 왜냐하면 $ X_i $ 가 서로 독립이기 때문입니다.
그렇다면 $ Y $ 의 적률생성함수는 $ M_Y (t)=\prod_{i=1}^{m}(1-p+pe^t )^{n_i}=(1-p+pe^t )^{\sum_{i=1}^{m}n_i} $ 와 같이 쓸 수 있습니다.
따라서 $ Y $ 의 적률생성함수는 $ b(\sum_{i=1}^{m}n_i,p) $ 의 이항분포를 따르는 확률변수의 적률생성함수와 같게 되고
이를 통해 $ Y \sim b(\sum_{i=1}^{m}n_i,p) $ 가 성립함을 알 수 있습니다.
이번 글에서는 이항분포의 여러 성질에 대해 써보았습니다.
다음 글에서는 자주 쓰이는 다른 확률분포들에 대해 써보겠습니다.
'수학 > 수리통계학' 카테고리의 다른 글
수리통계학 (28) - 포아송 분포의 성질 (0) | 2021.12.18 |
---|---|
수리통계학 (27) - 포아송 과정 및 분포 (0) | 2021.12.18 |
수리통계학 (25) - 자주 쓰이는 확률분포들 (0) | 2021.12.16 |
수리통계학 (24) - 공분산 행렬의 성질 (0) | 2021.12.15 |
수리통계학 (23) - 공분산 행렬 (0) | 2021.12.15 |