본문 바로가기

수학/수리통계학

수리통계학 (11) - 통계학의 다른 부등식들

이번 글에서는 지난 글에서 다루지 못한 부등식들에 대해서 써보겠습니다.

 

1. $ u(X) \geq 0 $ , $E[u(X)] < \infty $ $ \Rightarrow $ $ P(u(X) \geq c) \leq \frac{E[u(X)]}{c} $ for all $ c>0 $ (마르코프 부등식)

 

우선 다음과 같은 지시함수(indicator function)를 생각하겠습니다.

$ I_{\left \{ u(x) \geq c \right \}}(x) = \left\{\begin{matrix} 1(u(x) \geq c)\\ 0(u(x)<c) \end{matrix}\right. $

앞선 글에서 언급한 전확률정리에 따라 $ P(u(X) \geq c) $ 는 아래와 같은 식을 만족합니다.

$ P(u(X) \geq c)=\int_{-\infty}^{\infty}f_X(x)P(u(X)\geq c | X=x)dx $

여기서 $ P(u(X)\geq c | X=x) $ 가 바로 위의 지시함수 $ I_{\left \{ u(x) \geq c \right \}}(x) $ 와 같은 것을 볼 수 있습니다.

이를 활용하면 $ P(u(X) \geq c)= \int_{-\infty}^{\infty} I_{\left \{ u(x) \geq c \right \}}(x) f_X(x)dx $ 를 얻게 됩니다.

또한 부등식 우변의 식은 $ \frac{E[u(X)]}{c}=\int_{-\infty}^{\infty}\frac{u(x)}{c}f_X(x)dx $ 로 표현할 수 있습니다.

여기서 $ I_{\left \{ u(x) \geq c \right \}}(x) $ 와 $ \frac{u(x)}{c} $ 의 대소관계를 알아보겠습니다.

 

(i) $ u(x) \geq c $ 일 경우

$ c $ 가 양수이므로 $ \frac{u(x)}{c} \geq 1=I_{\left \{ u(x) \geq c \right \}}(x) $ 이 성립합니다.

(ii) $ u(x) < c $ 일 경우

$ u(x) $ 와 $ c $ 는 모두 nonnegative이므로 $ \frac{u(x)}{c} \geq 0 = I_{\left \{ u(x) \geq c \right \}}(x) $ 가 성립합니다.

 

따라서 모든 $ x $ 에 대해서 $ \frac{u(x)}{c}f_X(x) \geq I_{\left \{ u(x) \geq c \right \}}(x) f_X(x) $ 임을 보일 수 있습니다.

이들을 적분한 값에 대해서도 부등식이 그대로 성립하므로 $ \frac{E[u(X)]}{c} \geq P(u(X) \geq c) $ 를 얻게 됩니다.

 

2. $ E[X]=\mu $ , $ Var(X)=\sigma^2(< \infty) $ $ \Rightarrow $ $ P(|X- \mu| \geq k \sigma) \leq \frac{1}{k^2} $ for all $ k>0 $ (체비셰프 부등식)

 

여기서 $ \sigma $ 는 $ Var(X) $ 의 양의 제곱근을 의미합니다.

$ X $ 의 분산이 유한하다면 더 낮은 차수의 적률에 대응되는 평균값도 유한함을 알 수 있습니다.

그리고 $ k $ 와 $ \sigma $ 가 모두 nonnegative이므로

$ P(|X- \mu| \geq k \sigma)=P((X- \mu)^2 \geq k^2 \sigma^2) $ 임을 알 수 있습니다.

여기서 $ u(X) :=(X- \mu)^2 $ , $ c :=k^2 \sigma^2 (>0) $ 으로 정의하면

$ u(X) $ 역시도 nonnegative한 $ X $ 의 함수이므로 마르코프 부등식을 쓸 수 있게 됩니다.

따라서 $ P((X- \mu)^2 \geq k^2 \sigma^2)=P(u(X) \geq c) \leq \frac{E[u(X)]}{c}=\frac{E[(X-\mu)^2]}{k^2 \sigma^2}=\frac{1}{k^2}  $ 이 성립합니다.
(마지막 등식에서 분산의 정의 $ E[(X-\mu)^2]=\sigma^2 $ 을 사용했습니다.)

위 결과들을 종합하면 $ P(|X- \mu| \geq k \sigma)=P((X- \mu)^2 \geq k^2 \sigma^2) \leq \frac{1}{k^2} $ 가 성립함을 알 수 있습니다.

 

3. $ E[X] < \infty $ 이고 $ \phi (x) $ 가 볼록함수면 $ \phi(E[X]) \leq E[\phi(X)] $ (젠센부등식)

 

어떤 함수 $ \phi (x) $ 의 정의역에 포함되는 임의의 열린 구간 $ (a,b) $ 에서

아래의 부등식이 항상 성립하면 이 함수는 볼록(convex)하다고 합니다.

$ \phi(\gamma a + (1- \gamma)b) \leq \gamma \phi (a) + (1- \gamma) \phi (b) $ for all $ 0 < \gamma < 1 $
(부등식이 강부등식으로 성립할 경우, 특별히 강볼록(strictly convex)하다고 합니다.)

어떤 임의의 볼록함수가 미분 가능하리라는 보장은 없습니다.

하지만 볼록함수의 도함수가 존재한다면 이는 nondecreasing한 함수라는 것이 알려져 있습니다.

 

젠센부등식은 볼록함수의 미분가능성과 무관하게 (볼록함수의 정의만 만족한다면) 항상 성립합니다.

그러나 일반적인 볼록함수에 대해서 젠센부등식을 증명하는 것은 쉽지 않은 일입니다.

그래서 저는 미분 가능한 볼록함수 $ \phi (x) $ 에 국한해서 젠센부등식을 증명해보도록 하겠습니다.

편의상 $ X $ 가 이산확률변수라고 가정하겠습니다만, 연속확률변수의 경우도 같은 방법으로 증명할 수 있습니다.

우선 $ X $ 의 평균값 $ E[X]=\sum_{x}^{}xp_X (x) $ 를 $ \mu $ 로 쓰도록 하겠습니다.

그리고 $ X $ 가 가질 수 있는 임의의 값 $ x_s $ 에 대해서 경우의 수를 나눠보겠습니다.

 

(i) $ x_s \leq \mu $

$ \phi '(x) $ 는 nondecreasing하므로 $ \phi'(x_s) \leq \phi'(\mu) $ 가 성립합니다.

사실 임의의 $ t\in[x_s , \mu] $ 에 대해서도 $ \phi'(t) \leq \phi'(\mu) $ 임을 알 수 있습니다.

따라서 $ \int_{x_s}^{\mu} \phi'(t)dt \leq \int_{x_s}^{\mu} \phi'(\mu)dt $ 를 얻게 됩니다.

(ii) $ x_s > \mu $

위에서와 비슷한 과정을 거치면 $ \int_{\mu}^{x_s} \phi'(t)dt \geq \int_{\mu}^{x_s} \phi'(\mu)dt $ 임을 알 수 있습니다.

 

따라서 $ x_s $ 의 값에 무관하게 $ \int_{x_s}^{\mu} \phi'(t)dt \leq \int_{x_s}^{\mu} \phi'(\mu)dt=(\mu - x_s)\phi'(\mu) $ 가 성립합니다.

또한 미적분학의 기본정리를 통해 위식의 좌변은 $ \int_{x_s}^{\mu} \phi'(t)dt = \phi(\mu)-\phi(x_s) $ 을 만족함을 알 수 있습니다.

이들을 종합하면 $ \phi(\mu)-\phi(x_s) \leq (\mu - x_s)\phi'(\mu) $ 가 모든 $ x_s $ 에 대해 성립합니다.

위 부등식을 모든 $ x_s $ 에 대해 $ p_X(x_s) $ 를 가중치로 해서 합하면 아래 식을 얻습니다.

$ \sum_{x_s}^{}[\phi(\mu)-\phi(x_s)]p_X(x_s) \leq \sum_{x_s}^{}[(\mu - x_s)\phi'(\mu)]p_X(x_s) $

이 부등식의 우변은 $ \mu $ 와 $ \sum_{x_s}^{}x_s p_X(x_s) $ 이 상쇄되면서 0이 되어 버립니다.

따라서 $ \sum_{x_s}^{}[\phi(\mu)-\phi(x_s)]p_X(x_s)=\phi(\mu)-E[\phi(X)] \leq 0 $ 임을 알 수 있습니다.

이 식에 $ \mu $ 대신 $ E[X] $ 를 대입하면 $ \phi(E[X])-E[\phi(X)] \leq 0 $ 를 얻게 됩니다.

 

이번 글에서는 통계학의 여러 부등식들에 대해 써보았습니다.

지금까지 쓴 글들에서는 확률변수가 하나만 있는 경우를 다루었습니다.

하지만 통계학에서는 여러 변수가 함께 변하는 다변수분포도 흔합니다.

다음 글에서는 다변수분포에 대해서 써보겠습니다.