지난 글에서는 완비충분통계량에 대해 써보았습니다.
이번 글에서는 지수족 확률분포와 이의 완비충분통계량에 대해 써보겠습니다.
우선 본론으로 들어가기에 앞서 충분통계량을 벡터로 확장한 개념을 언급하고 넘어가겠습니다.
iid한 확률변수 $ X_1,X_2,...,X_n $ 이 공통의 확률밀도함수 $ f(x;\mathbf{\theta}) $ 를 갖고
상기한 확률밀도함수의 모수 $ \mathbf{\theta} $ 는 벡터라고 해보겠습니다.
구체적으로, $ \mathbf{\theta} $ 는 $ \mathbb{R}^p $ 의 부분집합인 모수집합 $ \Theta $ 의 원소로 주어집니다.
그리고 벡터 $ \mathbf{Y} (\in \mathbb{R}^m) $ 는 $ X_1,X_2,...,X_n $ 의 함수로 주어지는 통계변수라고 하겠습니다.
이때 $ \mathbf{Y} $ 가 아래 식을 만족한다면, $ \mathbf{Y} $ 는 $ \mathbf{\theta} $ 의 결합충분통계량(jointly sufficient statistic)이라고 합니다.
$ \prod_{i=1}^n f(x_i;\mathbf{\theta})/f_{\mathbf{Y}}(\mathbf{y};\mathbf{\theta})=H(x_1,x_2,...,x_n) $
결합충분통계량은 기존의 충분통계량 개념을 단순히 벡터로 확장한 것입니다.
앞선 글들에서 언급했던 충분통계량의 성질은 결합충분통계량에 대해서도 그대로 성립합니다.
따라서 혼동의 여지가 없다면, 이하의 논의에서는 결합충분통계량과 충분통계량을 구분하지 않고 쓰겠습니다.
이제 지수족 확률분포가 무엇인지 정의해보겠습니다.
우선 확률밀도함수 $ f(\mathbf{x};\mathbf{\theta}) $ 가 양이 되게 하는 $ \mathbf{x}(\in \mathbb{R}^n) $ 를 모아놓은 집합 $ S_X $ 를 상정하는 한편
벡터로 표현되는 모수 $ \mathbf{\theta} (\in \Theta \subseteq \mathbb{R}^p) $ 를 생각하겠습니다.
그리고 아래와 같은 가정들을 하겠습니다.
1. $ S_X $ 는 $ \mathbf{\theta} $ 와는 무관한 집합입니다.
2. 상수함수가 아닌 연속함수 $ p_i(\cdot), K_i(\cdot) $ $ (i=1,2,...,m) $ 에 대해 아래와 같은 관계식이 성립합니다.
$ a_0+\sum_{i=1}^m a_i p_i =0 $ or $ a_0+\sum_{i=1}^m a_i K_i =0 $ $ \Rightarrow $ $ a_0=a_1=...=a_m=0 $
3. 모수집합 $ \Theta $ 는 공집합이 아닌 임의의 열린 집합을 부분집합으로 갖습니다.
상기한 가정들이 성립한다는 전제하에서 아래와 같은 함수를 정의해보겠습니다.
$ f(\mathbf{x};\mathbf{\theta})=\begin{cases}\exp[\sum_{i=1}^m p_i (\mathbf{\theta})K_i(\mathbf{x})+H(\mathbf{x})+q(\mathbf{\theta})] & \text{ if } \mathbf{x} \in S_X \\ 0 & \text{otherwise} \end{cases} $
위와 같은 함수꼴로 표현되는 확률밀도함수(혹은 확률질량함수)를 갖는 확률분포는 여러 가지가 있습니다.
이들 확률분포들을 모아놓은 것을 지수족 확률분포(exponential family)라고 부릅니다.
지수족 확률분포가 특별하다고 할 수 있는 점은 다음과 같습니다.
첫째, 많은 확률분포들을 포괄합니다.
구체적으로, 앞선 글들에서 다루었던 확률분포 가운데 초기하분포와 t-분포, F-분포를 제외한
모든 확률분포는 지수족 확률분포의 특수한 사례라고 할 수 있습니다.
둘째, 모수 $ \mathbf{\theta} $ 의 완비충분통계량을 손쉽게 구할 수 있습니다.
사실 확률분포에 따라서는 완비충분통계량을 찾기 어려운 경우도 종종 있습니다.
충분성을 만족하는 통계량은 대개의 경우 어떻게든 찾아낼 수 있습니다.
반면 완비성 조건은 다소 까다로운 조건이라서, 이를 충족하는 통계량을 찾기가 힘들 수도 있습니다.
하지만 지수족 확률분포에서는 이를 손쉽게 구할 수 있습니다.
구체적인 설명을 위해 다음과 같은 예를 들어보겠습니다.
iid한 확률벡터 $ \mathbf{X_1},\mathbf{X_2},...,\mathbf{X_n} $ 이 상기한 지수족 확률분포의 확률밀도함수를 갖는다고 해보겠습니다.
이때 아래와 같이 정의되는 벡터 $ \mathbf{Y} $ 는 $ \mathbf{\theta} $ 의 결합충분통계량이 됩니다.
$ \mathbf{Y}:=(\sum_{i=1}^n K_1(\mathbf{X_i}),\sum_{i=1}^n K_2(\mathbf{X_i}),...,\sum_{i=1}^n K_m(\mathbf{X_i}))'\in \mathbb{R}^m $
이를 설명하기 위해서 $ \mathbf{X_1},\mathbf{X_2},...,\mathbf{X_n} $ 의 결합확률밀도함수를 아래와 같이 써보겠습니다.
$ f(\mathbf{x_1},\mathbf{x_2},...,\mathbf{x_n})=\prod_{j=1}^n f(\mathbf{x_i};\mathbf{\theta})=\prod_{j=1}^n \exp[\sum_{i=1}^m p_i (\mathbf{\theta})K_i(\mathbf{x_j})+H(\mathbf{x_j})+q(\mathbf{\theta})]=\exp[\sum_{j=1}^n(\sum_{i=1}^m p_i (\mathbf{\theta})K_i(\mathbf{x_j})+H(\mathbf{x_j}))+nq(\mathbf{\theta})] $
바로 위 식의 우변은 다음과 같이 정리할 수 있습니다.
$ \exp[\sum_{j=1}^n(\sum_{i=1}^m p_i (\mathbf{\theta})K_i(\mathbf{x_j})+H(\mathbf{x_j}))+nq(\mathbf{\theta})]=\exp[\left\{\sum_{i=1}^m\left\{p_i (\mathbf{\theta})\sum_{j=1}^n K_i(\mathbf{x_j})\right\}\right\}+nq(\mathbf{\theta})]\exp(\sum_{j=1}^nH(\mathbf{x_j}))=... $
$ ...=\exp[\left\{\sum_{i=1}^mp_i (\mathbf{\theta})y_i \right\}+nq(\mathbf{\theta})]\exp(\sum_{j=1}^nH(\mathbf{x_j})) $
따라서 네이만 인수분해 정리에 따라 $ \mathbf{Y} $ 는 $ \mathbf{\theta} $ 의 충분통계량이 됨을 알 수 있습니다.
한편, $ \mathbf{Y} $ 의 주변확률밀도함수를 계산하는 과정은 네이만 인수분해 정리를 증명하는 과정과 비슷합니다.
확률벡터들을 모아놓은 벡터 $ (\mathbf{X_1},\mathbf{X_2},...,\mathbf{X_n})' $ 을 $ (\mathbf{Y},\mathbf{Z_1},...,\mathbf{Z_{n-1}})' $ 과 같은 다른 벡터로 변환하는 과정을 생각하고
새로이 변환된 확률밀도함수를 $ \mathbf{Z_1},\mathbf{Z_2},...,\mathbf{Z_{n-1}} $ 에 대해 적분하면 아래와 같은 결과를 얻습니다.
$ f_{\mathbf{Y}}(\mathbf{y};\mathbf{\theta})=R(\mathbf{y})\exp[\left\{\sum_{i=1}^mp_i (\mathbf{\theta})y_i \right\}+nq(\mathbf{\theta})] $
바로 위 식의 $ R(\mathbf{y}) $ 는 $ \mathbf{\theta} $ 에는 의존하지 않으면서 $ \mathbf{y} $ 에만 의존하는 어떤 함수입니다.
이제 $ \mathbf{Y} $ 가 완비통계량임을 보이겠습니다.
우선 상기한 주변확률밀도함수 $ f_{\mathbf{Y}}(\mathbf{y};\mathbf{\theta}) $ 를 양이 되게 하는 $ \mathbf{Y} $ 의 집합을 생각하고, 이를 $ S_Y $ 로 표기하겠습니다.
그리고 임의의 $ \mathbf{\theta} $ 에 대해 $ E[u(\mathbf{Y})]=0 $ 을 만족하는 $ \mathbf{Y} $ 의 함수 $ u(\mathbf{Y}) $ 를 생각하겠습니다.
따라서 아래와 같은 식이 성립합니다.
$ E[u(\mathbf{Y})]=\int_{S_Y} u(\mathbf{y})R(\mathbf{y})\exp[\left\{\sum_{i=1}^mp_i (\mathbf{\theta})y_i \right\}+nq(\mathbf{\theta})]dy_1 ... dy_m=0 $
바로 위 식은 아래와 같이 다시 쓸 수도 있습니다.
$ \int_{S_Y} u(\mathbf{y})R(\mathbf{y})\exp(\sum_{i=1}^m p_i (\mathbf{\theta})y_i )dy_1 ... dy_m=0 $
한편, 벡터 $ \mathbf{t} $ 를 $ \mathbf{t}=(t_1,t_2,...,t_m)':=(p_1 (\mathbf{\theta}),p_2 (\mathbf{\theta}),...,p_m (\mathbf{\theta}))' $ 와 같이 정의하면 아래 식이 성립함을 알 수 있습니다.
$ \int_{S_Y} u(\mathbf{y})R(\mathbf{y})\exp(\sum_{i=1}^m p_i (\mathbf{\theta})y_i )dy_1 ... dy_m=\int_{S_Y} u(\mathbf{y})R(\mathbf{y})\exp(\sum_{i=1}^m t_iy_i )dy_1 ... dy_m=\int_{S_Y} u(\mathbf{y})R(\mathbf{y})\exp(\mathbf{t'y})dy_1 ... dy_m $
바로 위 식의 마지막 등호 관계는 $ E[u(\mathbf{Y})R(\mathbf{Y})\exp(\mathbf{t'Y})]=0 $ 의 식이 성립함을 의미합니다.
다시 말해서, 함수 $ g_{\mathbf{Y}}(\mathbf{y}):=u(\mathbf{y})R(\mathbf{y}) $ 에 상응하는 적률생성함수 $ M(\mathbf{t}) $ 는 임의의 $ \mathbf{\theta} \in \Theta $ 에 대해 0이 됩니다.
한편, 모수집합 $ \Theta $ 는 공집합이 아닌 열린 집합을 포함하고, 따라서 (공집합이 아닌) m차원의 열린 직육면체를 포함합니다.
따라서 어떤 실수들의 집합 $ \left\{a_i,b_i\right\}_{i=1}^m $ 에 대해 집합 $ A $ 를
$ A:=(a_1,b_1)\times(a_2,b_2)\times...\times(a_m,b_m) $ 과 같이 정의한다면 $ A \subseteq \Theta $ 가 성립합니다.
그리고 $ (t_1,t_2,...,t_m)'=(p_1 (\mathbf{\theta}),p_2 (\mathbf{\theta}),...,p_m (\mathbf{\theta}))' $ 의 관계식에서 등장하는 $ p_i $ 는 상수함수가 아닌 연속함수라는 점을 고려하면
$ (p_1 (A),p_2 (A),...,p_m(A)) $ 역시도 공집합이 아닌 m차원의 열린 직육면체를 포함하는 것을 알 수 있습니다.
그런데 이 직육면체 내부에서는 $ M(\mathbf{t})=0 $ 이 성립합니다.
이는 상기한 적률생성함수 $ M(\mathbf{t}) $ 가 모든 점에서 0이 됨을 의미합니다.
따라서 $ E[u(\mathbf{Y})R(\mathbf{Y})]=Var(u(\mathbf{Y})R(\mathbf{Y}))=0 $ 이 성립하고, 이로부터 $ P(u(\mathbf{Y})R(\mathbf{Y})=0)=1 $ 의 식을 얻을 수 있습니다.
그런데 $ R(\mathbf{y}) $ 는 $ S_Y $ 집합 위에서만큼은 양수가 되어야 하므로
$ P(u(\mathbf{Y})=0)=P(u(\mathbf{Y})=0|\mathbf{Y}\in S_Y)P(\mathbf{Y}\in S_Y)=1 $ 의 식이 성립하게 됩니다.
따라서 $ \mathbf{Y} $ 가 완비성을 갖춘 통계량임을 알 수 있습니다.
결론적으로, $ \mathbf{Y} $ 는 완비충분통계량이 됩니다.
따라서 레만-셰페 정리를 활용하면, $ \mathbf{\theta} $ 의 불편추정량 $ \mathbf{\delta} $ 가 주어졌을 때
$ E[\mathbf{\delta}|\mathbf{Y}] $ 를 계산하여 $ \mathbf{\theta} $ 의 MVUE를 얻을 수 있습니다.
지수족 확률분포의 경우, 상기한 방법을 통해 완비충분통계량과 MVUE를 비교적 쉽게 구할 수 있습니다.
물론 이는 앞선 글들에서 다루었던 여러 확률분포들에도 해당되는 이야기입니다.
이번 글에서는 지수족 확률분포의 완비충분통계량에 대해 써보았습니다.
다음 글에서는 최소충분통계량에 대해 써보겠습니다.
'수학 > 수리통계학' 카테고리의 다른 글
수리통계학 (53) - 최강력검정 (0) | 2022.01.17 |
---|---|
수리통계학 (52) - 최소충분통계량 (0) | 2022.01.16 |
수리통계학 (50) - 완비충분통계량 (0) | 2022.01.13 |
수리통계학 (49) - 충분통계량의 성질 (0) | 2022.01.13 |
수리통계학 (48) - 최소분산불편추정량 (0) | 2022.01.11 |